Apache Doris 在美团外卖数仓中的应用实践这是一个劳动密集型的业务,外卖业务有上万人的运营团队来服务全国几百万的商家,并以“商圈 ”为单元,服务于“商圈”内的商家。“商圈”是一个组织机构维度中的最小层级,源于外卖组织的特 点,“商圈”及其上层组织机构是一个变化维度,当“商圈”边界发生变化时,就导致在往常日增量的 业务生产方式中,历史数据的回溯失去了参考意义。在所有展现组织机构数据的业务场景中,组 织机构的变化是一个绕不开的技术问题。此外,商家品类、类型等其它维度也存在变化维的问题 当业务分析维度相对固化,并在可以使用历史状态时,按照时间进行增量生产,加工 成本呈线性增长状态,数据加工到更粗的粒度(如组织单元),减少结果数据量,提高交互效率 。如上图所示,由A模型预计算到B模型,使用Kylin是一个不错的选择。 ROLAP: 当业务分析维度灵活多变或者特定到最新的状态时(如上图A模型中,始终使用最新的 商家组织归属查看历史),预计算回溯历史数据成本巨大。在这种场景下,将数据稳定在商家的 粒度,通过现场0 码力 | 8 页 | 429.42 KB | 1 年前3
Greenplum 精粹文集车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 是反潮流的),数据处理过程分成 Map-〉 Shuffle-〉Reduce 的过程,相比 MPP 数据库并行计算而言, Mapreduce 的数据在计算前未经整理和组织(只是做了简单数据 分块,数据无模式),而 MPP 预先会把数据有效的组织(有模式), 例如:行列表关系、Hash 分布、索引、分区、列存储等、统计信 息收集等,这就决定了在计算过程中效率大为不同: ·MAP 效率对比 Hadoop 的 数据库从已一开始就是开放的技术,并且在 2015 年 年底已经开源和成立社区(在开源第一天就有上千个 Download), 可以说,Greenplum 已经不仅仅只是 Pivotal 公司一家的产品,我们相 信越来越多组织和个人会成为 Greenplum 的 Contributor 贡献者,随 着社区的发展将推动 GreenplumMPP 数据库走向新的高速发展旅程。 (分享一下开源的直接好处,最近我们某用户的一个特殊需求,加载0 码力 | 64 页 | 2.73 MB | 1 年前3
AGI 趋势下的云原生数据计算系统拥有强大的数据库内核研发团队、数据科学家团 队和数字化转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据 计算引擎方向进行创新,全面拥抱AI技术趋势。 企业介绍 云原生数据计算系统 围绕数据组织云原生计算系统, 重构数据存储和计算,一份存 储,多引擎数据计算,全面升 级大数据系统至大模型时代。 02 中国AGI发展趋势 中国AGI市场融资非常活跃, AGI顶级人才非常欠缺,整 认知方面取得了显著进步,但要达到真正的通用智能,仍需克服重重困难。因此,AI Agent作为新的研究方向,开始受至越来越多的关注。 AI Agent成为推动AI技术革命的关键力量 云原生数据计算系统 围绕数据组织云原生计算系统,重构数据存储和计算, 一份存储,多引擎数据计算,全面升级大数据系统至大 模型时代。 02 云原生数据计算系统 大模型数据计算系统概览 • Data Sharing 技术原生支持数据要素流转 Format技术 • 云原生存储架构,元数据、数据和计算全分离 核 心 技 术 突 破 • 数据一次入库永不出户,数据可用不可见,跑算力不跑数据 • 全链路加密保证数据安全 • JANM存储引擎等技术有效组织数据配合大模型精调 u 首创云原生eMPP架构 u 国内数仓虚拟化技术提出者 云原生数据计算系统 PieDataCS数据底座为AI大模型赋能 云原生数据计算系统 虚拟数仓引擎设计 云原生数据计算系统0 码力 | 26 页 | 2.84 MB | 1 年前3
2. ClickHouse MergeTree原理解析-朱凯集团风险管控 l 企业大数据及商业智能 l 企业云服务 l 智能机器人应用 l 集团IT治理 l …… l 能源产业链 l 区域能源管理 l 能源大数据 l 购售电平台 l …… l 智慧组织 l 智慧城市 l 智慧产业 l …… EDT 企业级大数据平台 BAS区块链企业应用服务平台 ECP 企 业 云 平 台 服务(咨询、实施、运维、定制开发、系统集成……) 面向 集团企业 国网英大集团 珠海市政府 九三学社 珠海特区报 三峡电能 秦山核电 香港医思医疗 国家能源集团 安徽皖能 南方电网 金川集团 金晶集团 中航集团 比亚迪股份 互联数据资源、为组织数字资产管理运营、数据探索、分析赋能! 数据汇聚 专业的数据资源管理 自助分析 价值挖掘 多维探索 灵活 快速 自助 洞察 预警 消息 交互 Agenda. 数据分区 01 / 一级索引&二级索引 [SETTINGS name=value, 省略...] 分区键 排序键 主键 index_granularity = 8192 索引粒度 MergeTree的存储结构 数据以分区的形式被组织 , PARTITION BY 各列独立存储, 按ORDER BY 排序 一级索引, 按PRIMARY Key 排序 数据分区 数据的分区规则 l 不指定分区键 如果不使用分区键,既不使用PARTITION0 码力 | 35 页 | 13.25 MB | 1 年前3
PieCloudDB Database 社区版集群安装部署手册 V2.1即可,将自动成为超级管理员。 例如,用户 “汤姆” 使用用户名 “tom”、邮箱 “tom@openpie.com” 和密码 “12345Tom!”注册了组织账户 “piebar”,“tom” 成为了 “piebar” 该组织账户的超级管理 员。 a. 需要前往注册时使用的邮箱,查收激活账户请求的邮件,点击“激活账户”即可完成注 册,同时会返回 PieCloudDB 界面。这里需要注意的是,PieCloudDB0 码力 | 42 页 | 1.58 MB | 1 年前3
PieCloudDB Database 产品白皮书 1DC:全球数据圈预测 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算 (Data Computing) 的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑战,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。 数据库的未来在云上 随着云计算时代的 *。 虚拟数仓: Virtual Data Warehouse,在数据仓库基础之上抽象出来的一种资源调度方法,它可以整合多个数 仓的资源; 。 云原生: 《loud Native,云原生技术使组织能够在新式动态环境 (如公有云、私有云和混合云) 中构建和运行 可缩放的应用程序,能够充分适配和发挥云计算的优势能力; 。 TDE: Transparent Data Encryption,透明数0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算(Data Computing)的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑战,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。 数据库的未来在云上 整合多个数 仓的资源; eMPP: elastic Massively Parallel Processing,弹性大规模并行处理; 云原生: Cloud Native,云原生技术使组织能够在新式动态环境(如公有云、私有云和混合云)中构建和运行 可缩放的应用程序,能够充分适配和发挥云计算的优势能力; TDE: Transparent Data Encryption,透明数据加0 码力 | 17 页 | 2.02 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商range(time) ( START (1469980800) END (1488297600) EVERY (86400) ); 其中,id 为记录序号,通过 serial(序列)实现⾃增;uuid 存储⽤⼾组织 ID 或者⽤⼾的 IP;item_id 为代表某种分析项的 id(分析项如IP流量、TCP包量、TCP重传率等);time为时间戳; data为数据。 样本数据如下图所⽰: UDW 使⽤案例 time, data FROM t_unetanalysis_data where uuid='xxx' and item_id=xxx and time>xxx and time组织 id 为 50200021 的⽤⼾查询⼀个星期内 ip 的出量(item_id为17), SELECT time, data FROM t_unetanalysis_data where uuid= 0 码力 | 206 页 | 5.35 MB | 1 年前3
TiDB v7.1 中文手册表是集群中的一种逻辑对象,它从属于数据库,用于保存从 SQL 中发送的数据。表以行和列的形式组织数据 记录, 一张表至少有一列。若在表中定义了 n 个列,那么每一行数据都将拥有与这 n 个列中完全一致的字段。 4.5.3.3 命名表 创建表的第一步,就是给你的表起个名字。请不要使用无意义的表名,将给未来的你或者你的同事带来极大 的困扰。推荐你遵循公司或组织的表命名规范。 CREATE TABLE 语句通常采用以下形式: 聚簇索引 (clustered index) 是 TiDB 从 v5.0 开始支持的特性,用于控制含有主键的表数据的存储方式。通过使用 聚簇索引,TiDB 可以更好地组织数据表,从而提高某些查询的性能。有些数据库管理系统也将聚簇索引称为 “索引组织表” (index-organized tables)。 目前 TiDB 中 含有主键的表分为以下两类: • NONCLUSTERED,表示该表的主键为非 users 等,或 遵循你公司或组织的命名规范。如果你的公司或组织没有相应的命名规范,可参考表命名规范。请勿 使用这样的表名,如:t1, table1 等。 • 多个单词以下划线分隔,不推荐超过 32 个字符。 • 不同业务模块的表单独建立 DATABASE,并增加相应注释。 4.5.3.10.2 定义列时应遵守的规则 • 查看支持的列的数据类型,并按照数据类型的限制来组织你的数据。为你计划被存在列中的数据选择0 码力 | 4369 页 | 98.92 MB | 1 年前3
Al原生数据库与RAG日志 交易记录 向量数据库 LLM 编排 Copilot RAG典型挑战和解决方案 挑战一:向量召回不准确 挑战四:幻觉、胡说八道 挑战五:定制化成本 挑战二:数据组织混乱丧失语义 挑战三:多样化查询需求 数据加工 数据库 文档结构识别 文字加工 多路召回 融合排序 RAG引擎工作流程 文档格式转换 LLM Answer0 码力 | 25 页 | 4.48 MB | 1 年前3
共 45 条
- 1
- 2
- 3
- 4
- 5













