Apache Doris 在美团外卖数仓中的应用实践
Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado op/Spark分布式大数据技术生态来构建数据仓库,然后对数据进行适当的分层、加工、管理。而 在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL) 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 如果想及时了 / 8 Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com 所得的应用场景,美团平台使用Kylin作为公司的主要MOLAP引擎。MOLAP是预计算生产,在增 量业务,预设维度分析场景下表现良好,但在变化维的场景下生产成本巨大。例如,如果使用最 新商家类型回溯商家近三个月的表现,需要重新计算三个月的Cube,需花费几个小时,来计算近0 码力 | 8 页 | 429.42 KB | 1 年前3SelectDB案例 从 ClickHouse 到 Apache Doris
用户案例 导读:腾讯音乐内容库数据平台旨在为应用层提供库存盘点、分群画像、指标分析、标签圈 选等内容分析服务,高效为业务赋能。目前,内容库数据平台的数据架构已经从 1.0 演进到 了 4.0 ,经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层 的初步引入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等 问题,收益显著。本文将为大家分 据挖 掘等的存储和计算都是在 TDW 中进行,内容库数据平台的数据加工链路同样是在腾讯数据 仓库 TDW 上构建的。截止目前,内容库数据平台的数据架构已经从 1.0 演进到了 4.0 , 经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层的初步引 入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等问题,收 益显著。接下来将为大家 三层将数据整合为不同主题的标签和指标体系, DWM 集市层围绕内容对象构建大宽表,从不同主题域 DWS 表中抽取字段。 加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。 应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题: 数仓层:不支持0 码力 | 12 页 | 1.55 MB | 1 年前3百度智能云 Apache Doris 文档
``` index_definition_list index_definition_list Baidu 百度智能云文档 SQL手册 52 索引列表定义: 索引定义: 示例: 表引擎类型。本文档中类型皆为 OLAP。示例: 数据模型。 支持以下模型: DUPLICATE KEY(默认):其后指定的列为排序列。 AGGREGATE KEY:其后指定的列为维度列。 UNIQUE 如果在之后的使用过程中添加索引,如果表中已有数据,则需要重写所有数据,因此索引的创建时间取决于当前数据量。 内存表 内存表 当建表时指定了 属性。则 Doris 会尽量将该表的数据块缓存在存储引擎的 PageCache 中,已减少磁盘 IO。但这个属性不会保证数据块常驻在内存中,仅作为一种尽力而为的标识。 DROP-REPOSITORY DROP REPOSITORY DROP REPOSITORY0 码力 | 203 页 | 1.75 MB | 1 年前3
共 3 条
- 1