Apache Doris 在美团外卖数仓中的应用实践Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于 既然变化维的历史数据预计算成本巨大,最好的办法就是现用现算,但现用现算需要强大的并行 计算能力。OLAP的实现有MOLAP、ROLAP、HOLAP三种形式,MOLAP以Cube为表现形式,但计 算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来,由于传统关系型DBMS的 数据处理能力有限,所以ROLAP模式受到很大的局限性。随着分布式、并行化技术成熟应用,MP P引擎逐渐表现出强大的高吞吐、低时延计算 下去重指标的实时统计,效率较高。 ROLAP :基于实时的大规模并行计算,对集群的要求较高。MPP引擎的核心是通过将数据分散,以实现 CPU、IO、内存资源的分布,来提升并行计算能力。在当前数据存储以磁盘为主的情况下,数据S can需要的较大的磁盘IO,以及并行导致的高CPU,仍然是资源的短板。因此,高频的大规模汇 总统计,并发能力将面临较大挑战,这取决于集群硬件方面的并行计算能力。传统去重算法需要 大量计算资源,实0 码力 | 8 页 | 429.42 KB | 1 年前3
Doris的数据导入机制以及原子性保证杨政国 百度资深研发工程师 Doris Committer 01 Doris简介 导入的问题 02 03 Doris中的导入 使用案例 04 Doris简介 01 • 基于MPP(大规模并行处理)架构的分析型数据库 01 Doris简介 • 性能卓越,PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 由百度自研,2017年开源,2018年贡献给Apache社区后更名为 Phase 2 总结 03 Doris 中的导入 • 写入带版本 • 查询带版本 多版本机制解决读写冲突 两阶段导入保证多表原子生效 • 支持并行导入 • 有冲突时按导入顺序生效,无冲突导入时并行生效 写入带版本 查询带版本 支持并行导入 冲突时按顺序生效 (多版本机制) (两阶段导入) 事务能力保证 使用案例 04 BI Application 数据加载 数据输出0 码力 | 33 页 | 21.95 MB | 1 年前3
百度智能云 Apache Doris 文档果可以匹配该集合中任何一元素,则返回TRUE。参数和VALUE集合必须是可比较的。所 有使用in操作符的表达式都可以写成用OR连接的等值比较,但是IN的语法更简单些,更精准,更容易让Doris进行优化。 举例: Like操作符 Like操作符 该操作符用于和字符串进行比较。_用来匹配单个字符,%用来匹配多个字符。参数必须要匹配完整的字符串。通常,把%放在 字符串的尾部更加符合实际用法。 成,则任务会失败。 9. 数据量和任务数限制 Stream Load 适合导入几个GB以内的数据,因为数据为单线程传输处理,因此导入过大的数据性能得不到保证。当有大量 本地数据需要导入时,可以并行提交多个导入任务。 Doris 同时会限制集群内同时运行的导入任务数量,通常在 10-20 个不等。之后提交的导入作业会被拒绝。 ALTER-ROUTINE-LOAD Status Status0 码力 | 203 页 | 1.75 MB | 1 年前3
SelectDB案例 从 ClickHouse 到 Apache Doris馈、无法快速获得解决,与社区沟通上的阻塞也是促进我们进行架构升级的因素之一。 数据架构 2.0 3 基于架构 1.0 存在的问题和 ClickHouse 的局限性,我们尝试对架构进行优化升级,将分析 引擎 ClickHouse 切换为 Doris,Doris 具有以下的优势: Apache Doris 的优势: Doris 架构极简易用,部署只需两个进程,不依赖其他系统,运维简单;兼容 不同的分 析师对同一数据的定义不尽相同、定义口径不一致,导致指标和标签缺乏统一管理, 4 这使得数据管理和使用的难度都变高。 Dataset 与物理位置绑定,应用层无法进行透明优化,如果 Doris 引擎出现负载较 高的情况,无法通过降低用户查询避免集群负载过高报错的问题。 数据架构 3.0 针对指标和标签定义口径不统一,数据使用和管理难度较高的问题,我们继续对架构进行升 语句是非常有难度的。如果你有相关的经验,期待有机会可以一起探索交流。 优化经验 从上文已知,为更好地实现业务需求,数据架构演进到 4.0 版本,其中 Apache Doris 作为 分析加速场景的解决方案在整个系统中发挥着重要的作用。接下来将从场景需求、数据导入、 查询优化以及成本优化四个方面出发,分享基于 Doris 的读写优化经验,希望给读者带来 一些参考。 场景需求 60 码力 | 12 页 | 1.55 MB | 1 年前3
共 4 条
- 1













