Apache Doris 在美团外卖数仓中的应用实践Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com Apache Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此 并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado op/Spark分布式大数据技术生态来构建 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 汇总数据的交互 业务团队日常经营分析最典型的场景就是各种维度下的自定义查询,面对如此灵活可变、所见即 1 / 8 Apache Doris在美团外卖数仓中的应用实践0 码力 | 8 页 | 429.42 KB | 1 年前3
SelectDB案例 从 ClickHouse 到 Apache Doris据源(MySQL,Oracle,PostgreSQL 等)到 Doris。**** 社区目前 Apache Doris 社区活跃、技术交流更多,SelectDB 针对社区有专职的技 术支持团队,在使用过程中遇到问题均能快速得到响应解决。 同时我们也利用 Doris 的特性,解决了架构 1.0 中较为突出的问题。 数仓层:Apache Doris 的 Aggregate 数据模型可支持部分列实时更新,因此我们去 tagFilter) GROUP BY tag 在 ES 中圈选查询出的 ID 数据,以子查询方式在 Doris 中进行指标分析。 我们在实践中发现,查询时长跟圈选的群体大小相关。如果从 ES 中圈选的群体规模超过 100 万时,查询时长会达到 60 秒,圈选群体再次增大甚至会出现超时报错。经排查分析, 主要的耗时包括两方面: BE 从 ES 中拉取数据(默认一次拉取 1024 行),对于0 码力 | 12 页 | 1.55 MB | 1 年前3
Doris的数据导入机制以及原子性保证杨政国 百度资深研发工程师 Doris Committer 01 Doris简介 导入的问题 02 03 Doris中的导入 使用案例 04 Doris简介 01 • 基于MPP(大规模并行处理)架构的分析型数据库 01 Doris简介 • 性能卓越,PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 由百度自研,2017年开源,2018年贡献给Apache社区后更名为0 码力 | 33 页 | 21.95 MB | 1 年前3
百度智能云 Apache Doris 文档可以将仓库中备份的表恢复替换数据库中已有的同名表,但须保证两张表的表结构完全一致。表结构包括:表名、列、分 区、物化视图等等。 3. 当指定恢复表的部分分区时,系统会检查分区范围是否能够匹配。 4. 恢复操作的效率: 在集群规模相同的情况下,恢复操作的耗时基本等同于备份操作的耗时。如果想加速恢复操作,可以先通过设置 参数,仅恢复一个副本,之后在通过调整副本数 ALTER TABLE PROPERTY,将副本补齐。 SELECT-INTO-OUTFILE Broker Load 适合在一个导入任务中导入100GB以内的数据。虽然理论上在一个导入任务中导入的数据量没有上限。但是提 交过大的导入会导致运行时间较长,并且失败后重试的代价也会增加。 同时受限于集群规模,我们限制了导入的最大数据量为 ComputeNode 节点数 * 3GB。以保证系统资源的合理利用。如果有 大数据量需要导入,建议分成多个导入任务提交。 Doris 同时会限制集群内同时运行的导入任务数量,通常在0 码力 | 203 页 | 1.75 MB | 1 年前3
共 4 条
- 1













