SelectDB案例 从 ClickHouse 到 Apache DorisID 构建出一张大宽表,最后将大宽表导入到 Doris 中。如下图所示,来自数仓 N 个表中 ID=1 的 5 条数据,经过 Flink 处理以后,只有一条 ID=1 的数据写入 Doris 中,大大减 少 Doris 写入压力。 通过以上导入优化方案,极大地降低了存储成本, TDW 无需维护两份冗余的数据,Kafka 也只需保存最新待导入的数据。同时该方案整体实时性更好且可控,并且大宽表聚合在 生成 Bucket Join 执行计划,将分桶序号下发到 BE ScanNode 节点,并下推到 ES; ES 对查询出的数据进行 Bitmap 压缩,并将数据的多批次获取优化为一次获取,减 少网络 IO 开销; Doris BE 只拉取和本地 Doris 指标表相关 Bucket 的数据,直接进行本地 Join,避 免 Doris BE 间数据再 Shuffle 的过程。0 码力 | 12 页 | 1.55 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com 业务模型适配 MOLAP: 当业务分析维度相对固化,并在可以使用历史状态时,按照时间进行增量生产,加工 成本呈线性增长状态,数据加工到更粗的粒度(如组织单元),减少结果数据量,提高交互效率 。如上图所示,由A模型预计算到B模型,使用Kylin是一个不错的选择。 ROLAP: 当业务分析维度灵活多变或者特定到最 - https://www.iteblog.com 可以看到,当使用Bitmap之后,之前的PV计算过程会大幅简化,现场查询时的 IO、CPU、内存,网络资源也会显著减少,并且不再会随着数据规模而线性增加。 总结与思考 在外卖运营分析的业务实践中,由于业务的复杂及应用场景的不同,没有哪一种数据生产方案能 够解决所有业务问题。数据库引擎技术的发展,为我们提供更多手段提升数据建设方案。实践证 明0 码力 | 8 页 | 429.42 KB | 1 年前3
Doris的数据导入机制以及原子性保证(C++) 整体架构简单,产品易用 • 高度兼容MySQL协议 • 主从架构,不依赖任何其他组件 • FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析0 码力 | 33 页 | 21.95 MB | 1 年前3
百度智能云 Apache Doris 文档如果所有导入表均完成导入,此时 LOAD 的进度为 99% 如果所有导入表均完成导入,此时 LOAD 的进度为 99% 导入进入到最后生效阶段,整个导入完成后,LOAD 的进度才会改为 100%。 导入进度并不是线性的。所以如果一段时间内进度没有变化,并不代表导入没有在执行。 导入任务的类型。Broker load 的 type 取值只有 BROKER。 主要显示了导入的数据量指标 , 和 。用户可以根据第一个数值判断 源数据中的列数比表中的列数多。 在 严格模式 下,源数据被类型转换成了 null。 尝试将 null 值导入不允许为 null 的列。 4. 查看作业执行进度 因为返回结果中 字段显示的进度不是线性的。因此通过这个字段查询进度有时不太方便。此时我们还可以通过 字段中的 来观察作业是否在运行。 正常情况下,运行中的作业, 会大约每 5 秒更新一次,表示已经读取的数据行数。但有时可能因为数据质量0 码力 | 203 页 | 1.75 MB | 1 年前3
共 4 条
- 1













