Doris的数据导入机制以及原子性保证FE Follower 2. Load 数据 数据版本 N+1 事务状态 VISIBLE 事务管理 1.Begin Txn 3.汇报导入 4. publish 5. publish 回调 生效数据 V1 V2 Vn+1 … Vn Publish • 修改BE元数据,数据版本 +1 • 修改FE元数据, 数据版本 +1 • 事务状态改为 VISIBLE Phase Phase 2 总结 03 Doris 中的导入 • 写入带版本 • 查询带版本 多版本机制解决读写冲突 两阶段导入保证多表原子生效 • 支持并行导入 • 有冲突时按导入顺序生效,无冲突导入时并行生效 写入带版本 查询带版本 支持并行导入 冲突时按顺序生效 (多版本机制) (两阶段导入) 事务能力保证 使用案例 04 BI Application 数据加载0 码力 | 33 页 | 21.95 MB | 1 年前3
百度智能云 Apache Doris 文档成功,并不代表数据导入成功。导入状态需要通过 SHOW LOAD 命令查看。 2. 取消导入任务 已提交切尚未结束的导入任务可以通过 CANCEL LOAD 命令取消。取消后,已写入的数据也会回滚,不会生效。 3. Label、导入事务、多表原子性 Doris 中所有导入任务都是原子生效的。并且在同一个导入任务中对多张表的导入也能够保证原子性。同时,Doris 还可以 LOAD LOAD yyyyyy" )) my_table my_table source_sequence source_sequence Baidu 百度智能云文档 SQL手册 33 通过 Label 的机制来保证数据导入的不丢不重。具体说明可以参阅 导入事务和原子性 文档。 4. 列映射、衍生列和过滤 Doris 可以在导入语句中支持非常丰富的列转换和过滤操作。支持绝大多数内置函数和 UDF。关于如何正确的使用这个功 EXPORT EXPORT Baidu 百度智能云文档 SQL手册 36 一个 Export 作业会拆分成多个子任务(执行计划)去执行。有多少查询计划需要执行,取决于总共有多少 Tablet,以及一个查 询计划最多可以分配多少个 Tablet。 因为多个查询计划是串行执行的,所以如果让一个查询计划处理更多的分片,则可以减少作业的执行时间。 但如果查询计划出错(比如调用 Broker 的 RPC0 码力 | 203 页 | 1.75 MB | 1 年前3
SelectDB案例 从 ClickHouse 到 Apache DorisSQL。 支持丰富的数据模型,可满足多种数据更新方式,支持部分列更新。 支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查 询分析。 导入方式多样,支持从 HDFS/S3 等远端存储批量导入,也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据,还可以通过 Flink Connector 但仍然无法影响上游链路,数仓层有自己的语义逻辑,加速层有自己的导入配置,这样就造 成了数据管理机制的割裂。 数据架构 4.0 在数据架构 3.0 的基础上,我们对语义层进行更深层次的应用,在数据架构 4.0 中,我们 将语义层变为架构的中枢节点,目标是对所有的指标和标签统一定义,从计算-加速-查询实 现中心化、标准化管理,解决数据管理机制割裂的问题。 5 语义层作为架构中枢节点所带来的变化: 圈选,在标签圈选场景中,通常需要满足以下几个要求: 用户圈选逻辑比较复杂,数据架构需要支持同时有上百个标签做圈选过滤条件。 大部分圈选场景只需要最新标签数据,但是在指标查询时需要支持历史的数据的查 询。 基于圈选结果,需要进行指标数据的聚合分析。 基于圈选结果,需要支持标签和指标的明细查询。 经过调研,我们最终采用了 Doris on ES 的解决方案来实现以上要求,将0 码力 | 12 页 | 1.55 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践应用层模型复杂,根据业务需要以及Kylin生产需要,还要做较多模型预处理。这样在不同 的业务场景中,模型的利用率也比较低。 2. Kylin配置过程繁琐,需要配置模型设计,并配合适当的“剪枝”策略,以实现计算成本与查 询效率的平衡。 3. 由于MOLAP不支持明细数据的查询,在“汇总+明细”的应用场景中,明细数据需要同步到 DBMS引擎来响应交互,增加了生产的运维成本。 4. 较多的预处理伴随着较高的生产成本。0 码力 | 8 页 | 429.42 KB | 1 年前3
共 4 条
- 1













