百度智能云 Apache Doris 文档
true true INSERT INSERT VALUES VALUES Baidu 百度智能云文档 SQL手册 14 例行导入(Routine Load)功能,支持用户提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 Doris 中。 目前仅支持通过无认证或者 SSL 认证方式,从 Kakfa 导入 CSV 或 Json 格式的数据。 语法: 导入作业的名称,在同一个 期望的并发度。一个例行导入作业会被分成多个子任务执行。这个参数指定一个作业最多有多少任务可以同时执行。 必须大于0。默认为3。 这个并发度并不是实际的并发度,实际的并发度,会通过集群的节点数、负载情况,以及数据源的情况综合考虑。 2. 这三个参数分别表示: 1. 每个子任务最大执行时间,单位是秒。范围为 5 到 60。默认为10。 2. 每个子任务最多读取的行数。必须大于等于200000。默认是200000。 。默认是200000。 3. 每个子任务最多读取的字节数。单位是字节,范围是 100MB 到 1GB。默认是 100MB。 这三个参数,用于控制一个子任务的执行时间和处理量。当任意一个达到阈值,则任务结束。 3. 采样窗口内,允许的最大错误行数。必须大于等于0。默认是 0,即不允许有错误行。 采样窗口为 。即如果在采样窗口内,错误行数大于 ,则会导致例行作业被 暂停,需要人工介入检查数据质量问题。0 码力 | 203 页 | 1.75 MB | 1 年前3Doris的数据导入机制以及原子性保证
(C++) BE (C++) BE (C++) BE (C++) 整体架构简单,产品易用 • 高度兼容MySQL协议 • 主从架构,不依赖任何其他组件 • FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS LABEL 导入任务 的标识 查看对应 导入任务 的执行情 况 用户可以 自定义 防止用户 重复导入 同一批次 数据使用 相同的label Label • 为了保证At-Most-Once 语意, 用户同一批次数据需要使用相同的Label 03 Doris 中的导入 Prepared 事务和两阶段提交 • FE 充当协调者 • Prepare 阶段下发任务和写入数据 • Done Coordinator Participant Prepare Phase Commit Phase Prepare Txn • 创建事务 • 规划导入执行计划 • 分发子任务 03 Doris 中的导入 FE Leader Analyzer FE Follower 数据版本 N 事务状态 PREPARE 事务管理 1.Begin Txn Phase 10 码力 | 33 页 | 21.95 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
Impala(MPP Query Engine)和Apache ORCFile (存储格式,编码和压缩)的技术。 Doris的系统架构如下,主要分为FE和BE两个组件,FE主要负责查询的解析、编译、优化、调度 和元数 据管理;BE主要负责查询的执行和数据存储。关于Doris的更多技术细节,可参考其官方文档。 Doris的特点: 同时支持高并发点查询和高吞吐的Ad-hoc查询。 同时支持离线批量导入和实时数据导入。 Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com ,随着后续Page Cache,内存表等能力的上线,IO将不再拖后腿,并发能力将有较大提升。 可靠的调度能力:提供5、10、15、30分钟的调度保障能力。 Lambda架构简化:实时数据与离线数据更好的在Doris中进行融合,灵活支撑应用。 高效的OLAP交互 :支撑业务的灵活查询访问,业务层通过视图进行逻辑封装直接复用汇总层多维模型,提高了开 Key Shard,这样在Join执行时就没有数据网络传输的开销,两表可以直接在本地进行Join。 整个Colocate Join在Doris中实现的关键点如下: 数据导入时保证数据本地性。 查询调度时保证数据本地性。 数据Balance后保证数据本地性。 查询Plan的修改。 Colocate Table元数据的持久化和一致性。 Hash Join的粒度从Server粒度变为Bucket粒度。0 码力 | 8 页 | 429.42 KB | 1 年前3SelectDB案例 从 ClickHouse 到 Apache Doris
语义层作为架构中枢节点所带来的变化: 数仓层:语义层接收 SQL 触发计算或查询任务。数仓从 DWD 到 DWS 的计算逻 辑将在语义层中进行定义,且以单个指标和标签的形式进行定义,之后由语义层来 发送命令,生成 SQL 命令给数仓层执行计算。 加速层:从语义层接收配置、触发导入任务,比如加速哪些指标与标签均由语义层 指导。 应用层:向语义层发起逻辑查询,由语义层选择引擎,生成物理 和指标的分析。从业务的角度,需要满足以下要求: 实时可用:标签/指标导入以后,需实现数据尽快可用。不仅要支持常规离线导入 T+1 ,同时也要支持实时打标场景。 部分更新:因每个 Source 表由各自 ETL 任务产出对应的数据,其产出时间不一致, 并且每个表只涉及部分指标或标签,不同数据查询对时效性要求也不同,因此架构 需要支持部分列更新。 性能高效:具备高效的写入能力,且在圈选、洞察、报表等场景可以实现秒级响应。 存储热数据,Iceberg 存储冷数据,利用 Doris 湖仓一体化能力简化查询。 对高频出现的标签/指标组合,通过 Doris 的物化视图进行预计算,提升查询的性能。 探索 Doris 应用于数仓计算任务,利用物化视图简化代码逻辑,并提升核心数据的 时效性。0 码力 | 12 页 | 1.55 MB | 1 年前3
共 4 条
- 1