任务调度 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

百度智能云 Apache Doris 文档

true true INSERT INSERT VALUES VALUES Baidu 百度智能云文档 SQL手册 14 例行导入（Routine Load）功能，支持用户提交一个常驻的导入任务，通过不断的从指定的数据源读取数据，将数据导入到 Doris 中。目前仅支持通过无认证或者 SSL 认证方式，从 Kakfa 导入 CSV 或 Json 格式的数据。语法：导入作业的名称，在同一个期望的并发度。一个例行导入作业会被分成多个子任务执行。这个参数指定一个作业最多有多少任务可以同时执行。必须大于0。默认为3。这个并发度并不是实际的并发度，实际的并发度，会通过集群的节点数、负载情况，以及数据源的情况综合考虑。 2. 这三个参数分别表示： 1. 每个子任务最大执行时间，单位是秒。范围为 5 到 60。默认为10。 2. 每个子任务最多读取的行数。必须大于等于200000。默认是200000。。默认是200000。 3. 每个子任务最多读取的字节数。单位是字节，范围是 100MB 到 1GB。默认是 100MB。这三个参数，用于控制一个子任务的执行时间和处理量。当任意一个达到阈值，则任务结束。 3. 采样窗口内，允许的最大错误行数。必须大于等于0。默认是 0，即不允许有错误行。采样窗口为。即如果在采样窗口内，错误行数大于，则会导致例行作业被暂停，需要人工介入检查数据质量问题。

0 码力 | 203 页 | 1.75 MB | 1 年前
3
Doris的数据导入机制以及原子性保证

（C++） BE (C++) BE (C++) BE (C++) 整体架构简单，产品易用 • 高度兼容MySQL协议 • 主从架构，不依赖任何其他组件 • FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介导入的问题 02 典型应用场景——OLAP分析数据源数据应用数据存储对象存储BOS LABEL 导入任务的标识查看对应导入任务的执行情况用户可以自定义防止用户重复导入同一批次数据使用相同的label Label • 为了保证At-Most-Once 语意，用户同一批次数据需要使用相同的Label 03 Doris 中的导入 Prepared 事务和两阶段提交 • FE 充当协调者 • Prepare 阶段下发任务和写入数据 • Done Coordinator Participant Prepare Phase Commit Phase Prepare Txn • 创建事务 • 规划导入执行计划 • 分发子任务 03 Doris 中的导入 FE Leader Analyzer FE Follower 数据版本 N 事务状态 PREPARE 事务管理 1.Begin Txn Phase 1

0 码力 | 33 页 | 21.95 MB | 1 年前
3
Apache Doris 在美团外卖数仓中的应用实践

Impala（MPP Query Engine）和Apache ORCFile （存储格式，编码和压缩）的技术。 Doris的系统架构如下，主要分为FE和BE两个组件，FE主要负责查询的解析、编译、优化、调度和元数据管理；BE主要负责查询的执行和数据存储。关于Doris的更多技术细节，可参考其官方文档。 Doris的特点：同时支持高并发点查询和高吞吐的Ad-hoc查询。同时支持离线批量导入和实时数据导入。 Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com ，随着后续Page Cache，内存表等能力的上线，IO将不再拖后腿，并发能力将有较大提升。可靠的调度能力：提供5、10、15、30分钟的调度保障能力。 Lambda架构简化：实时数据与离线数据更好的在Doris中进行融合，灵活支撑应用。高效的OLAP交互：支撑业务的灵活查询访问，业务层通过视图进行逻辑封装直接复用汇总层多维模型，提高了开 Key Shard，这样在Join执行时就没有数据网络传输的开销，两表可以直接在本地进行Join。整个Colocate Join在Doris中实现的关键点如下：数据导入时保证数据本地性。查询调度时保证数据本地性。数据Balance后保证数据本地性。查询Plan的修改。 Colocate Table元数据的持久化和一致性。 Hash Join的粒度从Server粒度变为Bucket粒度。

0 码力 | 8 页 | 429.42 KB | 1 年前
3
SelectDB案例从 ClickHouse 到 Apache Doris

语义层作为架构中枢节点所带来的变化：  数仓层：语义层接收 SQL 触发计算或查询任务。数仓从 DWD 到 DWS 的计算逻辑将在语义层中进行定义，且以单个指标和标签的形式进行定义，之后由语义层来发送命令，生成 SQL 命令给数仓层执行计算。  加速层：从语义层接收配置、触发导入任务，比如加速哪些指标与标签均由语义层指导。  应用层：向语义层发起逻辑查询，由语义层选择引擎，生成物理和指标的分析。从业务的角度，需要满足以下要求：  实时可用：标签/指标导入以后，需实现数据尽快可用。不仅要支持常规离线导入 T+1 ，同时也要支持实时打标场景。  部分更新：因每个 Source 表由各自 ETL 任务产出对应的数据，其产出时间不一致，并且每个表只涉及部分指标或标签，不同数据查询对时效性要求也不同，因此架构需要支持部分列更新。  性能高效：具备高效的写入能力，且在圈选、洞察、报表等场景可以实现秒级响应。存储热数据，Iceberg 存储冷数据，利用 Doris 湖仓一体化能力简化查询。  对高频出现的标签/指标组合，通过 Doris 的物化视图进行预计算，提升查询的性能。  探索 Doris 应用于数仓计算任务，利用物化视图简化代码逻辑，并提升核心数据的时效性。

0 码力 | 12 页 | 1.55 MB | 1 年前
3

共 4 条前往

页

百度智能 Apache Doris 文档数据导入机制以及原子保证 Apache Doris 美团 SelectDB 案例 ClickHouse

分类

语言

格式

百度智能云 Apache Doris 文档

Doris的数据导入机制以及原子性保证

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例从 ClickHouse 到 Apache Doris

分类

语言

格式

百度智能云 Apache Doris 文档

Doris的数据导入机制以及原子性保证

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例 从 ClickHouse 到 Apache Doris

SelectDB案例从 ClickHouse 到 Apache Doris