双副本集群版 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Doris的数据导入机制以及原子性保证

Apache社区后更名为 Apache Doris 系统定位 • 百度内部统称其为“百度数据仓库Palo”，同时百度云上提供Palo的企业级托管版本发展历程 01 02 03 • 1.0版本正式上线 • 应用于百度凤巢统计报表的需求场景，上线后数据更新频率从天级提升至分钟级 2008 • 进行了通用化改造，开始承接公司内部其他报表系统 • 助力百度统计成为国内最大高度兼容MySQL • 支持在线表结构变更 • 支持集群动态伸缩 • 高度集成，不依赖于外部存储系统 • 架构优雅，单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询，100台集群可达10w QPS • 流式导入单节点100MB/s，小批量导入毫秒延迟 • 数据、元数据高可用，线上稳定服务6年 • 机器故障副本自动迁移 01 Doris简介 MySQL Tools

0 码力 | 33 页 | 21.95 MB | 1 年前
3
百度智能云 Apache Doris 文档

目前我们支持以下参数： 1. 期望的并发度。一个例行导入作业会被分成多个子任务执行。这个参数指定一个作业最多有多少任务可以同时执行。必须大于0。默认为3。这个并发度并不是实际的并发度，实际的并发度，会通过集群的节点数、负载情况，以及数据源的情况综合考虑。 2. 这三个参数分别表示： 1. 每个子任务最大执行时间，单位是秒。范围为 5 到 60。默认为10。 2. 每个子任务最多读取的行数。必须 SQL手册 18 2. 为 example_db 的 example_tbl 创建一个名为 test1 的 Kafka 例行导入任务。导入任务为严格模式。 3. 通过 SSL 认证方式，从 Kafka 集群导入数据。同时设置 client.id 参数。导入任务为非严格模式，时区为 Africa/Abidjan CREATE CREATE ROUTINE ROUTINE LOAD LOAD example_db ：指定恢复对应备份快照的哪个时间版本，必填。该信息可以通过 SHOW SNAPSHOT 命令获取。：指定恢复的表或分区的副本数。默认为3。若恢复已存在的表或分区，则副本数必须和已存在表或分区的副本数相同。同时，Compute Node 节点数量必须大于等于指定副本数。：任务超时时间，默认为一天。单位秒。 Example Example 1. 从 example_repo 中恢复备份

0 码力 | 203 页 | 1.75 MB | 1 年前
3
SelectDB案例从 ClickHouse 到 Apache Doris

更擅长处理宽表场景，无区别将所有数据导入大宽表生成天的分区将造成存储资源的浪费，维护成本也将随之升高。  应用层：ClickHouse 采用的是计算和存储节点强耦合的架构，架构复杂，组件依赖严重，牵一发而动全身，容易出现集群稳定性问题，对于我们来说，同时维护 ClickHouse 和 Elasticsearch 两套引擎的连接与查询，成本和难度都比较高。除此之外，ClickHouse 由国外开源，交流具有一定的语言学习成本，遇到问题无法准确反统一管理， 4 这使得数据管理和使用的难度都变高。  Dataset 与物理位置绑定，应用层无法进行透明优化，如果 Doris 引擎出现负载较高的情况，无法通过降低用户查询避免集群负载过高报错的问题。数据架构 3.0 针对指标和标签定义口径不统一，数据使用和管理难度较高的问题，我们继续对架构进行升级。数据架构 3.0 主要的变化是引入了专门的语义层，语义层的主要作用是将技术语言转架构优势：  可以形成统一视图，对于核心指标和标签的定义进行统一查看及管理。  应用层与物理引擎完成解耦，可进一步对更加灵活易用的架构进行探索：如何对相关指标和标签进行加速，如何在时效性和集群的稳定性之间平衡等。存在的问题：因为当前架构是对单个标签和指标进行了定义，因此如何在查询计算时自动生成一个准确有效的 SQL 语句是非常有难度的。如果你有相关的经验，期待有机会可以一起探索交流。

0 码力 | 12 页 | 1.55 MB | 1 年前
3
Apache Doris 在美团外卖数仓中的应用实践

综上所述，在变化维、非预设维、细粒度统计的应用场景下，使用MPP引擎驱动的ROLAP模式，可以简化模型设计，减少预计算的代价，并通过强大的实时计算能力，可以支撑良好的实时交互体验。双引擎下的应用场景适配问题架构上通过MOLAP+ROLAP双引擎模式来适配不同应用场景，如下图所示：技术权衡 MOLAP ：通过预计算，提供稳定的切片数据，实现多次查询一次计算，减轻了查询时的计算压力，保证了查询的稳定性下去重指标的实时统计，效率较高。 ROLAP ：基于实时的大规模并行计算，对集群的要求较高。MPP引擎的核心是通过将数据分散，以实现 CPU、IO、内存资源的分布，来提升并行计算能力。在当前数据存储以磁盘为主的情况下，数据S can需要的较大的磁盘IO，以及并行导致的高CPU，仍然是资源的短板。因此，高频的大规模汇总统计，并发能力将面临较大挑战，这取决于集群硬件方面的并行计算能力。传统去重算法需要大量计算资源，实细查询，查询时效基本都可以控制在秒级。 7日趋势分析，2~3秒。由于数据量较大，根据集群规模不同查询性能有所区别，但数据量较大时，调动的集群资源较多，因此MPP的并发性能受限于集群的性能。一般原则是并发较高的业务，需要严格控制查询时效（基本在毫秒级），对于并发不高的业务，允许进行较大的查询，但也要考虑集群的承受能力。通过一年来的应用以及Doris的不断改进升级，Doris的高可靠、高可用、高可扩展性也得

0 码力 | 8 页 | 429.42 KB | 1 年前
3

共 4 条前往

页

Doris 数据导入机制以及原子保证百度智能 Apache 文档 SelectDB 案例 ClickHouse Apache Doris 美团

分类

语言

格式

Doris的数据导入机制以及原子性保证

百度智能云 Apache Doris 文档

SelectDB案例从 ClickHouse 到 Apache Doris

Apache Doris 在美团外卖数仓中的应用实践

分类

语言

格式

Doris的数据导入机制以及原子性保证

百度智能云 Apache Doris 文档

SelectDB案例 从 ClickHouse 到 Apache Doris

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例从 ClickHouse 到 Apache Doris