导入导出 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Doris的数据导入机制以及原子性保证

Doris 的数据导入事务及原子性保证杨政国百度资深研发工程师 Doris Committer 01 Doris简介导入的问题 02 03 Doris中的导入使用案例 04 Doris简介 01 • 基于MPP（大规模并行处理）架构的分析型数据库 01 Doris简介 • 性能卓越，PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 支持集群动态伸缩 • 高度集成，不依赖于外部存储系统 • 架构优雅，单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询，100台集群可达10w QPS • 流式导入单节点100MB/s，小批量导入毫秒延迟 • 数据、元数据高可用，线上稳定服务6年 • 机器故障副本自动迁移 01 Doris简介 MySQL Tools （MySQL Networking） FE 任何节点都可线性扩展 01 Doris 简介导入的问题 02 典型应用场景——OLAP分析数据源数据应用数据存储对象存储BOS OLTP WEB端日志移动端日志本地文件数据分析业务应用实时大屏多维报表自助查询用户画像 Doris 02 导入的问题 Vn Vn Vn Vn V1-Vn-1 02 导入的问题 • 部分数据丢失，产生脏数据

0 码力 | 33 页 | 21.95 MB | 1 年前
3
百度智能云 Apache Doris 文档

Description 需要导入数据的表名。指定需要导入数据的分区。为本次 INSERT 操作指定一个 Label。如果不指定，则系统会自动生成一个随机 ID。指定目标列顺序 INSERT 操作支持两种方式。一种是通过 VALUES 语句即常量表达式进行单行数据写入。另一种是用过 Query 语句从其他表中查询数据并导入。 Example Example 1. 向表中导入一行数据其中的列顺序来作为默认的目标列。第三条、第四条语句表达的意思是一样的，使用列的默认值，来完成数据导入。 2. 向表中一次性导入多行数据其中第一条、第二条语句效果一样，向表中一次性导入两条数据第三条、第四条语句效果已知，使用列的默认值向表中导入两条数据 3. 向表中导入一个查询语句结果 INSERT INSERT INTO INTO table_name table_name ((33,, DEFAULT DEFAULT));; test test c2 c2 test test test test Baidu 百度智能云文档 SQL手册 12 4. 向表中导入一个查询语句结果，并指定 partition 和 label Keywords Keywords 最佳实践最佳实践 1. 查看返回结果 INSERT 操作是一个同步操作，返回结果即表示操作

0 码力 | 203 页 | 1.75 MB | 1 年前
3
SelectDB案例从 ClickHouse 到 Apache Doris

数仓层：通过 ODS-DWD-DWS 三层将数据整合为不同主题的标签和指标体系， DWM 集市层围绕内容对象构建大宽表，从不同主题域 DWS 表中抽取字段。  加速层：在数仓中构建的大宽表导入到加速层中，Clickhouse 作为分析引擎， Elasticsearch 作为搜索/圈选引擎。  应用层：根据场景创建 DataSet，作为逻辑视图从大宽表选取所需的标签与指标，同时可以二次定义衍生的标签与指标。数仓层：不支持部分列更新，当上游任一来源表产生延迟，均会造成大宽表延迟，进而导致数据时效性下降。  加速层：不同的标签跟指标特性不同、更新频率也各不相同。由于 ClickHouse 目前更擅长处理宽表场景，无区别将所有数据导入大宽表生成天的分区将造成存储资源的浪费，维护成本也将随之升高。  应用层：ClickHouse 采用的是计算和存储节点强耦合的架构，架构复杂，组件依赖严重，牵一发而动全身，容易出现集群稳定性问题，对于我们来说，同时维护支持丰富的数据模型，可满足多种数据更新方式，支持部分列更新。  支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查询分析。  导入方式多样，支持从 HDFS/S3 等远端存储批量导入，也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据，还可以通过 Flink Connector 实时/批次同步数据源（MySQL,Oracle

0 码力 | 12 页 | 1.55 MB | 1 年前
3
Apache Doris 在美团外卖数仓中的应用实践

和元数据管理；BE主要负责查询的执行和数据存储。关于Doris的更多技术细节，可参考其官方文档。 Doris的特点：同时支持高并发点查询和高吞吐的Ad-hoc查询。同时支持离线批量导入和实时数据导入。同时支持明细和聚合查询。兼容MySQL协议和标准SQL。支持Rollup Table和Rollup Table的智能查询路由。支持较好的多表Join策略和灵活的表达式查询。支持Schema在线变更。 Join相对的概念，即将两表的数据提前按照Join Key Shard，这样在Join执行时就没有数据网络传输的开销，两表可以直接在本地进行Join。整个Colocate Join在Doris中实现的关键点如下：数据导入时保证数据本地性。查询调度时保证数据本地性。数据Balance后保证数据本地性。查询Plan的修改。 Colocate Table元数据的持久化和一致性。 Hash Join的粒度从Server粒度变为Bucket粒度。显然，上面的计算方式，当数据量越来越大，到几十亿几百亿时，使用的IO资源、CPU资源、内存资源、网络资源会变得越来越多，查询也会变得越来越慢。于是我们在Doris中新增了一种Bitmap聚合指标，数据导入时，相同维度列的数据会使用Bitmap 聚合。有了Bitmap后，Doris中计算精确去重的方式如下： 7 / 8

0 码力 | 8 页 | 429.42 KB | 1 年前
3

共 4 条前往

页

Doris 数据导入机制以及原子保证百度智能 Apache 文档 SelectDB 案例 ClickHouse Apache Doris 美团

分类

语言

格式

Doris的数据导入机制以及原子性保证

百度智能云 Apache Doris 文档

SelectDB案例从 ClickHouse 到 Apache Doris

Apache Doris 在美团外卖数仓中的应用实践

分类

语言

格式

Doris的数据导入机制以及原子性保证

百度智能云 Apache Doris 文档

SelectDB案例 从 ClickHouse 到 Apache Doris

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例从 ClickHouse 到 Apache Doris