Doris的数据导入机制以及原子性保证## Doris 的数据导入事务及原子性保证 杨政国 百度资深研发工程师 Doris Committer  ## 01 ## Doris简介 ## 系统定位 • 基于MPP(大规模并行处理)架构的分析型数据库 • 性能卓越,PB级别数据毫秒/秒级响应 ents/0/1/5/2/01525fea83a74444259958fe4de89db4/p7_3.jpg) 🌸 - 高并发查询,100台集群可达10w QPS - 流式导入单节点100MB/s,小批量导入毫秒延迟 ## 扩展性强 架构优雅,单集群可水平扩展至200台以上 ▶ ## 高可用 数据、元数据高可用,线上稳定服务6年 机器故障副本自动迁移 ## 整体架构简单,产品易用 任何节点都可线性扩展  ## 02 ## 导入的问题 多维报表 自助查询 用户画像 ## 典型应用场景——OLAP分析 数据源 数据存储 数据分析 数据应用 OLTP  https://github.com/meshplus/bitxhub-kit 验证引擎&IBTP协议库 https://github.com/meshplus/bitxhub-core0 码力 | 27 页 | 1.24 MB | 1 月前3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南CMake # 现代 CMake 模块化项目管理指南 彭于斌 (@archibate) 课件 & 源码:https://github.com/parallel101/course 往期录播:https://space.bilibili.com/263032155 ## 第一章:文件 / 目录组织规范 基于 CMake 的 C/C++ 项目,如何优雅地、模块化地组织大量源文件? ## 推荐的目录组织方式 目录组织格式: • 项目名 /include/ 项目名 / 模块名 .h • 项目名 /src/ 模块名 .cpp • CMakeLists.txt 中写: • target include directories(项目名 PUBLIC include) • 源码文件中写: • #include < 项目名 / 模块名 .h> • 项目名:: 函数名 (); ## 推荐的目录组织方式 推荐的目录组织方式 - 头文件(项目名 /include/ 项目名 / 模块名 .h)中写: • #pragma once • namespace 项目名 { • void 函数名(); • } • 实现文件(项目名 /src/ 模块名 .cpp)中写: • #include < 项目名 / 模块名 .h> • namespace 项目名 { • void 函数名 () {0 码力 | 56 页 | 6.87 MB | 2 年前3
Nim 2.0.2 中文手册Unicode 字符,而是单字节。 原由:为了能够有效地支持 array[char, int] 和 set[char]。 Rune 类型可以代表任何 Unicode 字符。Rune 声明在 Unicode 模块 (unicode.html) 中。 如果前面有一个反引号 Token,则不以 ' 结尾的字符字面值被解释为 '。在前面的反引号标记和字符字面值之间不能有空格。这种特殊情况是为了保证像 类型的大小是一个字节。 ## 字符类型 字符类型在 Nim 中被命名为 char 。它的大小为一个字节。因此,不能表示 UTF-8 字符,而只能是 UTF-8 字符的一部分。 Rune 类型声明在unicode 模块(unicode.html)中,可以表示任意 Unicode 字符。 ## 枚举类型 枚举类型定义了一个其值由指定的值组成的新类型,这些值是有序的。例如: type Direction = enum = (3, "abc") 从示例中可以看出,可以通过使用元组指定字段的序数值以及字符串值,也可以只指定其中一个。 枚举可以使用 pure 编译指示进行标记,以便将其字段添加到特定模块特定的隐藏作用域,只在最终使用时进行查询。只有不产生歧义的符号才会添加到此作用域。但总是可以通过 MyEnum.value 类型限定来获取: type MyEnum {.pure.} = enum0 码力 | 127 页 | 7.05 MB | 1 年前3
SQLite 数据转 Mysql 退出 InsMsgServer,确保导入过程中不影响 InsMsgServer 运行  sql12/17/2 ## 导入 Mysql Welco MySQL Work\\ create and \\ design and run Browse Docu MySQL Connections test root Setup Options File Management Access Settings... PERFORMANCE Dashboard Performance Reports 分别导入 user.sql / detail.sql / email.sql / login.sql / pwd.sql / sign.sql / staff.sql Query 1 Administrationuser.sql 12/17/2 0 码力 | 17 页 | 1.40 MB | 2 年前3
Oracle VM VirtualBox 4.1.0 User Manual0 码力 | 284 页 | 4.76 MB | 1 年前3
Apache OFBiz Documentation Guidelines0 码力 | 21 页 | 325.77 KB | 2 年前3
Google Python Style Guide0 码力 | 30 页 | 94.81 KB | 2 年前3
6. ClickHouse在众安的实践洞察查询引擎(解析/适配) 查询服务 权限控制 MPP-clickhouse 预计算-kylin 运行环境 阿里云主机 独立服务器 第三方虚拟主机 ## Why Clickhouse? 高效的数据导入和查询性能 性能 开源 低成本,免费 Clickhosue 真正的面向列存储,支持高维度表 面向列 压缩比 高度的数据压缩比,存储成本更小 ## 易观开源OLAP引擎测评报告 内存: 96GB • 硬盘: 1TB 高效云盘,最大IO吞吐量 140MBps 以事业部、入库时间作双分区导入数据 ## 遇到的问题 导入效率: 原有导入数据方式在百亿级数据下会报Too many partitions for single INSERT block的问题 • 数据导入慢 ## 原因: • ck-loader-mr方式对大数据量场景支持不够友好 • 单次插入分区过多 ## ## 解决方法: 使用clickhouse原生insert format csv 配合linux pipeline导入 hadoop fs -cat 'hdfs://hadoop-namenode:port/user/hive/user/2013/000000_0' | clickhouse-client --host=127.0.0.1 --port=10000 -u user0 码力 | 28 页 | 4.00 MB | 2 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













