SelectDB案例 从 ClickHouse 到 Apache Doris
目前 更擅长处理宽表场景,无区别将所有数据导入大宽表生成天的分区将造成存储资源 的浪费,维护成本也将随之升高。 应用层:ClickHouse 采用的是计算和存储节点强耦合的架构,架构复杂,组件依赖 严重,牵一发而动全身,容易出现集群稳定性问题,对于我们来说,同时维护 ClickHouse 和 Elasticsearch 两套引擎的连接与查询,成本和难度都比较高。 除此之外,ClickHouse 中存储命名为 a4,用户使用更具有业务含义 song_name 进行查询。在 查询 Doris 前,我们会在查询层将 SQL 改写成具体的列名 a4。这样名称的修改只 是修改其元数据,底层 Doris 的表结构可以保持不变。 为了实现标签灵活上下架,我们通过统计标签的使用情况来分析标签的价值,将低 价值的标签进入下架流程。下架指的是对元信息进行状态标注,在下架标签重新上 架之前,不会继续导入其数 架构非常简单,只有 FE 和 BE 两类进程,不依赖其他组件,并通过一致性协议来保 证服务的高可用和数据的高可靠,自动故障修复,运维起来比较容易; 高度兼容 MySQL 语法,支持标准 SQL,极大降低开发人员接入使用成本; 支持多种联邦查询方式,支持对 Hive、MySQL、Elasticsearch 、Iceberg 等组件的 联邦查询分析,降低多数据源查询复杂度。 通过以上的方式,使得存储成本降低0 码力 | 12 页 | 1.55 MB | 1 年前3Doris的数据导入机制以及原子性保证
Contributor 100+,一线互 联网广泛使用 2018 07 01 Doris简介 产品特性 简单易用 扩展性强 性能卓越 高可用 • 高度兼容MySQL • 支持在线表结构变更 • 支持集群动态伸缩 • 高度集成,不依赖于外部存储系统 • 架构优雅,单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询,100台集群可达10w QPS • (Obsever,JAVA) BE (C++) BE (C++) BE (C++) BE (C++) 整体架构简单,产品易用 • 高度兼容MySQL协议 • 主从架构,不依赖任何其他组件 • FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用0 码力 | 33 页 | 21.95 MB | 1 年前3百度智能云 Apache Doris 文档
个副本: Keywords Keywords 最佳实践 最佳实践 1. 同一数据库下只能有一个正在执行的恢复操作。 2. 可以将仓库中备份的表恢复替换数据库中已有的同名表,但须保证两张表的表结构完全一致。表结构包括:表名、列、分 区、物化视图等等。 3. 当指定恢复表的部分分区时,系统会检查分区范围是否能够匹配。 4. 恢复操作的效率: 在集群规模相同的情况下,恢复操作的耗时基本等同于备份 k2 的行才会被导入。 7. 导入数据,提取文件路径中的时间分区字段,并且时间包含 %3A (在 hdfs 路径中,不允许有 ':',所有 ':' 会由 %3A 替换) 路径下有如下文件: 表结构为: 8. 从 HDFS 导入一批数据,指定超时时间和过滤比例。使用明文 my_hdfs_broker 的 broker。简单认证。并且将原有数据中与 导入数据中v2 大于100 的列相匹配的列删除,其他列正常导入 6. 使用streaming方式导入 7. 导入含有HLL列的表 8. 导入含有 BITMAP 列的表 9. 导入 Json 数据,使用简单模式。即 Json 数据中的字段名即为列名。 表结构为: Json 数据: 导入命令: 10. 导入 Json 数据,使用 jsonpath 抽取字段 json数据格式: curl --location-trusted -u admin -H0 码力 | 203 页 | 1.75 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
Mesa(数据模型)、Apache Impala(MPP Query Engine)和Apache ORCFile (存储格式,编码和压缩)的技术。 Doris的系统架构如下,主要分为FE和BE两个组件,FE主要负责查询的解析、编译、优化、调度 和元数 据管理;BE主要负责查询的执行和数据存储。关于Doris的更多技术细节,可参考其官方文档。 Doris的特点: 同时支持高并发点查询和高吞吐的Ad-hoc查询。0 码力 | 8 页 | 429.42 KB | 1 年前3
共 4 条
- 1