SelectDB案例 从 ClickHouse 到 Apache Doris
严重,牵一发而动全身,容易出现集群稳定性问题,对于我们来说,同时维护 ClickHouse 和 Elasticsearch 两套引擎的连接与查询,成本和难度都比较高。 除此之外,ClickHouse 由国外开源,交流具有一定的语言学习成本,遇到问题无法准确反 馈、无法快速获得解决,与社区沟通上的阻塞也是促进我们进行架构升级的因素之一。 数据架构 2.0 3 基于架构 1.0 存在的问题和 ClickHouse 将数据增量更新到 Doris 和 ES 中(利用 Flink 实现进一步的聚合,减轻了 Doris 和 ES 的更新压力)。 加速层:该层主要将大宽表拆为小宽表,根据更新频率配置不同的分区策略,减小 数据冗余带来的存储压力,提高查询吞吐量。Doris 具备多表查询和联邦查询性能 特性,可以利用多表关联特性实现组合查询。 应用层:DataSet 统一指向 Doris,Doris 支持外表查询,利用该特性可对 报错的问题。 数据架构 3.0 针对指标和标签定义口径不统一,数据使用和管理难度较高的问题,我们继续对架构进行升 级。数据架构 3.0 主要的变化是引入了专门的语义层,语义层的主要作用是将技术语言转 换为业务部门更容易理解的概念,目的是将标签 (tag)与指标(metric)变为“一等公民”,作为 数据定义与管理的基本对象。 引入语义层的优势有: 对于技术来说,应用层不再需要创建0 码力 | 12 页 | 1.55 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
应用层模型复杂,根据业务需要以及Kylin生产需要,还要做较多模型预处理。这样在不同 的业务场景中,模型的利用率也比较低。 2. Kylin配置过程繁琐,需要配置模型设计,并配合适当的“剪枝”策略,以实现计算成本与查 询效率的平衡。 3. 由于MOLAP不支持明细数据的查询,在“汇总+明细”的应用场景中,明细数据需要同步到 DBMS引擎来响应交互,增加了生产的运维成本。 4. 较多的预处理伴随着较高的生产成本。 询。 同时支持离线批量导入和实时数据导入。 同时支持明细和聚合查询。 兼容MySQL协议和标准SQL。 支持Rollup Table和Rollup Table的智能查询路由。 支持较好的多表Join策略和灵活的表达式查询。 支持Schema在线变更。 支持Range和Hash二级分区。 4 / 8 Apache0 码力 | 8 页 | 429.42 KB | 1 年前3Doris的数据导入机制以及原子性保证
使用 MySQL 协议定期提交和查看导入作业。 确定导入方式的协议 • 导入方式为同步或异步。 确定导入方式的类型 • 每一批次数据唯一且固定,保证 At-Most-Once 制定 Label 生成策略 • 外部系统需要保证自身的 At-Least-Once,这样就可以保证 导入流程的 Exactly-Once。 程序自身保证 At-Least-Once 多表原子性导入 • 每个表拆分多个任务,并下发BE0 码力 | 33 页 | 21.95 MB | 1 年前3百度智能云 Apache Doris 文档
为了描述字符串字面常量的特殊字符,需要在特殊字符前加入转义字符(\字符)。 \t 表示tab键 \n 表示换行符 \r 表示回车符 \b 表示回退符 \0 表示ASCII码的空字符(和SQL语言的NULL不同) \Z 表示dos 的文本结束符 \%和_用来转义传给LIKE操作符的字符串中的通配符 \\防止反斜线符号被解释成转义字符 如果字符串字面常量被单引号或双引号括起来,则反斜线0 码力 | 203 页 | 1.75 MB | 1 年前3
共 4 条
- 1