SelectDB案例 从 ClickHouse 到 Apache Doris
表中抽取字段。 加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。 应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题: 数仓层:不支持部分列更新,当上游任一来源表产生延迟,均会造成大宽表延迟, 进而导致数据时效性下降。 具有以下的优势: Apache Doris 的优势: Doris 架构极简易用,部署只需两个进程,不依赖其他系统,运维简单;兼容 MySQL 协议,并且使用标准 SQL。 支持丰富的数据模型,可满足多种数据更新方式,支持部分列更新。 支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查 询分析。 导入方式多样,支持从 术支持团队,在使用过程中遇到问题均能快速得到响应解决。 同时我们也利用 Doris 的特性,解决了架构 1.0 中较为突出的问题。 数仓层:Apache Doris 的 Aggregate 数据模型可支持部分列实时更新,因此我们去 掉了 DWM 集市层的构建,直接增量到 Doris / ES 中构建宽表,解决了架构 1.0 中 上游数据更新延迟导致整个宽表延迟的问题,进而提升了数据的时效性。数据(指0 码力 | 12 页 | 1.55 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
量业务,预设维度分析场景下表现良好,但在变化维的场景下生产成本巨大。例如,如果使用最 新商家类型回溯商家近三个月的表现,需要重新计算三个月的Cube,需花费几个小时,来计算近 TB的历史数据。另外,应对非预设维度分析,MOLAP模型需要重新进行适配计算,也需要一定的 迭代工作。 明细数据的交互 业务分析除了宏观数据之外,对明细数据查询也是一种刚需。通常大家会选择MySQL等关系型DB 作为明细数据的快速检索查询,但当业务成 iteblog.com 下图是MOLAP模式与ROLAP模式下应用方案的比较: MOLAP模式的劣势 1. 应用层模型复杂,根据业务需要以及Kylin生产需要,还要做较多模型预处理。这样在不同 的业务场景中,模型的利用率也比较低。 2. Kylin配置过程繁琐,需要配置模型设计,并配合适当的“剪枝”策略,以实现计算成本与查 询效率的平衡。 3. 由于MOLAP不支持明细数据的查询,在“ 较多的预处理伴随着较高的生产成本。 ROLAP模式的优势 1. 应用层模型设计简化,将数据固定在一个稳定的数据粒度即可。比如商家粒度的星形模型 ,同时复用率也比较高。 2. App层的业务表达可以通过视图进行封装,减少了数据冗余,同时提高了应用的灵活性, 降低了运维成本。 3. 同时支持“汇总+明细”。 4. 模型轻量标准化,极大的降低了生产成本。 综上所述,在变化维、非预设维、细粒度0 码力 | 8 页 | 429.42 KB | 1 年前3百度智能云 Apache Doris 文档
mysql> select * from small_table where tiny_column in (1,2); Baidu 百度智能云文档 SQL手册 8 逻辑操作符 逻辑操作符 逻辑操作符返回一个BOOL值,逻辑操作符包括单元操作符和多元操作符,每个操作符处理的参数都是返回值为BOOL值的表达 式。支持的操作符有: AND: 2元操作符,如果左侧和右侧的参数的计算结果都是TRUE,则AND操作符返回TRUE。 PARTITION(p1, p2, p3) Baidu 百度智能云文档 SQL手册 15 需配合 MEREGE 导入模式一起使用,仅针对 Unique Key 模型的表。用于指定导入数据中表示 Delete Flag 的列和计算 关系。 仅针对 Unique Key 模型的表。用于指定导入数据中表示 Sequence Col 的列。主要用于导入时保证数据顺序。 用于指定例行导入作业的通用参数。 目前我们支持以下参数: 为 example_db 的 example_tbl 创建一个名为 test1 的 Kafka 例行导入任务。并且使用条件过滤。 7. 导入数据到含有 sequence 列的 Unique Key 模型表中 CREATE CREATE ROUTINE ROUTINE LOAD LOAD example_db example_db..test1 test1 ON ON example_tbl0 码力 | 203 页 | 1.75 MB | 1 年前3Doris的数据导入机制以及原子性保证
2009 • 随百度业务飞速发展,对 Doris的性能、可用性、拓 展性进行了全面升级 • 承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型,查询存储 效率大幅提升 • MPP框架,支持分布式计算 2013 • 精简架构、统一用户客户端, 实现高可用 • 正式开始对外提供服务 2015 • 正式开源 • 希望能帮助更多人、让更多0 码力 | 33 页 | 21.95 MB | 1 年前3
共 4 条
- 1