SelectDB案例 从 ClickHouse 到 Apache Doris
Flink 将数据增量更新到 Doris 和 ES 中(利用 Flink 实现进一步的聚合,减轻了 Doris 和 ES 的更新压力)。 加速层:该层主要将大宽表拆为小宽表,根据更新频率配置不同的分区策略,减小 数据冗余带来的存储压力,提高查询吞吐量。Doris 具备多表查询和联邦查询性能 特性,可以利用多表关联特性实现组合查询。 应用层:DataSet 统一指向 Doris,Doris 标签和指标透明统一的定义提升了工作效率、降低了使用成本。 存在的问题: 从架构图可知,标签和指标等数据均处于下游位置,虽然标签与指标在语义层被显式定义, 但仍然无法影响上游链路,数仓层有自己的语义逻辑,加速层有自己的导入配置,这样就造 成了数据管理机制的割裂。 数据架构 4.0 在数据架构 3.0 的基础上,我们对语义层进行更深层次的应用,在数据架构 4.0 中,我们 将语义层变为架构的中枢节点,目标是对所有的指标和标签统一定义,从计算-加速-查询实 触发计算或查询任务。数仓从 DWD 到 DWS 的计算逻 辑将在语义层中进行定义,且以单个指标和标签的形式进行定义,之后由语义层来 发送命令,生成 SQL 命令给数仓层执行计算。 加速层:从语义层接收配置、触发导入任务,比如加速哪些指标与标签均由语义层 指导。 应用层:向语义层发起逻辑查询,由语义层选择引擎,生成物理 SQL。 架构优势: 可以形成统一视图,对于核心指标和标签的定义进行统一查看及管理。0 码力 | 12 页 | 1.55 MB | 1 年前3百度智能云 Apache Doris 文档
前加上关键词:"FILE:"。 关于如何创建文件,请参阅 CREATE FILE 命令文档。 更多支持的自定义参数,请参阅 librdkafka 的官方 CONFIGURATION 文档中,client 端的配置项。如: 1. 使用 SSL 连接 Kafka 时,需要指定以下参数: 其中: 和 为必须,用于指明连接方式为 SSL,以及 CA 证书的位 置。 如果 Kafka server 端开启了 最佳实践 1. 关于指定消费的 Partition 和 Offset Doris 支持指定 Partition 和 Offset 开始消费,还支持了指定时间点进行消费的功能。这里说明下对应参数的配置关系。 有三个相关参数: :指定待消费的 partition 列表,如:"0, 1, 2, 3"。 :指定每个分区的起始offset,必须和 列表个数对应。如:"1000, 1000, 2000 个字节自动补充为排序列。如果自动补充的排序个数小于3个,则 前三个作为排序列。 如果 query 中包含分组列的话,则排序列必须和分组列一致。 properties 声明物化视图的一些配置,选填项。 支持以下配置: timeout: 物化视图构建的超时时间。 Example Example 假设 Base 表结构为: 1. 创建一个仅包含原始表 (k1, k2)列的物化视图 物化视图的0 码力 | 203 页 | 1.75 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
案的比较: MOLAP模式的劣势 1. 应用层模型复杂,根据业务需要以及Kylin生产需要,还要做较多模型预处理。这样在不同 的业务场景中,模型的利用率也比较低。 2. Kylin配置过程繁琐,需要配置模型设计,并配合适当的“剪枝”策略,以实现计算成本与查 询效率的平衡。 3. 由于MOLAP不支持明细数据的查询,在“汇总+明细”的应用场景中,明细数据需要同步到 DBMS引擎来响应交互,增加了生产的运维成本。0 码力 | 8 页 | 429.42 KB | 1 年前3
共 3 条
- 1