SelectDB案例 从 ClickHouse 到 Apache Doris表中抽取字段。 加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。 应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题: 数仓层:不支持部分列更新,当上游任一来源表产生延迟,均会造成大宽表延迟, 进而导致数据时效性下降。 标签和指标透明统一的定义提升了工作效率、降低了使用成本。 存在的问题: 从架构图可知,标签和指标等数据均处于下游位置,虽然标签与指标在语义层被显式定义, 但仍然无法影响上游链路,数仓层有自己的语义逻辑,加速层有自己的导入配置,这样就造 成了数据管理机制的割裂。 数据架构 4.0 在数据架构 3.0 的基础上,我们对语义层进行更深层次的应用,在数据架构 4.0 中,我们 将语义层变为架构的中枢 式进行定义,之后由语义层来 发送命令,生成 SQL 命令给数仓层执行计算。 加速层:从语义层接收配置、触发导入任务,比如加速哪些指标与标签均由语义层 指导。 应用层:向语义层发起逻辑查询,由语义层选择引擎,生成物理 SQL。 架构优势: 可以形成统一视图,对于核心指标和标签的定义进行统一查看及管理。 应用层与物理引擎完成解耦,可进一步对更加灵活易用的架构进行探索:如何对相0 码力 | 12 页 | 1.55 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践外卖实时业务监控有如下特点: 避免分钟级的生产波动影响,业务上10、15分钟准实时数据可以满足分析需要。 实时数据需要与离线数据进行日环比与周同比的比对。 订单业务需要事件时间,体验业务需要生产时间,业务对齐逻辑复杂。 不同业务线需求差异大,指标需要良好扩展性。 由于业务上的复杂性,实时流计算中,需要考虑诸多业务口径的对齐,业务ER模型在合流处理中 开发成本较高,资源占用较大,通过设计基于Doris的准实时生产数仓,可以灵活地实现业务微批 可靠的调度能力:提供5、10、15、30分钟的调度保障能力。 Lambda架构简化:实时数据与离线数据更好的在Doris中进行融合,灵活支撑应用。 高效的OLAP交互 :支撑业务的灵活查询访问,业务层通过视图进行逻辑封装直接复用汇总层多维模型,提高了开 发效率,减少了运维成本。 相比Storm、Flink中的窗口计算,准实时DB微批的优势: Doris引擎在美团的重要改进 Join 谓词下推的传递性优化0 码力 | 8 页 | 429.42 KB | 1 年前3
百度智能云 Apache Doris 文档mysql> select * from small_table where tiny_column in (1,2); Baidu 百度智能云文档 SQL手册 8 逻辑操作符 逻辑操作符 逻辑操作符返回一个BOOL值,逻辑操作符包括单元操作符和多元操作符,每个操作符处理的参数都是返回值为BOOL值的表达 式。支持的操作符有: AND: 2元操作符,如果左侧和右侧的参数的计算结果都是TRUE,则AND操作符返回TRUE。 在执行时间和执行成功率之间做出平衡。 一般建议一个查询计划扫描的数据量在 3-5 GB内。 内存限制 内存限制 通常一个 Export 作业的查询计划只有 两部分,不涉及需要太多内存的计算逻辑。所以通常 2GB 的默认内存限制可 以满足需求。 但在某些场景下,比如一个查询计划,在同一个 BE 上需要扫描的 Tablet 过多,或者 Tablet 的数据版本过多时,可能会导致内 存不足。此时需要通过这个0 码力 | 203 页 | 1.75 MB | 1 年前3
共 3 条
- 1













