SelectDB案例 从 ClickHouse 到 Apache Doris1 从 ClickHouse 到 Apache Doris,腾讯音乐内容库数据平台架构演进实践 2023/02/20SelectDB 用户案例 导读:腾讯音乐内容库数据平台旨在为应用层提供库存盘点、分群画像、指标分析、标签圈 选等内容分析服务,高效为业务赋能。目前,内容库数据平台的数据架构已经从 1.0 演进到 了 4.0 ,经历了分析引擎从 ClickHouse 到 Apache 的替换、经历了数据架构语义层 的初步引入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等 问题,收益显著。本文将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思 考,希望所有读者从文章中有所启发。 作者:腾讯音乐内容库数据平台 张俊、代凯 腾讯音乐娱乐集团(简称“腾讯音乐娱乐”)是中国在线音乐娱乐服务开拓者,提供在线音乐 和以音乐为核心的社交娱乐两大服务。腾讯音乐娱乐在中国有着广泛的用户基础,拥有目前 进行全方位分析, 高效为业务赋能,内容库数据平台旨在集成各数据源的数据,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 掘等的存储和计算都是在 TDW 中进行,内容库数据平台的数据加工链路同样是在腾讯数据 仓库 TDW0 码力 | 12 页 | 1.55 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践iteblog.com 所得的应用场景,美团平台使用Kylin作为公司的主要MOLAP引擎。MOLAP是预计算生产,在增 量业务,预设维度分析场景下表现良好,但在变化维的场景下生产成本巨大。例如,如果使用最 新商家类型回溯商家近三个月的表现,需要重新计算三个月的Cube,需花费几个小时,来计算近 TB的历史数据。另外,应对非预设维度分析,MOLAP模型需要重新进行适配计算,也需要一定的 迭代工作。 明细数据的交互 数据爆炸,每日使用最新维度对历史数据进行回溯计算。在Kylin的MOLAP模式下存在如下问题: 历史数据每日刷新,失去了增量的意义。 每日回溯历史数据量大,10亿+的历史数据回溯。 数据计算耗时3小时+,存储1TB+,消耗大量计算存储资源,同时严重影响SLA的稳定性。 预计算的大量历史数据实际使用率低下,实际工作中对历史的回溯80%集中在近1个月左 右,但为了应对所有需求场景,业务要求计算近半年以上的历史。 不支持明细数据的查询。 不支持明细数据的查询。 解决方案:引入MPP引擎,数据现用现算 既然变化维的历史数据预计算成本巨大,最好的办法就是现用现算,但现用现算需要强大的并行 计算能力。OLAP的实现有MOLAP、ROLAP、HOLAP三种形式,MOLAP以Cube为表现形式,但计 算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来,由于传统关系型DBMS的 数据处理能力有限,所以ROLAP模式受到很大的局限0 码力 | 8 页 | 429.42 KB | 1 年前3
百度智能云 Apache Doris 文档Between操作符 Between操作符 在where从句中,表达式可能同时和上界和下界比较。如果表达式大于等于下界,同时小于等于上界的话,比较的结果是true。 语法: 数据类型:通常expression的计算结果都是数字类型,该操作符也支持其他数据类型。如果必须要确保下界和上界都是可比较 的字符,可以使用cast()函数。 使用说明:如果操作数是string类型时使用时,应该小心些。起始部分为上界的 逻辑操作符返回一个BOOL值,逻辑操作符包括单元操作符和多元操作符,每个操作符处理的参数都是返回值为BOOL值的表达 式。支持的操作符有: AND: 2元操作符,如果左侧和右侧的参数的计算结果都是TRUE,则AND操作符返回TRUE。 OR: 2元操作符,如果左侧和右侧的参数的计算结果有一个为TRUE,则OR操作符返回TRUE。如果两个参数都是FALSE,则 OR操作符返回FALSE。 NOT:单元操作符,反转表达式的结果。 p2, p3) Baidu 百度智能云文档 SQL手册 15 需配合 MEREGE 导入模式一起使用,仅针对 Unique Key 模型的表。用于指定导入数据中表示 Delete Flag 的列和计算 关系。 仅针对 Unique Key 模型的表。用于指定导入数据中表示 Sequence Col 的列。主要用于导入时保证数据顺序。 用于指定例行导入作业的通用参数。 目前我们支持以下参数:0 码力 | 203 页 | 1.75 MB | 1 年前3
Doris的数据导入机制以及原子性保证Doris的性能、可用性、拓 展性进行了全面升级 • 承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型,查询存储 效率大幅提升 • MPP框架,支持分布式计算 2013 • 精简架构、统一用户客户端, 实现高可用 • 正式开始对外提供服务 2015 • 正式开源 • 希望能帮助更多人、让更多 人帮助Doris 2017 • 贡献给Apache社区,更名0 码力 | 33 页 | 21.95 MB | 1 年前3
共 4 条
- 1













