Apache Doris 在美团外卖数仓中的应用实践右,但为了应对所有需求场景,业务要求计算近半年以上的历史。 不支持明细数据的查询。 解决方案:引入MPP引擎,数据现用现算 既然变化维的历史数据预计算成本巨大,最好的办法就是现用现算,但现用现算需要强大的并行 计算能力。OLAP的实现有MOLAP、ROLAP、HOLAP三种形式,MOLAP以Cube为表现形式,但计 算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来,由于传统关系型DBMS的 数据处理 当业务分析维度灵活多变或者特定到最新的状态时(如上图A模型中,始终使用最新的 商家组织归属查看历史),预计算回溯历史数据成本巨大。在这种场景下,将数据稳定在商家的 粒度,通过现场计算进行历史数据的回溯分析,实现现用现算,可以节省掉预计算的巨大成本, 并带来较大的应用灵活性。这种情况下适合MPP引擎支撑下的ROLAP生产模式。 MPP引擎的选型 目前开源的比较受关注的OLAP引擎很多,比如Greenplum、Apache 算时,会按照下图的方式进行计算,先根据page列和user_id 列group by,最后再Count: 显然,上面的计算方式,当数据量越来越大,到几十亿几百亿时,使用的IO资源、CPU资源、内 存资源、网络资源会变得越来越多,查询也会变得越来越慢。 于是我们在Doris中新增了一种Bitmap聚合指标,数据导入时,相同维度列的数据会使用Bitmap 聚合。有了Bitmap后,Doris中计算精确去重的方式如下:0 码力 | 8 页 | 429.42 KB | 1 年前3
百度智能云 Apache Doris 文档两部分,不涉及需要太多内存的计算逻辑。所以通常 2GB 的默认内存限制可 以满足需求。 但在某些场景下,比如一个查询计划,在同一个 BE 上需要扫描的 Tablet 过多,或者 Tablet 的数据版本过多时,可能会导致内 存不足。此时需要通过这个 参数设置更大的内存,比如 4GB、8GB 等。 注意事项 注意事项 不建议一次性导出大量数据。一个 Export 作业建议的导出数据量最大在几十 GB。过大的导出会导致更多的垃圾文件和更高 numeric val val)) Baidu 百度智能云文档 SQL手册 95 功能:该聚合函数返回集合中的平均数。该函数只有1个参数,该参数可以是数字类型的列,返回值是数字的函数,或者计 算结果是数字的表达式。包含NULL值的行将被忽略。如果该表是空的或者AVG 的参数都是NULL,则该函数返回NULL。当查 询指定使用 从句时,则每个 的值都会返回1条结果。 返回类型: double类型0 码力 | 203 页 | 1.75 MB | 1 年前3
SelectDB案例 从 ClickHouse 到 Apache Doris支持数据转冷, 在 SSD 中仅存储最近 7 天的数据,并将 7 天之前的数据转存到 到 HDD 中,以降低存储成本; 标签上下线,将低价值标签和指标下线处理后,后续数据不再写入,减少写入和存 储代价。 2、降低数据链路成本。 Doris 架构非常简单,只有 FE 和 BE 两类进程,不依赖其他组件,并通过一致性协议来保 证服务的高可用和数据的高可靠,自动故障修复,运维起来比较容易;0 码力 | 12 页 | 1.55 MB | 1 年前3
共 3 条
- 1













