百度智能云 Apache Doris 文档kafka_default_offset Baidu 百度智能云文档 SQL手册 22 组合 组合 行为 行为 1 No No No 系统会自动查找topic对应的所有分区并从 OFFSET_END 开始消费 2 No No Yes 系统会自动查找topic对应的所有分区并从 default offset 指定的位置开始消费 3 Yes No No 系统会从指定分区的 OFFSET_END http 下载路径。命令执行成功后,文件将被保存在 Doris 中,该 url 将不再需要。 :必须。对文件的分类名,可以自定义。但在某些命令中,会查找指定 catalog 中的文件。比如例行导入中 的,数据源为 kafka 时,会查找 catalog 名为 kafka 下的文件。 :可选。文件的 md5。如果指定,会在下载文件后进行校验。 Example Example 1. 创建文件 REPLACE_IF_NOT_NULL:非空值替换。和 REPLACE 的区别在于对于null值,不做替换。 HLL_UNION:HLL 类型的列的聚合方式,通过 HyperLogLog 算法聚合。 HLL_UNION:HLL 类型的列的聚合方式,通过 HyperLogLog 算法聚合。 BITMAP_UNION:BIMTAP 类型的列的聚合方式,进行位图的并集聚合。 BITMAP_UNION:BIMTAP 类型的列的聚合方式,进行位图的并集聚合。0 码力 | 203 页 | 1.75 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践如下图所示: 技术权衡 MOLAP :通过预计算,提供稳定的切片数据,实现多次查询一次计算,减轻了查询时的计算压力,保证 了查询的稳定性,是“空间换时间”的最佳路径。实现了基于Bitmap的去重算法,支持在不同维度 下去重指标的实时统计,效率较高。 ROLAP :基于实时的大规模并行计算,对集群的要求较高。MPP引擎的核心是通过将数据分散,以实现 CPU、IO、内存资源的分布,来提升并行计算能 can需要的较大的磁盘IO,以及并行导致的高CPU,仍然是资源的短板。因此,高频的大规模汇 总统计,并发能力将面临较大挑战,这取决于集群硬件方面的并行计算能力。传统去重算法需要 大量计算资源,实时的大规模去重指标对CPU、内存都是一个巨大挑战。目前Doris最新版本已经 支持Bitmap算法,配合预计算可以很好地解决去重应用场景。 3 / 80 码力 | 8 页 | 429.42 KB | 1 年前3
SelectDB案例 从 ClickHouse 到 Apache Doris针对这两点,我们进行了以下优化: 11 增加了查询会话变量 es_optimize,以开启优化开关; 数据写入 ES 时,新增 BK 列用来存储主键 ID Hash 后的分桶序号,算法和 Doris 的分桶算法相同(CRC32); BE 生成 Bucket Join 执行计划,将分桶序号下发到 BE ScanNode 节点,并下推到 ES; ES 对查询出的数据进行 Bitmap0 码力 | 12 页 | 1.55 MB | 1 年前3
共 3 条
- 1













