查找算法 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

百度智能云 Apache Doris 文档

kafka_default_offset Baidu 百度智能云文档 SQL手册 22 组合组合行为行为 1 No No No 系统会自动查找topic对应的所有分区并从 OFFSET_END 开始消费 2 No No Yes 系统会自动查找topic对应的所有分区并从 default offset 指定的位置开始消费 3 Yes No No 系统会从指定分区的 OFFSET_END http 下载路径。命令执行成功后，文件将被保存在 Doris 中，该 url 将不再需要。：必须。对文件的分类名，可以自定义。但在某些命令中，会查找指定 catalog 中的文件。比如例行导入中的，数据源为 kafka 时，会查找 catalog 名为 kafka 下的文件。：可选。文件的 md5。如果指定，会在下载文件后进行校验。 Example Example 1. 创建文件 REPLACE_IF_NOT_NULL：非空值替换。和 REPLACE 的区别在于对于null值，不做替换。 HLL_UNION：HLL 类型的列的聚合方式，通过 HyperLogLog 算法聚合。 HLL_UNION：HLL 类型的列的聚合方式，通过 HyperLogLog 算法聚合。 BITMAP_UNION：BIMTAP 类型的列的聚合方式，进行位图的并集聚合。 BITMAP_UNION：BIMTAP 类型的列的聚合方式，进行位图的并集聚合。

0 码力 | 203 页 | 1.75 MB | 1 年前
3
Apache Doris 在美团外卖数仓中的应用实践

如下图所示：技术权衡 MOLAP ：通过预计算，提供稳定的切片数据，实现多次查询一次计算，减轻了查询时的计算压力，保证了查询的稳定性，是“空间换时间”的最佳路径。实现了基于Bitmap的去重算法，支持在不同维度下去重指标的实时统计，效率较高。 ROLAP ：基于实时的大规模并行计算，对集群的要求较高。MPP引擎的核心是通过将数据分散，以实现 CPU、IO、内存资源的分布，来提升并行计算能 can需要的较大的磁盘IO，以及并行导致的高CPU，仍然是资源的短板。因此，高频的大规模汇总统计，并发能力将面临较大挑战，这取决于集群硬件方面的并行计算能力。传统去重算法需要大量计算资源，实时的大规模去重指标对CPU、内存都是一个巨大挑战。目前Doris最新版本已经支持Bitmap算法，配合预计算可以很好地解决去重应用场景。 3 / 8

0 码力 | 8 页 | 429.42 KB | 1 年前
3
SelectDB案例从 ClickHouse 到 Apache Doris

针对这两点，我们进行了以下优化： 11  增加了查询会话变量 es_optimize，以开启优化开关；  数据写入 ES 时，新增 BK 列用来存储主键 ID Hash 后的分桶序号，算法和 Doris 的分桶算法相同（CRC32）；  BE 生成 Bucket Join 执行计划，将分桶序号下发到 BE ScanNode 节点，并下推到 ES；  ES 对查询出的数据进行 Bitmap

0 码力 | 12 页 | 1.55 MB | 1 年前
3

共 3 条前往

页

百度智能 Apache Doris 文档 Apache Doris 美团 SelectDB 案例 ClickHouse

分类

语言

格式

百度智能云 Apache Doris 文档

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例从 ClickHouse 到 Apache Doris

分类

语言

格式

百度智能云 Apache Doris 文档

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例 从 ClickHouse 到 Apache Doris

SelectDB案例从 ClickHouse 到 Apache Doris