散列 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

百度智能云 Apache Doris 文档

类型是一个二进制类型。HLL 类型只能用于聚合类型的表（Aggregation Table），并且必须指定聚合类型为 HLL_UNION。 HLL 类型主要用于非精确快速去重场景下，对数据进行预聚合。 HLL列只能通过配套的 hll_union_agg、hll_cardinality、hll_hash 进行查询或使用。 BITMAP 数据类型 BITMAP 数据类型 BITMAP 类型是一个二进制类型。BITMAP on Table），并且必须指定聚合类型为 BITMAP_UNION。 BITMAP 类型主要用于精确去重场景下，对数据进行预聚合。同时也可以用于如用户画像场景存放用户ID等。 BITMAP 列只能通过配套的 BITMAP 函数进行查询和使用。 mysql> select cast(1234 as bigint); mysql> select cast(1234 as bigint); 'M'不会匹配‘MJ’。如果需要确保表达式能够正常work，可以使用一些函数，如upper(), lower(), substr(), trim()。举例: 比较操作符比较操作符比较操作符用来判断列和列是否相等或者对列进行排序。=, !=, <>, <, <=, >, >=可以适用所有数据类型。其中<>符号是不等于的意思,和!=的功能是一样的。IN和BETWEEN操作符提供更简短的表达来描述相等、小于、大小等关系的比较。

0 码力 | 203 页 | 1.75 MB | 1 年前
3
SelectDB案例从 ClickHouse 到 Apache Doris

进行存储，不会有任何预聚合或去重操作，即使两行数据完全相同也都会保留，因此 Duplicate 模型适用于既没有聚合需求，又没有主键唯一性约束的原始数据存储。确定数据模型之后，我们在建表时如何对列进行命名呢？可以直接使用指标或者是标签的名称吗？在使用场景中通常会有以下几个需求： 8  为了更好地表达数据的意义，业务方会有少量修改标签、指标名称的需求。  随着业务表中预先创建适量 ID 列，当标签/指标完成元信息录入后，直接将预留的 ID 分配给新录入的标签/指标，避免在查询高峰期因新增标签/指标所引起的 Schema Change 开销对集群产生的影响。经测试，用户在元信息录入后 10 分钟内就可以使用相应的数据。值得关注的是，在社区近期发布的 1.2.0 版本中，增加了 Light Schema Change 功能，对于增减列的操作不需要修改数据文件，只需要修改点不会发生切换。对于少量 Flink 作业大数据场景会导致选中的 BE 节点负载较高，因此我们尝试对 BE 提交逻辑进行优化，设置每 1 小时缓存一次 BE 列表，每写入一个批次都随机从 BE 缓存列表中获取一个进行提交，这样负载均衡的粒度就从 job 级别细化到每次提交的批次，使得 BE 间负载更加的均衡，这部分实现我们已经贡献到社区，欢迎大家一起使用并反馈。  https://github

0 码力 | 12 页 | 1.55 MB | 1 年前
3
Apache Doris 在美团外卖数仓中的应用实践

对于上图计算PV的SQL，Doris在计算时，会按照下图的方式进行计算，先根据page列和user_id 列group by，最后再Count：显然，上面的计算方式，当数据量越来越大，到几十亿几百亿时，使用的IO资源、CPU资源、内存资源、网络资源会变得越来越多，查询也会变得越来越慢。于是我们在Doris中新增了一种Bitmap聚合指标，数据导入时，相同维度列的数据会使用Bitmap 聚合。有了Bitmap后，Doris中计算精确去重的方式如下：

0 码力 | 8 页 | 429.42 KB | 1 年前
3

共 3 条前往

页

百度智能 Apache Doris 文档 SelectDB 案例 ClickHouse Apache Doris 美团

分类

语言

格式

百度智能云 Apache Doris 文档

SelectDB案例从 ClickHouse 到 Apache Doris

Apache Doris 在美团外卖数仓中的应用实践

分类

语言

格式

百度智能云 Apache Doris 文档

SelectDB案例 从 ClickHouse 到 Apache Doris

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例从 ClickHouse 到 Apache Doris