2. ClickHouse MergeTree原理解析-朱凯专业的数据资源管理 自助分析 价值挖掘 多维探索 灵活 快速 自助 洞察 预警 消息 交互 Agenda. 数据分区 01 / 一级索引&二级索引 02 / 数据存储 03 / 数据标记 04 / 表引擎 表引擎,是ClickHouse设计实现中的一大特色。可以说正是由表引擎,决定了一张 数据表最终的性格,它拥有何种特性、数据以何种形式被存储以及如何被加载。 ClickHou 一级章节目录不会具体对照到每个字的位 置,只会记录每个章节的起始页码。 以默认的索引粒度(8192)为例, MergeTree只需要12208行索引标 记就能为1亿行数据记录索引。 索引粒度 基于索引粒度,将数据标记成多个小的区间 index_granularity,默认8192 索引数据的生成规则 依照索引粒度生成索引,紧凑存储,惜字如金。 PRIMARY KEY ID 索引的查询过程 假如现在有 别由min_compress_block_size(默认65536)与max_compress_block_size(默认1048576)参数指定。 数据标记 数据标记的作用 数据标记作为衔接一级索引和数据桥梁,起作用像极 了做过标记小抄的书签,而且书本中每个一级章节都 拥有各自的书签。 数据标记的工作方式 1字节 * 8192 = 8192字节 64K = 65536字节, 65536 / 8192 = 8) THANKS0 码力 | 35 页 | 13.25 MB | 1 年前3
4. ClickHouse在苏宁用户画像场景的实践返回结果 场景描述 场景:限量发放10万张家电类优惠券,先预估出符合条件的用户数。 操作:用户指定标签及标签间的逡辑关系,统计出符合标签逡辑的人数。 标签表达式,包含标签、算术运算符、逡辑运算符、括号。 整形值,表示符合标签表达式的用户人数 例如: 23 user_number 100000 用户画像场景1—预估人数—示例 画像条件 查询SQL 24 操作:用户指定标签及标签间的逡辑关系,查询出符合标签逡辑的用户ID数据集,然后对数 据集迚行用户画像分析。一条SQL完成人群圈选、用户画像两个劢作。 标签逡辑表达式,包含标签、算术运算符、逡辑运算符、括号。 查询出符合标签表达式的用户ID Bitmap对象, 然后将Bitmap对象不画像表迚行不(AND)操作,返回用户画像信息。 例如: label_name label_value 场景:在筛选出符合条件的用户数后,导出用户ID明细,这样好给他们发优惠券。 操作:用户指定标签及标签间的逡辑关系,查询出符合标签逡辑的用户ID数据集。 标签逡辑表达式,包含标签、算术运算符、逡辑运算符、括号。 用户ID字段,表示符合标签表达式的用户ID集合。 例如: user_list 8 10 11 12 27 用户画像场景3—用户ID清单—示例 画像条件0 码力 | 32 页 | 1.47 MB | 1 年前3
共 2 条
- 1













