类型声明空间 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

4. ClickHouse在苏宁用户画像场景的实践

60 时长结论： • 整形值精确去重场景，groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重， uniqExact支持任意类型去重。 • 非精确去重场景，uniq在精准度上有优势。 5 0.25 0.46 0.29 0 0 0 0.05 0.1 0.15 0.2 0.25 约477m大小 = （4 * 109 / 8 / 1024 / 1024）但是如果使用上述的数据结构存储单独一个较大数值的数字id，会造成空间上的浪费，例如仅存储40亿一个数值也需要477m的空间。也就是说稀疏的Bitmap和稠密的占用空间相同。通常会使用一种bitmap压缩算法迚行优化。 RoaringBitmap是一种已被业界广泛使用的高效的bitmap压缩算法，使用者包括Spark、丌仅数据结构设计精巧，而且还有很多高效的Bitmap计算函数。稀疏数据，劢态分配最大存储：4096元素最大空间：8KB 连续数据，劢态分配最大存储：65536元素最大空间：128KB 稠密数据，固定大小最大存储：65536元素最大空间：8KB RoaringBitmap原理介绍丼个栗子： 40亿（0xEE6B2800）这个值如何存入RoaringBitmap，以存入Array

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

我们遇到的问题 order by (timestamp, eventType) or order by (eventType, timestamp) 业务场景 1：趣头条和米读的上报数据是按照”事件类型”(eventType)进行区分 2：指标系统分”分时”和”累时”指标 3：指标的一般都是会按照eventType进行区分 select count(1) from table where dt='' chunk of 301989888 bytes), maximum: 9.31 GiB 分析： 1：max_memory_usage指定单个SQL查询在该机器上面最大内存使用量 2：除了些简单的SQL，空间复杂度是O(1) 如: select count(1) from table where column=value select column1, column2 from table where column=value

0 码力 | 14 页 | 1.10 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

Extract Data Representation 20 业务应用实践 iData 2 iData画像服务需要升级 Ø扩展性差数据导入后结果不支持修改/追加 Ø数据类型有限数据类型只能支持数字类型 Ø数据量有限数据量达到10亿级以上查询效率有所降低 Ø单表计算不能进行多表关联计算一切以用户价值为依归 21 业务应用实践 iData 2 为什么选择ClickHouse 4亿数据下钻耗时(单机) clickhosue tgface 一切以用户价值为依归 22 业务应用实践 iData 2 • TDW HIVE SQL • 转换成拓展的列 • 嵌套数据类型 • array 数据类型 {"2000352":"2","2":"4","50":"1","26":"28","31":"42"} {"26":"16"} {"26":"32","1":"2","2000209":"1"}

0 码力 | 26 页 | 3.58 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

型YYYYMMDD格式，则直接按照该整型的字符形式输出作为分区ID的取值。 l 使用日期类型如果分区键取值属于日期类型，或者是能够转换为YYYYMMDD日期格式的整型，则使用按照 YYYYMMDD日期格式化后的字符形式输出作为分区 ID的取值。 l 使用其它类型如果分区键取值既不属于整型，也不属于日期类型，例如String、Float等。则通过128位Hash 算法取其Hash值作为分区ID的取值。 8192 索引数据的生成规则依照索引粒度生成索引，紧凑存储,惜字如金。 PRIMARY KEY ID 索引的查询过程假如现在有一份测试数据，共192行记录。其中，主键ID为String类型， ID的取值从A000、A001、A002，按顺序增长，直至A192为止。 MergeTree的索引粒度index_granularity = 3。索引的查询过程 MergeTree会将此数

0 码力 | 35 页 | 13.25 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

Future Work Future Work v ClickHouse集群容器化，提升物理集群资源使⽤率 v ClickHouse倒排索引调研与改造，提升⽇志检索性能 v 丰富ClickHouse编码类型，拓展zorder应⽤场景，提升圈选计算性能 v ClickHouse存算分离探索，降低集群扩容成本 Q&A

0 码力 | 26 页 | 2.15 MB | 1 年前
3

共 5 条前往

页

ClickHouse 苏宁用户画像场景实践 Clickhouse 玩转每天千亿数据头条腾讯 clickhouse 2019 丁晓坤熊峰 MergeTree 原理解析朱凯海量落地

分类

语言

格式

4. ClickHouse在苏宁用户画像场景的实践

2. Clickhouse玩转每天千亿数据-趣头条

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

2. ClickHouse MergeTree原理解析-朱凯

ClickHouse在B站海量数据场景的落地实践