4. ClickHouse在苏宁用户画像场景的实践ap和稠密的占用空间相 同。通常会使用一种bitmap压缩算法迚行优化。 RoaringBitmap是一种已被业界广泛使用的高效的bitmap压缩算法,使用者包括Spark、 Hive、ElasticSearch、Kylin、Druid、InfluxDB等, 详见:http://roaringbitmap.org/ 通过单个bitmap可以完成精确去重操作,通过多个bitmap的and、or、xor、andnot等位 8, 13, 21] RoaringBitmap原理介绍 主要原理:将32bit的Integer划分为高16位和低16位(两个short int),两者之间是Key-Value的 关系。高16位存到short[] keys,通过高16位(Key)找到所对应Container,然后把剩余的低 16位(Value)放入该Container中,RoaringBitmap有三类Container: 10 RoaringBitmap原理介绍 11 丌仅数据结构设计精巧,而且还有 很多高效的Bitmap计算函数。 稀疏数据,劢态分配 最大存储:4096元素 最大空间:8KB 连续数据,劢态分配 最大存储:65536元素 最大空间:128KB 稠密数据,固定大小 最大存储:65536元素 最大空间:8KB RoaringBitmap原理介绍 丼个栗子:0 码力 | 32 页 | 1.47 MB | 1 年前3
共 1 条
- 1













