4. ClickHouse在苏宁用户画像场景的实践
1.47 MB
32 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档介绍了苏宁如何在用户画像场景中使用ClickHouse,并结合RoaringBitmap进行高效的用户画像分析。传统的Elasticsearch在标签导入时间、实时性和资源消耗方面存在痛点,ClickHouse通过其高效的数据处理能力和 Bitmap 技术解决了这些问题,实现了快速标签构建、实时更新和友好查询。新架构带来了速度提升、查询友好性和硬件资源节约,同时支持了高基数查询和精确去重。 | ||
AI总结 | ||
《4. ClickHouse在苏宁用户画像场景的实践》文档总结如下:
### 1. ClickHouse集成Bitmap
- ** Bitmap存储与计算**:
- 每个bit位表示一个用户ID,40亿用户ID仅需477MB空间。
- RoaringBitmap压缩算法优化了稀疏Bitmap的空间占用,支持位运算(如AND、OR、XOR、ANDNOT)进行去重、留存分析等场景。
- 行业广泛使用,包括Spark、Hive、ElasticSearch等。
### 2. 用户画像原有流程及痛点
- **原有流程**:
- 数据源(Hive、ElasticSearch、HBase、Redis等)通过Spark关联,存储到ElasticSearch的用户宽表。
- 高频查询数据通过Hbase或Redis加速,实时标签通过Flink计算并写入Redis。
- **痛点**:
- 标签导入ES时间长,依赖业务数据准备。
- 标签新增或修改不支持实时更新。
- ES资源消耗高,配置昂贵。
- ES DSL查询复杂,学习成本高。
### 3. 选择ClickHouse的原因
- **优势**:
- 查询速度快。
- 特性发布频率高。
- 支持物化视图、高基数查询和精确去重计数。
### 4. ClickHouse在苏宁的应用场景
- **OLAP平台**:存储时序数据和_cube加速数据,应用于高基数查询和精确去重场景。
- **运维监控**:实时聚合分析,使用物化视图技术。
- **用户画像**:标签数据存储与查询引擎。
### 5. 用户画像场景实践
- **示例**:
- **人群圈选画像**:通过标签逻辑表达式(包含标签、运算符、括号)查询用户ID集合,進行用户画像分析。
- **预估人数**:通过SQL快速查询符合条件的用户数量。
- **用户ID清单**:基于标签条件生成用户ID列表。
### 6. 新架构优势
- **提升**:
- 标签数据构建速度加快,HDFS文件直接导入ClickHouse。
- 查询响应时间优化,平均在2秒内,复杂查询在10秒内。
- 支持标签实时更新(新增、删除、修改)。
- 标签表达式和查询SQL更友好。
- 资源占用减少,硬件成本节约一半。
### 核心结论
苏宁通过ClickHouse实现了用户画像场景的高效处理,解决了原有ES架构的痛点,显著提升了查询性能、资源利用率和用户体验。 |
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
20 页请下载阅读 -
文档评分