| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 摘要 | ||
本文详细介绍了苏宁在用户画像场景中使用ClickHouse的经验与实践。文档首先分析了传统用户画像流程的痛点,包括数据导入时间长、标签更新不实时、资源消耗大以及查询语法不友好等问题。随后,重点介绍了选择ClickHouse的原因,包括其快速的数据处理能力、高效的特性发布、高质量的软件架构、支持高基数查询以及精确去重计数等优势。通过性能测试对比,展示了ClickHouse在4亿数据集上的去重性能表现。最后,总结了ClickHouse在苏宁的应用场景,包括OLAP平台存储引擎、运维监控以及用户画像查询引擎等方面。 | ||
| AI总结 | ||
# 《4. ClickHouse在苏宁用户画像场景的实践》总结
## 背景与痛点
苏宁原有的用户画像平台基于多种技术(如ES、HBase、Redis等),但存在以下问题:
- **标签导入ES时间过长**:需要等待业务数据准备完成。
- **实时性不足**:新增或修改标签无法实时生效。
- **资源消耗大**:ES属于“豪华型配置”,资源占用较高。
- **学习成本高**:ES的DSL语法不友好,用户学习成本较高。
## 选择ClickHouse的原因
1. **速度快**:支持高效的数据处理。
2. **特性发布快**:更新迭代迅速。
3. **软件质量高**:稳定性强。
4. **物化视图**:支持实时聚合分析。
5. **高基数查询**:适用于大规模数据场景。
6. **精确去重计数**:支持精确的去重计算。
## 精确去重性能测试
在4亿多数据集上,测试了多种去重函数:
- **unique(id)**:1.554秒,误差率0.25%。
- **uniqueHLL12(id)**:1.341秒,误差率0.46%。
- **uniqueCombined(id)**:1.613秒,误差率-0.29%。
- **uniqueExact(id)**:50.437秒,误差率0%。
- **groupBitmap(id)**:7.038秒,误差率0%。
ClickHouse的`groupBitmap`和`uniqueExact`函数在精确去重方面表现优异。
## ClickHouse的应用场景
1. **OLAP平台存储引擎**:
- 存储时序数据、Cube加速数据。
- 应用于高基数查询、精确去重场景。
2. **运维监控**:
- 实时聚合分析监控数据,主要使用物化视图技术。
3. **用户画像场景**:
- 标签数据的存储。
- 用户画像查询引擎。
## 总结
苏宁通过引入ClickHouse,解决了原有用户画像平台的痛点,提升了数据处理的实时性、精确性和效率。ClickHouse凭借其高性能、高实时性和强大的去重功能,成为苏宁用户画像场景的核心技术。 | ||
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
20 页请下载阅读 -
文档评分














4. ClickHouse在苏宁用户画像场景的实践