搜索

pdf文档 4. ClickHouse在苏宁用户画像场景的实践

1.47 MB 32 页 2 下载 111 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
摘要
本文详细介绍了苏宁在用户画像场景中使用ClickHouse的经验与实践。文档首先分析了传统用户画像流程的痛点,包括数据导入时间长、标签更新不实时、资源消耗大以及查询语法不友好等问题。随后,重点介绍了选择ClickHouse的原因,包括其快速的数据处理能力、高效的特性发布、高质量的软件架构、支持高基数查询以及精确去重计数等优势。通过性能测试对比,展示了ClickHouse在4亿数据集上的去重性能表现。最后,总结了ClickHouse在苏宁的应用场景,包括OLAP平台存储引擎、运维监控以及用户画像查询引擎等方面。
AI总结
# 《4. ClickHouse在苏宁用户画像场景的实践》总结 ## 背景与痛点 苏宁原有的用户画像平台基于多种技术(如ES、HBase、Redis等),但存在以下问题: - **标签导入ES时间过长**:需要等待业务数据准备完成。 - **实时性不足**:新增或修改标签无法实时生效。 - **资源消耗大**:ES属于“豪华型配置”,资源占用较高。 - **学习成本高**:ES的DSL语法不友好,用户学习成本较高。 ## 选择ClickHouse的原因 1. **速度快**:支持高效的数据处理。 2. **特性发布快**:更新迭代迅速。 3. **软件质量高**:稳定性强。 4. **物化视图**:支持实时聚合分析。 5. **高基数查询**:适用于大规模数据场景。 6. **精确去重计数**:支持精确的去重计算。 ## 精确去重性能测试 在4亿多数据集上,测试了多种去重函数: - **unique(id)**:1.554秒,误差率0.25%。 - **uniqueHLL12(id)**:1.341秒,误差率0.46%。 - **uniqueCombined(id)**:1.613秒,误差率-0.29%。 - **uniqueExact(id)**:50.437秒,误差率0%。 - **groupBitmap(id)**:7.038秒,误差率0%。 ClickHouse的`groupBitmap`和`uniqueExact`函数在精确去重方面表现优异。 ## ClickHouse的应用场景 1. **OLAP平台存储引擎**: - 存储时序数据、Cube加速数据。 - 应用于高基数查询、精确去重场景。 2. **运维监控**: - 实时聚合分析监控数据,主要使用物化视图技术。 3. **用户画像场景**: - 标签数据的存储。 - 用户画像查询引擎。 ## 总结 苏宁通过引入ClickHouse,解决了原有用户画像平台的痛点,提升了数据处理的实时性、精确性和效率。ClickHouse凭借其高性能、高实时性和强大的去重功能,成为苏宁用户画像场景的核心技术。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 20 页请下载阅读 -
文档评分
请文明评论,理性发言.