pdf文档 4. ClickHouse在苏宁用户画像场景的实践

1.47 MB 32 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档介绍了苏宁如何在用户画像场景中使用ClickHouse,并结合RoaringBitmap进行高效的用户画像分析。传统的Elasticsearch在标签导入时间、实时性和资源消耗方面存在痛点,ClickHouse通过其高效的数据处理能力和 Bitmap 技术解决了这些问题,实现了快速标签构建、实时更新和友好查询。新架构带来了速度提升、查询友好性和硬件资源节约,同时支持了高基数查询和精确去重。
AI总结
《4. ClickHouse在苏宁用户画像场景的实践》文档总结如下: ### 1. ClickHouse集成Bitmap - ** Bitmap存储与计算**: - 每个bit位表示一个用户ID,40亿用户ID仅需477MB空间。 - RoaringBitmap压缩算法优化了稀疏Bitmap的空间占用,支持位运算(如AND、OR、XOR、ANDNOT)进行去重、留存分析等场景。 - 行业广泛使用,包括Spark、Hive、ElasticSearch等。 ### 2. 用户画像原有流程及痛点 - **原有流程**: - 数据源(Hive、ElasticSearch、HBase、Redis等)通过Spark关联,存储到ElasticSearch的用户宽表。 - 高频查询数据通过Hbase或Redis加速,实时标签通过Flink计算并写入Redis。 - **痛点**: - 标签导入ES时间长,依赖业务数据准备。 - 标签新增或修改不支持实时更新。 - ES资源消耗高,配置昂贵。 - ES DSL查询复杂,学习成本高。 ### 3. 选择ClickHouse的原因 - **优势**: - 查询速度快。 - 特性发布频率高。 - 支持物化视图、高基数查询和精确去重计数。 ### 4. ClickHouse在苏宁的应用场景 - **OLAP平台**:存储时序数据和_cube加速数据,应用于高基数查询和精确去重场景。 - **运维监控**:实时聚合分析,使用物化视图技术。 - **用户画像**:标签数据存储与查询引擎。 ### 5. 用户画像场景实践 - **示例**: - **人群圈选画像**:通过标签逻辑表达式(包含标签、运算符、括号)查询用户ID集合,進行用户画像分析。 - **预估人数**:通过SQL快速查询符合条件的用户数量。 - **用户ID清单**:基于标签条件生成用户ID列表。 ### 6. 新架构优势 - **提升**: - 标签数据构建速度加快,HDFS文件直接导入ClickHouse。 - 查询响应时间优化,平均在2秒内,复杂查询在10秒内。 - 支持标签实时更新(新增、删除、修改)。 - 标签表达式和查询SQL更友好。 - 资源占用减少,硬件成本节约一半。 ### 核心结论 苏宁通过ClickHouse实现了用户画像场景的高效处理,解决了原有ES架构的痛点,显著提升了查询性能、资源利用率和用户体验。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 20 页请下载阅读 -
文档评分
请文明评论,理性发言.