pdf文档 6. ClickHouse在众安的实践

4.00 MB 28 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
众安保险在数据查询速度、数据更新效率和灵活性方面面临挑战,通过采用ClickHouse实现实时计算,支持用户灵活定义标签并实时反馈。文档介绍了ClickHouse在百亿级保险数据分析中的应用,包括数据导入、查询性能优化及效果展示。众安集智平台结合多种计算框架和存储系统,构建了大数据、流数据统一建模管理的智能应用平台,支持模型生命周期管理和数据血缘追溯。
AI总结
### 《6. ClickHouse在众安的实践》总结 #### 背景与痛点 众安保险成立于2013年,是中国首家互联网保险公司。其业务特点是场景化、高频化和碎片化。然而,在数据处理方面存在以下痛点: 1. **数据查询慢**:每个查询需5-10分钟。 2. **数据更新慢**:数据更新可能需要数天时间。 3. **不灵活**:用户新标签需求需经过开发人员排期,无法实时反馈。 #### 应用思路 为解决上述痛点,众安利用ClickHouse的高效性能,进行实时计算与查询分析,支持用户灵活定义标签并实时获取反馈。通过将保单表、用户表和用户行为表进行Join,构建了一个包含100+亿行、50+列的数据模型。 #### 系统架构与平台 众安的集智平台(X-Brain)包含以下模块: - **计算框架**:Hadoop、JStorm、Spark Streaming、Flink。 - **数据存储**:Hive、HBase、ClickHouse、Kylin。 - **其他模板与平台**:机器学习平台、机器人平台、数据可视化平台等。 #### 数据导入优化 在数据导入过程中,遇到以下问题: 1. **分区过多**:原有导入方式在百亿级数据下报错。 2. **插入效率慢**:CK-Loader-MR对大数据量支持不足。 **解决方法**: 采用ClickHouse原生`INSERT FORMAT CSV`配合Linux管道导入数据,效果显著: - 单进程:每分钟2600万条记录,导入速率80MB/s。 - 4进程:每分钟8000万条记录,导入速率280MB/s。 #### 性能测试 ClickHouse在百亿数据下的性能测试结果: - 查询速度:某典型查询处理1.32亿行数据,耗时4.48秒,吞吐量为29.47万行/秒,内存占用2.08GB/s。 - 冷数据查询时间:部分场景查询时间延长至250秒,但整体表现仍优异。 #### 效果与价值 通过ClickHouse,众安实现了: 1. **数据查询加速**:查询时间从分钟级降低至秒级。 2. **标签灵活定义**:用户可实时定义标签并快速获取反馈。 3. **数据更新效率提升**:数据更新时间缩短,为业务决策提供支持。 总结而言,ClickHouse在众安的实践中通过高效的实时计算能力、灵活的查询支持以及优化的数据导入方案,显著提升了业务效率与用户体验,为互联网保险行业提供了宝贵的技术参考。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 16 页请下载阅读 -
文档评分
请文明评论,理性发言.