搜索

pdf文档 5. ClickHouse at Ximalaya for Shanghai Meetup 2019 PDF

6.87 MB 28 页 1 下载 118 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了喜马拉雅公司在其业务中应用ClickHouse进行OLAP分析的情况。ClickHouse被用于用户行为分析、用户属性分析以及监控等方面,特别是在处理大规模数据时表现出色。文档还讨论了ClickHouse的性能评估、集成与优化,以及其在提升业务ROI和应用监控中的作用。
AI总结
### ClickHouse 在喜马拉雅的应用总结 #### 1. **背景与选择 ClickHouse 的原因** - **公司背景**:喜马拉雅是中国领先的音频分享平台,面临海量用户行为日志(如页面访问、专辑播放、广告点击)和系统日志的处理需求。 - **选择 ClickHouse 的原因**: - 高性能:利用 SIMD 指令,避免 JVM 的性能瓶颈。 - 线性扩展:支持存储单条原始记录,适合大规模数据分析。 - 支持 SQL:内置 SQL 支持,稳定可靠。 - 开源免费,灵活配置,支持多工作负载隔离。 #### 2. **应用场景** - **用户行为分析**: - 通过“Magic Mirror”项目进行用户行为分析,支持漏斗分析、路径分析和用户留存分析。 - 支持复杂查询(WHERE + GROUP BY),可自由组合50+用户属性。 - **用户特征分析**: - 分析用户属性,如“上海用户中未订阅音乐且为退休人员的年龄分布”。 - **监控与运维**: - 监控应用、JMX 和 JVM 指标。 - 集成 HDFS 审计日志,分析最常访问的 HDFS 目录。 #### 3. **技术实现** - **集成**: - 与 Spark DataFrame 集成,支持 Scala 隐式转换,实现数据流式插入 ClickHouse。 - 分区策略:1:1 分区,避免跨分片写入对性能的影响。 - **架构**: - 采用 ClickHouse 集群架构,支持高并发查询。 - 数据存储与处理:100 亿条页面访问日志与 12 亿条用户属性记录的高效处理。 #### 4. **优化与未来计划** - **优化**: - 提高查询吞吐量和降低延迟。 - 支持多工作负载隔离,通过逻辑集群管理。 - **未来计划**: - 进一步优化漏斗分析。 - 增强 ClickHouse 的功能,提升性能与易用性。 #### 5. **总结** ClickHouse 在喜马拉雅的成功应用主要得益于其高性能、可扩展性和灵活性,满足了海量数据的实时分析需求。未来,喜马拉雅将继续优化 ClickHouse 的使用,进一步提升数据分析能力。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 16 页请下载阅读 -
文档评分
请文明评论,理性发言.