3. 数仓ClickHouse多维分析应用实践-朱元
3.03 MB
14 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档介绍了ClickHouse在数仓中的应用实践,包括数据同步、数据模型设计和多维分析。Oracle数据平台通过Kettle每天定时导出文件至本地,随后通过ClickHouse-Client导入ClickHouse数据库。ClickHouse数仓采用星型模型,维度表使用Log引擎和字典表,主题事实清单表使用MergeTree引擎,并采用T+1的数据同步策略。多维分析采用了开源报表系统DaVinci。 | ||
AI总结 | ||
以下是对文档《3. 数仓ClickHouse多维分析应用实践-朱元》的总结:
---
### 1.背景与问题
演讲主题为ClickHouse在数仓中的多维分析应用实践,演讲人为朱元,日期为2019年10月20日。
当前的数仓建设面临以下问题:
- 数据对外开放以主题事实清单表和维度表为主,封装成视图进行展示并支持多维分析。
- 需要解决数据同步、建模和展示等关键环节的技术实现。
---
### 2.数据同步方案
数据来源于Oracle数据平台,通过以下步骤实现同步:
1. 使用Kettle作为可视化同步工具,每日定时从Oracle导出数据文件至本地ETL服务器。
2. 通过ClickHouse-client将文本文件导入ClickHouse数据库。
**选择Kettle的原因**:
- 符合公司T+1的数据要求(次日数据可用)。
- 基于现有开发人员水平及成本考虑。
---
### 3.数仓建模与架构
1. **数据模型**:
- 采用星型模型,分为主题事实清单表和维度表。
2. **表设计**:
- **主题事实清单表**:采用MergeTree引擎,支持增量同步,每日从Oracle同步更新。
- **维度表**:数据量较小,采用Log引擎配合字典表(dictionary)存储。
3. **数据架构**:
- clickhouse数据库与Oracle数据平台通过Kettle和ClickHouse-client完成数据同步。
---
### 4.数据展示与多维分析
采用开源报表系统**Davinci**(项目地址:https://github.com/edp963/davinci)完成数据展示和多维分析,支持业务需求。
---
### 总结
该实践主要围绕ClickHouse在数仓中的应用,通过Kettle实现数据同步,星型模型实现数据建模,Davinci支持数据展示与多维分析,全面解决了数仓建设中的关键问题。 |
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
2 页请下载阅读 -
文档评分