搜索

pdf文档 使用 TiDB 进行实时数据分析-马晓宇

9.32 MB 36 页 0 下载 109 浏览 0 评论 0 收藏
所属分类: 数据库 / TiDB
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档主要介绍了TiDB在实时数据分析中的应用。TiDB是一种分布式数据库,支持高吞吐量和分布式事务,兼容MySQL,支持索引和ACID特性。文档讨论了在实时短读写和长查询场景下的存储格式选择,行存格式适合短读写,列存格式适合长查询。同时,文档提到TiSpark作为TiDB的分布式计算框架,用于处理大表Join和机器学习等任务,解决了仅使用TiDB在复杂查询和资源分配上的不足。
AI总结
# 使用 TiDB 进行实时数据分析总结 ## 1. TiDB 的核心特点 - **分布式数据库**:支持横向扩展,具备高吞吐和高可用性。 - **分布式事务支持**:确保数据一致性。 - **MySQL 兼容性**:支持 SQL 查询、索引和 ACID 事务。 ## 2. 适用场景 ### 实时短读写 - **需求**:高频低延迟响应。 - **优化建议**: - 绕过消息队列,直接写入数据库。 - 使用行存储格式。 - 系统需有资源余量,减少干扰。 ### 实时长查询 - **需求**:快速返回结果。 - **优化建议**:使用列存储格式,集中资源进行计算。 ## 3. 案例分析 - **短读写场景**:TiDB 使用行存储,确保高频操作的稳定性,但分析场景下的 IO 效率较低。 - **长查询场景**:列存储更高效,但与短读写场景无法错峰时,系统性能会受影响。 ## 4. TiDB 的扩展性 - **架构特点**: - 基于 Multi-Raft 的数据分片,支持自动数据调度和扩缩容。 - 协处理器分担计算任务,提升并发能力。 - **优势**:通过增加节点实现线性扩展,适合高并发场景。 ## 5. TiSpark 的作用 - **定位**:TiDB 的分布式计算框架,支持 Apache Spark 生态。 - **功能**: - 处理大表 Join、数据分析和机器学习等任务。 - 支持复杂计算下推和索引优化。 - 提供分布式批量写入能力(WIP)。 ## 6. 注意事项 - **索引使用**:Ad Hoc 查询需优化索引设计。 - **计算任务**:大表 Join 和复杂查询需结合 TiSpark 处理。 - **数据源扩展**:支持与其他数据源(如 Hadoop)联合查询。 ## 7. 总结 TiDB 适用于实时数据分析场景,但需根据具体需求选择存储格式(行存或列存),并通过 TiSpark 扩展处理复杂任务。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 24 页请下载阅读 -
文档评分
请文明评论,理性发言.