使用 TiDB 进行实时数据分析-马晓宇 - IT文库

语言	格式	评分
中文（简体）	.pdf	3
摘要
文档主要介绍了TiDB在实时数据分析中的应用。TiDB是一种分布式数据库，支持高吞吐量和分布式事务，兼容MySQL，支持索引和ACID特性。文档讨论了在实时短读写和长查询场景下的存储格式选择，行存格式适合短读写，列存格式适合长查询。同时，文档提到TiSpark作为TiDB的分布式计算框架，用于处理大表Join和机器学习等任务，解决了仅使用TiDB在复杂查询和资源分配上的不足。
AI总结
# 使用 TiDB 进行实时数据分析总结 ## 1. TiDB 的核心特点 - 分布式数据库：支持横向扩展，具备高吞吐和高可用性。 - 分布式事务支持：确保数据一致性。 - MySQL 兼容性：支持 SQL 查询、索引和 ACID 事务。 ## 2. 适用场景 ### 实时短读写 - 需求：高频低延迟响应。 - 优化建议： - 绕过消息队列，直接写入数据库。 - 使用行存储格式。 - 系统需有资源余量，减少干扰。 ### 实时长查询 - 需求：快速返回结果。 - 优化建议：使用列存储格式，集中资源进行计算。 ## 3. 案例分析 - 短读写场景：TiDB 使用行存储，确保高频操作的稳定性，但分析场景下的 IO 效率较低。 - 长查询场景：列存储更高效，但与短读写场景无法错峰时，系统性能会受影响。 ## 4. TiDB 的扩展性 - 架构特点： - 基于 Multi-Raft 的数据分片，支持自动数据调度和扩缩容。 - 协处理器分担计算任务，提升并发能力。 - 优势：通过增加节点实现线性扩展，适合高并发场景。 ## 5. TiSpark 的作用 - 定位：TiDB 的分布式计算框架，支持 Apache Spark 生态。 - 功能： - 处理大表 Join、数据分析和机器学习等任务。 - 支持复杂计算下推和索引优化。 - 提供分布式批量写入能力（WIP）。 ## 6. 注意事项 - 索引使用：Ad Hoc 查询需优化索引设计。 - 计算任务：大表 Join 和复杂查询需结合 TiSpark 处理。 - 数据源扩展：支持与其他数据源（如 Hadoop）联合查询。 ## 7. 总结 TiDB 适用于实时数据分析场景，但需根据具体需求选择存储格式（行存或列存），并通过 TiSpark 扩展处理复杂任务。

来源	github.com/QConChina

P1

P2

P3

P4

P5

P6

P7

P8

P9

P10

P11

P12

下载文档到本地，方便使用

- 可预览页数已用完，剩余 24 页请下载阅读 -

文档评分

copilot

文档

3667

文章

0

码力

900

个性签名

暂无个性签名