| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 摘要 | ||
HBase 是一个稀疏、分布式、持久化的多维排序映射,类似于 Google 的 Bigtable。它使用 HDFS 进行数据存储,具有分布式和容错特性。HBase 的数据模型基于行、列族和列限定符,支持版本控制和时间戳。其架构包括 HMaster、RegionServer 和 ZooKeeper,用于协调和管理数据。HBase 适用于需要高扩展性和实时读写的应用场景,如时序数据库、图数据库和 OLAP。文档还讨论了 Schema 设计的重要性,包括合理设计 Row Key 和列族以避免热点和提升性能。 | ||
| AI总结 | ||
# HBase 基本介绍
## 1. 概念与特点
- **HBase** 是一个基于 Hadoop 的分布式、可伸缩的数据库,支持随机实时读写,适合处理十亿级行、百万级列的数据。
- 数据模型:稀疏的、分布式的、持久化的多维排序映射。
- **核心特点**:
- 稀疏性:行和列无需固定模式,未使用的值不占用空间。
- 分布式:借助 HDFS 的分布式存储和容错机制,通过 Region 和 ColumnFamily 实现水平和垂直分表,数据分散存储。
- 持久化:数据基于 HDFS 存储,顺序写入磁盘,速度快。
- 按键排序:整体数据模型是一个按行键排序的大 Map。
## 2. 数据模型
- **逻辑视图**:表/行/列结构,包含 Row Key、ColumnFamily(列族)、ColumnQualifier(列限定名)、Timestamp(时间戳)。
- **物理视图**:伪装成 KV 存储,实际存储方式不同于逻辑视图。
- 示例:存储学生考试分数和头像的二进制数据,Row Key 为人名,ColumnFamily 分为“分数”和“图片”。
## 3. 架构组成
- **HMaster**:负责表的元数据管理、Region 分配和恢复。
- **RegionServer**:处理数据的读写请求,存储并管理 Region。
- **ZooKeeper**:协调 HBase 集群的状态信息,如节点健康状态。
- **NameNode/DataNode**:存储 HBase 的数据,RegionServer 和 DataNode 尽量部署在同一台机器。
## 4. 应用场景
- HBase 适用于需要高扩展性和实时读写的场景,如:
- OpenTSDB:时序数据库,用于监控数据。
- JanusGraph:图数据库,用于知识图谱。
- GeoMesa:时空位置数据库。
- Kylin:OLAP 分析,基于 HBase 存储 Cube。
- Phoenix:在 HBase 上实现 SQL 查询。
## 总结
HBase 是一个基于 Hadoop 的分布式数据库,适合处理大规模稀疏数据,支持高并发读写和扩展性,广泛应用于多种场景。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
26 页请下载阅读 -
文档评分














HBase基本介绍