搜索

pdf文档 HBase基本介绍

4.86 MB 33 页 0 下载 162 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
摘要
HBase 是一个稀疏、分布式、持久化的多维排序映射,类似于 Google 的 Bigtable。它使用 HDFS 进行数据存储,具有分布式和容错特性。HBase 的数据模型基于行、列族和列限定符,支持版本控制和时间戳。其架构包括 HMaster、RegionServer 和 ZooKeeper,用于协调和管理数据。HBase 适用于需要高扩展性和实时读写的应用场景,如时序数据库、图数据库和 OLAP。文档还讨论了 Schema 设计的重要性,包括合理设计 Row Key 和列族以避免热点和提升性能。
AI总结
# HBase 基本介绍 ## 1. 概念与特点 - **HBase** 是一个基于 Hadoop 的分布式、可伸缩的数据库,支持随机实时读写,适合处理十亿级行、百万级列的数据。 - 数据模型:稀疏的、分布式的、持久化的多维排序映射。 - **核心特点**: - 稀疏性:行和列无需固定模式,未使用的值不占用空间。 - 分布式:借助 HDFS 的分布式存储和容错机制,通过 Region 和 ColumnFamily 实现水平和垂直分表,数据分散存储。 - 持久化:数据基于 HDFS 存储,顺序写入磁盘,速度快。 - 按键排序:整体数据模型是一个按行键排序的大 Map。 ## 2. 数据模型 - **逻辑视图**:表/行/列结构,包含 Row Key、ColumnFamily(列族)、ColumnQualifier(列限定名)、Timestamp(时间戳)。 - **物理视图**:伪装成 KV 存储,实际存储方式不同于逻辑视图。 - 示例:存储学生考试分数和头像的二进制数据,Row Key 为人名,ColumnFamily 分为“分数”和“图片”。 ## 3. 架构组成 - **HMaster**:负责表的元数据管理、Region 分配和恢复。 - **RegionServer**:处理数据的读写请求,存储并管理 Region。 - **ZooKeeper**:协调 HBase 集群的状态信息,如节点健康状态。 - **NameNode/DataNode**:存储 HBase 的数据,RegionServer 和 DataNode 尽量部署在同一台机器。 ## 4. 应用场景 - HBase 适用于需要高扩展性和实时读写的场景,如: - OpenTSDB:时序数据库,用于监控数据。 - JanusGraph:图数据库,用于知识图谱。 - GeoMesa:时空位置数据库。 - Kylin:OLAP 分析,基于 HBase 存储 Cube。 - Phoenix:在 HBase 上实现 SQL 查询。 ## 总结 HBase 是一个基于 Hadoop 的分布式数据库,适合处理大规模稀疏数据,支持高并发读写和扩展性,广泛应用于多种场景。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 26 页请下载阅读 -
文档评分
请文明评论,理性发言.