HBase基本介绍 - IT文库

语言	格式	评分
中文（简体）	.pdf	3
摘要
HBase 是一个稀疏、分布式、持久化的多维排序映射，类似于 Google 的 Bigtable。它使用 HDFS 进行数据存储，具有分布式和容错特性。HBase 的数据模型基于行、列族和列限定符，支持版本控制和时间戳。其架构包括 HMaster、RegionServer 和 ZooKeeper，用于协调和管理数据。HBase 适用于需要高扩展性和实时读写的应用场景，如时序数据库、图数据库和 OLAP。文档还讨论了 Schema 设计的重要性，包括合理设计 Row Key 和列族以避免热点和提升性能。
AI总结
# HBase 基本介绍 ## 1. 概念与特点 - HBase 是一个基于 Hadoop 的分布式、可伸缩的数据库，支持随机实时读写，适合处理十亿级行、百万级列的数据。 - 数据模型：稀疏的、分布式的、持久化的多维排序映射。 - 核心特点： - 稀疏性：行和列无需固定模式，未使用的值不占用空间。 - 分布式：借助 HDFS 的分布式存储和容错机制，通过 Region 和 ColumnFamily 实现水平和垂直分表，数据分散存储。 - 持久化：数据基于 HDFS 存储，顺序写入磁盘，速度快。 - 按键排序：整体数据模型是一个按行键排序的大 Map。 ## 2. 数据模型 - 逻辑视图：表/行/列结构，包含 Row Key、ColumnFamily（列族）、ColumnQualifier（列限定名）、Timestamp（时间戳）。 - 物理视图：伪装成 KV 存储，实际存储方式不同于逻辑视图。 - 示例：存储学生考试分数和头像的二进制数据，Row Key 为人名，ColumnFamily 分为“分数”和“图片”。 ## 3. 架构组成 - HMaster：负责表的元数据管理、Region 分配和恢复。 - RegionServer：处理数据的读写请求，存储并管理 Region。 - ZooKeeper：协调 HBase 集群的状态信息，如节点健康状态。 - NameNode/DataNode：存储 HBase 的数据，RegionServer 和 DataNode 尽量部署在同一台机器。 ## 4. 应用场景 - HBase 适用于需要高扩展性和实时读写的场景，如： - OpenTSDB：时序数据库，用于监控数据。 - JanusGraph：图数据库，用于知识图谱。 - GeoMesa：时空位置数据库。 - Kylin：OLAP 分析，基于 HBase 存储 Cube。 - Phoenix：在 HBase 上实现 SQL 查询。 ## 总结 HBase 是一个基于 Hadoop 的分布式数据库，适合处理大规模稀疏数据，支持高并发读写和扩展性，广泛应用于多种场景。

来源	tianzhipeng-git.github.io

P1

P2

P3

P4

P5

P6

P7

下载文档到本地，方便使用

- 可预览页数已用完，剩余 26 页请下载阅读 -

文档评分

helloworld

文档

1176

文章

0

码力

320

个性签名

暂无个性签名