全网最细致的 HBase 内核解析_hdfs的namenode和region的关系是什么-CSDN博客

本文链接：https://blog.csdn.net/JavaMonsterr/article/details/125350710

HBase是一个基于Hadoop HDFS的分布式数据库，由Region Server、HMaster和Zookeeper组成。Region Server负责数据读写，HMaster管理Region分配和DDL操作，Zookeeper维护集群状态。数据存储在Region中，按rowkey范围划分。HBase利用Zookeeper进行故障检测和角色切换。读写操作首先通过Meta table定位数据，然后访问Region Server。故障恢复时，WAL用于恢复未持久化的数据。HBase通过Minor和Major Compaction管理HFile，优化存储并删除过期数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HBase 架构组件

物理上，Hbase 是由三种类型的 server 组成的的主从式（master-slave）架构：

Region Server 负责处理数据的读写请求，客户端请求数据时直接和 Region Server 交互。
HBase Master 负责 Region 的分配，DDL（创建，删除 table）等操作。
Zookeeper，作为 HDFS 的一部分，负责维护集群状态。

当然底层的存储都是基于 Hadoop HDFS 的：

Hadoop DataNode 负责存储 Region Server 所管理的数据。所有的 HBase 数据都存储在 HDFS 文件中。Region Server 和 HDFS DataNode 往往是分布在一起的，这样 Region Server 就能够实现数据本地化（data locality，即将数据放在离需要者尽可能近的地方）。HBase 的数据在写的时候是本地的，但是当 region 被迁移的时候，数据就可能不再满足本地性了，直到完成 compaction，才能又恢复到本地。
Hadoop NameNode 维护了所有 HDFS 物理 data block 的元信息。

Regions

HBase 表（Table）根据 rowkey 的范围被水平拆分成若干个 region。每个 region 都包含了这个region 的 start key 和 end key 之间的所有行（row）。Regions 被分配给集群中的某些节点来管理，即 Region Server，由它们来负责处理数据的读写请求。每个 Region Server 大约可以管理 1000 个 regions。