hbase hyperbase 区别_我终于看懂了HBase，太不容易了...-CSDN博客

本文介绍了Apache HBase，一个基于HDFS的分布式、可伸缩的大数据存储系统。HBase是NoSQL数据库，适用于处理海量数据，提供高并发随机写入和实时查询功能。相较于其他数据存储解决方案，如MySQL、Redis和Elasticsearch，HBase在处理大量数据和实时查询方面更具优势。文章详细讨论了HBase与HDFS的区别、为何选择HBase、HBase的列式存储、Key-Value结构以及HBase的架构，包括HRegionServer、HMaster的角色，并探讨了RowKey设计的重要性，以避免数据热点问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

在我还不了解分布式和大数据的时候已经听说过HBase了，但对它一直都半知不解，这篇文章来讲讲吧。

在真实生活中，最开始听到这个词是我的一场面试，当年我还是个『小垃圾』，现在已经是个『大垃圾』了。

面试官当时给了一个场景题问我，具体的题目我忘得差不多了，大概就是考试与试题的一个场景，问我数据库要如何设计。

我答了关系型数据库的设计方案，他大概说：这个场景比较复杂多变，为什么不考虑一下HBase这种NoSQL的数据库来存储呢？

我就说：“对对对，可以的” (虽然我当时不知道HBase是什么，但是气势一定要有，你们说是不是)

最后面试官还是给我发了offer，但我没去，原因就是离家太远了。

一、介绍HBase

Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.

HBase is a type of "NoSQL" database.

Apache HBase 是 Hadoop 数据库，一个分布式、可伸缩的大数据存储。

HBase是依赖Hadoop的。为什么HBase能存储海量的数据？因为HBase是在HDFS的基础之上构建的，HDFS是分布式文件系统。

二、为什么要用HBase

截至到现在，三歪已经学了不少的组件了，比如说分布式搜索引擎「Elasticsearch」、分布式文件系统「HDFS」、分布式消息队列「Kafka」、缓存数据库「Redis」等等...

能够处理数据的中间件(系统)，这些中间件基本都会有持久化的功能。为什么？如果某一个时刻挂了，那还在内存但还没处理完的数据不就凉了？

Redis有AOF和RDB、Elasticsearch会把数据写到translog然后结合FileSystemCache将数据刷到磁盘中、Kafka本身就是将数据顺序写到磁盘....

这些中间件会实现持久化(像HDFS和MySQL我们本身就用来存储数据的)，为什么我们还要用HBase呢？

虽然没有什么可比性，但是在学习的时候总会有一个疑问：「既然已学过的系统都有类似的功能了，那为啥我还要去学这个玩意？」

三歪是这样理解的：

MySQL？MySQL数据库我们是算用得最多了的吧？但众所周知，MySQL是单机的。MySQL能存储多少数据，取决于那台服务器的硬盘大小。以现在互联网的数据量，很多时候MySQL是没法存储那么多数据的。

比如我这边有个系统，一天就能产生1TB的数据，这数据是不可能存MySQL的。(如此大的量数据，我们现在的做法是先写到Kafka，然后落到Hive中)

Kafka？Kafka我们主要用来处理消息的(解耦异步削峰)。数据到Kafka，Kafka会将数据持久化到硬盘中，并且Kafka是分布式的(很方便的扩展)，理论上Kafka可以存储很大的数据。但是Kafka的数据我们不会「单独」取出来。持久化了的数据，最常见的用法就是重新设置offset，做「回溯」操作

Redis？Redis是缓存数据库，所有的读写都在内存中，速度贼快。AOF/RDB存储的数据都会加载到内存中，Redis不适合存大量的数据(因为内存太贵了！)。

Elasticsearch？Elasticsearch是一个分布式的搜索引擎，主要用于检索。理论上Elasticsearch也是可以存储海量的数据(毕竟分布式)，我们也可以将数据用『索引』来取出来，似乎已经是非常完美的中间件了。

但是如果我们的数据没有经常「检索」的需求，其实不必放到Elasticsearch，数据写入Elasticsearch需要分词，无疑会浪费资源。

HDFS？显然HDFS是可以存储海量的数据的，它就是为海量数据而生的。它也有明显的缺点：不支持随机修改，查询效率低，对小文件支持不友好。

上面这些技术栈三歪都已经写过文章了。学多了你会发现它们的持久化机制都差不太多，有空再来总结一下。

文中的开头已经说了，HBase是基于HDFS分布式文件系统去构建的。换句话说，HBase的数据其实也是存储在HDFS上的。