Hadoop高可用（High Availability）

喻师傅

已于 2024-07-30 10:33:11 修改

阅读量1.5k

点赞数 29

CC 4.0 BY-SA版权

分类专栏： Apache Hadoop Apache ZooKeeper 文章标签： hadoop 大数据 HA

于 2024-04-22 00:15:00 首次发布

18 篇文章

订阅专栏

7 篇文章

订阅专栏

本文详细介绍了Hadoop的高可用性(HA)机制，特别是HDFS的DataReplication和HANameNode，以及YARN的ResourceManager和NodeManager的HA策略，通过ZooKeeper协调实现故障转移，消除单点故障，确保7*24不间断服务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop HA（High Availability）

Hadoop 的高可用性，重点是确保存储（HDFS）和计算（YARN）资源在面对节点故障时能够继续正常运行。

在这里插入图片描述

HDFS（Hadoop 分布式文件系统）的高可用性，可以通过数据复制机制和HA NameNode（高可用性 NameNode）来实现。

在这里插入图片描述

HDFS 采用了数据复制的策略来保证数据的高可用性和容错性。具体来说，它有以下特点：

数据块切分：HDFS 将文件切分成固定大小的数据块，通常默认大小为128 MB或更大。这样做的好处是可以更好地管理大文件，并允许并行处理和传输数据块。
数据复制：每个数据块都会被复制到集群中的多个节点上，通常默认情况下会复制到三个节点上。这些节点通常位于不同的机架上，以增加数据的冗余性和容错能力。
副本放置策略：HDFS 会尽量将数据块的副本分布在不同的机架上，以防止在机架级别发生故障时导致数据不可用。同时，HDFS 还会考虑节点的负载和网络拓扑结构来选择最佳的副本放置策略。
副本调度：当某个节点上的数据块副本发生故障或不可访问时，HDFS 会自动从其他节点上的副本进行读取，确保数据的可用性和一致性。

数据复制机制使得即使在节点发生故障时，数据仍然可以从其他节点上的副本读取，从而确保了数据的高可用性和容错性。

在这里插入图片描述

NameNode主要在以下两个方面影响HDFS集群：

（1）NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启。

（2）NameNode机器需要升级，包括软件、硬件升级，此时集群也将无法使用。

在 Hadoop 2.x 版本中引入了高可用性 NameNode（HA NameNode）来解决单点故障问题。

HDFS HA功能通过配置多个NameNodes(Active/Standby)实现在集群中对NameNode的热备来解决上述问题。

在这里插入图片描述

如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将NameNode很快的切换到另外一台机器。

（1）多NameNode 架构：

HA NameNode 由多个独立的 NameNode 组件组成，一个是活动的（Active NameNode），另一些是备份的（Standby NameNode）。（读写分离）

在这里插入图片描述

（2）ZooKeeper 协调：

在这里插入图片描述

（3）自动故障转移：

只有活动 NameNode 才能处理客户端的文件系统操作请求。
备份 NameNode 处于待命状态，并监视活动 NameNode 的状态。
如果活动 NameNode 发生故障或失去联系，备份 NameNode 将自动接管工作，并成为新的活动 NameNode，从而实现了故障转移和高可用性。