在启用了HDFS HA的集群误删了一个NameNode解决实践

最新推荐文章于 2022-09-21 23:11:52 发布

滑冰选手库里

最新推荐文章于 2022-09-21 23:11:52 发布

阅读量548

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop Hive sqoop

本文链接：https://blog.csdn.net/weixin_40096730/article/details/106569799

在启用了HDFS HA的集群，2个NameNode节点上一般都会部署三个角色：NameNode，JournalNode和Failover Controller。在实际生产中，我们有时会碰到一个情况，你不小心删掉了某个NameNode节点上的所有角色包括NameNode，JournalNode和Failover Controller，或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点，然后你想再把这个节点加回去的时候，发现无论如何HDFS服务都没办法正常使用了。本文会在一个HDFS HA的CDH集群中模拟这种情况，然后尝试去解决，即先删除一个NameNode，然后如何通过配置将该NameNode重新加回到HDFS服务中。

测试环境

1.CDH6.1

2.Redhat7.4

3.采用root进行操作

模拟异常

1.首先Fayson准备一个正常的CDH6.1的集群，并且HDFS已经启用了HA。

2.我们停止ip-172-31-9-113.ap-southeast-1.compute.internal节点上的NameNode，JournalNode和Failover Controller服务。

3.删除这三个角色，注意下表已经少了这三个角色。

4.这时HDFS服务直接报错了。

3 个验证错误。
    Quorum Journal 需要至少三个 JournalNode
    Quorum Journal 需要奇数的 Journ

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

滑冰选手库里

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

在CDH集群中启用HDFS的HA

一亩三分地

02-09

2343

在HDFS集群中NameNode存在单点故障（SPOF），对于只有一个NameNode的集群，如果NameNode机器出现意外，将导致整个集群无法使用。为了解决NameNode单点故障的问题，Hadoop给出了HDFS的高可用HA方案，HDFS集群由两个NameNode组成，一个处于Active状态，另一个处于Standby状态。 Active NameNode可对外提供服务...

HDFS NameNode HA架构分析

likaiasddsa的博客

04-29

2287

HDFS NameNode HA架构分析为什么要实现HDFS NameNode HA(High Availability)？HDFS NameNode HA(High Availability)是什么？Namenode HA 如何实现，关键技术难题是什么？HDFS NameNode HA架构分析NameNode 的主备切换实现防止脑裂脑裂出现的原因Fencing的实现NameNode 的共享存储实...

参与评论您还未登录，请先登录后发表或查看评论

cdh集群数据恢复

George的博客

12-01

722

CDH 数据库磁盘坏了所有集群配置都没了而且还没备份 .... 元数据还在 cdh 软件配置和安装软件不能用了下载 apache hadoop 重新配置 namenode datenode journode 加载以前的数据读出来了 .. 强制了 namenode 主把数据迁移到其他节点因为重新 ...

Hadoop-hdfs-ha 模式搭建教程

weixin_41679015的博客

12-09

402

Hadoop-hdfs-ha 模式搭建教程前言： hdfs集群存在问题： 1、NameNode 单点故障 2、NameNode 压力过大，内存受限解决方案：单点故障：高可用方案：HA（High Available） ...

【Hadoop高级】Hadoop HA、hdfs安全模式

BIG BOSS的博客

09-03

358

Hadoop HA Safemode（安全模式） During start up the NameNode loads the file system state from the fsimage and the edits log file. It then waits for DataNodes to report their blocks so that it does not prema...

HDFS 误删HA的namenode后无法启动问题解决

weixin_33827590的博客

01-23

311

HDFS HA

大门的博客

08-20

263

1.hdfs ha架构图梳理 HA使用active NN, standby NN两个节点解决单点问题。两个NN节点通过JN集群，共享状态，通过ZKFC选举active，监控状态，自动备援。 DN会同时向两个NN节点发送心跳。 HDFS 集群介绍 hdfs采用master-slave架构。集群中主要由NameNode、DataNode、Secondary NameNode、fsimage、edi...

HDFS-5节点HA高可用集群搭建

最新发布

07-01

在搭建HA集群之前，需要准备硬件环境，包括5台服务器，其中两台作为namenode（名称节点）来实现主备切换，其余三台作为datanode（数据节点）。每台服务器都应安装有Java环境，并且硬件资源要满足Hadoop运行的要求。 ...

cdh集群hdfs namenode HA

wflh323的专栏

08-09

1232

hdfs namenode的健康关系整个集群是否能正常运行，生产为了集群的高可用必须开启HA。社区版需要手动修改配置文件进行开启。使用cloudera manager只需在界面根据向导执行即可。操作步骤: 1. 在hdfs - 操作 -选择启用HA 2. 填写nameservice名称 3.选择另外一台服务器安装namenode ，三个或5个节点安装journalnod...

0532-6.1-如果你的NameNode服务器坏了并且无法恢复

Hadoop_SC的博客

12-16

1483

1 文档编写目的 Fayson在最近写了很多关于NameNode恢复，或者NameNode角色迁移相关的文章，但都是基于HDFS已经启用HA的情况来操作的包括你将要阅读的本文，这也是Hadoop作为一个生产系统所必须的，当然假如万一你没有启用HDFS HA，涉及单个NameNode的备份恢复或者迁移节点，可以参考Fayson很早之前的一篇文章《NameNode Metadata备份和恢复最佳实践》...

hadoop经典系列(十二)HDFS添加删除节点并进行集群平衡

报喜鸟

12-04

629

HDFS添加删除节点并进行hdfs balance 方式1：静态添加datanode，停止namenode方式 1.停止namenode 2.修改slaves文件，并更新到各个节点 3.启动namenode 4.执行hadoop balance命令。（此项为balance集群使用，如果只是添加节点，则此步骤不需要） -----------------------------...

CDH 问题记录 Nameservice nameservice1 has 2 NameNodes and 1 SecondaryNameNode(s)

qq_15138049的博客

04-19

2222

CDH 问题记录

0527-6.1-如果你不小心删了一个NameNode2

Hadoop_SC的博客

12-16

457

1 文档编写目的在启用了HDFS HA的集群，2个NameNode节点上一般都会部署三个角色：NameNode，JournalNode和Failover Controller。在实际生产中，我们有时会碰到一个情况，你不小心删掉了某个NameNode节点上的所有角色包括NameNode，JournalNode和Failover Controller，或者你不小心通过Cloudera Manager...

【Hadoop】文件删除过程以及Namenode RPC处理请求优化之IBR

m0_37956758的博客

09-21

1138

描述hadoop删除文件过程以及IBR

hadoop namenode启动不了_05326.1如果你的NameNode服务器坏了并且无法恢复

weixin_39904587的博客

11-28

469

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github：https://github.com/fayson/cdhproject提示：代码块部分可以左右滑动查看噢1文档编写目的Fayson在最近写了很多关于NameNode恢复，或者NameNode角色迁移相关的文章，但都是基于HDFS已经启用HA的情况来操作的包括你将要阅读的...

hdfs：不小心删除了NameNode，如何恢复？

不花的花和尚的博客

10-21

1296

https://mp.weixin.qq.com/s?__biz=MzI4OTY3MTUyNg==&mid=2247495873&idx=1&sn=2aa2057c70e954baa3cecd4ab2a8c170&chksm=ec2920c8db5ea9deb61c51a76d2d170df51ff7ff78f4ec9223123ee829791ff199a989b7d9ac&scene=21#wechat_redirect https://cloud.tencen

hadoop namenode启动不了_0532-6.1-如果你的NameNode服务器坏了并且无法恢复

weixin_39843151的博客

11-28

371

1.文档编写目的Fayson在最近写了很多关于NameNode恢复，或者NameNode角色迁移相关的文章，但都是基于HDFS已经启用HA的情况来操作的包括你将要阅读的本文，这也是Hadoop作为一个生产系统所必须的，当然假如万一你没有启用HDFS HA，涉及单个NameNode的备份恢复或者迁移节点，可以参考Fayson很早之前的一篇文章《0360-NameNode Metadata备份和恢复最...

Hadoop Router上线过程 Cannot get available namenode 问题分析

zhangxiping

04-12

1098

在说明这个问题之前，梳理一下router内部的工作流程。 router 内部请求转发流程上图说明如下：第1步：通过访问的路径找到挂载点对应的NameSpace（NS）第2步：通过NS，找到对应的NN 第3步：NN的信息存储在缓存中StateStore 第4步：StateStore启动时，会先加载ZK里面的数据，并且开启一个线程，每隔1分钟去ZK获取最新的记录第5步：在StateStore启动之后，后启动NamenodeHeartbeatService服务，这个服务每个NN 对应一个线程，线程每隔5

CDH6.2.0 CM(Server)、NameNode被误删，元数据恢复

永青技术博客

05-16

1088

一、背景同时手贱，不小心执行 rm -rf /* ，5秒钟内关闭。但是系统基本坏掉，cdh直接down机。 ls 、cd、which 、，，，，各种命令用不了。阿里云服务器没有快照。终端连接不上。可以ping同。。。。不说了。没办法只能初始化，重点是怎么把hdfs的数据恢复。妈的。蛋疼。。。。二、操作 1、初始化节点 2、按cdh安装server节点的方式配置所以的操作 3、在当前节点安装server、agent 4、配置httpd yum -y install ...

hadoop集群结果只有一个namenode节点

03-17

<think>好的，我现在需要解决用户提出的Hadoop集群中只有单个NameNode节点的问题。用户希望配置集群以包含多个NameNode节点，或者排查为什么只显示一个的原因。让我先理清思路。首先，根据用户提供的引用资料，Hadoop的高可用（HA）配置通常使用两个NameNode，一个Active，一个Standby，通过QJM和ZKFC来管理。所以，如果集群只显示一个NameNode，可能是因为没有正确配置HA，或者配置过程中出现了问题。接下来，我需要考虑用户可能遗漏的配置步骤。例如，是否启用了HA？是否正确配置了JournalNodes？ZooKeeper的设置是否正确？这些都是常见的问题点。此外，用户提到引用[3]中提到集群有3个DataNode和2个NameNode，但问题可能出在配置文件的错误，比如hdfs-site.xml中的相关参数是否正确。然后，用户可能需要检查日志文件，查看NameNode的启动情况。如果其中一个NameNode未能成功启动，可能是因为端口冲突，或者资源不足，比如内存分配不够。引用[4]提到两个NameNode都是Standby状态，这可能与ZooKeeper的元数据未初始化有关，需要执行hdfs zkfc -formatZK命令。另外，用户可能没有正确配置自动故障转移，导致虽然有两个NameNode，但无法自动切换状态。需要检查是否启用了自动故障转移，并配置了正确的ZooKeeper地址。此外，网络问题也可能导致节点间通信失败，比如防火墙阻止了必要的端口，如JournalNode的8485端口或ZKFC使用的端口。可能还需要验证配置文件中的NameNode IDs是否正确，避免配置错误导致其中一个节点不被识别。同时，检查启动脚本是否正确，确保两个NameNode都被正确启动，比如在start-dfs.sh之后是否还需要单独启动某个服务。最后，用户可能需要参考官方文档或社区的最佳实践，确保所有配置步骤都被正确执行。如果问题依旧存在，查看日志文件中的错误信息将是最直接的排查方法。</think>### Hadoop集群配置多NameNode节点的解决方案 #### 一、排查当前NameNode数量 1. **通过Web UI验证** 访问默认端口9870的NameNode Web界面（如`http://<namenode-ip>:9870`），在页面顶部检查显示的NameNode角色（Active/Standby）和数量。若只显示单个节点，说明高可用未生效[^3]。 2. **命令行检查** 执行以下命令验证NameNode状态： ```bash hdfs haadmin -getServiceState nn1 # nn1为配置的NameNode逻辑名称 hdfs haadmin -getServiceState nn2 ``` --- #### 二、配置多个NameNode的核心步骤（高可用方案） 1. **前提条件** - 至少2台NameNode服务器 - 奇数个JournalNode（至少3台） - ZooKeeper集群（至少3台） 2. **关键配置文件修改** **`hdfs-site.xml`** 需包含以下参数： ```xml  <property> <name>dfs.nameservices</name> <value>mycluster</value>  </property> <property> <name>dfs.ha.namenodes.mycluster</name> <value>nn1,nn2</value>  </property>  <property> <name>dfs.namenode.rpc-address.mycluster.nn1</name> <value>namenode1-host:8020</value> </property> <property> <name>dfs.namenode.rpc-address.mycluster.nn2</name> <value>namenode2-host:8020</value> </property>  <property> <name>dfs.journalnode.edits.dir</name> <value>/path/to/journalnode/data</value> </property> <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://jn1-host:8485;jn2-host:8485;jn3-host:8485/mycluster</value> </property>  <property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> </property> ``` **`core-site.xml`** 需配置ZooKeeper地址： ```xml <property> <name>ha.zookeeper.quorum</name> <value>zk1-host:2181,zk2-host:2181,zk3-host:2181</value> </property> ``` --- #### 三、常见问题排查 1. **JournalNode未启动** 检查所有JournalNode节点是否运行： ```bash jps | grep JournalNode ``` 需保证至少半数以上节点存活（如3台至少2台在线）。 2. **ZooKeeper元数据未初始化** 若两个NameNode均为Standby状态，执行： ```bash hdfs zkfc -formatZK # 初始化ZK元数据 ``` 随后重启集群：`start-dfs.sh`[^4]。 3. **防火墙/端口限制** 验证以下端口是否开放： - **JournalNode**: 8485 (TCP) - **ZKFC**: 8019-8021 (TCP) - **ZooKeeper**: 2181,2888,3888 (TCP) 4. **日志分析** 检查NameNode日志（`$HADOOP_HOME/logs/hadoop-*-namenode-*.log`），重点关注： - `Failed to connect to JournalNode`（网络问题） - `Cannot lock storage`（元数据目录权限问题） - `No valid quorum`（JournalNode存活数量不足） --- #### 四、性能优化建议若已配置多NameNode但仍出现性能瓶颈（如引用[5]所述），可考虑： 1. **启用联邦架构（HDFS Federation）** 通过多个命名空间横向扩展 2. **调整锁机制参数** 修改`dfs.lock.numretries`和`dfs.lock.retry-interval-ms` 3. **升级硬件配置** 为NameNode分配更多内存（建议≥64GB） ---