CDH节点宕机恢复记录

由于意外,集群中的一个节点系统坏了,重装系统后,把该节点添加集群中,恢复hdfs数据。

思路:主要问题是把hdfs的数据恢复,由于hdfs的机制very good,只要把节点从集群中删掉,再添加进集群中,配置hdfs对应目录就好。

背景:安装的cdh6.2,使用cm界面进行管理
在这里插入图片描述

流程:
1.从集群中删除节点,删除的时候,勾选解除授权。
在这里插入图片描述

2.从主机管理中删除节点
3.走集群添加新节点流程

节点上的一些对应安装配置(略过)
在cm界面中添加新节点
警告一顿猛如虎的操作:在这里插入图片描述

而后面生成的/data2/hadoop/hdfs/data目录权限都是root,修改所属用户和用户组即可(如果权限不一致,修改确保跟正常启动的数据目录权限保持一致),执行如下命令:

chown -R hdfs:hadoop data

新节点ok,hdfs没有任何问题,没有丢块。

节点恢复后,HDFS出现了坏块
在这里插入图片描述
可以使用hdfs fsck / -delete删除hdfs上的坏块,此操作可能会丢失数据,慎用,本场景下不得不用,如果有更好的解决方法,欢迎指点。
在这里插入图片描述
执行hdfs fsck /,发现状态已经变成healthy
在这里插入图片描述
当然,这只是数据允许丢失的情况下可以使用的一种简单粗暴的方法,生产上还是无法使用这种直接删数据的方法的
那么生产上应该怎么处理这种情况呢?
(1)首先hdfs fsck -files -blocks -locations找到数据块的位置和丢失的数据信息
(2)hdfs debug recoverLease [-path ] [-retries ] 用这个命令恢复上面路径丢失的数据块,最后一个参数是重试次数
上面方法来源于
链接:https://www.jianshu.com/p/de16139a11a4

### HDFS NameNode 突然宕机的原因分析 NameNode作为HDFS的核心组件,负责管理文件系统的命名空间以及客户端对文件的访问请求。当NameNode突然宕机时,通常是因为物理机器上的CPU、内存等硬件出现问题[^1]。 具体原因可能包括但不限于: - **硬件故障**:服务器本身的硬件问题可能导致NameNode无法正常工作。 - **软件错误**:操作系统或Java虚拟机中的Bug也可能引发此类事件。 - **配置不当**:如果Hadoop集群配置不合理,则可能会造成资源争用或其他异常情况。 - **外部攻击**:恶意流量冲击或者其他形式的安全威胁同样会影响服务稳定性。 ### 解决方案概述 针对上述提到的各种可能性,可以采取如下措施来预防并处理NameNode意外停机的情况: #### 提高可靠性设计 为了增强NameNode的可用性和容错能力,建议采用官方推荐的方法之一——设置辅助节点(Secondary NameNode 或者 Hot Standby NameNode)来进行定期检查点创建,并保持最新的编辑日志副本[^3]。 此外还可以考虑通过网络文件系统(NFS)实现元数据文件的同时写入操作以确保即使本地磁盘损坏也能从远端恢复最新状态。 #### 故障应急响应流程 一旦发现NameNode已经不可达,应立即执行以下步骤尝试解决问题: 1. 尝试重启当前主机上的NameNode进程; 2. 如果仍然失败则切换到备用实例继续提供读取功能直到主节点恢复正常为止; 3. 对于因某些特定条件触发而产生的临时性崩溃现象,可依据具体情况调整参数优化性能表现; 对于由Secondary NameNode维护的日志备份路径`/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/snn/edits`,可以在必要时候利用其内容重建丢失的数据结构以便尽快让整个分布式存储环境重新上线运作[^4]。 ```bash # 启动备用NameNode服务命令示例 sbin/hadoop-daemon.sh start namenode -backup ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

再难也要坚持

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值