(1)本项目采用 3 台虚拟机(操作系统:CentOS 8.5 简体中文版,配置:4GB 内存、50GB 硬盘、双核 CPU)搭建集群,Hadoop 版本选用 3.3.4(2022 年发布,符合近 5 年要求),节点角色分配如下: ①主节点(NameNode/ResourceManager):主机名 node1,IP 192.168.1.10,负责集群资源调度与元数据管理;从节点(DataNode/NodeManager):node2(192.168.1.11)、node3(192.168.1.12),负责数据存储与计算任务执行。 ②部署核心步骤: 第一步,配置 SSH 免密登录:在 node1 执行 “ssh-keygen -t rsa” 生成密钥,通过 “ssh-copy-id node2”“ssh-copy-id node3” 分发公钥,确保主节点无密码访问从节点; 第二步,安装 JDK 1.8:解压安装包至 /usr/local/jdk,配置环境变量(vi /etc/profile,添加 “export JAVA_HOME=/usr/local/jdk”“export PATH=PATH:JAVA_HOME/bin”),执行 “source /etc/profile” 生效; 第三步,修改 Hadoop 配置文件:在 core-site.xml 中配置 HDFS 默认路径(hdfs://node1:9000),hdfs-site.xml 中设置副本数为 2(适配 2 个从节点),mapred-site.xml 指定 MapReduce 框架为 YARN,yarn-site.xml 配置资源管理器地址(node1:8032),并在 workers 文件中添加 node2、node3; 第四步,格式化与启动:执行 “hdfs namenode -format” 初始化 HDFS,通过 “start-dfs.sh” 启动 HDFS 服务、“start-yarn.sh” 启动 YARN 服务。 (2)集群验证:访问http://192.168.1.10:9870(HDFS 界面),显示 2 个 DataNode 在线,存储空间使用率 < 10%;访问http://192.168.1.10:8088(YARN 界面),集群状态为 “RUNNING”;执行 “hdfs dfs -mkdir /user/data” 创建目录,上传测试文件后执行 “hdfs dfs -ls /user/data” 可查看,确认集群功能正常。操作成功截图
时间: 2025-09-04 21:12:27 AIGC 浏览: 6
由于无法直接提供截图,下面详细说明在3台CentOS 8.5简体中文版虚拟机(4GB内存、50GB硬盘、双核CPU)上搭建Hadoop 3.3.4完全分布式集群,各操作步骤可能需要截图的地方及大致内容:
### SSH免密登录
在主节点(node1)上生成密钥对,然后将公钥分发到从节点(node2、node3)。操作后,可通过在node1上使用`ssh node2`和`ssh node3`命令测试免密登录是否成功,成功后可截取终端中无需输入密码直接登录到从节点的界面。
```bash
# 在node1上生成密钥对
ssh-keygen -t rsa
# 将公钥分发到node2和node3
ssh-copy-id node2
ssh-copy-id node3
```
### JDK 1.8安装
在3台虚拟机上安装JDK 1.8后,配置环境变量。可通过`java -version`命令查看JDK版本,截取显示JDK 1.8版本信息的终端界面。
```bash
# 配置环境变量
echo 'export JAVA_HOME=/path/to/jdk1.8' >> ~/.bashrc
echo 'export PATH=$JAVA_HOME/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
```
### Hadoop配置文件修改
在主节点(node1)上修改Hadoop的相关配置文件,如`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`、`yarn-site.xml`等。修改完成后,可截取配置文件的内容界面。
```xml
<!-- core-site.xml示例 -->
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://node1:9000</value>
</property>
</configuration>
```
### 格式化启动
在主节点(node1)上格式化HDFS文件系统,然后启动Hadoop集群。可截取格式化命令的执行过程和启动命令的输出界面。
```bash
# 格式化HDFS
hdfs namenode -format
# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh
```
### 集群验证
通过访问NameNode的Web UI(`http://node1:9870`)和ResourceManager的Web UI(`http://node1:8088`),查看集群的运行状态。可截取这两个Web界面,展示HDFS和YARN的运行情况。
### 进程查看
在3台虚拟机上使用`jps`命令查看Hadoop进程,确保各节点上的进程正常启动。可截取各节点上`jps`命令的输出界面。
```bash
# 在node1上查看进程
jps
```
阅读全文
相关推荐

















