搭建Hadoop伪分布式环境是在单台机器上模拟完整的Hadoop分布式系统,使得所有的Hadoop守护进程(如NameNode、DataNode、ResourceManager、NodeManager等)都在同一台机器上运行。这样可以在一台机器上体验Hadoop的分布式特性,适合学习、测试和开发。以下是搭建Hadoop伪分布式环境的详细步骤:
1.系统准备
硬件要求:
- 一台机器:可以是物理机或虚拟机,具有足够的内存(至少4GB,推荐8GB或更高)和磁盘空间。
软件要求:
- 操作系统:安装Linux发行版,如Ubuntu、CentOS或RHEL。
- Java环境:安装Java Development Kit (JDK) 8或以上版本,并设置
JAVA_HOME
环境变量。
2.安装Hadoop
下载Hadoop:
- 从Apache官方网站或其他可信源下载对应版本的Hadoop二进制包。
- 将下载的Hadoop压缩包上传至目标机器,并解压缩至指定目录(如
/opt
或/usr/local/src
)。
配置环境变量:
- 在用户主目录(如
~/.bashrc
、~/.bash_profile
或/etc/profile
)中添加如下环境变量:
vim /etc/profile
#在结尾添加下面内容
export HADOOP_HOME=/usr/local/src/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
3.设置JDK环境变量
vim /etc/profile
#在结尾添加下面内容
export JAVA_HOME=/usr/local/src/jdk
export PATH=$PATH:$JAVA_HOME/bin
4.配置Hadoop
编辑核心配置文件:
-
core-site.xml
:设置Hadoop全局属性,如HDFS的默认FS URI(fs.defaultFS
)应指向本地的伪分布式模式,例如