Linux下Hadoop的分布式配置和使用.doc资源-CSDN下载

版权申诉

59 浏览量 2022-06-26 09:24:31 上传评论收藏 851KB DOC 举报

【Linux下Hadoop的分布式配置和使用】在互联网领域，Hadoop是一个广泛使用的开源框架，用于处理和存储大规模数据。它构建在Java语言上，主要由Apache软件基金会维护。本文档将详细介绍如何在Linux环境下配置和使用Hadoop的分布式系统。 ### 1. 集群网络环境介绍在部署Hadoop集群前，你需要确保所有节点间网络连通，并且能互相识别。这通常意味着节点间的ping测试应是畅通的，且每个节点的主机名和IP地址对应关系需明确。 ### 2. `/etc/hosts` 文件配置在所有节点上，都需要在`/etc/hosts`文件中添加所有节点的主机名和IP地址映射，以便节点间能够通过主机名进行通信。例如： ``` 192.168.1.1 namenode 192.168.1.2 datanode1 192.168.1.3 datanode2 ... ``` ### 3. SSH无密码验证配置为了实现Hadoop集群的自动化操作，需要配置SSH无密码登录。有以下两种配置方式： #### 2.1 选择一：配置Namenode无密码登录所有Datanode 在Namenode节点上生成公钥和私钥对，然后将公钥复制到所有Datanode节点的`.ssh/authorized_keys`文件中。 #### 2.2 选择二：配置所有节点之间SSH无密码验证在所有节点上执行相同的操作，生成公钥私钥对并相互复制公钥，使得所有节点间可以无密码登录。 ### 4. JDK安装和Java环境变量配置 Hadoop依赖Java运行，因此需要安装JDK 1.6或更高版本。安装步骤如下： #### 3.1 安装JDK 1.6 首先下载JDK安装包，然后解压到指定目录，例如`/usr/local/java`。接着设置环境变量`JAVA_HOME`、`JRE_HOME`、`PATH`和`CLASSPATH`，确保Java可执行文件和库路径被正确引用。 #### 3.2 Java环境变量配置在`~/.bashrc`或`/etc/profile`文件中添加以下内容： ```bash export JAVA_HOME=/usr/local/java/jdk1.6.0_XX export JRE_HOME=$JAVA_HOME/jre export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar source ~/.bashrc ``` ### 5. Hadoop集群配置下载Hadoop源码或发行版，解压后配置`conf`目录下的配置文件。主要包括`hdfs-site.xml`（HDFS配置）、`mapred-site.xml`（MapReduce配置）和`core-site.xml`（核心配置）。主要配置项有： - `dfs.replication`：数据块副本数，默认3。 - `dfs.namenode.name.dir`：Namenode的数据目录。 - `dfs.datanode.data.dir`：Datanode的数据目录。 - `mapreduce.framework.name`：默认为`yarn`，表示使用YARN作为资源管理器。此外，还需要在所有节点上配置`slaves`文件，列出所有Datanode的主机名。 ### 6. Hadoop集群启动在Namenode节点上启动Hadoop服务，顺序通常为：`hadoop-daemon.sh start dfs`（启动HDFS）和`yarn-daemon.sh start resourcemanager`（启动YARN资源管理器）。接着在Datanode节点上启动Datanode和NodeManager：`hadoop-daemon.sh start datanode` 和 `yarn-daemon.sh start nodemanager`。 ### 7. Hadoop使用 #### 6.1 客户机与HDFS进行交互要在客户端与HDFS交互，需要在客户机上配置`hadoop.conf`目录，包含相同的配置文件。然后可以通过`hadoop fs`命令进行操作。 #### 6.1.1 客户机配置确保客户机的`hadoop.conf`目录与集群中的配置一致，包括`hadoop-env.sh`、`core-site.xml`、`hdfs-site.xml`等。 #### 6.1.2 列出HDFS根目录`/`下的文件在命令行输入： ``` hadoop fs -ls / ``` #### 6.1.3 列出当前用户主目录下的文件 ``` hadoop fs -ls /user/username ``` 以上就是Linux环境下Hadoop分布式配置和使用的详细步骤。通过这些配置，你可以建立一个基础的Hadoop集群，并进行大数据处理任务。在实际应用中，还可能涉及到更复杂的配置，如安全认证、高可用性设置等，这需要根据具体需求进行深入研究和配置。

资源推荐

资源详情

资源评论

 下  的分布式配置和使用
 下  分布式配置和使用（适用于 
及以后版本）
詹坤林   年  月
目   录
介绍 
集群网络环境介绍 
 文件配置 
 无密码验证配置 
选择一：配置  无密码登录所有 
 选择二：配置所有节点之间  无密码验证
 安装和  环境变量配置 
安装  
 环境变量配置 
 集群配置 
 集群启动 
 使用 
客户机与  进行交互 
客户机配置 
列出  根目录下的文件 
列出当前用户主目录下的文件
 用户管理 
复制本地数据到  中 
数据副本说明 
 !"# 参数说明 
 中的路径 
 相关命令 
客户机提交作业到集群 
客户机配置 
一个测试例子 $%&' 
编写  应用程序并在集群上运行
三种模式下编译运行  应用程序
提交多个作业到集群(
附 程序 (


 下  的分布式配置和使用

介绍

这是本人在完全分布式环境下在 & ) 中配置  ( 时的总结文

档，但该文档也适合其他版本的 *!'" 系统和目前各版本的 + 

之后的版本配置文件  !"# 被拆分成了三个 % !"#，, !"#

和 % !"#，这里会说明  后的版本中如何配置这三个文件-。

 配置建议所有配置文件中使用主机名进行配置，并且机器上应在防

火墙中开启相应端口，并设置  服务为开机启动，此外 . 环境变量可以在

%/# 中配置。

0 集群网络环境介绍

集群包含三个节点： 个 ， 个 ，节点之间局域网

连接，可以相互  通。节点  地址和主机名分布如下：







所有节点均是  系统，防火墙均禁用，sshd 服务均开启并设置为

开机启动。

所有节点上均创建了一个 ! 用户，用户主目录是"!"!。

所有节点上均创建了一个目录"#$"%%"!，并且拥有者是 !

用户。因为该目录用于安装 !，用户对其必须有 $& 权限。（一般做法

是 $ 用户在 "#$"%% 下创建 ! 目录，并修改该目录拥有者为

!'!&()!*!"#$"%%"!+。

1 /etc/hosts 文件配置

'+ 节点上编辑""!## 文件

将所有节点的名字和  地址写入其中，写入如下内容，注意注释掉

 行，保证内容如下：







,#%%!#%%%%!#

'+将 - 上的""!## 文件复制到所有数据节点上，操作步骤

如下*

$ 用户登录 ；



 下  的分布式配置和使用

执行命令：#""!##$.*""!##

2 SSH 无密码验证配置

 需要使用  协议，  将使用  协议启动

 和  进程， 向  传递心跳信息可能

也是使用  协议，这是我认为的，还没有做深入了解， 之间可能

也需要使用  协议。假若是，则需要配置使得所有节点之间可以相互 

无密码登陆验证。下面给出了两种配置方式，用户可以选择第一种，若实验中

出现问题可选择第二种进行尝试。

选择一：配置 - 无密码登录所有 /

'+原理

- 作为客户端，要实现无密码公钥认证，连接到服务端

 上时，需要在  上生成一个密钥对，包括一个公钥和一

个私钥，而后将公钥复制到  上。当  通过 ##! 连接

 时， 就会生成一个随机数并用  的公钥对随

机数进行加密，并发送给 。 收到加密数之后再用私钥

进行解密，并将解密数回传给 ， 确认解密数无误之后就

允许  进行连接了。这就是一个公钥认证过程，其间不需要用户手

工输入密码。重要过程是将客户端  公钥复制到  上。

所有机器上生成密码对，所有节点上执行以下命令*

##!01$#

2$3%"$$#01$

4$5%&!!#!01'"!"!"##!"6$#+*默认路径

4$##!$#'17$##!$#+*回车，空密码

4$###!$#*

8$5!#3#"!"!"##!"6$#

8$3%01!#3#"!"!"##!"6$#3

这将在 "!"!"##!" 目录下生成一个私钥 6$# 和一个公钥

6$#3。

在  节点上做如下配置

6$#3!$9601# 的公钥

使用  协议将  的公钥信息 !$9601# 复制到所有

/- 的##! 目录下。

#!$9601# 节点  地址*"!"!"##!

这样配置过后， 可以无密码登录所有 ，可以通过命

令

:##!节点  地址”来验证。

配置完毕，在  上执行“##!本机，所有数据节点”命令，因为



 下  的分布式配置和使用

##! 执行一次之后将不会再询问。

 选择二：配置所有节点之间  无密码验证

'+原理

节点 ; 要实现无密码公钥认证连接到节点 < 上时，节点 ; 是客户端，节点

< 是服务端，需要在客户端 ; 上生成一个密钥对，包括一个公钥和一个私钥，

而后将公钥复制到服务端 < 上。当客户端 ; 通过 ##! 连接服务端 < 时，服务端

< 就会生成一个随机数并用客户端 ; 的公钥对随机数进行加密，并发送给客户

端 ;。客户端 ; 收到加密数之后再用私钥进行解密，并将解密数回传给 <，<

确认解密数无误之后就允许 ; 进行连接了。这就是一个公钥认证过程，其间不

需要用户手工输入密码。重要过程是将客户端 ; 公钥复制到 < 上。

因此如果要实现所有节点之间无密码公钥认证，则需要将所有节点的公钥

都复制到所有节点上。

'+所有机器上生成密码对

'+所有节点用 ! 用户登陆，并执行以下命令，生成 $# 密钥对*

##!01$#

这将在 "!"!"##!" 目录下生成一个私钥 6$# 和一个公钥

6$#3。

'3+将所有  节点的公钥 6$#3 传送到  上*

6$#36$#3

#6$#3 节点  地址*"!"!"##!



6$#36$#3

#6$#3 节点  地址*"!"!"##!

'+ 节点上综合所有公钥'包括自身+并传送到所有节点上

6$#3!$9601#这是  自己的公钥

6$#3==!$9601#



6$#3==!$9601#

然后使用  协议将所有公钥信息 !$9601# 复制到所有

/- 的##! 目录下

#!$9601# 节点  地址*"!"!"##!

这样配置过后，所有节点之间可以相互  无密码登陆，可以通过命令

:##!节点  地址”来验证。

配置完毕，在  上执行“##!本机，所有数据节点”命令，因为

##! 执行一次之后将不会再询问。



剩余20页未读，继续阅读

评论收藏

内容反馈

版权申诉

智慧安全方案

粉丝: 3918

Linux下Hadoop的分布式配置和使用.doc

基于lucene和nutch的开源搜索引擎资料集合

实验1 安装Hadoop.doc

领悟云应用、云平台、云架构体系相关必备资料

在CentOS上配置单机版、伪分布式hadoop.doc

分布式数据库HBase安装配置与实践.doc

Linux安装 (1).doc

云计算虚拟化hadoop实验报告.doc

大纲及下载地址.doc

vmware上安装ubuntu14.04(64位).doc )

Java及大数据学习路线.pdf

KepOPC DA2UA实现从OPCDA到OPCUA的转换及读写互操作

各地区-互联网主要发展指标情况（2001-2022年）.xlsx

kkFileView-4.4.0-SNAPSHOT.tar.gz

向日葵远程控制软件-15.6.6.62150-x64

2024年Java基础面试题，附带详细解析答案

神州鲲泰 KunTai R522用户指南

2024年最新最全面的Java后端面试资料

IDM(Internet Download Manager) 6.42.20 简体中文特别版

CHATGPT训练指令模板.docx

基于SpringBoot的个人博客系统设计与实现-论文.pdf

CTF100题目-安全考题竞赛

OMML2MML.XSL

基于STM32智能循迹避障小车(设计报告).pdf

停车场管理系统软件工程课程设计报告书.doc

Python面试八股文背诵版

大学生创新创业项目合集

大学生互联网创新创业项目计划书（71个+各行各业）

2000-2021年各省互联网普及率数据.xlsx

[翻译] JSF for Nonbelievers: Clearing the FUD about JSF

我要利用空间光调制器产生贝塞尔高斯光束，请写出加载到空间光调制器上图片的程序，空间光调制器是相位型，请用matlab编程

最新资源