Hadoop相关配置

1、Hadoop配置文件

文件名称格式描述
hadoop-env.shBash脚本脚本中要用到的环境标量,以运行Hadoop
mapred-env.shBash脚本脚本中要用到的环境变量,以运行MapReduce(覆盖hadoop-env.sh中设置的变量)
yarn-env.shBash脚本脚本中要用到的环境变量,以运行YARN(覆盖hadoop-env.sh中设置的变量)
core-site.xmlHadoop配置XMLHadoop Core的配置项,例如HDFS、MapReduce和YARN常用的I/O设置等
hdfs-site.xmlHadoop配置XMLHadoop守护进程的配置项,包括namenode、辅助namenode和datanode等
mapred-site.xmlHadoop配置XMLMapReduce守护进程的配置项,包括作业历史服务器
yarn-site.xmlHadoop配置XMLYARN守护进程的配置项,包括资源管理器、web应用代理服务器和节点管理器
slaves纯文本运行datanode和节点管理器的机器列表(每行一个)
hadoop-metrics2.propertiesJava属性控制如何在Hadoop上发布度量的属性
log4j.propertiesJava属性系统日志文件、namenode审计日志、任务JVM进程的任务日志的属性
hadoop-policy.xmlHadoop配置XML安全模式下运行Hadoop时访问控制列表的配置项

2、HDFS守护进程的关键属性

配置文件名属性名称类型默认值说明
core-site.xmlfs.defaultFSURLfile:///默认文件系统,URL定义主机名称和namenode的RPC服务器工作端口号,默认值是8020
hdfs-site.xmldfs.namenode.name.dir以逗号分割的目录名称file://${hadoop.tmp.dir}/dfs/namenamenode存储永久性的元数据的目录列表。namenode在列表上的各个目录中均存放相同的元数据文件
hdfs-site.xmldfs.datanode.data.dir以逗号分割的目录名称file://${hadoop.tmp.dir}/dfs/datadatanode存放数据块的目录列表,各个数据块分别存放于某一个目录中
hdfs-site.xmldfs.namenode.checkpoint.dir以逗号分割的目录名称file://${hadoop.tmp.dir}/dfs/namesecondary辅助namenode存放检查点的目录列表。在所列每个目录中均匀存放一份检查点文件的副本

3、YARN守护进程的关键属性

配置文件名属性名称类型默认值说明
yarn-site.xmlyarn.resourcemanager.hostname主机名0.0.0.0运行资源管理器的机器主机名。一下缩写为${y.rm.hostname}
yarn-site.xmlyarn.resourcemanager.address主机名和端口号${y.rm.hostname}:8032运行资源管理器的RPC服务器的主机名和端口
yarn-site.xmlyarn.nodemanager.local-dirs逗号分割的目录名称${hadoop.tmp.dir}/nm-local-dir目录列表,节点管理器允许容器将中间数据存于其中。当应用结束时,数据被清除
yarn-site.xmlyarn.nodemanager.aux-services逗号分割的目录名称节点管理器允行的附加服务列表,每项服务由属性yarn.nodemanager.auxservices.servicename.class所定义的类实现。默认情况下,不指定附加服务
yarn-site.xmlyarn.nodemanager.resource.memorymbint8192节点管理器运行的容器可以分配到的物理内存容量(单位是MB)
yarn-site.xmlyarn.nodemanager.vmem-pmem-ratiofloat2.1容器所占的虚拟内存和物理内存之比。该值指示了虚拟内存的使用可以超过所分配内存的量
yarn-site.xmlyarn.nodemanager.cpuvcoresint8节点管理器运行的容器可以分配到CPU核数目

4、MapReduce作业内存属性(由客户端设置)

属性名称类型默认值说明
mapreduce.map.memory.mbint1024map容器所用的内存容量
mapreduce.reduce.memory.mbint1024reduce容器所用的内存容量
mapred.child.java.optsString-Xmx200mJVM选项,用于启动运行map和reduce任务的容器进程。除了用于设置内存,该属性还包括JVM属性设置,以支持调试
mapreduce.map.java.optsString-Xmx200mJVM选项,针对运行map任务的子进程
mapreduce.reduce.java.optsstring-Xmx200mJVM选项,针对运行reduce任务的子进程

注:

YARN调度器会指定一个最小和最大内存分配量。默认情况下,最小内存分配量是1024MB(由yarn.scheduler.minimum-allocation-mb设置),默认情况下,最大内存分配量是8192MB(由yarn.scheduler.maximum-allocation-mb设置)

容器还需要满足对虚拟内存的限制。如果容器所使用的虚拟内存超出预定系数和所分配的物理内存的乘积,则节点管理器也会终止进程。

5、Hadoop守护进程的地址和端口

a、RPC服务器的属性

属性名称默认值说明
fs.defaultFSfile:///设为一个HDFS的URL时,该属性描述namenode的RPC服务器地址和端口。如何不指定,则默认端口号是8020
dfs.namenode.rpc-bind-hostnamenode的RPC服务器将绑定的地址。如果没有设置(默认情况),绑定地址由fs.defaultFS决定。可以设为0.0.0.0,使得namenode可以监听所有接口
dfs.datanode.ipc.address0.0.0.0:50020datanode的RPC服务器地址和端口
apreduce.jobhistory.address0.0.0.0:10020作业历史服务器的RPC服务器地址和端口,客户端(一般在集群外部)用于查询作业历史
mapreduce.jobhistory.bind-host作业历史服务器的RPC和HTTP服务器将绑定的地址
yarn.resourcemanager.hostname0.0.0.0资源管理器运行所在的机器主机名。以下缩写为${y.rm.hostname}
yarn.resourcemanager.bind-host资源管理器的RPC和HTTP服务器将绑定的地址
yarn.resourcemanager.address${y.rm.hostname}:8032资源管理器的RPC服务器地址和端口。客户端(一般在集群外部)通过它与资源管理器通信
yarn.resourcemanager.admin.address${y.rm.hostname}:8033资源管理器的admin RPC服务器地址和端口。admin客户端(由yarnrmadmin调用,一般在集群外部)借此与资源管理器通信
yarn.resourcemanager.scheduler.address${y.rm.hostname}:8030资源管理器的调度器RPC服务器地址和端口。application master(在集群内)借此与资源管理器通信
yarn.resourcemanager.resourcetracker.address${y.rm.hostname}:8031资源管理器的resource tracker的RPC服务器地址和端口。节点管理器(在集群内部)借此与资源管理器通信
yarn.nodemanager.hostname0.0.0.0节点管理器运行所在的机器的主机名。以下缩写为${y.nm.hostname}
yarn.nodemanager.bind-host节点管理器的RPC和HTTP服务器将绑定的地址
yarn.nodemanager.address${y.rm.hostname}:0节点管理器的RPC服务器地址和端口。application master(在机器内部)借此与节点管理器通信
yarn.nodemanager.localizer.address${y.rm.hostname}:8040节点管理器的localizer的RPC服务器地址和端口

b、HTTP服务器的属性

属性名称默认值说明
dfs.namenode.http-address0.0.0.0:50070namenode的HTTP服务器地址和端口
dfs.namenode.http-bind-hostnamenode的HTTP服务器将绑定的地址
dfs.namenode.secondary.http-address0.0.0.0:50090辅助namenode的HTTP服务器地址和端口
dfs.datanode.http.address0.0.0.0:50075datanode的HTTP服务器地址和端口。注意,属性名和namenode的属性名不一样
mapreduce.jobhistory.webapp.address0.0.0.0:19888MapReduce作业历史服务器地址和端口,该属性在mapred-site.xml文件中设置
mapreduce.shuffle.port13562Shuffle句柄的HTTP端口号。为map输出结果服务,但不是用户可访问的Web UI。该属性在mapred-site.xml文件中设置
yarn.resourcemanager.webapp.address${y.rm.hostname}:8088资源管理器的HTTP服务器地址和端口
yarn.nodemanager.webapp.address${y.rm.hostname}:8042节点管理器的HTTP服务器地址和端口
yarn.web-proxy.addressWeb应用代理服务器的HTTP服务器地址和端口。如果该属性没有设置(默认情况),Web应用代理服务器将在资源管理器进程中运行
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值