设立各点通讯
设置时间同步(CRT下选择对所有窗口发送)
date -s "2019-8-21 11:15"
密钥分发:
scp id_dsa.pub bigdata02:`pwd`/bigdata01.pub
//从bigdata01向其余从机分发公钥,公钥的名称为了区分注意要变化
各节点把bigdata01的公钥追加到认证文件里:
cat ~/.ssh/bigdata01.pub >> ~/.ssh/authorized_keys
修改core-site.xml
<!--HDFS集群访问入口地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.6.5/full</value>
</property>
修改hdfs-site.xml
<!--Block的副本数,副本数不大于节点数,修改成2为了观察分配情况-->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>bigdata02:50090</value>
</property>
配置slaves
bigdata02
bigdata03
bigdata04
分发配置文件到其他的从机
重新格式化集群
hdfs namenode -format
启动集群:
start-dfs.sh
注意slaves的格式编码为unix,否则运行会出错
手动设置上传块的大小,小于1048576无法设置(1024*1024)
生成测试文本
for i in `seq 100000`;do echo "hello $i" >> test.txt;done
上传
hdfs dfs -D dfs.blocksize=1048576 -put test.txt /user/root
(上传文件大小为1.6M,设定分块大小为1M时,则将其分成两块存储,得去指定从机下寻找副本)
/opt/modules/hadoop-2.6.5/full/dfs/data/current/B*/current/finalized/subdir0/subdir0