Hadoop3集群实战：从零开始的搭建之旅

孟林洁

已于 2024-12-06 16:37:44 修改

阅读量1.9k

点赞数 14

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： hadoop 大数据

于 2024-12-06 16:36:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/menglinjie/article/details/144292667

目录=

1.1 Hadoop是什么

1.3 三大发行版本（了解）

1.8 MapReduce概述

1.9 HDFS\YARN\MapReduce关系

二、环境准备

2.1 准备模版虚拟机

2.2 安装必要软件

2.3 安装xshell

2.4 创建用户并赋予root权限

2.5 克隆虚拟机

2.6 时间同步

2.7 ssh免密登录

2.8 xsync脚本分发

2.9 安装JDK和Mysql

安装jdk(三个节点)

安装mysql（主节点）目前不需要

三、完全分布式集群搭建

3.1 安装hadoop（三台）

3.2 集群部署

3.2.1 部署规划

3.2.2 配置文件(三台)

3.2.3 启动集群

一、概念

1.1 Hadoop是什么

apache的分布式系统基础架构
Hadoop实际上是一个生态圈，里面有多个组件，主要解决海量数据存储和分析计算问题

1.2 历史

Hadoop是Apache Lucene创始人 Doug Cutting 创建的。最早起源于Nutch，它是Lucene的子项目。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题：如何解决数十亿网页的存储和索引问题。
2003年Google发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构，该架构称为：谷歌分布式文件系统（GFS）,可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。
2004年 Google发表论文向全世界介绍了谷歌版的MapReduce系统。
同时期，以谷歌的论文为基础，Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE，并从Nutch中剥离成为独立项目HADOOP
到2008年1月，HADOOP成为Apache顶级项目，迎来了它的快速发展期。
2006年Google发表了论文是关于BigTable的，这促使了后来的Hbase的发展。

因此，Hadoop及其生态圈的发展离不开Google的贡献。

1.3 三大发行版本（了解）

Apache 最基础的版本，完全开源免费
CDH，集成了大数据框架发行版本
HDP，Ambari是HDP的安装工具和管理界面

Cloudera公司已经正式终止了对CDH的支持。分别在2021年12月、2022年3月，Cloudera正式终止了对HDP（Hortonworks Data Platform）及CDH的支持

后续推出CDP，新一代数据平台产品，它整合了HDP和CDH的功能并进行了优化和扩展。

1.4 优势

高可靠性：底层维护多个数据副本，避免故障时数据丢失
高扩展性：集群间分配任务数据，方便扩展节点，动态扩容缩减
高效性：并行工作
高容错性：自动将失败的任务重新分配

1.5 组成💗

Hadoop1.x、2.x、3.x的区别

Hadoop1.*中MapReduce中计算和资源调度同时处理，耦合性比较大
Hadoop2.*新增了YARN进行资源调度，MapReduce只用来计算
Hadoop2和3在组成上没有区别

1.6 HDFS架构

分布式文件系统

NameNode 数据存储位置（存储文件元数据，如：文件名目录结构文件属性所在位置），相当于目录
DataNode 存储数据，相当于内容
2NN 辅助NameNode工作（每隔一段时间对NameNode做数据备份）

1.7 YARN架构

资源管理器

Resource Manager 集群资源管理（内存、cup）
Node Manager 单节点资源管理
Container 容器，相当于一台独立服务器
ApplicationMaster，单个任务资源管理

1.8 MapReduce概述

map阶段，并行处理输入数据
reduce阶段，对map结果汇总

1.9 HDFS\YARN\MapReduce关系

大数据技术生态体系

二、环境准备

目标：需要准备3台虚拟机(本次使用Ubuntu24.04，但是教程大多是Centos，大差不差)，机器名为hadoop102、hadoop103、hadoop104，对应ip：192.168.10.102、192.168.10.103、192.168.10.104

2.1 准备模版虚拟机

软件操作系统安装参考：（这部分没有详细记录，一般使参考视频和博客，要细心）

VMware 虚拟机图文安装和配置 Ubuntu Server 22.04 LTS 教程_00-installer-config.yaml-CSDN博客

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

孟林洁 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。