
Hadoop, MapReduce, Yarn
文章平均质量分 91
大数据基础的三驾马车
菜菜的大数据开发之路
Java技术栈 AND 大数据开发,学习笔记, 拒绝水文
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
四, Hadoop基础架构-YARN工作流程和调度器原理
四, Hadoop基础架构-YARN一, Yarn-资源调度器Yarn(Yet Another Resource Negotiator)是一个资源调度平台, 负责为运算程序提供服务器运算资源, 相当于一个分布式的操作系统平台, 而MapReduce等运算程序则相当于运行在这个操作系统上的应用程序.1.1 Yarn 基础架构(RM, NM, AM, Contaioner)Yarn主要由 RM(resource manager), NM(node manager), AM(application原创 2021-08-24 16:22:17 · 1291 阅读 · 2 评论 -
三-中下, 大数据基础架构Hadoop- MapReduce框架原理和工作流程剖析
文章目录3.1 InputFormat 数据输入3.1.0 切片与MapTask并行度决定机制3.1.1 Job提交流程源码和切片源码详解3.1.2 FileInputFormat 切片机制3.1.2.1 FileInputFormat类的切片过程3.1.2.2 FileInputFormat 切片大小的参数配置3.1.5 结构梳理: InputFormat 接口和它的各种实现类3.1.5.1 TextInputFormat3.1.5.2 CombineTextInputFormat3.1.5.2.1 Co原创 2021-07-13 21:36:02 · 759 阅读 · 4 评论 -
三-下-1, 数据清洗(ETL)和计数器浅析及案例实操
三, 数据清洗(ETL)和计数器 浅析 及案例实操ETL“ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库在运行核心业务 MapReduce 程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行 Mapper 程序,不需要运行 Reduce 程序。计数器3.1 数据原创 2021-07-21 10:36:18 · 546 阅读 · 0 评论 -
三-下-0, MapReduce Join 浅析及案例实操
三-下-0, MapReduce Join 浅析及案例实操MapReduce能执行大型数据集间的"连接"(join)操作.连接操作的具体实现技术取决于数据集的规模及区分方式.如果一个数据集很大(例如天气记录), 而另外一个集合很小(例如气象站元数据), 小到以至于可以分发到集群中的每一个节点之中.则可以执行一个MapReduce作业,将各个气象站的天气记录放到一块(例如, 根据气象站ID执行部分排序), 从而实现连接. Mapper或Reducer根据各气象站ID从较小的数据集合中找到气象站元数据,使原创 2021-07-20 21:24:30 · 493 阅读 · 1 评论 -
三-中下-0, MapReduce - Job提交和切片流程源码详解
3.1.2 Job提交流程源码和切片源码详解3.1.2.1 Job提交流程源码详解1. waitForCompletion()我们从Driver类, job.waitForCompletion处打断点进入方法内. public boolean waitForCompletion(boolean verbose) throws IOException, InterruptedException, ClassNotFoundException { ////判断状态是否为`DEFI原创 2021-07-11 21:02:57 · 722 阅读 · 2 评论 -
三-中上, 大数据基础架构Hadoop- Hadoop序列化概述和案例实操 hf
文章目录二, Hadoop序列化2.1 序列化概述2.2 自定义bean对象实现序列化接口(Writable)2.3 序列化案例实操二, Hadoop序列化2.1 序列化概述[什么是序列化 ?]序列化 就是把内存中的对象, 转换为字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络存储.反序列化 就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据, 转换为内存中的对象.简而言之就是, 序列化是把对象转化为可传输的字节序列, 反序列化是把可传输的字节序列转化为原创 2021-07-08 08:08:02 · 419 阅读 · 1 评论 -
三-上, 大数据基础架构Hadoop- Mapreduce概述以及经典WordCount案例实操 hf
一, MapReduce概述1.1 MapReduce定义MapReduce是一个分布式程序的编程框架, 使用户开发"基于Hadoop的数据分析应用"的核心框架.MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完成的分布式运算程序, 并发运行在Hadoop集群上.1.2 MapReduce优缺点优点缺点易于编程(只需实现一些接口, 就能完成分布式程序)不擅长实时性计算(做不到秒回计算结果)良好的扩展性(简单的增加机器来提升算力)不擅长原创 2021-07-05 16:55:22 · 485 阅读 · 2 评论 -
二-0, 大数据基础架构Haoop- 在Windows客户机上对HDFS的API操作
一, API操作前的准备工作〇, 目的实现在Windows环境下, 从客户端机器远程操作集群.具体的步骤:配置客户端机器的环境变量配置maven相关的环境变量使用IDE, 新建maven工程在pom文件中增加相应的依赖reload maven工程, 下载依赖1. 1 客户端环境变量的配置下载windows环境下的hadoop依赖文件, 解压到自定义目录下(非中文目录, 这里使用C:\hadoop_dependency\hadoop-3.1.0), 然后在系统变量中添加新的原创 2021-06-30 16:17:53 · 415 阅读 · 1 评论 -
二, 大数据基础架构Hadoop-HDFS入门和基本操作(基本组成, Shell操作, API操作, 读写流程) hf
一, HDFS概述1.1 HDFS的产生背景和定义随着数据量越来越大,我们需要把文件分布存储到多台计算机上,分布式文件管理系统作为一种管理多台机器上文件的系统应运而生, HDFS是其中的一种.HDFS定义:Hadoop Distributed File System,通过目录树来定位文件分布式的. 很多服务器联合起来实现功能,集群中的服务器有各自的角色.使用场景: 适合一次写入,多次读取的场景. 一个文件经过创建,写入和关闭后就不需要改变1.2, HDFS的优缺点:优点:原创 2021-06-28 16:05:28 · 1141 阅读 · 2 评论 -
Linux-使用 /etc/profile.d/ 去配置JDK, Hadoop, Hbase等软件的环境变量 1
/etc/profile.d 目录中的脚本文件在/etc/profile.d 目录中存放的是一些应用程序所需的启动脚本,其中包括了颜色、语言、less、vim及which等命令的一些附加设置。这些脚本文件之所以能够 被自动执行,是因为在/etc/profile 中使用一个for循环语句来调用这些脚本。这些脚本文件是用来设置一些变量和运行一些初始化过程的。在 /etc/profile 这个文件中有这么一段 shell, 会在每次启动时自动加载 profile.d 下的每个.sh脚本文件/etc/原创 2021-06-21 16:33:32 · 2846 阅读 · 0 评论 -
大数据集群节点之间的文件或配置同步方法(集群分发脚本) 1
一, scp(secure copy- 安全拷贝)命令1.1 scp 入门[scp的定义]scp可以实现服务器与服务器之间的数据拷贝.[scp语法] scp -r $pdir/$filename $user@$host:$pdir/$filename #递归(传输的是目录) # 要拷贝的文件路径/名称 #拷贝目的地 用户名@主机名: 目的地路径/目录名1.2 scp案例实操在bi原创 2021-06-22 11:58:58 · 2261 阅读 · 0 评论 -
一文让你彻底烂熟于心, Hadoop完全分布式集群的安装部署 1
Hadoop简单入门及集群的安装部署详细步骤一,前置知识Hadoop: 适合海量数据分布式计算(多台计算机并行处理数据)和分布式存储hadoop的版本:原生版:Apache-hadoop发行版:CDH,HDPHadoop核心架构的发展历史MapReduce: 分布式计算(负责海量数据的分布计算)HDFS(Hadoop Distributed File System): 分布式文件系统(负责海量数据的存储)YARN: 集群资源的管理和调度二,集群的结构原创 2021-03-05 21:49:45 · 1075 阅读 · 0 评论 -
SSH免密登录及在HADOOP集群中的应用 2
SSH免密登录SSH协议简介SSH 为 Secure Shell 的缩写,由 IETF 的网络小组(Network Working Group)所制定;SSH 为建立在应用层基础上的安全协议。SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。简单来说ssh是一种加密的用于远程登录的协议。SSH加密的方式对称加密假如计算机A要发送一段文字给计算机B,但是又不想让别人知道,最简单的办法就是,使用一大段密码进行加密,原创 2021-03-05 12:47:27 · 749 阅读 · 0 评论