
Hadoop
由Apache基金会所开发的分布式系统基础架构。
Jalen data analysis
数据分析学者和从业人员
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
10、HDFS 的工作机制 、HDFS 写/度数据流程、NameNode的工作机制、DataNode 工作机制、SecondaryNamenode 工作机制
1.1、HDFS 的工作概述 1、HDFS 集群分为两大主要角色:namenode、datanode (secondarynamenode 和 client) 2、namenode 负责管理整个文件系统的元数据,并且负责响应客户端的请求 3、datanode 负责管理用户的文件数据块,并且通过心跳机制汇报给 namenode 4、文件会按照固定的大小(dfs.blocksize)切成若干...原创 2019-10-31 15:31:08 · 439 阅读 · 0 评论 -
9、HDFS核心设计--心跳机制、安全模式、副本存放策略、负载均衡
1、HADOOP 心跳机制(heartbeat) 1、 Hadoop 是 主从(Master/Slave )结构,Master 中包括 NameNode 和 ResourceManager,Slave 中包括 Datanode 和 NodeManager 。 2、 Master 启动的时候会启动一个 IPC(Inter-Process Comunication,进程间通信)se...原创 2019-10-30 15:55:26 · 804 阅读 · 0 评论 -
8、HDFS 的 Java API 操作--eclipse新建/上传/下载/删除文件(夹)、(属性及块)信息查询、遍历文件(夹)信息查询、指定下载/分块下载
1、新建/上传/下载/删除文件(夹) package test; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.net.URI; import org....原创 2019-10-28 20:22:13 · 618 阅读 · 0 评论 -
7、HDFS 的 Java API 操作----eclipse阅读/查看hadoop的源码
6、HDFS 的 Java API 操作----eclipse安装配置、连接HDFS、搭建开发环境、Configuration、连接操作 7、eclipse阅读/查看hadoop的源码 在HDFS 的 Java API 操作过程中,我们有时候对一些类或者函数不够了解时需要去查看一下源码,来进一步判断问题的所在。 第一步:需要的去官网https://www.apache.org/dist/ha...原创 2019-10-28 16:33:46 · 237 阅读 · 0 评论 -
6、HDFS 的 Java API 操作----eclipse安装配置、连接HDFS、搭建开发环境、Configuration、连接操作
1、HDFS 的 Java API 操作介绍 hdfs 在生产应用中主要是客户端的开发,其核心步骤是从 hdfs 提供的 api 中构造一个 HDFS 的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS 上的文件 。 2、eclipse 安装与配置连接 hdfs 需要的安装包: ①下载一个 eclipse 开发工具 eclipse-jee-luna-SR1-win3...原创 2019-10-27 18:43:00 · 3469 阅读 · 0 评论 -
5、Hdfs的shell(命令行客户端)操作
1、检测集群启动进程 1.jps #查看启动进程 2.利用图形界面 hdfs: http://hadoop01:50070 #hadoop01表示主节点的的主机映射名 yarn: http://hadoop02:8088 #hadoop02表示配置yarn的ResourceManager的从节点主机映射名 3.运行任务测试 2、启动/关闭集群 1.逐个...原创 2019-10-24 16:00:11 · 541 阅读 · 0 评论 -
4、HDFS分布式文件系统的基本概念理解
HDFS: Hadoop Distributed file System Hadoop分布式文件系统,主要用来解决海量数据的存储问题。 它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器都有各自清晰的角色定位 。 设计思路: 将大文件,大批量文件,分布式的存储在大量(廉价)的服务器上。以便于采取分...原创 2019-10-21 17:19:54 · 738 阅读 · 0 评论 -
3、hadoop的HDFS集群搭建
hadoop的HDFS集群搭建前期准备:https://blog.csdn.net/weixin_41685388/article/details/102639751 1、集群搭建 集群分类: 单节点: 在一个节点上运行作业 伪分布式集群: 在一个节点里面启动了多个进程来模拟这种分布式的操作,只需要一个节点 完全分布式集群: 将进程完全分布到不同节点里去运行 高...原创 2019-10-20 19:05:11 · 424 阅读 · 0 评论 -
2、hadoop集群搭建准备
1、Hadoop版本选择 * apache hadoop: 2008年,初学者入门,简单易入手 * cloudera hadoop: 2009年,企业中使用 CDH,性能强 * hortonworks hadoop: 2011年,文档全面 * hortonworks 和cloudera 2018年国庆合并 这里我们就先选用apache 官方版本2.X 1、apache 官方版本: htt...原创 2019-10-19 22:23:32 · 251 阅读 · 0 评论 -
1、Hadoop入门介绍
1、什么是数据: 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。 数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。 在计算机系统中,数据以二进制信息单元0,1的形式表示。 2、什么是大数据: 指的是用传统的数据处理应用软件不足以处理(处理:存储和计算)的大而复杂的数据集 。 最基本的衡量...原创 2019-10-19 13:18:18 · 332 阅读 · 0 评论