
大数据
文章平均质量分 96
why do not
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Yarn介绍 - 大数据框架
YARN的概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程 框架的不足,提高集群环境下的资源利用率,这些资源包括内存,磁盘,网络,IO等。Hadoop2.X 版...原创 2020-08-25 15:33:43 · 565 阅读 · 0 评论 -
HDFS的介绍与shell命令
目录 HDFS简介 HDFS的shell命令 hdfs的java api操作方式 Hadoop官方网站中文版: http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html(老网站) HDFS简介 HDFS的shell命令 命令格式:hadoop/hdfs -fs [-appendToFile <lo...原创 2019-04-28 00:51:32 · 278 阅读 · 0 评论 -
大数据概念与特点
1.集群 概念:由多台机器共同完成一个任务,把多台机器称为一个集群,每台机器称为一个节点。 2.分布式 思想:分而治之 概念:把一个任务分成多个小任务,每个机器(节点)只负责一个小任务,则这个任务的执行是分布式的。 衍生:分布式数据库、分布式文件系统、分布式计算系统 3.负载均衡 概念:在同一个集群中,每个节点分担的任务相等 作用:充分利用集群的每个节点的资源,效率更高 有关:与机器的硬件配置有关...原创 2019-02-08 14:06:18 · 783 阅读 · 0 评论 -
Hadoop框架整体介绍
Hadoop的来源 03年Google将海量数据的存储和计算的解决方案以三篇论文的形式发表出来:GFS(google文件系统,解决海量数据存储)、MapReduce(解决海量数据的计算问题)、BigTable(解决海量数据查询问题)。 Hadoop之父Doug Cutting将这三篇论文用java实现并开源: GFS------HDFS hadoop的分布式文件系统 MapReduce-...原创 2019-02-06 17:09:31 · 686 阅读 · 0 评论 -
Hadoop的部署模式以及安装问题
目录 hadoop的几种部署模式: 单机模式: 伪分布式模式: 完全分布式模式: 高可用模式: 联邦模式: 安装分布式的准备: 伪分布式安装: 完全分布式安装: 高可用模式 安装过程中的问题 1.查看集群日志 2.主机名 3.启动的时候某一个进程启动不了(jps查看进程) 4.格式化的问题 5.时间同步问题 6.环境变量的配置 hadoop的几种部...原创 2019-02-08 14:07:09 · 1396 阅读 · 0 评论 -
MapReduce案例详解
执行MapReduce时必须启动hdfs、yarn(start-dfs.sh、start-yarn.sh) MapReduce实例 wordcount package mapreduce; import java.io.IOException; import java.io.Serializable; import java.sql.Driver; import org.apache....原创 2020-08-25 15:14:14 · 913 阅读 · 0 评论