
hadoop
宫城诗
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
20200624——yarn
Yarn是什么yarn是一个资源调度框架在古老的hadoop1.0里面,MapReduce中的JobTracker负责了太多的任务,于是在2.0升级的过程,将这一部分独立出来,也就是yarn。yet another resource nagotiator 另一种资源调度器Yarn的架构架构图Container容器这个东西是Yarn对资源做的一层抽象,日常开发中,经常需要对底层封装,只提供给上层一个调用接口一样。一个nodemanager里面可以有多个container,container原创 2020-06-24 17:17:50 · 268 阅读 · 0 评论 -
20200623——hdfs
HDFS是什么HDFS是Hadoop distributed file system的的缩写,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的分布式文件系统。HDFS的优势高容错性与恢复机制raid1,独立冗余磁盘阵列。会有多个副本存储在hdfs中,提高容错性。可以通过其他副本进行恢复。适合大数据处理能够存储百万规模以上的文件数据。处理数据的大小可以达到PB的级别,甚至更高。HDFS的劣势低延时数据访问它做不到毫秒级别的存储数据。它适合高吞吐率的场景,在某原创 2020-06-23 17:44:13 · 235 阅读 · 0 评论 -
20200622——阅读 企业级大数据平台技术栈介绍
大数据历史背景时间可以拨回到2002年,当时还没有所谓的“大数据”一词,处理海量数据的技术还不为人知。Doug Cutting创建了全文搜索函数库Lucene想进一步提升,于是在那年2002年10月,Mike Cafarella一起创建了网络搜索引擎Nutch。次年google在发表了著名了《Google File System》论文,这篇论文给予了很大的灵感,于04年7月Nutch实现了GFS的类似的功能NDFS。同年十月,google又发表了著名的论文《MapReduce》,描述了一种基于MapRe原创 2020-06-23 11:20:58 · 327 阅读 · 1 评论 -
20200620——Paxos算法
Paxos算法背景Paxos算法是Lamport宗师提出的一种基于消息传递的分布式一致性算法,使其获得2013年图灵奖。Paxos由Lamport于1998年在《The Part-Time Parliament》论文中首次公开,最初的描述使用希腊的一个小岛Paxos作为比喻,描述了Paxos小岛中通过决议的流程,并以此命名这个算法,但是这个描述理解起来比较有挑战性。后来在2001年,Lamport觉得同行不能理解他的幽默感,于是重新发表了朴实的算法描述版本《Paxos Made Simple》。然而,原创 2020-06-23 10:25:20 · 271 阅读 · 0 评论 -
20200602——浅谈hadoop中的yarn
yarn前世今生在Hadoop1.0没有yarn 只有hdfs和mapreduce在2.0的时候才有yarn的诞生首先在Hadoop中,存在最大的问题就是资源管理问题随着技术的发展,人们已经不再满足Hadoop集群中只使用map reduce一个计算框架人们更希望有一套合理的管理机制,来控制整个集群资源管理启动hadoop中的命令./start-yarn.shjps之后ResourceManager 是全局资源管理器 RMNodeManager 是节点资源任务管理器 NM我们可以理解成原创 2020-06-03 10:39:16 · 350 阅读 · 0 评论