- 博客(6)
- 收藏
- 关注
原创 【无标题】
1.Hadoop将作业分成若干个task来执行其中包括Maptask和Reducertask2.MapReduce有哪些特点()A.易于编程 B.良好的护展性C.高容错性D.能对海量数据进行实时在线处理ABC3.Hadoop的关键优势之一是它的可靠性。当某个计算元素或存储单元发生故障时,会发生什么情况?A.数据会丢失B.任务会被重新分配C.系统会完全崩溃D.没有任何影响B4.以下哪些论文是Google发表的?ABC2.Hadoop环境安装。
2025-07-01 21:58:08
818
原创 Hadoop分布式计算笔记
MapReduce是一种简化并行计算的编程模型,用于进行大数据量的计算MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。1.使用场景为了实现控制最终文件的输出路径和输出格式,可以自定义OutputFormat例如:要在一个MapReduce程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需求可以通过自定义OutputFormat来实现。2.自定义OutputFormat步骤(1)自定义一个类继承FileOutputFormat。
2025-06-20 17:02:55
548
原创 outputformat案例
分成多个队列来执行不同的任务,每个队列占用一定资源,可以看作是FIFO Scheduler的多队列版本,每个队列可以限制资源使用量,但是,队列间的资源分配以使用量作为排队根据,使得容量小的队列由竞争优势,需要注意的是:如果不限制某队列最大容量,则运行过程中,它可以占用全部资源。强调任务按队列公平的使用yarn资源,即队列内的任务公平使用队列中的资源,需要注意的是:假设每个任务具有相同的优先级,采用公平 调度器将平均分配系统的资源。(10)从HDFS获取作业配置,Jar文件,分片文件,并资源本地化。
2025-06-18 19:51:49
870
原创 hadoop 配置文件,参数的优先级
参数优先级排序:(1)客户端代码中设置的值(2)ClassPath下的用户自定义的配置文件(project下的配置文件,例如/root/IdeaProjects/hdfsClient/target/classes//hdfs-site.xml)(3)服务器的自定义配置文件(XXX-site.xml路径为/usr/local/hadoop/etc/hadoop)(4)服务器的默认配置(XXX-default.xml)
2025-04-22 16:57:41
252
原创 分布式计算笔记
2006年,Google公司发表Bigdata A distributed Storage System for Structured Data(一个分布式的结构化数据存储系统),介绍Google的大表Bigdata的设计。2.GBS存储的文件都被分割成固定大小的块,每个块都会复制到多个块服务器上(可靠性)。自然语言处理NLP:文本文件,图片,音乐,二进制数据(游戏里的存储,eg地图)管理节点:数据元文件(文件名,文件块,文件块所在数据节点。1.volume(大量化):存储量大,增量大。
2025-03-02 21:01:45
275
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人