
Hadoop
文章平均质量分 57
Hadoop
健鑫.
大厂数据开发,专注于分享学习经验以及大数据领域相关知识,欢迎关注~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop调优(二)
NameNode进程挂了并且存储数据丢失了,如何恢复NameNode?如果NameNode进程挂掉并且数据丢失了,可以利用Secondary NameNode来恢复NameNode。Secondary NameNode主要用于备份NameNode的编辑日志和文件系统镜像,以便在NameNode失败时进行快速恢复。恢复NameNode的步骤:停止所有Hadoop进程启动Secondary NameNode从Secondary NameNode备份的编辑日志和文件系统镜像中恢复NameNode元数据。原创 2023-03-05 11:50:58 · 3481 阅读 · 0 评论 -
hadoop调优
每个文件块大概占用150byte,如果一台服务器128G,能存储的文件块如下128 (G)* 1024(MB) * 1024(KB) * 1024(Byte) / 150 Byte = 9.1 亿。原创 2023-03-03 19:53:57 · 2610 阅读 · 0 评论 -
Hadoop-MapReduce
MapReduce是一个进行分布式运算的编程框架,使用户开发基于hadoop进行数据分析的核心框架。MapReduce 核心功能就是将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的 分布式运算程序,并发运行在一个 Hadoop 集群上。序列化就是将内存中对象转换成字节序列,便于存储到磁盘和网络传输反序列化时将字节序列或磁盘中的持久化数据转换成内存中的对象一般来说,对象只能在本地进程中使用,不能通过网络发送到另一台计算机序列化可以存储对象,可以将对象发送到远程计算机。原创 2023-02-25 14:23:58 · 1928 阅读 · 0 评论 -
Hadoop - HDFS
HDFS是一个分布式文件系统,适合一次写入,多次读出的场景数据可以保存在多个副本当中,可以通过增加副本的数量来增加容错不适用于低延时数据访问的场景不能高效的对小文件进行存储因为会占用NameNode的大量内存,而NameNode的内存是有限的小文件存储的寻址时间会超过读取时间一个文件只能有一个写,不允许多个线程同时写入仅支持数据的追加操作。原创 2023-02-20 18:29:22 · 829 阅读 · 2 评论 -
HDFS存储架构和YARN
HDFS是hadoop的存储单元。在分布式环境中将数据存储为块,遵循主从拓扑。原创 2022-11-28 12:54:36 · 1138 阅读 · 0 评论 -
HDFS读写文件时出现问题
client在读取完DataNode上的块后会进行验证,将client读取的和原始的进行校验,如果校验结果不一致,client告知NameNode,然后找到下一个拥有该block的DateNode重新读取。原创 2022-11-29 20:53:19 · 827 阅读 · 0 评论 -
HDFS读写流程
client发起文件上传请求,通过RPC(远程调用,跨服务器,需要网络编程实现)与NameNode建立通信。NameNode检查该用户是否有上传的权限,该文件是否在对应的目录下有重名文件,有一个不符合要求则报错原创 2022-11-29 19:59:03 · 641 阅读 · 0 评论 -
MapReduce介绍
MapReduce是一个进行分布式运算的编程框架,使用户开发基于hadoop进行数据分析的核心框架。MapReduce 核心功能就是将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的 分布式运算程序,并发运行在一个 Hadoop 集群上。原创 2022-12-01 19:38:42 · 821 阅读 · 0 评论 -
MR中MapTask的工作机制
简单来说,inputFile通过split被切割成多个split文件通过Record按行读取内容给map,map中自己写处理的逻辑,map处理完之后交给OutputCollect收集器,对结果key进行分区(默认hashPartitioner),写入buffer,每个map task都有一个内存缓冲区(环形缓冲区),存放map的输出结果,当缓冲区快满的时候,将缓冲区的数据以临时文件的方式溢写到磁盘,整个map task结束后,对磁盘中这个maptask产生的所有临时文件进行合并,生成最终文件,等待reduc原创 2022-12-03 19:55:01 · 1114 阅读 · 0 评论 -
MapReduce运行模式和作业处理
MR将作业的输入看成一对键值对,同样产生一组键作为作业的输出。原创 2022-12-02 23:05:22 · 601 阅读 · 0 评论 -
RDBMS和HDFS的区别
比如查找数据,HDFS会将任务分成多个任务运行在n个节点上(取决于数据存储到几个节点),如果没有搜索完,也会返回搜索结果。而RDBMS会逐个搜索存储空间,全部遍历,没搜索完,不会返回。即RDBMS在存储数据时就对数据进行检查,与表结构定义必须匹配才能存储(write),否则就报错。HDFS任何数据都可以存储,在用到这些数据时(read),才会检查。原创 2022-11-28 11:56:30 · 863 阅读 · 0 评论 -
MR中Reduce Task的工作机制
Reduce大致分为copy、sort、reduce三个阶段,主要在前两个阶段。copy阶段包含一个eventFetcher获取已经完成的map列表,有Fetcher线程copy数据,此过程启动两个merge线程,分别为inMemoryMerger和onDiskMerger,分别是将内存和磁盘中的数据进行merge。sort阶段主要是finalMerge操作,完成之后调用用户定义的reduce函数进去reduce阶段原创 2022-12-05 13:11:26 · 959 阅读 · 0 评论