
Hadoop
文章平均质量分 71
goTsHgo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce的shuffle过程详解
在 MapReduce 中,Map 任务处理输入数据并生成中间键值对 〈key,value〉。这些中间结果需要传递给 Reduce 任务进行进一步处理。然而,Map 任务的输出通常分布在多个节点上,且键值对需要根据键进行分组和排序,以便每个 Reduce 任务处理特定的键范围。Shuffle 过程分区(Partitioning):将 Map 输出的键值对分配到不同的 Reduce 任务。排序(Sorting):对每个 Reduce 任务的输入数据按键进行排序。合并(Merging)原创 2025-04-29 11:39:38 · 997 阅读 · 0 评论 -
HDFS 的硬链接 详解
硬链接是文件系统中的一种机制,允许多个文件名指向同一个物理数据块。在HDFS中,硬链接意味着多个文件路径(文件名)可以引用相同的底层数据,而不复制数据本身。类比:想象一个图书馆的书目系统。一本书(数据)在图书馆只有一份,但可以在多个分类目录下有不同的条目(文件名)。无论通过哪个条目找到这本书,内容都是同一本。特点硬链接与原始文件共享相同的inode(在传统文件系统中,inode存储文件的元数据和数据块指针;在HDFS中,类似的概念是文件的元数据)。原创 2025-04-25 16:07:01 · 1207 阅读 · 0 评论 -
实时离线一体架构详解
实时离线一体架构通过将实时和批处理统一到一个架构下,使得企业可以同时满足低延迟的实时分析需求和大规模历史数据分析需求,确保用户在统一的查询接口下能够访问到最新和最完整的数据。这种架构适合于对数据处理实时性要求高且有大规模数据存储需求的场景,未来随着大数据技术的进一步发展,实时离线一体架构将成为数据处理架构的重要方向。原创 2024-09-10 17:33:52 · 1903 阅读 · 0 评论 -
Hadoop启动NameNode报错ERROR: Cannot set priority of namenode process 2639
项目场景:Hadoop启动NameNode报错::ERROR: Cannot set priority of namenode process问题描述:Hadoop启动NameNode报错ERROR: Cannot set priority of namenode process2639[atguigu@localhost333logs]$ tail -100 hadoop-localhost -namenode-hadoop333.log...原创 2021-09-17 18:23:18 · 19042 阅读 · 1 评论 -
在操作HDFS进行文件的上传和下载时报错:Class not found: “com.lyyyktshcs.hdfs.HdfsClient“
项目场景:提示:在操作HDFS进行文件的上传和下载时报错:Class not found: "com.atguigu.hdfs.HdfsClient"问题描述:提示:在操作HDFS进行文件的上传和下载时报错>>Class not found: "com.test.hdfs.HdfsClient"原因分析:提示:项目走的maven的junit,多模块下,maven默认没有加载这个类;尝试右键maven ->t...原创 2021-09-08 10:15:57 · 398 阅读 · 0 评论