分布式文件系统（HDFS）

最新推荐文章于 2025-07-23 18:18:39 发布

Flying_Fish_Xuan

最新推荐文章于 2025-07-23 18:18:39 发布

阅读量1.2k

点赞数 15

CC 4.0 BY-SA版权

文章标签： hdfs hadoop 大数据

本文链接：https://blog.csdn.net/Flying_Fish_roe/article/details/144485558

分布式文件系统（HDFS）详解

分布式文件系统（Distributed File System，简称 DFS）是一种将文件存储分布在多个物理节点上的系统，其设计目标是提供一个可靠、可扩展的存储方案。HDFS（Hadoop Distributed File System）是 Hadoop 生态系统中的核心组件之一，它是一个高度容错的分布式文件系统，专为大规模数据存储而设计。HDFS 提供了对大数据集的高效存储和访问能力，是实现大数据存储和处理的基础。

一、HDFS 的背景与发展

HDFS 起源于 Google 的 GFS（Google File System）。随着互联网数据量的增长，传统的文件系统无法满足大数据的存储需求。Google 于 2003 年发布了 GFS，它能够在分布式环境下提供高吞吐量的数据访问，并解决了大规模数据存储中的可靠性和容错问题。

HDFS 是 Apache Hadoop 项目的一部分，旨在提供一个高可靠、高容错、可扩展的分布式存储系统，用于存储大规模数据。HDFS 在实现了 Google 文件系统的核心思想的基础上，还做了一些改进，特别是在大数据集的高效存储和并行处理方面。

二、HDFS 架构

HDFS 的架构由两类主要组件组成：NameNode 和 DataNode。此外，还有一些辅助组件，如 Secondary NameNode 和 CheckpointNode。HDFS 的架构设计是分布式的，主要通过数据的分片、冗余存储、节点之间的协作来保证高可用性和数据的持久性。

2.1 NameNode（主节点）

NameNode 是 HDFS 的核心组件，负责管理文件系统的元数据。它维护着文件系统的目录结构、文件与块之间的映射关系以及每个文件块的副本信息。

文件元数据管理：NameNode 存储着文件和目录的结构信息，但不存储文件的实际数据。
块管理：NameNode 管理着文件的分块信息。每个文件在 HDFS 中被划分为多个固定大小的块（默认大小为 128MB 或 256MB），并存储在不同的 DataNode 上。
副本管理：NameNode 还负责管理块的副本。每个数据块都有多个副本（默认为 3 个副本），以确保数据的高可用性和容错性。

2.2 DataNode（数据节点）

DataNode 是 HDFS 中的工作节点，负责存储文件的实际数据块。DataNode 直接与磁盘进行交互，读取和写入文件数据。

数据存储：DataNode 负责存储文件的块，并定期向 NameNode 汇报自己存储的块信息。
数据读取与写入：当客户端请求某个文件时，DataNode 提供实际的数据块。当客户端需要写入数据时，DataNode 接收数据并将其存储到磁盘中。

2.3 Secondary NameNode（辅助 NameNode）

Secondary NameNode 的名称可能会引起误解，它并不是一个冗余的 NameNode，而是一个辅助组件，主要用于定期合并 NameNode 的编辑日志和文件系统镜像。

合并日志与镜像：NameNode 会记录所有的操作日志（EditLog），并定期将其合并到文件系统的镜像中（FsImage）。Secondary NameNode 定期下载 NameNode 的元数据，将 EditLog 合并到 FsImage 中，减小 NameNode 的负担。

2.4 HDFS 的文件存储机制

HDFS 的文件存储机制是基于块的，每个文件都被划分成多个固定大小的数据块，这些数据块分布在集群中的多个 DataNode 上。HDFS 的设计使得它能够处理 PB 级别的数据。

文件分块：HDFS 将每个文件切分为大小固定的数据块（默认 128MB），并将其分布存储在多个 DataNode 中。
副本机制：为了提高容错性，每个数据块会有多个副本（默认副本数为 3）。当某个 DataNode 故障时，HDFS 会自动将数据块副本恢复到其他健康的 DataNode 上。
数据写入：客户端将数据写入 HDFS 时，数据会被切分成块，按照顺序依次存储到不同的 DataNode 上。每个数据块会被写入多个 DataNode 上，确保数据的冗余。