PyTorch 中确实存在多种流加载数据的迭代器

最新推荐文章于 2025-07-14 21:58:10 发布

MYH516

最新推荐文章于 2025-07-14 21:58:10 发布

阅读量357

点赞数 3

CC 4.0 BY-SA版权

文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/mayaohao/article/details/149267763

PyTorch 中确实存在多种流加载数据的迭代器，这些迭代器能够在模型训练期间高效地处理和提供数据。

1. `DataLoader`

DataLoader 是 PyTorch 里最常用的数据加载器，它能够对数据集进行批处理、打乱顺序以及并行加载等操作。其本质上就是一个可迭代对象，可在训练循环中使用。

下面是一个简单的使用示例：

python

运行

from torch.utils.data import DataLoader, Dataset

# 自定义一个简单的数据集
class MyDataset(Dataset):
    def __init__(self, data):
        self.data = data
    
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        return self.data[idx]

# 示例数据
data = list(range(100))
dataset = MyDataset(data)

# 创建 DataLoader
dataloader = DataLoader(
    dataset,
    batch_size=10,      # 每批10个样本
    shuffle=True,       # 每个epoch打乱数据
    num_workers=2       # 使用2个进程并行加载数据
)

# 使用 DataLoader 迭代数据
for batch in dataloader:
    print(batch)  # 每次迭代处理一个批次的数据

2. 无限迭代器（自定义）

在某些特定场景下，比如训练 GAN 或者强化学习时，你可能需要创建一个无限循环的数据加载器。这时可以自定义一个迭代器来实现这个需求。

下面是一个自定义无限迭代器的示例：

python

运行

class InfiniteDataLoader:
    def __init__(self, dataloader):
        self.dataloader = dataloader
        self.iterator = iter(dataloader)
    
    def __iter__(self):
        return self
    
    def __next__(self):
        try:
            return next(self.iterator)
        except StopIteration:
            # 当迭代器耗尽时，重新创建迭代器
            self.iterator = iter(self.dataloader)
            return next(self.iterator)

# 使用方法
infinite_loader = InfiniteDataLoader(dataloader)
for i in range(100):  # 可以无限次获取数据，无需担心StopIteration
    batch = next(infinite_loader)
    # 处理批次数据

3. 流式数据处理

当处理大规模数据集，例如无法一次性加载到内存中的数据集时，可以使用 PyTorch 的 IterableDataset 类。

下面是一个处理大型文本文件的示例：

python

运行

from torch.utils.data import IterableDataset, DataLoader

class TextLineDataset(IterableDataset):
    def __init__(self, file_path):
        self.file_path = file_path
    
    def __iter__(self):
        with open(self.file_path, 'r') as f:
            for line in f:
                yield line.strip()  # 每次生成一行数据

# 使用方法
dataset = TextLineDataset('large_text_file.txt')
dataloader = DataLoader(dataset, batch_size=10)

for batch in dataloader:
    # 处理批次数据
    print(batch)

4. 分布式数据加载

在多 GPU 或者多节点训练时，需要使用 DistributedSampler 来确保数据在各个进程之间正确分配。

下面是一个简单的使用示例：

python

运行

import torch
import torch.distributed as dist
from torch.utils.data.distributed import DistributedSampler

# 初始化分布式环境
dist.init_process_group(backend='nccl')

# 创建数据集和数据加载器
dataset = MyDataset(data)
sampler = DistributedSampler(dataset, shuffle=True)

dataloader = DataLoader(
    dataset,
    batch_size=10,
    sampler=sampler
)

# 在每个进程中训练
for epoch in range(10):
    sampler.set_epoch(epoch)  # 为每个epoch设置不同的随机种子
    for batch in dataloader:
        # 训练代码
        pass