Determined AI 项目中的模型数据加载指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00380/article/details/148602486

Determined AI 项目中的模型数据加载指南

前言

在机器学习项目开发中，数据加载是模型训练的第一步，也是至关重要的一环。Determined AI 作为一个强大的机器学习平台，提供了多种灵活的数据加载方式，以适应不同规模、不同环境下的训练需求。本文将详细介绍在 Determined 平台上加载模型数据的各种方法及其适用场景。

数据加载方式概览

Determined 支持以下几种主要的数据加载方式：

将数据与代码一起打包（适用于小型数据集）
使用分布式文件系统（适用于中大型数据集）
使用对象存储（适用于云环境和大规模数据集）
数据流式加载（适用于超大规模数据集）

方法一：与代码一起打包的小型数据集

适用场景

这种方法最适合满足以下条件的情况：

数据集大小不超过 96MB
数据不需要频繁更新
项目结构简单，便于管理

实现步骤

将数据文件（如 CSV、JSON 等）放在与模型代码相同的目录中
确保整个目录大小不超过 96MB 限制
使用 det create experiment 命令提交实验

示例目录结构

.
├── config.yaml      # 实验配置文件
├── train_data.csv   # 训练数据
└── model_def.py     # 模型定义文件

代码示例

import pandas as pd

class MyModel:
    def __init__(self, context):
        # 直接读取同级目录下的数据文件
        self.df = pd.read_csv("train_data.csv")

优缺点分析

优点：

实现简单，无需额外配置
数据与代码版本一致，便于管理

缺点：

受限于 96MB 大小限制
每次修改数据都需要重新提交实验

方法二：分布式文件系统

适用场景

数据集较大（超过 96MB）
多台机器需要同时访问相同数据
需要 POSIX 文件系统接口的场景

常见分布式文件系统

云服务提供商方案：
- AWS Elastic File System (EFS)
- Google Cloud Filestore
开源方案：
- Ceph
- GlusterFS
- NFS

配置步骤

在所有 Determined agent 节点上挂载分布式文件系统
在 master.yaml 中配置启动脚本自动挂载
在实验配置中设置 bind mounts

配置示例

bind_mounts:
  - host_path: /mnt/shared_data
    container_path: /mnt/shared_data
    read_only: true

代码实现

def build_data_loader(self):
    # 使用挂载点路径访问数据
    return DataLoader("/mnt/shared_data/training")

注意事项

确保所有节点挂载路径一致
考虑设置 read_only 防止意外修改
网络延迟可能影响 IO 性能

方法三：对象存储

适用场景

云环境部署
超大规模数据集
需要弹性扩展的场景

常见对象存储服务

AWS S3
Google Cloud Storage
阿里云 OSS
开源方案如 MinIO

安全配置

使用对象存储需要配置适当的访问凭证：

AWS: 通过 IAM 角色配置
GCP: 通过服务账号配置
其他: 使用访问密钥

数据下载方式

全量下载示例

def download_from_s3(self):
    s3 = boto3.client('s3')
    bucket = self.context.get_data_config()['bucket']
    os.makedirs('/tmp/data', exist_ok=True)
    s3.download_file(bucket, 'dataset.zip', '/tmp/data/dataset.zip')
    # 解压等后续处理...

数据流式加载

对于超大规模数据集，推荐使用流式加载方式：

class S3StreamingDataset(torch.utils.data.Dataset):
    def __getitem__(self, idx):
        # 根据索引动态获取数据
        obj = s3.get_object(Bucket=bucket, Key=f"data/{idx}.bin")
        return process_data(obj['Body'].read())