huggingface高速下载数据集的解决方案

  大家好,我是herosunly。985院校硕士毕业,现担任算法工程师一职,获得CSDN博客之星第一名,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得多项AI顶级比赛的Top名次,其中包括阿里云、科大讯飞比赛第一名,CCF、开放原子比赛二等奖。在技术创新领域拥有多项授权发明。曾辅导多位非科班出身的同学成功进入算法行业就业。希望和大家一起成长进步。

  今天给大家带来的是huggingface高速下载数据集的解决方案,希望能对使用huggingface数据集的同学们有所帮助。需要说明的是,本文是以Linux系统为例,如果是其他操作系统,可以在评论区留言,后续将会酌情进行补充。

文章目录

1. 前言

  最近有不少同学反应无法正常下载huggingface的数据集,亲自尝试使用git clone下载huggingface上的数据集时,也同样无法正常下载。

在这里插入图片描述
  使用站长之家的IP查询功能,发现国内没有能够正常连接huggingface网站的节点。

在这里插入图片描述
  既然大家都遇到了同

从 Hugging Face 下载数据集可以通过多种方式进行,以下是几种常见且有效的方法: 1. **使用 `huggingface-cli` 命令行工具** 可以通过命令行直接下载数据集,这种方式简单高效。例如,要下载 IMDb 数据集,可以运行以下命令: ```bash huggingface-cli download --repo-type dataset imdb ``` 该命令会将数据集默认保存到 `~/.cache/huggingface` 文件夹中 [^1]。 2. **使用 Python API 进行下载和加载** 如果希望在 Python 脚本中直接操作,可以使用 `datasets` 库中的 `load_dataset` 方法。它支持自动下载并缓存数据集到本地路径。 ```python from datasets import load_dataset # 加载 IMDb 数据集 dataset = load_dataset('imdb') ``` 这种方式适用于集成到训练流程或数据处理脚本中。 3. **手动下载与解压** 对于某些特定的数据集,例如 SamSum 数据集,可以先通过 Hugging Face 提供的链接手动下载 ZIP 文件,然后使用代码进行解压和加载。具体步骤如下: - 下载 ZIP 文件。 - 使用 `zipfile` 模块解压文件。 - 利用 `load_from_disk` 方法加载数据集。 示例代码如下: ```python import os import zipfile from urllib import request from datasets import load_from_disk source_URL = 'https://example.com/samsum_dataset.zip' # 替换为实际的下载链接 local_data_file = 'samsum_dataset.zip' unzip_dir = 'samsum_dataset' # 下载文件 if not os.path.exists(local_data_file): filename, headers = request.urlretrieve(url=source_URL, filename=local_data_file) # 解压 ZIP 文件 def extract_zip_file(): os.makedirs(unzip_dir, exist_ok=True) with zipfile.ZipFile(local_data_file, 'r') as zip_ref: zip_ref.extractall(unzip_dir) extract_zip_file() # 加载数据集 dataset_samsum = load_from_disk(unzip_dir) ``` 这种方法适合需要对数据集结构进行定制化处理的情况 [^2]。 4. **指定自定义缓存路径** 如果需要改变默认的缓存路径,可以在调用 `load_dataset` 或其他相关函数时,通过设置参数来指定自定义的存储位置。 ```python dataset = load_dataset('imdb', cache_dir='./custom_cache_path') ``` 这些方法均可以根据实际需求灵活选择,确保能够顺利获取所需数据集并快速集成到开发环境中。 ---
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

herosunly

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值