目录
Datasets
- 简介
datasets库是一个非常简单易用的数据集加载库,可以方便快捷的从本地或者HuggingFace Hub加载数据集
公开数据集地址:https://huggingface.co/datasets
文档地址:https://huggingface.co/docs/datasets/index
Datasets 基本使用
- 加载在线数据集(load dataset)
- 加载数据集某一项任务(load _dataset)
- 按照数据集划分进行加载(load dataset)
- 查看数据集(index and slice)
- 数据集划分(train test_split))
- 数据选取与过滤(select and filter)
- 数据映射(map)
- 保存与加载(save to disk/load from disk)
Datasets加载本地数据
- 直接加载文件作为数据集
CSV、JSON - 加载文件夹内全部文件作为数据集
- 通过预先加载的其他格式转换加载数据集
dict、pandas、list - 通过自定义加载脚本加载数据集
def_info(self)
def_split_ge