前言
在大模型的测评中,我们往往需要借助一些自动化工具来完成测评任务,本章将介绍常见的自动化测评工具:lm-evaluation-harness
。
工具简介
lm-evaluation-harness
是由 EleutherAI 开发的开源工具,用于统一评估语言模型(如 GPT、LLaMA 等)在多样化任务中的性能。支持 200+ 评测任务,涵盖文本生成、逻辑推理、数学计算等领域。
工具使用
1. 工具下载
git clone https://github.com/EleutherAI/lm-evaluation-harness.git
2. 安装工具
2.1 创建虚拟环境
安装依赖之前,最好通过conda创建一个虚拟环境,然后进入虚拟环境安装依赖。
conda create -n lm_eval python=3.10
conda activate lm_eval
2.2 安装工具
进入虚拟环境后,安装工具。
cd lm-evaluation-harness
pip install -e .
2.3 安装依赖
# 安装sentencepiece
pip install torch sentencepiece protobuf
# 安装torch
pip install torch torchvision torchaudio
2.4 测试安装
正常安装之后,可以使用命令lm_eval -h
测试是否成功。
通过lm_eval -h
命令可以看到,lm_eval可以连接Hugging Face的模型,也可以连接本地模型进行评测。由于国内对Hugging Face的访问受限,所以这里选择连接本地模型。
3. 模型下载
本次测试中,我们使用最近火热的deepseek在Qwen上的蒸馏版本 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
。
第一步:访问modelscope,搜索deepseek模型。
第二步:在搜索的 DeepSeek-R1-Distill-Qwen-7B
模型中,获取下载地址。
第三步:使用git lfs
下载模型。