【模型测试】大模型评测工具lm-evaluation-harness的使用方法总结

最新推荐文章于 2025-06-24 10:15:03 发布

原创

最新推荐文章于 2025-06-24 10:15:03 发布 · 1.4k 阅读

CC 4.0 BY-SA版权

文章标签：

在大模型的测评中，我们往往需要借助一些自动化工具来完成测评任务，本章将介绍常见的自动化测评工具：lm-evaluation-harness。

lm-evaluation-harness 是由 EleutherAI 开发的开源工具，用于统一评估语言模型（如 GPT、LLaMA 等）在多样化任务中的性能。支持 200+ 评测任务，涵盖文本生成、逻辑推理、数学计算等领域。

git clone https://github.com/EleutherAI/lm-evaluation-harness.git

安装依赖之前，最好通过conda创建一个虚拟环境，然后进入虚拟环境安装依赖。

conda create -n lm_eval python=3.10
conda activate lm_eval

进入虚拟环境后，安装工具。

cd lm-evaluation-harness
pip install -e .

# 安装sentencepiece
pip install torch sentencepiece protobuf

# 安装torch
pip install torch torchvision torchaudio

正常安装之后，可以使用命令lm_eval -h测试是否成功。

通过lm_eval -h命令可以看到，lm_eval可以连接Hugging Face的模型，也可以连接本地模型进行评测。由于国内对Hugging Face的访问受限，所以这里选择连接本地模型。

本次测试中，我们使用最近火热的deepseek在Qwen上的蒸馏版本 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B。

第一步：访问modelscope，搜索deepseek模型。

第二步：在搜索的 DeepSeek-R1-Distill-Qwen-7B 模型中，获取下载地址。

第三步：使用git lfs下载模型。

200万优质内容无限畅学