【模型测试】大模型评测工具lm-evaluation-harness的使用方法总结

前言

在大模型的测评中,我们往往需要借助一些自动化工具来完成测评任务,本章将介绍常见的自动化测评工具:lm-evaluation-harness

工具简介

lm-evaluation-harness 是由 EleutherAI 开发的开源工具,用于统一评估语言模型(如 GPT、LLaMA 等)在多样化任务中的性能。支持 200+ 评测任务,涵盖文本生成、逻辑推理、数学计算等领域。

工具使用

1. 工具下载

git clone https://github.com/EleutherAI/lm-evaluation-harness.git

2. 安装工具

2.1 创建虚拟环境

安装依赖之前,最好通过conda创建一个虚拟环境,然后进入虚拟环境安装依赖。

conda create -n lm_eval python=3.10
conda activate lm_eval
2.2 安装工具

进入虚拟环境后,安装工具。

cd lm-evaluation-harness
pip install -e .
2.3 安装依赖
# 安装sentencepiece
pip install torch sentencepiece protobuf
# 安装torch
pip install torch torchvision torchaudio
2.4 测试安装

正常安装之后,可以使用命令lm_eval -h测试是否成功。

通过lm_eval -h命令可以看到,lm_eval可以连接Hugging Face的模型,也可以连接本地模型进行评测。由于国内对Hugging Face的访问受限,所以这里选择连接本地模型。

3. 模型下载

本次测试中,我们使用最近火热的deepseek在Qwen上的蒸馏版本 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

第一步:访问modelscope,搜索deepseek模型。

第二步:在搜索的 DeepSeek-R1-Distill-Qwen-7B 模型中,获取下载地址。

第三步:使用git lfs下载模型。


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

洞明智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值