VLLM/sglang lm_eval MMLU等准确度评测

Ref

https://github.com/EleutherAI/lm-evaluation-harness

如何使用lm-evaluation-harness零代码评估大模型

【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)_superclue c-eval哪个更权威-CSDN博客

lm_eval评测方法

# pip install lm-eval
pip install lm-eval[api]

源码安装

git clone https://github.com/EleutherAI/lm-evaluation-harness
cd lm-evaluation-harness
pip install -e .

查看支持的评测任务

lm-eval --tasks list

VLLM/SGLang serving API评测

lm_eval \
--model local-completions \
--tasks mmlu \
--batch_size=8 \
--model_args '{"model": "Qwen/Qwen3-8B-FP8", "base_url": "http://localhost:8000/v1/completions", "num_concurrent": 8}'

这个可以评测VLLM/SGLang启动的serving服务提供的api接口,从而评测VLLM/sglang不同部署方案的效果。

MMLU

除了mmlu整体评测,还可以分为4个子任务单独评测

mmlu_stem
mmlu_other
mmlu_social_sciences
mmlu_humanities

或者更精细的子任务评测。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Luchang-Li

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值