Ref
https://github.com/EleutherAI/lm-evaluation-harness
如何使用lm-evaluation-harness零代码评估大模型
【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)_superclue c-eval哪个更权威-CSDN博客
lm_eval评测方法
# pip install lm-eval
pip install lm-eval[api]
源码安装
git clone https://github.com/EleutherAI/lm-evaluation-harness
cd lm-evaluation-harness
pip install -e .
查看支持的评测任务
lm-eval --tasks list
VLLM/SGLang serving API评测
lm_eval \
--model local-completions \
--tasks mmlu \
--batch_size=8 \
--model_args '{"model": "Qwen/Qwen3-8B-FP8", "base_url": "http://localhost:8000/v1/completions", "num_concurrent": 8}'
这个可以评测VLLM/SGLang启动的serving服务提供的api接口,从而评测VLLM/sglang不同部署方案的效果。
MMLU
除了mmlu整体评测,还可以分为4个子任务单独评测
mmlu_stem
mmlu_other
mmlu_social_sciences
mmlu_humanities
或者更精细的子任务评测。