https://arxiv.org/pdf/2403.19114
Top Leaderboard Ranking = Top Coding Proficiency, Always?
EVOEVAL: Evolving Coding Benchmarks via LLM
排行榜排名 = 顶级编码能力,总是这样吗?EVOEVAL:通过LLM进化的编码基准测试
摘要
LLM(大型语言模型)已成为代码生成任务的首选,特别是在代码生成方面的训练、开发和使用呈指数级增长。为了评估LLM在代码方面的能力,学术界和工业界的从业者都依赖于流行的手工制作的基准测试。然而,以前的基准测试只包含非常有限的问题集,无论是在数量上还是种类上。此外,由于流行和年龄的原因,许多基准测试容易出现数据泄露,示例解决方案可以轻易在网络和训练数据中找到。这些限制不可避免地让我们提出疑问:现有基准测试的排行榜性能是否足够可靠和全面,以衡量LLM的程序合成能力?为了解决这个问题,我们引入了EVOEVAL - 一个通过将现有基准测试进化到不同目标领域,全面评估LLM编码能力的程序合成基准测试套件。我们对51个LLM的研究显示,与在标准基准测试(如HUMANEVAL)上获得的高性能相比,使用EVOEVAL时性能显著下降(平均下降39.4%)。此外,性能下降的范围可以从19.6%到47.7%,导致LLM之间的排名发生剧烈变化,并显示出现有基准测