论文翻译:arxiv-2024.Chunqiu Steven Xia.Top Leaderboard Ranking = Top Coding Proficiency, Always?

https://arxiv.org/pdf/2403.19114

Top Leaderboard Ranking = Top Coding Proficiency, Always?
EVOEVAL: Evolving Coding Benchmarks via LLM

排行榜排名 = 顶级编码能力,总是这样吗?EVOEVAL:通过LLM进化的编码基准测试

摘要

LLM(大型语言模型)已成为代码生成任务的首选,特别是在代码生成方面的训练、开发和使用呈指数级增长。为了评估LLM在代码方面的能力,学术界和工业界的从业者都依赖于流行的手工制作的基准测试。然而,以前的基准测试只包含非常有限的问题集,无论是在数量上还是种类上。此外,由于流行和年龄的原因,许多基准测试容易出现数据泄露,示例解决方案可以轻易在网络和训练数据中找到。这些限制不可避免地让我们提出疑问:现有基准测试的排行榜性能是否足够可靠和全面,以衡量LLM的程序合成能力?为了解决这个问题,我们引入了EVOEVAL - 一个通过将现有基准测试进化到不同目标领域,全面评估LLM编码能力的程序合成基准测试套件。我们对51个LLM的研究显示,与在标准基准测试(如HUMANEVAL)上获得的高性能相比,使用EVOEVAL时性能显著下降(平均下降39.4%)。此外,性能下降的范围可以从19.6%到47.7%,导致LLM之间的排名发生剧烈变化,并显示出现有基准测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值