UCB:语言反馈的LLM提示优化

在这里插入图片描述

📖标题:GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
🌐来源:arXiv, 2507.19457

🌟摘要

大型语言模型 (LLM) 通过 Group Relative Policy Optimization (GRPO) 等强化学习 (RL) 方法越来越多地适应下游任务,这些方法通常需要数千个推出来学习新任务。我们认为,与稀疏标量奖励导出的策略梯度相比,语言的可解释性质通常可以为 LLM 提供更丰富的学习媒介。为了测试这一点,我们引入了 GEPA(Genetic-Pareto),这是一种提示优化器,它彻底结合了自然语言反射来从试错中学习高级规则。给定任何包含一个或多个LLM提示的AI系统,GEPA对系统级轨迹(例如,推理、工具调用和工具输出)进行采样,并将其反映在自然语言上,以诊断问题、建议和测试提示更新,并结合来自其自身尝试帕累托边界的互补教训。由于 GEPA 的设计,它通常甚至可以将一些推出转化为高质量的增益。在四个任务中,GEPA 平均比 GRPO 高 10%,最高可达 20%,同时使用的推出减少了 35 倍。GEPA 在两个 LLM 中也优于领先的提示优化器 MIPROv2 超过 10%,并展示了有希望的结果作为代码优化的推理时间搜索策略。

🛎️文章简介

🔸研究问题:如何在预算有限的情况下,从少量昂贵的rollout中提取最大学习信号,实现复杂AI系统的高效适配?
🔸主要贡献:论文提出GEPA优化器,通过自然语言反思、遗传进化和帕累托选择,以更少rollout数量超越现有强化学习和提示优化方法,实现样本高效的复合AI系统优化。

📝重点思路

🔸遗传优化循环:从初始候选池出发,迭代通过突变或交叉生成新候选,跟踪祖先并积累经验,最终返回验证集最佳候选。
🔸反思性提示突变:基于系统执行轨迹和评估反馈,用LLM诊断模块问题,生成针对性提示更新,形成新候选。
🔸帕累托候选选择:保留在至少一个任务上表现最优的候选,剔除劣势候选,按任务覆盖度抽样,平衡探索与利用。
🔸系统感知交叉(Merge):合并不同优化谱系的互补模块,生成更优候选,提升性能。

🔎分析总结

🔸GEPA样本效率远超RL:用少至35倍的rollout,在4个任务中平均超越GRPO 10%,最高达19%。
🔸指令优化优于联合优化:在两个LLM上,GEPA超越MIPROv2逾10%,泛化差距更小。
🔸帕累托策略关键:相比“选最佳候选”策略,平均性能领先6.4%,避免局部最优。
🔸提示更简洁高效:GEPA提示最长比MIPROv2短9.2倍,降低计算成本。
🔸推理时搜索潜力大:在代码优化任务中,显著提升内核性能(如AMD NPU向量利用率达30.52%)。

💡个人观点

论文创新点在于以自然语言反思为核心,让LLM利用语言先验从少量数据中学习,突破RL样本低效瓶颈。并融合遗传进化与帕累托优化,平衡探索与利用,增强泛化。

🧩附录

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值