📖标题:GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
🌐来源:arXiv, 2507.19457
🌟摘要
大型语言模型 (LLM) 通过 Group Relative Policy Optimization (GRPO) 等强化学习 (RL) 方法越来越多地适应下游任务,这些方法通常需要数千个推出来学习新任务。我们认为,与稀疏标量奖励导出的策略梯度相比,语言的可解释性质通常可以为 LLM 提供更丰富的学习媒介。为了测试这一点,我们引入了 GEPA(Genetic-Pareto),这是一种提示优化器,它彻底结合了自然语言反射来从试错中学习高级规则。给定任何包含一个或多个LLM提示的AI系统,GEPA对系统级轨迹(例如,推理、工具调用和工具输出)进行采样,并将其反映在自然语言上,以诊断问题、建议和测试提示更新,并结合来自其自身尝试帕累托边界的互补教训。由于 GEPA 的设计,它通常甚至可以将一些推出转化为高质量的增益。在四个任务中,GEPA 平均比 GRPO 高 10%,最高可达 20%,同时使用的推出减少了 35 倍。GEPA 在两个 LLM 中也优于领先的提示优化器 MIPROv2 超过 10%,并展示了有希望的结果作为代码优化的推理时间搜索策略。
🛎️文章简介
🔸研究问题:如何在预算有限的情况下,从少量昂贵的rollout中提取最大学习信号,实现复杂AI系统的高效适配?
🔸主要贡献:论文提出GEPA优化器,通过自然语言反思、遗传进化和帕累托选择,以更少rollout数量超越现有强化学习和提示优化方法,实现样本高效的复合AI系统优化。
📝重点思路
🔸遗传优化循环:从初始候选池出发,迭代通过突变或交叉生成新候选,跟踪祖先并积累经验,最终返回验证集最佳候选。
🔸反思性提示突变:基于系统执行轨迹和评估反馈,用LLM诊断模块问题,生成针对性提示更新,形成新候选。
🔸帕累托候选选择:保留在至少一个任务上表现最优的候选,剔除劣势候选,按任务覆盖度抽样,平衡探索与利用。
🔸系统感知交叉(Merge):合并不同优化谱系的互补模块,生成更优候选,提升性能。
🔎分析总结
🔸GEPA样本效率远超RL:用少至35倍的rollout,在4个任务中平均超越GRPO 10%,最高达19%。
🔸指令优化优于联合优化:在两个LLM上,GEPA超越MIPROv2逾10%,泛化差距更小。
🔸帕累托策略关键:相比“选最佳候选”策略,平均性能领先6.4%,避免局部最优。
🔸提示更简洁高效:GEPA提示最长比MIPROv2短9.2倍,降低计算成本。
🔸推理时搜索潜力大:在代码优化任务中,显著提升内核性能(如AMD NPU向量利用率达30.52%)。
💡个人观点
论文创新点在于以自然语言反思为核心,让LLM利用语言先验从少量数据中学习,突破RL样本低效瓶颈。并融合遗传进化与帕累托优化,平衡探索与利用,增强泛化。