UCB：语言反馈的LLM提示优化

最新推荐文章于 2025-08-01 15:57:00 发布

大模型任我行

最新推荐文章于 2025-08-01 15:57:00 发布

阅读量1.4k

点赞数 31

CC 4.0 BY-SA版权

分类专栏：大模型-模型训练文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/149776202

大模型-模型训练专栏收录该内容

359 篇文章

订阅专栏

在这里插入图片描述

📖标题：GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
🌐来源：arXiv, 2507.19457

🌟摘要

大型语言模型 (LLM) 通过 Group Relative Policy Optimization (GRPO) 等强化学习 (RL) 方法越来越多地适应下游任务，这些方法通常需要数千个推出来学习新任务。我们认为，与稀疏标量奖励导出的策略梯度相比，语言的可解释性质通常可以为 LLM 提供更丰富的学习媒介。为了测试这一点，我们引入了 GEPA（Genetic-Pareto），这是一种提示优化器，它彻底结合了自然语言反射来从试错中学习高级规则。给定任何包含一个或多个LLM提示的AI系统，GEPA对系统级轨迹(例如，推理、工具调用和工具输出)进行采样，并将其反映在自然语言上，以诊断问题、建议和测试提示更新，并结合来自其自身尝试帕累托边界的互补教训。由于 GEPA 的设计，它通常甚至可以将一些推出转化为高质量的增益。在四个任务中，GEPA 平均比 GRPO 高 10%，最高可达 20%，同时使用的推出减少了 35 倍。GEPA 在两个 LLM 中也优于领先的提示优化器 MIPROv2 超过 10%，并展示了有希望的结果作为代码优化的推理时间搜索策略。

🛎️文章简介

🔸研究问题：如何在预算有限的情况下，从少量昂贵的rollout中提取最大学习信号，实现复杂AI系统的高效适配？
🔸主要贡献：论文提出GEPA优化器，通过自然语言反思、遗传进化和帕累托选择，以更少rollout数量超越现有强化学习和提示优化方法，实现样本高效的复合AI系统优化。

📝重点思路

🔸遗传优化循环：从初始候选池出发，迭代通过突变或交叉生成新候选，跟踪祖先并积累经验，最终返回验证集最佳候选。
🔸反思性提示突变：基于系统执行轨迹和评估反馈，用LLM诊断模块问题，生成针对性提示更新，形成新候选。
🔸帕累托候选选择：保留在至少一个任务上表现最优的候选，剔除劣势候选，按任务覆盖度抽样，平衡探索与利用。
🔸系统感知交叉（Merge）：合并不同优化谱系的互补模块，生成更优候选，提升性能。

🔎分析总结

🔸GEPA样本效率远超RL：用少至35倍的rollout，在4个任务中平均超越GRPO 10%，最高达19%。
🔸指令优化优于联合优化：在两个LLM上，GEPA超越MIPROv2逾10%，泛化差距更小。
🔸帕累托策略关键：相比“选最佳候选”策略，平均性能领先6.4%，避免局部最优。
🔸提示更简洁高效：GEPA提示最长比MIPROv2短9.2倍，降低计算成本。
🔸推理时搜索潜力大：在代码优化任务中，显著提升内核性能（如AMD NPU向量利用率达30.52%）。