大型语言模型(LLM)的后训练(post-training)阶段旨在在预训练和指令微调之后进一步提升模型的对齐性、推理能力和效率。自 2024 年以来,该领域涌现出许多新方法,主要集中在以下三个方向: (1) 强化学习或自监督微调的新方法,包括强化学习从人类或替代反馈(RLHF/RLAIF)的改进、奖励建模优化,以及无需人工偏好的自监督强化; (2) 推理能力与对齐性的提升策略,如链式思维(CoT)训练、增强模型推理过程、多轮对话对齐等; (3) 模型压缩、迁移与持续学习,包括高效微调、小模型替代、任务适配器以及在线终身学习等技术。
强化学习与偏好对齐方法及其新进展
基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)仍是主流的 LLM 对齐手段,即通过人工偏好数据训练奖励模型,再用策略优化方法(如 PPO 算法)微调语言模型 arxiv.RLHF 已被证明有效对齐模型行为,但高质量人工偏好标签获取代价昂贵 arxiv.org。2024 年以来,一系列改进方法涌现以提高 RL 阶段的效率和稳定性:
-
直接偏好优化(DPO):Rafael Rafailov 等提出将 RLHF 目标重新表述为闭式解的偏好分类问题,从而用监督微调替代复杂的 RL 循环 arxiv.org。DPO 避免了训练中反复采样模型输出,算法简单且收敛稳定,无需繁琐的超参数调节 arxiv.org。org。
DPO optimizes for human preferences while avoiding reinforcement learning
-
从 AI 反馈的强化学习(RLAIF):人类反馈的高成本促使研究者探索用 AI 模型提供偏好评价。ICML 2024 的一项工作比较了 AI 反馈与人类反馈的 RL 方法 arxiv.org。
A diagram depicting RLAIF (top) vs. RLHF (bottom)
RLAIF 利用现成的大模型生成成对输出的偏好比较数据来训练奖励模型,在摘要(如下图所示)、助手式对话、有害内容防范等任务上,其性能与使用人类反馈的 RLHF 不相上下 arxiv.org。
An illustration of the process to obtain AI-generated preference labels for summarization
值得关注的是,RLAIF 展示了模型的自我提升能力:即使偏好标签由与待调优模型同规模甚至同一个初始模型产生,经过 RLAIF 微调后仍能超越原始的监督微调模型。此外,作者提出的直接-RLAIF(d-RLAIF)绕过了单独训练奖励模型环节(如下图),改为在强化学习过程中由外部 LLM 直接给出奖励信号,反而取得比标准 RLAIF 更佳的效果这些结果表明,AI 提供的偏好反馈在规模化上有巨大潜力,可缓解 RLHF 的人力瓶颈,实现接近人类监督的对齐效果 arxiv.org。
direct-RLAIF (d-RLAIF)
-
自进化奖励学习(Self-Evolved Reward Learning, SER):除了上述替代人类标签的方法,微软等提出自进化奖励学习(Self-Evolved Reward Learning, SER),让奖励模型用自身预测来生成更多训练样本并迭代提升自己 arxiv.org。具体而言,初始奖励模型先利用有限的人类标注数据训练,然后对未标注数据打分产生“自反馈”标签,加入高置信度的新数据再训练自身,如此反复,提高了奖励模型的判别能力。在真实数据集(如 HH-RLHF 对话数据、UltraFeedback 偏好数据)上验证表明,即使人类标注数据很有限,这种模型自反馈机制也能稳健地提升奖励模型性能,进而提升最终策略 LLM 的对齐效果。由于 SER 依赖模型自身的评估能力,它减少了人工参与,同时通过数据筛选和多轮迭代保持了训练稳定性。这类工作与 RLAIF 理念一致,都体现出让模型参与自身优化的趋势。
The Self-Evolved Reward Learning (SER) pipeline
总体来看,强化学习对齐方法正朝着降低人类参与、提高训练稳定性的方向演进。无论是 DPO 这样完全抛弃 RL 环节的算法,还是 RLAIF/SER 这类用模型自动反馈替代人工的策略,都在 2024 年展示了良好的性能与实用前景。
-
迭代直接偏好优化(Iterative DPO)(Tu 等,2025 年)arxiv.org:针对 RLHF 算法的高成本,本文系统研究了 Direct Preference Optimization(DPO)作为替代方案的效果,并提出了一个多轮偏好学习框架。首先发现,单轮的 DPO 结合简单的结果过滤,就能显著提升强基座模型(如 Qwen2.5-7B)的数学推理能力。在此基础上,作者设计了一个迭代增强流程:让生成模型(策略)和奖励模型反复交互、交替训练,使生成模型产生日益丰富的自举数据来更新奖励模型,奖励模型再提供更新的偏好信号微调生成模型,如此循环多轮(参考下图)。
Iterative DPO with Outcome Label and RM-Based Annotation
这种生成-评价共同进化突破了传统 RL 固定奖励模型的限制。实验证明,多轮 DPO 可实现类似于在线 RL 的效果:最终构建的 DPO-VP 模型(使用简单可验证的规则奖励)在数学推理等五项基准上达到与复杂 RL 算法相当的成绩,而训练开销显著降低。例如,DPO-VP 在多个推理基准的平均得分与采用 PPO 的 SimpleRL 和 PURE 等方法相当(约 48 分),但训练仅需单张 80GB GPU,相比 RL 基线的多机 GPU 大幅减少计算量。这表明 DPO 是一种可扩展且成本低廉的自我提升策略,在资源受限场景下具有实用价值 arxiv.org。
-
反向思维链(RFF)(Xu 等,2025 年)arXiv:大多数链式或树式思维采用从前往后的逐步推理,可能陷入局部最优。RFF(Reason from Future)引入了一种双向推理范式:融合自顶向下的目标规划和自底向上的正向推理。其关键在于反向推理机制:模型先从问题的最终目标出发进行逆向思考,生成一个中间目标状态,然后再正向推理一步朝该目标推进,如此反复交替。通过在中间步骤施加面向最终目标的约束,RFF 能缩小搜索空间并减少前向推理过程中错误的累积(参考下图)。
Reason from Future Prompting (RFF)
论文提出了针对不同任务结构的两种策略:用于搜索树类问题的 RFF-T 和用于有向无环图(DAG)类问题的 RFF-G。在 24 点游戏等搜索树任务上,RFF-T 以更少的状态访问实现远高于基线的方法成功率(例如 Llama3-8B 模型使用 RFF 达到 96% 准确率,只探索 15 个状态,而传统方法准确率不足 20% 且搜索近 90 个状态)。在数学推理等 DAG 任务(GSM8K、SVAMP 等)上,RFF-G 同样显著优于链式思维(CoT)等基线:例如 Llama3-8B 模型在四个数学数据集上的平均准确率达到 75.4%,而标准 CoT 为 67.8%。尤其对于中等规模模型,RFF 的提升更为明显。同时,RFF 还展现出对冗余或噪声信息的鲁棒性(在引入干扰信息时仍能保持高准确率且探索更少)。总的来说,RFF 通过目标导向的逆向推理为 LLM 复杂问题求解提供了更高效、更准确的范式,被证明能在推理准确率和效率上领先于传统单向思维链方法。
自监督微调与模型自反馈学习
纯监督和强化学习之外,研究者还探索了自监督的后训练策略,即不依赖人工标注,利用模型本身或无标签数据来继续提升模型能力。
-
在线持续学习系统(Alchemist,Huang 等,2025 年)ar5iv.labs.arxiv.org:传统 LLM 部署后很难频繁更新知识,Alchemist 旨在提高在线增量训练的效率。作者指出现有做法中推理服务和训练过程相互独立,导致训练时重复大量推理阶段已完成的计算。Alchemist 作为首个在线持续学习系统,通过重用服务阶段的中间激活来加速训练(参考下图)。其关键技术包括:(1) 在推理的预填充阶段记录并缓存 Transformer 各层的激活(以及 KV 缓存),供训练反向传播使用;(2) 智能的激活卸载和回收机制,平衡显存占用和延迟。这样,当模型在离线时段获取新用户反馈时,可直接利用推理时已计算的前向激活,避免再次前向计算,从而节省约 30-40% 训练时间。在 ShareGPT 增量数据上的测试显示,与传统做法相比,Alchemist 将训练吞吐提升了 1.72 倍,训练时显存减少 47%,支持的序列长度提高一倍,同时对线上服务延迟影响可以忽略不计。这表明通过训练-服务融合设计,LLM 可以实现高速的在线持续学习,在确保响应实时性的前提下不断吸收新知识。
Alchemist system overview
-
自我反馈强化学习(RLSF)(van Niekerk 等,2025 年)arxiv.org:提出了一种无需人类偏好的强化学习策略。RLSF 利用模型自身对答案的置信度作为内在奖励信号,将模型的不确定性转化为可用反馈(参考下图)。具体做法是让一个冻结的 LLM 针对同一问题生成多条链式思维解答,计算每条解答最终答案的置信度,并据此排序生成合成偏好数据。然后训练一个奖励模型来评价答案质量,并使用偏好优化(可采用 PPO 或直接偏好优化 DPO)微调原模型 arxiv.org。这种方法不依赖人工标签或标准答案。实验表明,RLSF 可以改善模型的校准性(让模型概率更符合正确率)并增强逐步推理能力,在算术推理(如 GSM8K)和多项选择问答等任务上均提升了性能 arxiv.org。例如,在 GSM8K 算术题上,7B 参数的 Qwen2.5 模型经 RLSF-PPO 微调后准确率略微超过仅用链式思维推理的基线,并显著降低了过度自信现象。此外,RLSF 不会放大模型原有偏见,在对抗性偏见测试中未见显著恶化 arxiv.org。
An overview of the RLSF pipeline
-
子空间约束 LoRA 高效微调(SC-LoRA,Luo 等,2025 年)arxiv.org:参数高效微调(PEFT)中,LoRA 方法因低秩适配而流行,但存在收敛慢和遗忘预训练知识的问题。SC-LoRA(参考下图)提出在 LoRA 适配器的初始化和优化中同时兼顾微调效率和知识保留。
Comparison of LoRA with default Kaiming initialization and our proposed SC-LoRA
具体地,作者计算出预训练模型中“需保留知识”和“下游新任务”各自对应的主要特征方向,并构造一个低秩子空间:在该子空间中,新任务的上下文信息尽可能保留,而预训练知识的方向被正交移除。然后将 LoRA 的初始权重限制在这个子空间中,从而使训练时 LoRA 的更新聚焦于新任务主要特征,又避免过多扰动原有知识。理论上,这是一种在增益与遗忘间求平衡的初始化策略。大规模实验包括安全守则任务和世界知识问答等下游任务,结果表明:与其他 LoRA 改进方法相比,SC-LoRA 在保持模型原有安全性和知识的同时,实现了更高的微调效果。例如,在有中毒数据攻击的场景下,SC-LoRA 微调后的模型几乎零损失地保持了基模的安全性和常识能力,而标准 LoRA 微调会显著恶化模型输出的安全性。总体而言,SC-LoRA 成功地加速了 LoRA 收敛(通过更好的初始化)并降低了遗忘,在多项下游任务上全面优于以往 LoRA 初始化策略 arxiv.org。
-
跨注意力引导的自监督多轮强化(Kiruluta 等,2025 年)arXiv:为提升多轮对话和链式推理中的一致性,作者扩展了先前 Cross-Attention Guided Self-Reinforcement (CAGSR)框架。新方法(称为 CAGSR-vLLM-MTC)在高性能推理引擎 vLLM 上实现,对 LLM 的每一层注意力权重进行记录和利用。核心思想是设计一个自监督奖励函数,综合考虑对话整个历史和推理链中的注意力模式:奖励模型鼓励对历史关键信息的高覆盖注意力、较低的注意力熵(专注当前相关内容),并对重复关注进行惩罚。这些指标在每个对话回合/推理步骤计算并加权累积为总奖励,通过 PPO 来微调模型策略(参考下图)。
Overview of the CAGSR–vLLM–MTC training loop
为防止模型过度偏重早期内容,作者还引入基于熵的截断机制避免“注意力塌缩”。在多轮对话数据集上,经过该注意力引导强化训练的模型相比单轮 CAGSR 基线,对话连贯性提升了约 2%,一致性提升 3%,且每轮生成延迟下降约 3 倍(从 110ms 降至 35ms)。在数学推理数据(1 万道含人工步骤的数学题)上,新方法将最后答案准确率提高了 3%,中间步骤正确率提高 4%,同时每步推理延迟缩短近 3 倍。这证明了关注跨轮次历史信息的内在注意力奖励可以有效提升 LLM 长程对话的一致性和复杂推理的准确性。
-
多轮安全对齐(chen 等,2025)aclanthology.org,通过多轮红队攻击与防御训练来提升聊天模型对抗不良指令的鲁棒性,其框架将攻击者模型生成的对话作为训练数据(参考下图),不断优化目标模型的防御策略。
Multi-Turn Safety Alignment (MTSA) framework
综上,自监督微调和模型自反馈为后训练提供了低成本高收益的途径:模型可以通过自身生成数据、自我评估来不断精进。在对话、代码等任务上,这种方法正展现出接近甚至超越以往人工蒸馏方案的效果。当然,模型自我反馈的可靠性也取决于模型初始能力和评估标准的设计,如何确保模型不会在反馈循环中积累错误仍是未来挑战之一。
知识蒸馏与模型压缩的新进展
随着基础模型参数规模日益庞大,知识蒸馏(Knowledge Distillation)再次成为焦点,用于将大型模型的能力压缩到较小模型中以提高推理效率和部署可行性。
-
隐式链式思维蒸馏(CODI)(Shen 等,2025 年)arxiv.org:链式思维(CoT)可以增强模型推理但也带来长文本开销。CODI 提出将显式自然语言推理过程压缩到连续隐空间中(参考下图)arxiv.org。
Comparison of reasoning strategies
具体而言,使用一个联合训练框架:教师任务执行显式 CoT 推理,学生任务通过插入少量“连续思维”向量来隐式推理,二者共享模型权重。通过在模型内部对齐一个特殊标记的隐藏状态,实现教师将显式思维中的推理能力“蒸馏”给学生。这种自蒸馏训练使模型在无需输出中间文字推理的情况下,也能学到等价的推理逻辑(参考下图)。
CODI enables the model to generate implicit continuous CoTs
实验显示:在 GPT-2 规模模型上,CODI 是首个能够使隐式 CoT 性能追平显式 CoT 的方法 arxiv.org。例如,在数学推理基准 GSM8K 上,使用 CODI 的 GPT-2 模型达到与显式 CoT 相当的准确率,同时将思维链长度压缩了 3.1 倍。相比之前最好的隐式方法,本方法准确率提高了 28.2%。此外,CODI 在更复杂的推理任务上表现出良好的鲁棒性和泛化性,并具备一定的可解释性(通过分析连续思维向量可以洞察推理过程)。这项工作表明 LLM 的推理并不一定依赖语言形式,中间推理步骤可以在连续向量空间中高效完成。
- PPC-GPT:剪枝+链式思维蒸馏的联合压缩(Fan 等,2025 年)arxiv.org:在资源受限的场景中,直接部署大型语言模型可能并不实际。
PPC-GPT framework
它在服务器-客户端架构下运行:客户端先对本地任务数据进行差分隐私扰动后发送给服务器上的大模型,大模型基于这些数据生成合成样本及对应推理链(rationale)。服务器随后利用这些带有思维链的合成数据,对 LLM 进行结构化剪枝并训练得到小模型,同时执行链式思维知识蒸馏来提升剪枝后小模型的性能。这种方法在保护数据隐私的同时,充分借助了大模型的知识。实验在多个生成任务上证明,PPC-GPT 能够将 LLM 压缩为大幅更小的模型(参数量降低由几十亿到几亿甚至更低),且性能仅轻微下降,在一些任务上小模型甚至媲美原模型。同时,由于引入了 CoT 蒸馏,小模型对复杂推理任务的掌握明显优于仅剪枝的模型。PPC-GPT 实现了压缩性能和数据隐私的兼顾,对于需要在客户数据上微调但又要保护隐私的场景提供了一种可行方案。
总结
综上,2024 年以来 LLM 后训练技术在对齐和优化上取得了长足进展。一方面,新型强化学习范式(如 RLSF、AfD、迭代 DPO)摆脱了对人工偏好的完全依赖,探索了模型自我反馈和高效偏好优化的途径,为提升模型对齐性提供了更经济可扩展的方案。另一方面,围绕推理能力的专门训练使模型在复杂推理和多轮对话中表现出更强的一致性和准确性(通过显式或隐式的链式思维训练,以及引入逆向推理、注意力奖励等创新技术)。此外,在模型高效部署方面,压缩和持续学习技术让大型模型能以更小的规模或不断更新的形式服务于实际应用:从联邦蒸馏保护数据隐私,到 LoRA 改进确保微调不遗忘,再到系统层面的训练推理融合提升更新效率。这些进展为构建更可靠、智能且高效的 LLM 奠定了基础。当然,挑战仍然存在,如如何进一步降低人类参与、保证模型在持续学习中的安全和稳定等。未来研究将延续这些方向,推动 LLM 朝着更自主学习、更强推理和更低成本部署的目标发展。