Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

本文提出了一种通过强化学习（GRPO）优化大型语言模型自我反思能力的方法，在函数调用和数学方程任务上显著提升性能（平均9.0%和16.0%），并展示小模型在训练后可超越未训练大模型。

Large Language Model, Reinforcement Learning, Reasoning, Self-Supervised Learning

Shelly Bensal, Umar Jamil, Christopher Bryant, Melisa Russak, Kiran Kamble, Dmytro Mozolevskyi, Muayad Ali, Waseem AlShikh

Writer, Inc.

Generated by grok-3

Background Problem

大型语言模型（LLMs）在自然语言处理、数学、编码和推理等任务上表现出色，但仍存在盲点，无法保证在相似任务上的稳定表现。传统的解决方案是通过重新训练或微调模型来解决失败任务，但当缺乏相关数据集或最先进的模型也无法完成任务时，这种方法不可行。因此，本文提出了一种无需额外训练数据的替代方案，通过自我反思和强化学习来提升模型在复杂、可验证任务上的表现，特别是在只有二元反馈（成功/失败）的情况下。

Method

本文提出了一种名为‘Reflect, Retry, Reward’的方法，旨在通过强化学习优化大型语言模型的自我反思能力，其核心步骤如下：

初始尝试： 模型首先被提示完成任务，若成功则停止；若失败，则进入下一步。
自我反思： 模型生成一段自我反思评论，分析其失败原因。此步骤依赖于一个外部验证器提供二元反馈（成功/失败）。
再次尝试： 模型利用自我反思内容作为上下文，再次尝试完成任务。
奖励机制： 若第二次尝试成功，则使用Group Relative Policy Optimization (GRPO)仅对自我反思阶段生成的token进行奖励，而不奖励正确答案的token，以避免模型专注于特定任务而失去泛化性。

关键点与批评： 该方法的核心在于通过GRPO调整模型的反思能力，而非直接优化任务表现。然而，论文未充分讨论如何确保自我反思内容的质量，以及GRPO在奖励分配上的精确性是否可能导致模型陷入局部最优。此外，依赖外部验证器可能限制方法的适用范围，尤其是在验证器难以定义的任务上。

Experiment

实验在两个任务上进行验证：函数调用（使用APIGen数据集，12,000个测试样本）和数学方程求解（使用Countdown数据集，15,000个测试样本）。

实验设置： 为了提高效率，作者创建了‘失败案例数据集’，仅训练模型在失败的查询上，并使用vLLM加速采样。测试了多个模型（1.5B到8B参数规模），包括Qwen2、Llama3.1等，并对比了训练前后及第一次/第二次尝试的表现。GRPO训练参数基于DeepSeek实现，训练步数最多1750步。
结果： 在APIGen任务上，模型训练后平均性能提升9.0%，在Countdown任务上提升16.0%。特别值得注意的是，训练后的小模型（如Qwen-2-7B）在某些任务上超越了未训练的大模型（如Qwen-2-72B）。自我反思训练后，模型即使在第一次尝试中也表现出显著改进。
分析与批评： 实验结果显示出明显的改进，但设置存在潜在问题：失败案例数据集的选择可能导致过拟合特定类型的错误，而非泛化性提升；此外，对比大模型与小模型时，未充分考虑提示模板优化或模型家族间的差异，可能夸大了训练效果。实验未涉及更广泛的任务类型，限制了结果的普适性结论。灾难性遗忘分析显示性能稳定，但测试基准（如MMLU-Pro）与训练任务差异较大，未能完全证明泛化性。

Further Thoughts

尽管本文提出的自我反思优化方法在特定任务上表现出色，但其泛化性仍需进一步探索。例如，是否可以将这种方法与多任务学习结合，以验证其在不同领域（如文本生成或对话系统）中的效果？此外，GRPO的计算成本和对小模型的适用性限制了其在资源受限环境下的应用，未来可以考虑结合参数高效微调技术（如Low-Rank Adaptation）来降低开销。另一个有趣的方向是探索自我反思与人类反馈的结合，例如通过人类标注的反思示例来引导模型生成更高质量的反思内容，这可能进一步提升模型在复杂任务上的表现，同时也可能揭示自我反思与外部指导之间的协同效应。