R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

R1-Searcher++ 通过两阶段训练策略（SFT 和 RL），结合奖励机制和记忆模块，使大型语言模型自适应地平衡内部知识与外部检索，在多跳问答任务中显著提升准确性和检索效率。

Large Language Model, Reinforcement Learning, RAG, Reasoning, Efficiency

Huatong Song, Jinhao Jiang, Wenqing Tian, Zhipeng Chen, Yuhuan Wu, Jiahao Zhao, Yingqian Min, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen

中国人民大学高瓴人工智能学院, 北京理工大学, DataCanvas Alaya NeW

Generated by grok-3

Background Problem

大型语言模型（LLMs）虽然在推理任务中表现出色，但由于依赖静态内部知识，容易产生幻觉（hallucination），尤其在开放域任务中表现不佳。检索增强生成（RAG）通过引入外部信息源来缓解这一问题，但现有方法成本高、泛化能力差，且往往忽视模型内部知识的利用。R1-Searcher++ 旨在解决这一关键问题，通过训练模型自适应地平衡内部知识和外部检索，提升推理效率和准确性。

Method

R1-Searcher++ 提出了一种两阶段训练框架，旨在让 LLMs 自适应地利用内部和外部知识：

第一阶段：SFT Cold-start - 通过拒绝采样（rejection sampling）合成高质量训练数据，进行监督微调（SFT），使模型初步掌握利用内部知识和外部检索的格式化响应能力。损失函数通过掩码机制（masking）排除外部文档的影响，专注于模型生成内容。
第二阶段：RL for Dynamic Knowledge Acquisition - 采用基于结果的强化学习（RL），通过精心设计的奖励函数（包括 format reward、answer reward 和 group reward）鼓励模型在自信时依赖内部知识，在不确定时调用外部检索。group reward 通过计算检索次数的标准差来减少对外部检索的过度依赖，但其复杂性可能导致训练不稳定。此外，引入外部知识记忆机制，通过一个单独的 rewriting model 将检索到的信息转化为内部知识样式并进行记忆，增加计算成本且可能引入误差。
关键问题：奖励函数设计中超参数（如 η 和 μ）的选择缺乏充分讨论，可能影响训练稳定性；记忆机制的额外模型增加了系统复杂性，实际效果需进一步验证。

Experiment

实验基于 Qwen-2.5-7B-Instruct 模型，在四个多跳问答数据集（HotpotQA、2WikiMultiHopQA、Musique 和 Bamboogle）上进行评估，包含领域内和领域外数据以测试泛化能力。评估指标包括 F1 分数和 LLM-as-Judge（LasJ）。

结果：R1-Searcher++ 在所有基准测试中均优于基线方法，LasJ 指标上整体提升 4.3%（相较于 R1-Searcher），并比传统 RL 方法减少了 42.9% 的检索次数，显示出在准确性和效率上的改进。
设置合理性：实验设置涵盖了领域内和领域外数据集，验证了模型的泛化能力；消融研究进一步分析了各组件的作用，证明了两阶段训练和奖励机制的必要性。然而，训练数据仅 9000 个样本，规模较小，可能限制模型在更大规模任务上的表现；此外，奖励函数中超参数的敏感性分析缺失，可能影响结果的可重复性。
不足：实验未充分探讨方法在更大参数模型上的表现，也未在训练阶段引入真实在线搜索引擎，仅在评估阶段测试，可能低估了现实场景中的挑战。

Further Thoughts

R1-Searcher++ 的核心创新在于通过 RL 奖励机制和记忆模块实现内部与外部知识的动态平衡，这种思路值得进一步探索，尤其是在更复杂的多模态任务中，是否可以类似地设计奖励机制来平衡不同模态信息的利用。此外，group reward 的设计虽然新颖，但其基于标准差的计算方式可能在不同任务或数据集上表现不一致，未来可以考虑更简洁或自适应的奖励设计方法。另一个值得思考的方向是记忆机制的长期效果：如果模型持续记忆外部知识，是否会导致内部知识的‘污染’或过拟合？与现有工作如 DeepSeekMath 的 GRPO 算法相比，R1-Searcher++ 在探索效率和稳定性上可能还有优化空间，特别是在超参数调优和训练成本方面。