R1-Searcher++ 通过两阶段训练策略(SFT 和 RL),结合奖励机制和记忆模块,使大型语言模型自适应地平衡内部知识与外部检索,在多跳问答任务中显著提升准确性和检索效率。
Large Language Model, Reinforcement Learning, RAG, Reasoning, Efficiency
Huatong Song, Jinhao Jiang, Wenqing Tian, Zhipeng Chen, Yuhuan Wu, Jiahao Zhao, Yingqian Min, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
中国人民大学高瓴人工智能学院, 北京理工大学, DataCanvas Alaya NeW
Generated by grok-3
Background Problem
大型语言模型(LLMs)虽然在推理任务中表现出色,但由于依赖静态内部知识,容易产生幻觉(hallucination),尤其在开放域任务中表现不佳。检索增强生成(RAG)通过引入外部信息源来缓解这一问题,但现有方法成本高、泛化能力差,且往往忽视模型内部知识的利用。R1-Searcher++ 旨在解决这一关键问题,通过训练模型自适应地平衡内部知识和外部检索,提升推理效率和准确性。
Method
R1-Searcher++ 提出了一种两阶段训练框架,旨在让 LLMs 自适应地利用内部和外部知识:
- 第一阶段:SFT Cold-start - 通过拒绝采样(rejection sampling)合成高质量训练数据,进行监督微调(SFT),使模型初步掌握利用内部知识和外部检索的格式化响应能力。损失函数通过掩码机制(masking)排除外部文档的影响,专注于模型生成内容。
- 第二阶段:RL for Dynamic Knowledge Acquisition - 采用基于结果的强化学习(RL),通过精心设计的奖励函数(包括 format reward、answer reward 和 group reward)鼓励模型在自信时依赖内部知识,在不确定时调用外部检索。group reward 通过计算检索次数的标准差来减少对外部检索的过度依赖,但其复杂性可能导致训练不稳定。此外,引入外部知识记忆机制,通过一个单独的 rewriting model 将检索到的信息转化为内部知识样式并进行记忆,增加计算成本且可能引入误差。
- 关键问题:奖励函数设计中超参数(如 η 和 μ)的选择缺乏充分讨论,可能影响训练稳定性;记忆机制的额外模型增加了系统复杂性,实际效果需进一步验证。
Experiment
实验基于 Qwen-2.5-7B-Instruct 模型,在四个多跳问答数据集(HotpotQA、2WikiMultiHopQA、Musique 和 Bamboogle)上进行评估,包含领域内和领域外数据以测试泛化能力。评估指标包括 F1 分数和 LLM-as-Judge(LasJ)。
- 结果:R1-Searcher++ 在所有基准测试中均优于基线方法,LasJ 指标上整体提升 4.3%(相较于 R1-Searcher),并比传统 RL 方法减少了 42.9% 的检索次数,显示出在准确性和效率上的改进。
- 设置合理性:实验设置涵盖了领域内和领域外数据集,验证了模型的泛化能力;消融研究进一步分析了各组件的作用,证明了两阶段训练和奖励机制的必要性。然而,训练数据仅 9000 个样本,规模较小,可能限制模型在更大规模任务上的表现;此外,奖励函数中超参数的敏感性分析缺失,可能影响结果的可重复性。
- 不足:实验未充分探讨方法在更大参数模型上的表现,也未在训练阶段引入真实在线搜索引擎,仅在评估阶段测试,可能低估了现实场景中的挑战。
Further Thoughts
R1-Searcher++ 的核心创新在于通过 RL 奖励机制和记忆模块实现内部与外部知识的动态平衡,这种思路值得进一步探索,尤其是在更复杂的多模态任务中,是否可以类似地设计奖励机制来平衡不同模态信息的利用。此外,group reward 的设计虽然新颖,但其基于标准差的计算方式可能在不同任务或数据集上表现不一致,未来可以考虑更简洁或自适应的奖励设计方法。另一个值得思考的方向是记忆机制的长期效果:如果模型持续记忆外部知识,是否会导致内部知识的‘污染’或过拟合?与现有工作如 DeepSeekMath 的 GRPO 算法相比,R1-Searcher++ 在探索效率和稳定性上可能还有优化空间,特别是在超参数调优和训练成本方面。