Skip to content
Go back 2505.17005 arXiv logo

R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

Published:  at  11:15 AM
88.65 🤔

R1-Searcher++ 通过两阶段训练策略(SFT 和 RL),结合奖励机制和记忆模块,使大型语言模型自适应地平衡内部知识与外部检索,在多跳问答任务中显著提升准确性和检索效率。

Large Language Model, Reinforcement Learning, RAG, Reasoning, Efficiency

Huatong Song, Jinhao Jiang, Wenqing Tian, Zhipeng Chen, Yuhuan Wu, Jiahao Zhao, Yingqian Min, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen

中国人民大学高瓴人工智能学院, 北京理工大学, DataCanvas Alaya NeW

Generated by grok-3

Background Problem

大型语言模型(LLMs)虽然在推理任务中表现出色,但由于依赖静态内部知识,容易产生幻觉(hallucination),尤其在开放域任务中表现不佳。检索增强生成(RAG)通过引入外部信息源来缓解这一问题,但现有方法成本高、泛化能力差,且往往忽视模型内部知识的利用。R1-Searcher++ 旨在解决这一关键问题,通过训练模型自适应地平衡内部知识和外部检索,提升推理效率和准确性。

Method

R1-Searcher++ 提出了一种两阶段训练框架,旨在让 LLMs 自适应地利用内部和外部知识:

Experiment

实验基于 Qwen-2.5-7B-Instruct 模型,在四个多跳问答数据集(HotpotQA、2WikiMultiHopQA、Musique 和 Bamboogle)上进行评估,包含领域内和领域外数据以测试泛化能力。评估指标包括 F1 分数和 LLM-as-Judge(LasJ)。

Further Thoughts

R1-Searcher++ 的核心创新在于通过 RL 奖励机制和记忆模块实现内部与外部知识的动态平衡,这种思路值得进一步探索,尤其是在更复杂的多模态任务中,是否可以类似地设计奖励机制来平衡不同模态信息的利用。此外,group reward 的设计虽然新颖,但其基于标准差的计算方式可能在不同任务或数据集上表现不一致,未来可以考虑更简洁或自适应的奖励设计方法。另一个值得思考的方向是记忆机制的长期效果:如果模型持续记忆外部知识,是否会导致内部知识的‘污染’或过拟合?与现有工作如 DeepSeekMath 的 GRPO 算法相比,R1-Searcher++ 在探索效率和稳定性上可能还有优化空间,特别是在超参数调优和训练成本方面。



Previous Post
Distilling LLM Agent into Small Models with Retrieval and Code Tools
Next Post
RepCali: High Efficient Fine-tuning Via Representation Calibration in Latent Space for Pre-trained Language Models