Skip to content
Go back 2505.07903 arXiv logo

SEM: Reinforcement Learning for Search-Efficient Large Language Models

Published:  at  11:14 AM
71.64 🤔

本文提出 SEM 框架,通过强化学习优化大型语言模型的搜索行为,在减少冗余搜索的同时提升回答准确性,显著提高推理效率。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Human-AI Interaction, RAG

Zeyang Sha, Shiwen Cui, Weiqiang Wang

Ant Group

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理和调用外部工具(如搜索引擎)方面展现了强大能力,但如何让模型准确判断何时需要调用搜索工具、何时依赖内部知识仍是一个重大挑战。现有强化学习方法常导致模型执行不必要的冗余搜索,造成资源浪费和效率低下。本文提出了一种新的后训练强化学习框架 SEM,旨在优化 LLMs 的搜索行为,解决冗余搜索问题,并提升模型在复杂任务中的推理效率和回答准确性。

Method

本文提出的 SEM 框架通过以下核心步骤优化 LLMs 的搜索行为:

批判性分析:虽然奖励函数设计创新,但其依赖 F1 分数和预设阈值判断答案正确性,可能对特定任务或数据集产生偏见。此外,GRPO 的应用虽然有助于相对质量评估,但论文未充分讨论其计算复杂性对训练效率的影响,尤其是在大规模模型上的适用性存疑。

Experiment

实验基于 Musique 和 MMLU 的组合数据集进行训练,并在 HotpotQA、Musique、MMLU 和 GSM8K 四个数据集上评估模型性能。实验设置包括:

批判性分析:实验结果表明 SEM 在减少冗余搜索和提升准确性方面有明显改进,但训练步数仅为 200 步,可能不足以验证模型的长期稳定性。此外,SR 作为指标的合理性存疑,例如在 GSM8K 上,14B 模型 SR 虽低至 0.76%,但 EM 分数(79.37)低于 Naive RAG(83.93),表明低搜索比例可能导致信息不足。实验未充分探讨搜索结果质量对模型表现的影响(如搜索结果错误或不完整时的鲁棒性),这限制了方法的实际应用价值。

Further Thoughts

尽管 SEM 框架在优化搜索效率方面展现了潜力,但其奖励函数设计和实验设置仍存在局限性,特别是在真实搜索环境中的鲁棒性问题值得进一步探索。未来研究可以考虑引入动态搜索结果质量评估机制,例如结合搜索结果的相关性和完整性作为奖励的一部分,以提升模型在不完美信息环境下的适应性。此外,SEM 的方法可能与其他领域(如多模态系统或多智能体协作)结合,例如在多智能体框架中,不同智能体可以分工处理内部推理和外部搜索任务,从而进一步优化资源分配。这种跨领域结合可能为构建更智能、更高效的 AI 系统提供新思路。另一个值得关注的方向是,SEM 的低搜索比例策略是否会限制模型在处理开放域问题时的探索能力,尤其是在需要多跳推理或跨领域知识整合的场景中,这需要更多实验验证其泛化性。



Previous Post
Test-time regression: a unifying framework for designing sequence models with associative memory
Next Post
Patterns and Mechanisms of Contrastive Activation Engineering