本文提出 SEM 框架,通过强化学习优化大型语言模型的搜索行为,在减少冗余搜索的同时提升回答准确性,显著提高推理效率。
Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Human-AI Interaction, RAG
Zeyang Sha, Shiwen Cui, Weiqiang Wang
Ant Group
Generated by grok-3
Background Problem
大型语言模型(LLMs)在推理和调用外部工具(如搜索引擎)方面展现了强大能力,但如何让模型准确判断何时需要调用搜索工具、何时依赖内部知识仍是一个重大挑战。现有强化学习方法常导致模型执行不必要的冗余搜索,造成资源浪费和效率低下。本文提出了一种新的后训练强化学习框架 SEM,旨在优化 LLMs 的搜索行为,解决冗余搜索问题,并提升模型在复杂任务中的推理效率和回答准确性。
Method
本文提出的 SEM 框架通过以下核心步骤优化 LLMs 的搜索行为:
- 数据集构建:结合 Musique(多跳事实性问题,通常需要搜索)和 MMLU(学术性问题,通常模型已有知识)两个数据集,形成一个平衡的训练语料库,模拟已知和未知问题的场景,帮助模型学习区分是否需要搜索。
- 奖励策略:采用 Group Relative Policy Optimization (GRPO) 框架,设计一个奖励函数(见公式 ),鼓励模型在内部知识足够时直接回答(避免搜索),而在知识不足时有效调用搜索工具并基于检索结果更新答案。同时,奖励函数惩罚不必要的搜索行为和格式错误。
- 训练模板:定义结构化推理格式,包括
<think>
、<answer>
、<search>
、<result>
等标签,确保模型推理过程可解析,并便于奖励计算和反馈。
批判性分析:虽然奖励函数设计创新,但其依赖 F1 分数和预设阈值判断答案正确性,可能对特定任务或数据集产生偏见。此外,GRPO 的应用虽然有助于相对质量评估,但论文未充分讨论其计算复杂性对训练效率的影响,尤其是在大规模模型上的适用性存疑。
Experiment
实验基于 Musique 和 MMLU 的组合数据集进行训练,并在 HotpotQA、Musique、MMLU 和 GSM8K 四个数据集上评估模型性能。实验设置包括:
- 数据集选择:Musique 和 HotpotQA 代表需要搜索的复杂问题,MMLU 和 GSM8K 代表逻辑推理问题,通常不需要搜索。
- 评估指标:包括 Exact Match (EM)、LLM as a Judger (LJ) 和 Search Ratio (SR)。SR 在不同数据集上有不同期望值(Musique 和 HotpotQA 期望高 SR,MMLU 和 GSM8K 期望低 SR)。
- 结果:SEM 在 HotpotQA 和 Musique 上显著提升了 EM 和 LJ 分数(如在 HotpotQA 上,7B 模型 EM 从 Naive RAG 的 18.01 提升至 35.84),同时保持高 SR(97.54%)。在 MMLU 和 GSM8K 上,SEM 有效降低了 SR(例如 MMLU 上 7B 模型 SR 仅为 1.77%,远低于 Naive RAG 的 47.98%),且 EM 分数保持较高(如 MMLU 上 7B 模型 EM 为 70.88)。
批判性分析:实验结果表明 SEM 在减少冗余搜索和提升准确性方面有明显改进,但训练步数仅为 200 步,可能不足以验证模型的长期稳定性。此外,SR 作为指标的合理性存疑,例如在 GSM8K 上,14B 模型 SR 虽低至 0.76%,但 EM 分数(79.37)低于 Naive RAG(83.93),表明低搜索比例可能导致信息不足。实验未充分探讨搜索结果质量对模型表现的影响(如搜索结果错误或不完整时的鲁棒性),这限制了方法的实际应用价值。
Further Thoughts
尽管 SEM 框架在优化搜索效率方面展现了潜力,但其奖励函数设计和实验设置仍存在局限性,特别是在真实搜索环境中的鲁棒性问题值得进一步探索。未来研究可以考虑引入动态搜索结果质量评估机制,例如结合搜索结果的相关性和完整性作为奖励的一部分,以提升模型在不完美信息环境下的适应性。此外,SEM 的方法可能与其他领域(如多模态系统或多智能体协作)结合,例如在多智能体框架中,不同智能体可以分工处理内部推理和外部搜索任务,从而进一步优化资源分配。这种跨领域结合可能为构建更智能、更高效的 AI 系统提供新思路。另一个值得关注的方向是,SEM 的低搜索比例策略是否会限制模型在处理开放域问题时的探索能力,尤其是在需要多跳推理或跨领域知识整合的场景中,这需要更多实验验证其泛化性。