Skip to content
Go back 2505.20285 arXiv logo

MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability

Published:  at  11:19 AM
87.72 🤔

本文提出 MASKSEARCH 框架,通过 Retrieval-Augmented Mask Prediction (RAMP) 预训练任务结合监督微调和强化学习,显著提升了大型语言模型在开放域多跳问答任务中的代理搜索能力。

Large Language Model, Retrieval-Augmented Generation, Reasoning, Reinforcement Learning, Supervised Learning, Multi-Agent

Weiqi Wu, Xin Guan, Shen Huang, Yong Jiang, Pengjun Xie, Fei Huang, Jiuxin Cao, Hai Zhao, Jingren Zhou

Tongyi Lab, Alibaba Group

Generated by grok-3

Background Problem

大型语言模型(LLMs)虽然在多种任务中表现出色,但常因幻觉问题和对领域特定或实时任务的处理能力不足而受到限制。检索增强语言模型(RALMs)通过引入外部知识检索机制来增强生成能力,但其检索与生成的分离限制了模型在多步任务中的适应性。近年来,自主 AI 代理的兴起为 LLMs 提供了利用工具进行检索、规划和推理的能力,然而现有基于训练的方法受限于任务特定数据的特性,泛化能力不足。本文提出了一种通用预训练框架 MASKSEARCH,旨在通过 Retrieval-Augmented Mask Prediction (RAMP) 任务增强 LLMs 的代理搜索能力,解决多步检索和推理任务中的泛化问题。

Method

MASKSEARCH 是一个两阶段训练框架,核心在于预训练任务 Retrieval-Augmented Mask Prediction (RAMP),其目标是通过多步搜索和推理预测输入文本中的掩码内容。

Experiment

实验在多个开放域多跳问答数据集(如 HotpotQA, FanoutQA, Musique 等)上评估 MASKSEARCH 的效果,使用 Qwen2.5 和 LLaMA 系列模型(1B 到 8B 参数规模)进行测试。

Further Thoughts

MASKSEARCH 框架在增强代理搜索能力方面展现了潜力,但其依赖于复杂的数据生成和奖励设计可能限制了实际应用场景。我认为其多代理系统生成 CoT 数据的思路可以进一步扩展到其他领域,如教育领域的个性化学习路径生成,或医疗领域的多步诊断推理支持系统。此外,RL 奖励设计中模型判别奖励(Model-Based Reward)有效避免了奖励欺骗问题,这或许可以与最近的一些对齐技术(如 RLHF)结合,进一步提升模型在复杂任务中的一致性和可信度。然而,论文未充分探讨 RAMP 任务在非问答任务(如创意写作或代码生成)中的适用性,未来可以尝试将这一框架迁移到更广泛的生成任务中,测试其通用性。同时,课程学习的实现细节和难度递增策略需要更明确的定义,以确保其在不同数据集和模型架构上的稳定性。



Previous Post
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
Next Post
Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs