本文提出General-Reasoner,通过零强化学习结合跨领域高质量数据集和基于生成模型的验证器,显著提升大型语言模型在多领域推理任务上的性能,同时保持数学推理的有效性。
Reinforcement Learning, Large Language Model, Reasoning, Multimodal Data, Pre-training
Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen
University of Waterloo, Vector Institute, TikTok, Singapore, M-A-P
Generated by grok-3
Background Problem
大型语言模型(LLMs)在推理能力上的提升近年来取得了显著进展,尤其是在数学和编码领域,强化学习(RL)如DeepSeek-R1-Zero提出的零强化学习(Zero RL)显示出直接从基础模型训练即可解锁强大推理能力的潜力。然而,现有方法主要局限于数学和编码任务,原因在于数据丰富和答案验证的简便性,这限制了模型在更广泛领域(如科学、金融、人文)的适用性和泛化能力。真实世界的推理任务往往涉及多学科和复杂的答案表示形式,传统规则验证器难以应对这种多样性,导致训练效果受限。本文提出General-Reasoner,旨在通过构建跨领域的高质量推理数据集和开发基于生成模型的答案验证器,解决数据稀缺和验证难题,提升LLMs在多领域的推理能力,同时保持数学推理的有效性。
Method
General-Reasoner提出了一种新的训练范式,核心思想是通过零强化学习(Zero RL)直接从基础LLM训练,结合跨领域数据和创新验证机制提升推理能力。具体方法包括:
- 数据集构建(WebInstruct-verified):从WebInstruct数据集出发,通过网络爬取和多轮筛选,构建包含约23万高质量推理问题的数据集,覆盖数学、物理、化学、金融等人文学科。使用Gemini-1.5-Pro和Gemini-2.0-Flash模型提取可验证的短答案问题,并通过生成多候选答案进行质量控制,排除过于简单或模糊的问题,确保数据挑战性和可靠性。
- 基于生成模型的验证器(General-Verifier):针对传统规则验证器在非数学领域答案多样性上的局限,设计了一个1.5B参数的生成模型验证器,从Qwen2.5-Math-1.5B初始化,基于Gemini生成的候选答案和验证标注进行微调。该验证器以链式思维(Chain-of-Thought)方式评估学生答案与参考答案在上下文中的等价性,提供更灵活和准确的奖励信号,用于强化学习(GRPO)的训练。
- 训练流程:采用Group Relative Policy Optimization(GRPO)算法,直接从Qwen2.5和Qwen3系列基础模型(4B、7B、14B)开始训练,无需中间监督微调阶段。奖励机制结合验证结果和长度惩罚,控制生成内容冗长问题。 批判性思考:数据集构建依赖于Gemini模型的自动化筛选和标注,可能引入一致性问题或潜在偏差,尤其是在非数学领域的答案复杂性上。生成模型验证器的训练数据同样依赖Gemini标注,其鲁棒性和泛化能力可能受限,尤其在面对未见过的答案格式时。此外,论文未充分讨论如何平衡跨领域训练与特定领域深度优化的矛盾,可能导致在某些专业任务上的表现不如专注优化的模型。
Experiment
实验基于Zero RL设置,在Qwen2.5和Qwen3系列基础模型(4B、7B、14B)上进行训练,使用GRPO算法,数据集为自构建的23万跨领域推理问题。评估覆盖12个基准测试,包括通用推理任务(如MMLU-Pro、SuperGPQA、GPQA、TheoremQA、BBEH)和数学推理任务(如MATH-500、GSM8K、Olympiad)。
- 结果:General-Reasoner在通用推理基准上表现优异,例如在MMLU-Pro上,General-Reasoner-Qw3-14B达到70.3%,接近GPT-4o的74.6%,显著优于基线模型Qwen3-14B-Base(64.2%)和Qwen3-14B-Instruct(70.9%);在SuperGPQA上提升约10%。在数学任务上,平均准确率(如General-Reasoner-Qw3-14B为58.8%)略优于数学专注的SimpleRL(50.7%),但提升幅度有限。
- 实验设计分析:实验设置较为全面,覆盖多尺度模型和多领域基准,基线选择合理,包括基础模型、指令微调模型和其他RL方法(如SimpleRL、Nemotron-CrossThink)。消融研究验证了跨领域数据和模型验证器的有效性,例如全数据训练相比仅数学数据在MMLU-Pro上提升约2个百分点,模型验证器相比规则验证器在多项基准上提升约1-2个百分点。
- 批判性思考:尽管结果显示出通用推理能力的提升,但数学任务上的改进不如预期,可能表明跨领域训练在专业深度上存在局限。实验未充分探讨模型在非结构化或长尾答案上的表现,验证器的鲁棒性缺乏极端案例测试。此外,计算效率虽有提及(如响应长度控制在1000 token,推理时间优于DeepScaleR),但缺乏实际应用场景下的延迟和资源消耗分析,实验结果可能过于理想化。
Further Thoughts
General-Reasoner在跨领域推理上的创新令人印象深刻,尤其是在数据构建和验证器设计上的努力,为LLM的泛化能力提供了新思路。然而,我认为其方法在实际应用中可能面临挑战,例如生成模型验证器在面对高度非结构化或文化背景相关的答案时可能失效,这需要进一步引入多模态或上下文增强的验证机制。此外,跨领域训练与专业领域优化的平衡问题值得深入探讨,是否可以通过分阶段训练(如先跨领域泛化,再特定领域深化)进一步提升效果?与近期的一些工作相比,如专注于特定领域推理的RLHF方法,General-Reasoner的泛化性优势明显,但其在特定任务上的深度可能不足,未来可以探索结合领域自适应技术(如Parameter-Efficient Fine-Tuning)来弥补这一短板。最后,论文中提到的计算效率优势让我联想到边缘设备上的LLM部署问题,是否可以通过模型剪枝或量化进一步优化General-Reasoner,使其适用于资源受限场景,这可能是一个有前景的研究方向。