Skip to content
Go back 2505.14652 arXiv logo

General-Reasoner: Advancing LLM Reasoning Across All Domains

Published:  at  11:21 AM
88.18 🤔

本文提出General-Reasoner,通过零强化学习结合跨领域高质量数据集和基于生成模型的验证器,显著提升大型语言模型在多领域推理任务上的性能,同时保持数学推理的有效性。

Reinforcement Learning, Large Language Model, Reasoning, Multimodal Data, Pre-training

Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen

University of Waterloo, Vector Institute, TikTok, Singapore, M-A-P

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理能力上的提升近年来取得了显著进展,尤其是在数学和编码领域,强化学习(RL)如DeepSeek-R1-Zero提出的零强化学习(Zero RL)显示出直接从基础模型训练即可解锁强大推理能力的潜力。然而,现有方法主要局限于数学和编码任务,原因在于数据丰富和答案验证的简便性,这限制了模型在更广泛领域(如科学、金融、人文)的适用性和泛化能力。真实世界的推理任务往往涉及多学科和复杂的答案表示形式,传统规则验证器难以应对这种多样性,导致训练效果受限。本文提出General-Reasoner,旨在通过构建跨领域的高质量推理数据集和开发基于生成模型的答案验证器,解决数据稀缺和验证难题,提升LLMs在多领域的推理能力,同时保持数学推理的有效性。

Method

General-Reasoner提出了一种新的训练范式,核心思想是通过零强化学习(Zero RL)直接从基础LLM训练,结合跨领域数据和创新验证机制提升推理能力。具体方法包括:

Experiment

实验基于Zero RL设置,在Qwen2.5和Qwen3系列基础模型(4B、7B、14B)上进行训练,使用GRPO算法,数据集为自构建的23万跨领域推理问题。评估覆盖12个基准测试,包括通用推理任务(如MMLU-Pro、SuperGPQA、GPQA、TheoremQA、BBEH)和数学推理任务(如MATH-500、GSM8K、Olympiad)。

Further Thoughts

General-Reasoner在跨领域推理上的创新令人印象深刻,尤其是在数据构建和验证器设计上的努力,为LLM的泛化能力提供了新思路。然而,我认为其方法在实际应用中可能面临挑战,例如生成模型验证器在面对高度非结构化或文化背景相关的答案时可能失效,这需要进一步引入多模态或上下文增强的验证机制。此外,跨领域训练与专业领域优化的平衡问题值得深入探讨,是否可以通过分阶段训练(如先跨领域泛化,再特定领域深化)进一步提升效果?与近期的一些工作相比,如专注于特定领域推理的RLHF方法,General-Reasoner的泛化性优势明显,但其在特定任务上的深度可能不足,未来可以探索结合领域自适应技术(如Parameter-Efficient Fine-Tuning)来弥补这一短板。最后,论文中提到的计算效率优势让我联想到边缘设备上的LLM部署问题,是否可以通过模型剪枝或量化进一步优化General-Reasoner,使其适用于资源受限场景,这可能是一个有前景的研究方向。



Previous Post
SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models
Next Post
Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning