Skip to content
Go back 2505.08311 arXiv logo

AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

Published:  at  11:20 PM
87.46 🤔

AM-Thinking-v1 是一个32B参数的密集语言模型,通过精心设计的监督微调和强化学习后训练框架,在数学推理和代码生成任务上实现了与大型MoE模型媲美的性能,展示了中型规模模型在推理能力与部署效率之间的平衡潜力。

Large Language Model, Supervised Learning, Reinforcement Learning, Reasoning, Efficiency

Yunjie Ji, Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Han Zhao, Xiangang Li

Beike (Ke.com)

Generated by grok-3

Background Problem

近年来,大型语言模型(LLMs)在推理能力上取得了显著进步,尤其是在数学问题求解和代码生成等需要复杂逻辑推理的任务中。然而,许多突破依赖于大规模混合专家(MoE)架构,这带来了基础设施负担和部署复杂性。相比之下,中等规模(例如32B参数)的密集模型在效率和部署性上更具优势,但推理性能往往落后于MoE模型。因此,本研究的关键问题是:是否可以通过精心设计的后训练流程,在不依赖私有数据或大规模MoE架构的情况下,释放32B规模密集模型的推理潜力?

Method

AM-Thinking-v1 的方法基于一个精心设计的后训练框架,从开源的 Qwen2.5-32B 基础模型出发,通过以下两个主要阶段实现推理能力的提升:

Experiment

实验在多个推理基准测试上评估了 AM-Thinking-v1 的性能,包括 AIME2024(数学,85.3分)、AIME2025(数学,74.4分)、LiveCodeBench(代码,70.3分)和 Arena-Hard(通用对话,92.5分)。

Further Thoughts

AM-Thinking-v1 的研究为中型规模模型的推理能力提升提供了一个有价值的参考,但其方法和局限性也引发了一些深层次思考。首先,依赖外部大型模型进行数据验证的做法可能限制了模型的独立性和可重复性,未来可以探索自验证机制或更透明的验证流程。其次,论文中提到的 SFT 阶段模式转变(需要更高学习率和批量大小)可能反映了长篇推理任务对训练动态的独特需求,这与近期一些关于长上下文学习的研究(如长上下文对注意力机制的影响)存在潜在联系,值得进一步探索。此外,模型在通用对话任务上的性能差距提示我们,推理能力和通用语言理解能力之间可能存在权衡,如何在保持推理强度的同时提升对话能力是一个重要方向。最后,考虑到模型缺乏对结构化函数调用和多模态输入的支持,未来可以将研究扩展到多模态推理或工具使用场景,以增强其实用性,同时关注安全对齐和低资源语言的支持,以实现更广泛的应用价值。



Previous Post
SEAL: Steerable Reasoning Calibration of Large Language Models for Free
Next Post
Scaling Reasoning can Improve Factuality in Large Language Models