AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

AM-Thinking-v1 是一个32B参数的密集语言模型，通过精心设计的监督微调和强化学习后训练框架，在数学推理和代码生成任务上实现了与大型MoE模型媲美的性能，展示了中型规模模型在推理能力与部署效率之间的平衡潜力。

Large Language Model, Supervised Learning, Reinforcement Learning, Reasoning, Efficiency

Yunjie Ji, Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Han Zhao, Xiangang Li

Beike (Ke.com)

Generated by grok-3

Background Problem

近年来，大型语言模型（LLMs）在推理能力上取得了显著进步，尤其是在数学问题求解和代码生成等需要复杂逻辑推理的任务中。然而，许多突破依赖于大规模混合专家（MoE）架构，这带来了基础设施负担和部署复杂性。相比之下，中等规模（例如32B参数）的密集模型在效率和部署性上更具优势，但推理性能往往落后于MoE模型。因此，本研究的关键问题是：是否可以通过精心设计的后训练流程，在不依赖私有数据或大规模MoE架构的情况下，释放32B规模密集模型的推理潜力？

Method

AM-Thinking-v1 的方法基于一个精心设计的后训练框架，从开源的 Qwen2.5-32B 基础模型出发，通过以下两个主要阶段实现推理能力的提升：

监督微调（SFT）： 使用约284万样本，涵盖数学、代码、科学、指令跟随和通用对话五大类别。训练数据经过严格预处理，包括去重、低质量查询过滤和数学问题答案验证。SFT 采用较高的学习率（8e-5）和大批量大小（64），以适应长篇推理任务的模式转变，训练目标聚焦于推理过程的最终响应。
强化学习（RL）： 采用 Group Relative Policy Optimization (GRPO) 算法，分两个阶段进行训练。第一阶段限制响应长度为24K token，学习率为4e-6；第二阶段扩展到32K token，学习率降至1e-6。RL 阶段通过难度感知的查询选择（保留通过率在0到1之间的查询）确保训练稳定性，并优化推理能力的逐步提升。此外，引入了优化的负载均衡策略以加速在线采样（rollout）过程。 批判性思考： 虽然方法设计较为系统，但数学数据验证依赖其他大型模型（如DeepSeek-R1和o4-mini）可能引入外部偏差，且未充分讨论这种依赖对结果一致性的影响。此外，RL阶段的难度选择标准（通过率0到1）可能过于宽泛，未明确如何平衡不同难度数据的比例，可能导致训练过程中的不稳定或次优收敛。

Experiment

实验在多个推理基准测试上评估了 AM-Thinking-v1 的性能，包括 AIME2024（数学，85.3分）、AIME2025（数学，74.4分）、LiveCodeBench（代码，70.3分）和 Arena-Hard（通用对话，92.5分）。

数据集与设置： 基准测试涵盖数学推理、代码生成和通用对话，采用标准化评估条件（最大生成长度49,152 token，温度0.6，top-p 0.95）。数学和代码任务生成多重响应以计算 pass@1 精度，通用对话任务则基于单次响应由 GPT-4 Turbo 评判。
结果： AM-Thinking-v1 在数学和代码任务上显著优于同规模的密集模型（如 Qwen3-32B），甚至接近或超过部分大型 MoE 模型（如 DeepSeek-R1）。然而，在通用对话任务（Arena-Hard）上，其性能（92.5）仍落后于顶级 MoE 模型（如 Qwen3-235B-A22B 的 95.6）。
分析与批判： 实验设置较为全面，涵盖了多种任务类型，但结果显示模型在通用对话能力上存在局限，可能与训练数据中通用对话样本的多样性或质量有关。此外，实验未涉及低资源语言或领域特定任务的表现，限制了结果的普适性。数学数据验证依赖外部模型可能导致结果的可重复性问题，且未提供消融实验来验证各训练阶段（如 SFT 和 RL）的具体贡献，难以判断性能提升的来源是否均衡。

Further Thoughts

AM-Thinking-v1 的研究为中型规模模型的推理能力提升提供了一个有价值的参考，但其方法和局限性也引发了一些深层次思考。首先，依赖外部大型模型进行数据验证的做法可能限制了模型的独立性和可重复性，未来可以探索自验证机制或更透明的验证流程。其次，论文中提到的 SFT 阶段模式转变（需要更高学习率和批量大小）可能反映了长篇推理任务对训练动态的独特需求，这与近期一些关于长上下文学习的研究（如长上下文对注意力机制的影响）存在潜在联系，值得进一步探索。此外，模型在通用对话任务上的性能差距提示我们，推理能力和通用语言理解能力之间可能存在权衡，如何在保持推理强度的同时提升对话能力是一个重要方向。最后，考虑到模型缺乏对结构化函数调用和多模态输入的支持，未来可以将研究扩展到多模态推理或工具使用场景，以增强其实用性，同时关注安全对齐和低资源语言的支持，以实现更广泛的应用价值。