Skip to content
Go back 2505.14810 arXiv logo

Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

Published:  at  11:08 AM
88.00 🤔

本文通过MathIF基准测试评估大型推理模型在数学任务中的指令遵循能力,揭示了推理能力提升与指令遵循能力下降之间的权衡关系,并通过实验验证了训练策略和推理链长度对这一权衡的影响。

Large Language Model, Reasoning, Instruction Tuning, Reinforcement Learning, Supervised Learning

Tingchen Fu, Jiawei Gu, Yafu Li, Xiaoye Qu, Yu Cheng

Renmin University of China, Shanghai AI Laboratory, The Chinese University of Hong Kong

Generated by grok-3

Background Problem

近年来,大型推理模型(LRMs)在数学推理任务上取得了显著进展,尤其是在解决奥林匹克级别的复杂问题和自动化定理证明方面。然而,这些模型在遵循自然语言指令(即指令遵循能力)方面的表现尚未得到充分研究,而这一能力对于模型与用户意图的对齐以及实际应用的安全性至关重要。本文通过实证分析揭示了一个关键问题:随着推理能力的提升,模型往往更难遵循用户指令,表现出一种能力和可控性之间的紧张关系。为解决这一问题,作者提出了MathIF基准测试,专门用于评估数学推理任务中的指令遵循能力,并探讨了推理能力与指令遵循能力之间的权衡关系。

Method

Experiment

Further Thoughts

本文提出的推理能力与指令遵循能力之间的权衡是一个值得深入研究的问题,但其解决方案仍显初步。未来的研究可以探索更精细的训练方法,例如在强化学习中引入指令遵循的显式奖励机制,而不仅仅是格式感知奖励,以在提升推理能力的同时维持对用户意图的敏感性。此外,是否可以通过改进注意力机制或上下文管理(如动态调整指令与推理内容之间的权重)来缓解长CoT对指令遵循的负面影响,也是一个有趣的方向。跨领域对比研究也可能带来启发,例如在视觉推理模型中是否也存在类似权衡,若存在,其背后的机制是否与语言模型一致?这些问题可能为构建既智能又可控的模型提供新的思路。



Previous Post
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
Next Post
Cross-Lingual Optimization for Language Transfer in Large Language Models