本文通过ZeroTIR框架利用强化学习训练基础大型语言模型自发执行Python代码解决数学问题,揭示了训练步数与代码使用频率、响应长度及任务准确率的正相关规律(Agent RL Scaling Law),并在数学基准上显著优于无工具基线。
Reinforcement Learning, Large Language Model, Tool-Integrated Reasoning, Mathematical Reasoning, Agent, Code Execution
Xinji Mai, Haotian Xu, Xing W, Weinong Wang, Yingying Zhang, Wenqiang Zhang
Fudan University, Xiaohongshu, East China Normal University
Generated by grok-3
Background Problem
大型语言模型(LLMs)在需要精确多步推理和复杂计算的数学任务中常常表现不佳,其基于下一词预测的本质导致生成内容更倾向于概率而非计算正确性。为解决这一问题,现有方法多采用监督式微调(SFT)或通过特定提示结构集成外部工具(如代码解释器),但这些方法可能限制模型探索新策略的能力,并依赖预定义的工具使用模式。本文从基础模型出发,探索通过强化学习(RL)从结果导向的奖励中自主学习工具使用(特别是代码执行)的可能性,旨在解决数学推理中计算精确性的核心问题,并揭示自主工具学习过程中的规律性模式(Agent RL Scaling Law)。
Method
本文提出了一种名为ZeroTIR(Zero Tool-Integrated Reasoning)的框架,通过强化学习(RL)训练基础大型语言模型(LLMs)自发生成并执行Python代码以解决数学问题。其核心思想和实现步骤如下:
- 强化学习算法:采用策略梯度算法如PPO和Reinforce++,通过优化结果导向的奖励函数来训练模型。PPO使用裁剪代理目标函数 进行策略更新,并结合价值函数估计以降低方差;Reinforce++则直接基于采样轨迹估计策略梯度,减少对价值函数的依赖。奖励函数通过KL散度正则化以确保训练稳定性。
- 代码执行环境交互:设计了一个解耦的Python代码执行环境作为独立网络服务,支持模型在推理过程中动态生成代码并获取执行反馈。通过动态停止标记(如’python’)管理推理、代码生成和反馈集成过程,避免后处理解析的低效性,并设置最大调用次数(Nmax)以控制计算资源消耗。
- 训练稳定性和效率优化:引入回放缓冲区过滤机制,优先选择准确率在中间范围的样本以增强学习梯度;采用异步回滚和流水线机制显著提升训练吞吐量(比同步交互快4倍)。
批判性思考:虽然方法设计上强调自主性,但其依赖结果导向奖励可能导致模型倾向于简单的代码调用策略,而非复杂的多步工具交互。此外,代码执行环境的解耦设计虽提高了稳定性,但网络服务延迟可能在更大规模训练中成为瓶颈,论文未充分讨论这一潜在限制。
Experiment
实验基于Qwen 2.5 Base模型(7B和32B参数规模),使用社区框架如OpenRLHF和Open-Reasoner-Zero,结合PPO和Reinforce++算法进行训练。训练数据集包括ORZ-57k和DeepMath,测试基准涵盖MATH500、AIME24/25等高难度数学推理数据集。实验设置包括每提示生成16个样本、批大小128、最大工具调用次数(Nmax)限制为20等,评估指标涵盖准确率、代码使用比例等。
- 结果:ZeroTIR训练的模型(ZTRL)在7B规模下平均准确率达52.3%,显著优于无工具的ZeroRL基线(39.1%)和SFT-based TIR方法(如Qwen 2.5 Math Ins.的41.6%),并略高于同类工作TORL(51.8%)。代码使用比例高达89%,与性能提升呈正相关。随模型规模(1.5B到32B)和工具调用次数(Nmax从0到20)增加,性能持续提升,验证了Agent RL Scaling Law的经验观察。
- 分析与批判:实验设计较为全面,涵盖多种模型规模、算法和数据集,但存在不足:1)对比实验中,TORL使用数学特化模型而ZTRL使用通用模型,可能导致结果对比不完全公平;2)虽然性能提升明显,但大多数正确答案仅依赖单次代码调用,表明模型可能未学会复杂工具交互策略;3)对Scaling Law的描述仅为定性观察,缺乏量化分析或理论支持,限制了结论的严谨性;4)数据集选择偏向竞赛类数学问题,未验证方法在其他类型数学任务上的泛化性。总体而言,实验结果支持了方法有效性,但深度和广度有待加强。
Further Thoughts
本文提出的Agent RL Scaling Law为自主工具学习提供了一个有趣的视角,但其理论深度不足,未来研究可以尝试从信息论或优化理论角度推导这一规律的数学形式,以增强其学术价值。此外,自主代码执行的策略虽然在数学推理中有效,但是否能推广到其他需要工具交互的领域(如科学计算或实时决策)仍需探索,特别是在奖励设计和安全性方面可能面临新挑战。另一个值得思考的方向是,模型倾向于单次代码调用的现象是否反映了当前RL奖励机制的局限性?是否可以通过设计更复杂的奖励函数(如鼓励多步交互或代码质量)来推动模型学习更高级的工具使用策略?此外,与其他领域的工作(如多模态系统的工具集成)结合,或许能进一步扩展本文方法的适用范围,例如在视觉-语言任务中引入代码生成来解决空间推理问题。