Skip to content
Go back 2505.07773 arXiv logo

Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving

Published:  at  11:12 AM
89.47 🤔

本文通过ZeroTIR框架利用强化学习训练基础大型语言模型自发执行Python代码解决数学问题,揭示了训练步数与代码使用频率、响应长度及任务准确率的正相关规律(Agent RL Scaling Law),并在数学基准上显著优于无工具基线。

Reinforcement Learning, Large Language Model, Tool-Integrated Reasoning, Mathematical Reasoning, Agent, Code Execution

Xinji Mai, Haotian Xu, Xing W, Weinong Wang, Yingying Zhang, Wenqiang Zhang

Fudan University, Xiaohongshu, East China Normal University

Generated by grok-3

Background Problem

大型语言模型(LLMs)在需要精确多步推理和复杂计算的数学任务中常常表现不佳,其基于下一词预测的本质导致生成内容更倾向于概率而非计算正确性。为解决这一问题,现有方法多采用监督式微调(SFT)或通过特定提示结构集成外部工具(如代码解释器),但这些方法可能限制模型探索新策略的能力,并依赖预定义的工具使用模式。本文从基础模型出发,探索通过强化学习(RL)从结果导向的奖励中自主学习工具使用(特别是代码执行)的可能性,旨在解决数学推理中计算精确性的核心问题,并揭示自主工具学习过程中的规律性模式(Agent RL Scaling Law)。

Method

本文提出了一种名为ZeroTIR(Zero Tool-Integrated Reasoning)的框架,通过强化学习(RL)训练基础大型语言模型(LLMs)自发生成并执行Python代码以解决数学问题。其核心思想和实现步骤如下:

批判性思考:虽然方法设计上强调自主性,但其依赖结果导向奖励可能导致模型倾向于简单的代码调用策略,而非复杂的多步工具交互。此外,代码执行环境的解耦设计虽提高了稳定性,但网络服务延迟可能在更大规模训练中成为瓶颈,论文未充分讨论这一潜在限制。

Experiment

实验基于Qwen 2.5 Base模型(7B和32B参数规模),使用社区框架如OpenRLHF和Open-Reasoner-Zero,结合PPO和Reinforce++算法进行训练。训练数据集包括ORZ-57k和DeepMath,测试基准涵盖MATH500、AIME24/25等高难度数学推理数据集。实验设置包括每提示生成16个样本、批大小128、最大工具调用次数(Nmax)限制为20等,评估指标涵盖准确率、代码使用比例等。

Further Thoughts

本文提出的Agent RL Scaling Law为自主工具学习提供了一个有趣的视角,但其理论深度不足,未来研究可以尝试从信息论或优化理论角度推导这一规律的数学形式,以增强其学术价值。此外,自主代码执行的策略虽然在数学推理中有效,但是否能推广到其他需要工具交互的领域(如科学计算或实时决策)仍需探索,特别是在奖励设计和安全性方面可能面临新挑战。另一个值得思考的方向是,模型倾向于单次代码调用的现象是否反映了当前RL奖励机制的局限性?是否可以通过设计更复杂的奖励函数(如鼓励多步交互或代码质量)来推动模型学习更高级的工具使用策略?此外,与其他领域的工作(如多模态系统的工具集成)结合,或许能进一步扩展本文方法的适用范围,例如在视觉-语言任务中引入代码生成来解决空间推理问题。



Previous Post
Shadow-FT: Tuning Instruct via Base
Next Post
CoLA: Collaborative Low-Rank Adaptation