Skip to content
Go back 2505.21668 arXiv logo

R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning

Published:  at  11:42 AM
87.73 🤔

本文提出 R1-Code-Interpreter 框架,通过监督微调和强化学习训练大型语言模型动态生成和执行代码,在 144 个推理和规划任务上显著提升准确率,R1-CI-14B 达到 64.1%,接近 GPT-4o+Code Interpreter 的性能。

Large Language Model, Supervised Learning, Reinforcement Learning, Reasoning, Planning, Code Generation

Yongchao Chen, Yueying Liu, Junwei Zhou, Yilun Hao, Jingquan Wang, Yang Zhang, Chuchu Fan

MIT, Harvard, University of Illinois Urbana-Champaign, University of Wisconsin–Madison, University of Michigan, MIT-IBM Watson AI Lab

Generated by grok-3

Background Problem

大型语言模型(LLMs)在语义理解和常识推理方面表现出色,但在需要精确计算、符号操作、优化和算法推理的任务中常常表现不佳。文本推理缺乏代码执行的严谨性,而代码生成和执行可以有效解决这些问题。然而,现有模型难以自主判断何时使用文本推理、何时生成代码,且公开研究缺乏对如何将代码解释器(Code Interpreter)能力整合到预训练 LLMs 中的系统性指导。本文提出 R1-Code-Interpreter 框架,旨在通过监督微调(SFT)和强化学习(RL)训练 LLMs,使其能够在推理过程中动态生成和执行代码,解决上述问题。

Method

R1-Code-Interpreter 框架通过以下核心步骤实现 LLMs 的代码增强推理能力:

Experiment

实验基于 Qwen-2.5 模型(3B/7B/14B 参数规模)进行,数据集包括 144 个推理和规划任务,覆盖数学、空间、逻辑、优化等领域,分为 107 个训练任务和 37 个测试任务。实验设置包括:

Further Thoughts

R1-Code-Interpreter 的自检行为(self-checking)是一个值得深入探索的涌现现象,特别是在代码与文本推理结合的场景中,这种行为可能为未来的模型可解释性和可靠性研究提供新思路。然而,论文未详细分析自检行为的触发条件和稳定性,未来工作可以结合认知科学或行为分析方法,进一步探究其机制。此外,任务多样性带来的训练不稳定性问题可能与当前 RL 算法的局限性有关,是否可以通过分层学习或任务聚类来缓解这一问题?另外,考虑到高计算成本(1600 GPU 小时),是否可以借鉴联邦学习(Federated Learning)或参数高效微调(Parameter-Efficient Fine-Tuning)方法,降低训练开销并提升方法的可扩展性?最后,本文的方法可能与多模态系统(Multimodal Systems)结合,例如将代码生成与视觉推理任务集成,进一步扩展其在机器人学或 AI for Science 领域的应用潜力。



Previous Post
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs
Next Post
How much do language models memorize?