R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning

本文提出 R1-Code-Interpreter 框架，通过监督微调和强化学习训练大型语言模型动态生成和执行代码，在 144 个推理和规划任务上显著提升准确率，R1-CI-14B 达到 64.1%，接近 GPT-4o+Code Interpreter 的性能。

Large Language Model, Supervised Learning, Reinforcement Learning, Reasoning, Planning, Code Generation

Yongchao Chen, Yueying Liu, Junwei Zhou, Yilun Hao, Jingquan Wang, Yang Zhang, Chuchu Fan

MIT, Harvard, University of Illinois Urbana-Champaign, University of Wisconsin–Madison, University of Michigan, MIT-IBM Watson AI Lab

Generated by grok-3

Background Problem

大型语言模型（LLMs）在语义理解和常识推理方面表现出色，但在需要精确计算、符号操作、优化和算法推理的任务中常常表现不佳。文本推理缺乏代码执行的严谨性，而代码生成和执行可以有效解决这些问题。然而，现有模型难以自主判断何时使用文本推理、何时生成代码，且公开研究缺乏对如何将代码解释器（Code Interpreter）能力整合到预训练 LLMs 中的系统性指导。本文提出 R1-Code-Interpreter 框架，旨在通过监督微调（SFT）和强化学习（RL）训练 LLMs，使其能够在推理过程中动态生成和执行代码，解决上述问题。

Method

R1-Code-Interpreter 框架通过以下核心步骤实现 LLMs 的代码增强推理能力：

核心思想：训练 LLMs 在多轮交互中自主决定是否生成代码，通过代码执行结果迭代优化推理，最终输出答案。
实现方式：
- 数据集构建：作者整理了 144 个推理和规划任务（107 个用于训练，37 个用于测试），并通过 GPT-4o 生成了 6.5k 条多轮文本/代码交互轨迹，用于监督微调（SFT）。
- 训练流程：首先通过 SFT 训练模型遵循预定义的推理和代码生成格式，然后采用组相对策略优化（GRPO）进行强化学习，进一步优化代码与文本的决策能力。训练中对代码执行结果进行掩码（masking），避免模型直接预测执行输出。
- 推理过程：模型在多轮交互中交替生成文本推理和代码查询（最多 5 次代码调用），根据代码执行结果调整推理方向，最终输出答案（以特定标记 <<>> 标识）。
关键创新：提出了一种结合代码解释器的 RL 目标函数，优化模型在多样化任务中的代码使用策略，并通过 GRPO 提高训练稳定性。
批判性思考：虽然方法创新性较强，但 GRPO 训练在面对高任务多样性时表现出不稳定性，论文未充分探讨如何平衡任务多样性与训练效率。此外，依赖 GPT-4o 生成 SFT 数据可能引入偏差，限制模型的独立学习能力。

Experiment

实验基于 Qwen-2.5 模型（3B/7B/14B 参数规模）进行，数据集包括 144 个推理和规划任务，覆盖数学、空间、逻辑、优化等领域，分为 107 个训练任务和 37 个测试任务。实验设置包括：

训练细节：SFT 阶段训练 3 个 epoch，GRPO 阶段采样 5 个响应进行奖励比较，代码执行限制为每次 60 秒超时。训练总成本高昂，例如 R1-CI-14B 耗费约 1600 GPU 小时。
结果分析：R1-CI-14B 在测试任务上的平均准确率从 44.0% 提升至 64.1%，优于 GPT-4o 纯文本推理（58.6%），接近 GPT-4o+Code Interpreter（70.9%）。不同模型规模均显示出一致的改进（3B 和 7B 模型准确率分别提升至 51.5% 和 60.6%）。
实验设计合理性：任务覆盖面广，评估标准基于规则（如精确匹配和约束检查），具有客观性。作者还对比了多种训练策略（如 GRPO vs. PPO，SFT 的重要性），并分析了代码使用比例和自检行为的涌现。
批判性思考：尽管结果显示方法有效，但与 GPT-4o+Code Interpreter 的差距表明在复杂任务（如优化）上仍有不足。GRPO 训练奖励曲线波动较大，特别是在高任务多样性下，表明方法可能难以泛化到更广泛的场景。此外，高计算成本可能限制其实用性，实验未探讨如何优化训练效率或降低成本。

Further Thoughts

R1-Code-Interpreter 的自检行为（self-checking）是一个值得深入探索的涌现现象，特别是在代码与文本推理结合的场景中，这种行为可能为未来的模型可解释性和可靠性研究提供新思路。然而，论文未详细分析自检行为的触发条件和稳定性，未来工作可以结合认知科学或行为分析方法，进一步探究其机制。此外，任务多样性带来的训练不稳定性问题可能与当前 RL 算法的局限性有关，是否可以通过分层学习或任务聚类来缓解这一问题？另外，考虑到高计算成本（1600 GPU 小时），是否可以借鉴联邦学习（Federated Learning）或参数高效微调（Parameter-Efficient Fine-Tuning）方法，降低训练开销并提升方法的可扩展性？最后，本文的方法可能与多模态系统（Multimodal Systems）结合，例如将代码生成与视觉推理任务集成，进一步扩展其在机器人学或 AI for Science 领域的应用潜力。