Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

本文提出PaperCoder框架，通过多代理LLM的多阶段管道自动从机器学习论文生成高质量代码仓库，提升了研究的可复现性，并在基准测试中显著优于现有方法。

Large Language Model, Generative AI, Code Generation, Multi-Agent, Human-AI Interaction, Efficiency

Minju Seo, Jinheon Baek, Seongyun Lee, Sung Ju Hwang

KAIST, DeepAuto.ai

Generated by grok-3-mini-latest

Background Problem

机器学习研究迅速发展，但许多论文缺少对应的代码实现，导致研究者难以复现结果并在此基础上开展工作，耗时耗力。论文指出，2024年顶级机器学习会议接受论文中仅有21.23%提供了代码实现，这大大阻碍了科学创新。同时，虽然大型语言模型（LLMs）在理解科学文档和生成高质量代码方面表现出色，但现有方法通常依赖预先存在的代码片段或API，无法从论文本身直接生成完整实现。因此，本工作的出发点是利用LLMs自动生成代码仓库，以提升研究的可复现性和效率。

Method

本研究提出PaperCoder框架，这是一个基于多代理LLM的系统，用于从机器学习论文自动生成可执行代码仓库。核心思想是将代码生成过程分解为三个阶段：规划（planning）、分析（analysis）和生成（coding）。在规划阶段，构建高层路线图、设计系统架构（包括类图和序列图）、识别文件依赖关系并生成配置文件；在分析阶段，对每个文件进行细粒度解释，包括功能需求、输入输出、与其他模块的交互以及算法约束；在生成阶段，按照预定义的执行顺序合成模块化代码。每个阶段由专门的代理模型协作完成，形式化为C = Mcode(R, P, A)，其中R是论文，P是规划输出，A是分析输出。

Experiment

实验在Paper2Code基准（基于2024年NeurIPS、ICML和ICLR的90篇论文）和PaperBench基准上进行。Paper2Code基准通过OpenReview API筛选了代码仓库可用且规模适中的论文，采用模型-based评估（包括参考-based和参考-free设置）和人类评估。结果显示，PaperCoder在正确性评分上显著优于基线（如ChatDev、MetaGPT），参考-based评分平均为3.72-3.83，参考-free为4.73-4.77；人类评估中，77%的作者认为PaperCoder生成的仓库最佳，85%认为其有助于复现。实验设置合理全面，覆盖了不同会议和模型变体，结果与预期一致，证明了框架的有效性和鲁棒性。

Further Thoughts

本论文的启发性在于，它展示了LLM在自动化科研工作流中的潜力，不仅限于代码生成，还可扩展到其他领域如生物医学或物理学的研究复现；未来可探索与自动测试框架的整合，以提升代码执行可靠性；此外，结合PaperBench等基准，可以进一步研究LLM在处理模糊论文描述时的鲁棒性，并与其他代理系统（如ResearchAgent）结合，实现更全面的科研自动化。