Llama-Nemotron: Efficient Reasoning Models

NVIDIA 发布了 Llama-Nemotron 系列开放模型，通过结合神经架构搜索、知识蒸馏、持续预训练、基于高质量合成数据的多阶段有监督微调和大规模强化学习，构建了在推理能力和效率上均达到领先水平、并支持动态推理模式切换的异构模型家族。

Reasoning, Inference Efficiency, Knowledge Distillation, Supervised Fine-Tuning, Reinforcement Learning, Dynamic Mode Switching

Akhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung

NVIDIA

Generated by gemini-2.5-flash-preview-04-17

Background Problem

近年来，语言模型发展迅速，尤其推理模型（如 OpenAI o1, DeepSeek-R1）的出现，显著提升了模型解决复杂问题的能力，其特点是生成详细的思维链和长响应。然而，这些强大的推理模型通常计算成本高昂，推理效率低下，成为部署和构建智能体流程的限制因素。此外，并非所有查询都需要详细推理，用户需要对模型的推理行为有控制权，以平衡响应的详细程度和推理资源的使用。因此，开发既具备卓越推理能力又高效、且允许用户控制推理模式的模型成为关键问题。

Method

本文介绍了 Llama-Nemotron 系列模型，这是一系列开放、异构的推理模型，旨在提供卓越的推理能力、推理效率和开放的企业级许可。其训练过程包括五个阶段：

推理效率优化： 使用神经架构搜索（Neural Architecture Search, NAS）框架 Puzzle 从 Llama 3 模型（LN-Super 基于 Llama 3.3-70B-Instruct，LN-Ultra 基于 Llama 3.1-405B-Instruct）进行优化，通过块级局部蒸馏构建替代 Transformer 块库（包括移除注意力、改变 FFN 维度），并使用混合整数规划（MIP）求解器选择最优块组合。LN-Ultra 还额外使用了 FFN Fusion 技术减少连续 FFN 层的顺序深度。
Post-NAS 训练： 通过知识蒸馏和持续预训练（Continued Pretraining, CPT）来恢复 NAS 引入的性能损失并提高块间兼容性。
推理导向的后训练（Supervised Fine-Tuning, SFT）： 在包含标准指令数据和来自强大教师模型（如 DeepSeek-R1）的推理轨迹的混合数据集上进行有监督微调。数据集包含“detailed thinking on”（推理）和“detailed thinking off”（非推理）两种模式的数据，以训练模型动态切换推理行为。
大规模强化学习（Reinforcement Learning, RL）： 主要应用于 LN-Ultra，在复杂的数学和 STEM 数据集上使用 Group Relative Policy Optimization (GRPO) 算法进行训练，利用准确性奖励和格式奖励，并通过基于问题通过率的课程学习策略提高模型性能，使其超越教师模型。
偏好优化 RL (RLHF)： 进行简短的 RL 运行（使用 RLOO、迭代在线 RPO、离线 RPO 等算法），优化模型的指令遵循能力和通用对话能力，使用奖励模型进行指导。

Experiment

实验评估了 LN-Nano (8B)、LN-Super (49B) 和 LN-Ultra (253B) 模型在推理和非推理任务上的性能。

基准测试： 推理基准包括 AIME24/25、GPQA-Diamond、LiveCodeBench、MATH500；非推理基准包括 IFEval (Strict-Instruction)、BFCL V2 Live (函数调用)、Arena-Hard (对话偏好)。还评估了模型在 JudgeBench 上的判断能力。
效率： LN-Super 在单块 H100 GPU 上比 Llama 3.3-70B-Instruct 实现了 5 倍吞吐量提升。LN-Ultra 在 8 块 H100 节点上比 Llama 3.1-405B-Instruct 实现了 1.71 倍延迟降低。RL 训练阶段实现了 FP8 推理生成，相比 BF16 提速 1.8 倍。
性能： LN-Ultra 在 GPQA-Diamond 等推理基准上达到开源模型中的 SOTA，并在许多任务上超越了其教师模型 DeepSeek-R1，同时在 8xH100 节点上比 DeepSeek-R1 (需要 8xH200) 更高效。LN-Super 在其量级模型中表现出色，推理模式下优于 DeepSeek-R1 蒸馏模型，非推理模式下与 Llama 3.3-70B 相当。LN-Nano 在小模型中展现了强大的推理能力。模型在 JudgeBench 上的判断能力也表现出色。
推理模式切换： 实验结果（如表 3, 4, 5 所示）表明，模型能根据“detailed thinking on/off”系统指令在推理和非推理模式下表现出显著差异，成功实现了动态切换。
训练细节： 评估在 32k 上下文长度下进行，推理模式使用温度 0.6, top-p 0.95，非推理模式使用温度 0 (贪婪解码)，报告 pass@1 准确率。RL 训练使用了 72 个 8xH100 节点，并进行了详细的内存分析和优化（如 FP8 生成、上下文并行、序列并行等）。
观察到的权衡： SFT 训练程度与后续 RL 成功率之间存在权衡；优化 IFEval 可能损害 Arena-Hard 表现，反之亦然。

Further Thoughts

这篇论文展示了一个非常全面的大型模型开发流程，从底层架构优化到上层能力对齐。有几个点特别值得思考：

架构优化与后训练的结合： 仅仅通过 NAS 优化推理效率可能会牺牲模型质量，但论文通过知识蒸馏和持续预训练有效地恢复了性能，这表明硬件效率优化和模型能力提升并非完全矛盾，可以通过多阶段训练流程协同实现。
SFT 与 RL 的互补性： SFT 擅长从教师模型蒸馏特定行为（如推理轨迹），为学生模型打下基础；而 RL 则能帮助模型超越教师，探索更优解，尤其在复杂任务上。这种分阶段、目标明确的后训练策略非常有效。
数据质量与规模： 论文强调了构建高质量、大规模合成数据集的重要性，特别是在数学和代码等领域。通过精细的数据生成、过滤和去污染流程，确保了训练信号的有效性。同时，代码生成实验表明，即使在数学等领域小数据可能有效，但在代码等领域，大规模数据对于提升性能至关重要。
基础设施的重要性： 大规模 RL 训练对计算资源和内存管理提出了巨大挑战。论文详细介绍了其优化的训练基础设施，包括 FP8 推理生成、精细的并行策略和内存分析工具。这提示我们，在推动模型能力边界时，底层基础设施的创新和优化同样关键。
动态推理模式： 允许用户通过系统提示动态切换推理模式是一个非常实用的功能，它兼顾了效率和灵活性，避免了为不同需求部署不同模型的开销。这可能成为未来大型模型的一个重要特性。
权衡的艺术： 论文坦诚地讨论了训练过程中遇到的权衡，例如 SFT 程度与 RL 成功率、IFEval 与 Arena-Hard 之间的冲突。这反映了大型模型训练的复杂性，需要仔细平衡不同的目标和阶段。