Tag: Supervised Fine-Tuning
All the articles with the tag "Supervised Fine-Tuning".
-
Llama-Nemotron: Efficient Reasoning Models
NVIDIA 发布了 Llama-Nemotron 系列开放模型,通过结合神经架构搜索、知识蒸馏、持续预训练、基于高质量合成数据的多阶段有监督微调和大规模强化学习,构建了在推理能力和效率上均达到领先水平、并支持动态推理模式切换的异构模型家族。