Tag: Inference Efficiency

All the articles with the tag "Inference Efficiency".

Llama-Nemotron: Efficient Reasoning Models

Published: 5 May, 2025 at 11:30 PM

72.72 🤔

NVIDIA 发布了 Llama-Nemotron 系列开放模型，通过结合神经架构搜索、知识蒸馏、持续预训练、基于高质量合成数据的多阶段有监督微调和大规模强化学习，构建了在推理能力和效率上均达到领先水平、并支持动态推理模式切换的异构模型家族。
Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement

Published: 4 May, 2025 at 04:29 PM

71.89 🤔

本文提出动态参数化RAG框架DyPRAG，通过训练一个轻量级参数翻译器在测试时动态转换文档为参数知识，显著降低成本、提升泛化能力和缓解RAG幻觉问题。