Tag: Inference Efficiency
All the articles with the tag "Inference Efficiency".
-
Llama-Nemotron: Efficient Reasoning Models
NVIDIA 发布了 Llama-Nemotron 系列开放模型,通过结合神经架构搜索、知识蒸馏、持续预训练、基于高质量合成数据的多阶段有监督微调和大规模强化学习,构建了在推理能力和效率上均达到领先水平、并支持动态推理模式切换的异构模型家族。
-
Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement
本文提出动态参数化RAG框架DyPRAG,通过训练一个轻量级参数翻译器在测试时动态转换文档为参数知识,显著降低成本、提升泛化能力和缓解RAG幻觉问题。