Tag: Accuracy
All the articles with the tag "Accuracy".
-
Reinforcement Learning vs. Distillation: Understanding Accuracy and Capability in LLM Reasoning
本文通过实验和理论分析揭示了RLVR提升大型语言模型准确性但不提升能力的原因在于其偏向优化简单问题,而蒸馏只有在引入新知识时才能提升能力,否则表现与RLVR类似。
All the articles with the tag "Accuracy".
本文通过实验和理论分析揭示了RLVR提升大型语言模型准确性但不提升能力的原因在于其偏向优化简单问题,而蒸馏只有在引入新知识时才能提升能力,否则表现与RLVR类似。