Tag: Sampling Efficiency
All the articles with the tag "Sampling Efficiency".
-
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
本文通过 pass@k 指标系统评估 RLVR 在大型语言模型推理能力边界上的效果,发现 RLVR 仅提高采样效率而未引入新推理模式,其能力受限于基础模型,强调需改进 RL 范式以激发真正的新推理能力。