Tag: Self-Evolution
All the articles with the tag "Self-Evolution".
-
TTRL: Test-Time Reinforcement Learning
本文提出测试时强化学习(TTRL)方法,通过多数投票估计奖励,在无标签测试数据上训练大语言模型,实现模型自演化并显著提升推理任务性能。
All the articles with the tag "Self-Evolution".
本文提出测试时强化学习(TTRL)方法,通过多数投票估计奖励,在无标签测试数据上训练大语言模型,实现模型自演化并显著提升推理任务性能。