Skip to content
Go back 2504.16084 arXiv logo

TTRL: Test-Time Reinforcement Learning

Published:  at  04:30 PM
93.49 👍

本文提出测试时强化学习(TTRL)方法,通过多数投票估计奖励,在无标签测试数据上训练大语言模型,实现模型自演化并显著提升推理任务性能。

Reinforcement Learning, Large Language Model, Test Time, Reasoning, Self-Evolution, Unlabeled Data

Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou

Tsinghua University, Shanghai AI Lab

Generated by grok-3-mini-latest

Background Problem

本工作的出发点是解决大型语言模型(LLMs)在推理任务上进行强化学习(RL)时面临的挑战,即在测试时没有显式标签,无法获得准确的奖励信号。背景包括测试时缩放(TTS)技术的发展,表明测试时增加计算资源比预训练时更高效,但传统RL方法主要依赖训练时的数据,无法有效处理新出现的无标签测试数据。关键问题包括:如何在无标签数据上估计奖励,以及如何实现模型的自演化以适应分布偏移和新型任务,例如OpenAI o3在ARC-AGI-2上的低性能。TTRL旨在利用预训练模型的先验,通过测试时训练来提升模型性能,减少对人类标注的依赖。

Method

核心思想是通过测试时强化学习(TTRL)在无标签数据上训练LLMs,实现模型的自演化。具体实现包括:给定输入提示x,模型通过策略πθ生成输出y;通过重复采样生成多个候选输出{y1, y2, …, yN},使用多数投票估计共识输出y*;基于y计算奖励r(y, y),奖励函数为二值的规则-based奖励(如果输出匹配y*则奖励1,否则0)。RL目标是最大化期望奖励:

maxθEyπθ(x)[r(y,y)],\max_{\theta} \mathbb{E}_{y \sim \pi_{\theta}(\cdot|x)} [r(y, y^*)],

通过梯度上升更新参数:

θθ+ηθEyπθ(x)[r(y,y)].\theta \leftarrow \theta + \eta \nabla_{\theta} \mathbb{E}_{y \sim \pi_{\theta}(\cdot|\mathbf{x})} [r(y, y^*)].

主要步骤是采样、投票估计标签、计算奖励和参数更新,不修改预训练模型,只在测试时调整。

Experiment

实验设置包括使用Qwen2.5-Math-1.5B、7B和LLaMA-3.1-8B-Instruct等模型,基准数据集为AIME 2024、AMC和MATH-500,基线包括DeepSeek-R1-Distill系列等RL模型。实验使用GRPO算法,学习率为5×10^{-7},采样64个响应等超参数。结果显示TTRL显著提升性能,例如在AIME 2024上Qwen2.5-Math-7B的pass@1性能从13.3提升至43.3,增幅159%;平均在三个基准上提升84%。实验设计合理,覆盖不同模型规模、任务难度和RL算法(如PPO),验证了泛化性和兼容性,结果符合预期,因为TTRL利用多数投票奖励有效估计标签,即使在无标签设置下也能接近有标签训练的上限。

Further Thoughts

TTRL的创新在于利用自估计奖励实现无监督RL,这启发我们思考在其他领域如计算机视觉的测试时适应(Test-Time Adaptation)中应用类似机制,减少对标注数据的依赖;此外,TTRL的self-evolution概念可能与在线学习和终身学习相结合,推动AI代理在动态环境中持续改进;与相关工作如DeepSeek-R1的RL方法相比,TTRL强调测试时训练的效率,未来可探索与其他优化算法的整合,以提升鲁棒性和泛化能力。



Previous Post
Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review
Next Post
Which Attention Heads Matter for In-Context Learning?