Tag: Test Time
All the articles with the tag "Test Time".
-
SSR: Speculative Parallel Scaling Reasoning in Test-time
本文提出SSR框架,通过选择性并行模块和步骤级推测性解码,在测试时显著提升大型语言模型在数学推理任务中的效率-准确性权衡,无需额外训练。
-
HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization
HAPO 通过历史感知的策略优化训练语言模型,利用动态长度奖励机制显著减少推理输出长度(33-59%),同时仅以 2-5% 的准确率下降为代价,优于现有方法。
-
Test-time regression: a unifying framework for designing sequence models with associative memory
本文提出一个基于测试时回归的统一框架,通过将关联回忆形式化为回归问题,推导出多种序列模型(如线性注意力、状态空间模型、softmax注意力),并通过合成实验验证其回归能力,同时提出高阶注意力泛化。
-
TTRL: Test-Time Reinforcement Learning
本文提出测试时强化学习(TTRL)方法,通过多数投票估计奖励,在无标签测试数据上训练大语言模型,实现模型自演化并显著提升推理任务性能。
-
A Survey on Test-Time Scaling in Large Language Models: What, How, Where, and How Well?
本文通过提出一个四维度分类框架(什么扩展、如何扩展、哪里扩展、扩展效果如何),系统综述了测试时扩展(TTS)在大型语言模型中的研究现状,为理解和应用推理阶段计算扩展提供了结构化视角和实践指导。