本文提出SLOT方法,通过测试时对每个输入提示优化一个轻量级样本特定参数向量δ,显著提升大型语言模型在推理任务上的性能,如Qwen2.5-7B在GSM8K上提升8.65%。
Large Language Model, Test Time, Parameter-Efficient Fine-Tuning, Reasoning, Efficiency
Yang Hu, Xingyu Zhang, Xueji Fang, Zhiyang Chen, Xiao Wang, Huatian Zhang, Guojun Qi
Westlake University, University of Washington, USTC
Generated by grok-3
Background Problem
大型语言模型(LLMs)在文本生成、理解和交互中表现出强大的通用能力,但对于复杂或训练数据中未充分表示的指令(如特定格式要求的推理任务),往往表现不佳。测试时适应(Test-Time Adaptation, TTA)和测试时扩展(Test-Time Scaling, TTS)是近年来提出的策略,旨在通过推理时分配额外计算资源或动态调整模型参数来提升对个体输入的响应准确性。然而,现有TTA方法面临高计算开销、设计有效监督信号的挑战以及对复杂语言任务适应的困难。本文提出了一种新的测试时优化方法SLOT,旨在通过对每个输入提示进行样本特定的轻量化参数调整,解决模型对个体指令的适应问题,提升响应质量。
Method
SLOT(Sample-specific Language Model Optimization at Test-time)是一种测试时适应方法,其核心思想是通过在推理时对每个输入提示进行少量优化步骤,调整一个轻量级的样本特定参数向量δ,从而提升模型对该提示的响应能力。具体步骤如下:
- 提示阶段(Prompt Stage):初始化一个样本特定的参数向量δ(维度为1×d,d为隐藏层维度),并通过T步优化(通常T=3),最小化输入提示上的交叉熵损失。优化目标是使模型对当前提示的预测概率更高,公式为:,其中δ通过AdamW优化器更新。
- 生成阶段(Generation Stage):将优化后的δ添加到最后一层隐藏特征H上,得到调整后的特征H’ = H + δ,用于后续token生成。优化过程中,H被缓存以避免重复计算整个模型,仅需对最后一层线性头进行前向和反向传播。
- 关键设计:δ仅作用于最后一层隐藏特征,计算开销小,且每个样本有独立的δ,确保样本特定性。 批判性思考:虽然方法设计上高效,但仅基于输入提示优化可能导致模型过拟合到提示本身,而非真正理解任务需求。此外,δ的优化可能对提示长度或内容敏感,论文未充分讨论在不同类型提示下的稳定性。
Experiment
实验在多个大型语言模型(包括Qwen系列、Llama系列和DeepSeek-R1系列)和基准测试(如GSM8K、GPQA、AIME24、Math500、HumanEval、C-Eval)上进行评估,旨在验证SLOT的有效性。
- 数据集与设置:实验覆盖了数学推理、代码生成和综合语言评估等多任务场景,采用T=3步优化,学习率η=0.01,使用AdamW优化器。基线为无SLOT的原始模型,评估指标为答案准确率。
- 结果:SLOT在多数任务上带来性能提升,例如Qwen2.5-7B在GSM8K上从57.54%提升至66.19%(+8.65%),DeepSeek-R1-Distill-Llama-70B在GPQA上达到68.69%(+3.03%),创下70B级别开源模型的SOTA。然而,部分模型和任务上性能提升不明显甚至下降(如Qwen2.5-32B在Math500上-0.6%)。推理时间测试显示,SLOT(T=5)相较基线仅增加7.9%的时间开销,表明计算负担较小。
- 消融研究:测试了优化步数T和学习率η的影响,发现T=4或5、η=0.05时效果最佳,但参数敏感性分析不足,未能揭示最优配置的普适性。 批判性思考:实验设置覆盖面较广,但对结果波动的原因缺乏深入分析,例如为何某些模型或任务上SLOT效果不佳。此外,推理时间增加虽小,但在高吞吐量场景下可能仍具影响,实验未探讨这一应用限制。总体而言,实验结果支持了SLOT的有效性,但改进幅度不一致,需更多分析以验证其鲁棒性。
Further Thoughts
SLOT提供了一种轻量级的测试时适应思路,其通过样本特定参数调整来提升模型对个体输入的响应能力,这一想法在处理复杂指令或分布外数据时具有潜力。然而,我认为其局限性在于对输入提示的依赖性,可能导致模型在提示质量较低或歧义性较高时表现不稳定。进一步研究可以探索结合上下文学习(In-Context Learning)或检索增强生成(RAG)的方法,以提供更丰富的上下文信息,减少对单一提示的过拟合风险。此外,SLOT的优化过程是否会影响模型的公平性或安全性(如是否会放大提示中的偏见)是一个值得关注的方向,尤其是在实际部署中。另一个有趣的延伸是,是否可以将SLOT的思想应用于其他模态(如视觉-语言模型),通过测试时调整来适应多模态任务的多样性需求。总之,SLOT开启了一个高效测试时适应的研究方向,但其实际应用中的稳定性和泛化性仍需更多验证。