Skip to content
Go back 2505.17169 arXiv logo

Next Token Perception Score: Analytical Assessment of your LLM Perception Skills

Published:  at  11:53 AM
85.57 🤔

本文提出Next Token Perception Score (NTPS),一个量化自回归预训练与下游感知任务特征子空间对齐程度的度量方法,通过理论证明和实验验证其与线性探针性能的相关性,并展示其预测LoRA微调增益的实用性。

Large Language Model, Representation Learning, Pre-training, Fine-tuning, Parameter-Efficient Fine-Tuning

Yu-Ang Cheng, Leyang Hu, Hai Huang, Randall Balestriero

Brown University, Atlassian

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过自回归预训练(即预测下一个token)学习通用表示已成为主流范式,但其在下游感知任务上的线性探针性能表现出显著的不一致性,表明自回归预训练学到的特征并非总是与下游任务对齐。本文旨在解决这一问题,提出一个关键问题:如何量化自回归预训练与下游感知任务之间的对齐程度,以解释线性探针在不同数据集上的效果差异?通过这一研究,作者试图揭示自回归预训练的局限性,并为模型在下游任务上的适应性提供理论和实践指导。

Method

本文提出了一种新的度量方法——Next Token Perception Score (NTPS),用于评估自回归预训练与下游感知任务之间的特征子空间对齐程度。

Experiment

本文在实验上验证了NTPS的有效性和实用性,具体设置如下:

Further Thoughts

NTPS提供了一个有趣的视角来理解自回归预训练与下游任务的对齐问题,但其线性假设可能限制了其在复杂模型(如基于注意力机制的Transformer)中的适用性。未来的研究可以探索如何将注意力机制纳入NTPS的计算框架,例如通过线性注意力模型来扩展其理论基础。此外,NTPS与任务类型之间的关系值得进一步分析,例如情感分析任务与常识推理任务在特征子空间对齐上的差异可能揭示自回归预训练的本质局限性。另一个有趣的方向是与其他领域的研究联系起来,例如在计算机视觉中,预训练模型的表示对齐问题是否也能通过类似子空间重叠的度量来分析?如果能,这种跨领域的视角可能为构建更通用的基础模型提供启发。最后,NTPS的计算复杂度是一个实际问题,是否可以通过近似方法或自适应选择k值来优化其效率,值得进一步探索。



Previous Post
Learning Composable Chains-of-Thought
Next Post
Let's Predict Sentence by Sentence