本文通过控制维度扩展发现,大型语言模型(LLMs)在预测人类阅读时间和脑成像数据时,随着模型规模增加,训练过程的贡献反而减少,揭示了模型与人类句子处理机制的潜在错位。
Large Language Model, Representation Learning, Human-AI Interaction, Scaling Laws
Yi-Chien Lin, Hongao Zhu, William Schuler
The Ohio State University, Shanghai Jiao Tong University
Generated by grok-3
Background Problem
大型语言模型(LLMs)因其卓越的语言能力被认为是人类句子处理的潜在模型,部分研究提出了一种’质量-能力’(quality-power)假设,认为随着模型规模和预测能力的提升,LLMs对人类阅读时间和脑成像数据的预测能力会持续改善。然而,之前的研究结果不一致:一些研究发现使用模型的惊奇度(surprisal)作为预测变量时存在反向扩展(inverse scaling),而使用整个模型向量作为预测变量时则支持正向扩展假设,但后者未控制较大模型向量中预测变量数量的增加可能带来的混杂效应。本研究旨在通过控制维度扩展,探究LLMs与人类句子处理之间的潜在错位(misalignment),解决之前研究中关于模型规模与预测能力关系的矛盾。
Method
本研究通过以下步骤探讨大型语言模型(LLMs)向量在预测人类阅读时间和脑成像数据时的表现:
- 核心思想:控制模型向量维度扩展(即预测变量数量)的影响,分离训练效果与自由度(degrees of freedom)效应的贡献,验证模型规模增加是否真正提升预测能力。
- 实验设计:
- 实验1:使用预训练的GPT-2、GPT-Neo和OPT模型家族的向量作为预测变量,测量其对阅读时间和脑成像数据的预测能力(通过Pearson相关系数),以复现之前研究中的正向扩展结果。
- 实验2:使用Pythia模型家族在未训练(0步)和完全训练(143,000步)状态下的向量,分别测试其预测能力,初步探讨自由度效应的影响。
- 实验3:通过残差化(residualization)方法,将完全训练模型的预测结果与未训练模型的预测残差进行回归,评估训练过程在控制自由度效应后的贡献。
- 关键点:通过对比未训练和训练模型的预测能力,揭示维度自由度对预测结果的潜在混杂作用,并推测LLMs与人类句子处理机制的错位。我对这种方法的有效性表示认可,但也注意到残差化方法可能过于简化,未充分考虑训练过程中模型内部表示的变化,可能低估了训练对预测能力的贡献。
Experiment
本研究在多个数据集上进行了实验,包括自定步阅读(SPR)、眼动追踪(ET)和功能性磁共振成像(fMRI)数据(如Natural Stories SPR、Dundee ET、Provo ET等)。
- 实验设置:数据预处理遵循近期研究标准,剔除异常值并将数据分为拟合、探索和保留集(大致比例为50%、25%、25%)。实验1和2使用线性回归模型评估不同规模模型向量的预测能力,实验3通过残差化方法控制自由度效应。设置较为全面,但不同数据集的特性差异可能影响结果一致性。
- 结果:实验1复现了之前研究中的正向扩展趋势(模型规模与预测能力正相关,p值显著)。实验2显示即使是未训练模型,预测能力也随模型规模增加而提升,表明自由度效应显著。实验3发现,在控制自由度后,完全训练模型的预测能力贡献随模型规模增加而显著下降(p值在多个数据集上小于0.005),呈现反向扩展。这与预期不符,表明较大模型并未在训练后提供更多预测能力,可能反映了模型与人类处理的错位。
- 评价:实验设计合理,但结果在不同数据集上不一致(如Natural Stories fMRI和Dundee ET未显示正向扩展),可能由于数据特性或预处理差异。此外,反向扩展的结论缺乏深入解释,未探讨为何较大模型表现更差,限制了结果的说服力。
Further Thoughts
本文提出的反向扩展现象和模型与人类句子处理机制的错位是一个值得深入探讨的方向。我认为,这种错位可能不仅与模型规模有关,还可能与训练目标(例如,下一词预测)与人类语言处理的认知机制(如语义整合和上下文依赖)之间的根本差异有关。未来的研究可以结合认知科学理论,探索LLMs的内部表示是否偏离了人类语言处理的关键特征,例如通过对比模型中间层激活与人类脑成像数据的对应关系。此外,本文的实验仅限于英语数据,跨语言验证可能揭示文化或语言结构对模型预测能力的影响,这与近期一些关于多语言模型表现差异的研究(如在低资源语言上的泛化能力)相关联。另一个思考点是,是否可以通过调整训练目标或引入人类认知约束(如注意力机制的生物学启发设计)来缓解这种错位,从而提升模型对人类行为的预测能力?这些方向可能为构建更贴近人类认知的AI模型提供新思路。