Skip to content
Go back 2505.12196 arXiv logo

Vectors from Larger Language Models Predict Human Reading Time and fMRI Data More Poorly when Dimensionality Expansion is Controlled

Published:  at  11:10 AM
85.71 🤔

本文通过控制维度扩展发现,大型语言模型(LLMs)在预测人类阅读时间和脑成像数据时,随着模型规模增加,训练过程的贡献反而减少,揭示了模型与人类句子处理机制的潜在错位。

Large Language Model, Representation Learning, Human-AI Interaction, Scaling Laws

Yi-Chien Lin, Hongao Zhu, William Schuler

The Ohio State University, Shanghai Jiao Tong University

Generated by grok-3

Background Problem

大型语言模型(LLMs)因其卓越的语言能力被认为是人类句子处理的潜在模型,部分研究提出了一种’质量-能力’(quality-power)假设,认为随着模型规模和预测能力的提升,LLMs对人类阅读时间和脑成像数据的预测能力会持续改善。然而,之前的研究结果不一致:一些研究发现使用模型的惊奇度(surprisal)作为预测变量时存在反向扩展(inverse scaling),而使用整个模型向量作为预测变量时则支持正向扩展假设,但后者未控制较大模型向量中预测变量数量的增加可能带来的混杂效应。本研究旨在通过控制维度扩展,探究LLMs与人类句子处理之间的潜在错位(misalignment),解决之前研究中关于模型规模与预测能力关系的矛盾。

Method

本研究通过以下步骤探讨大型语言模型(LLMs)向量在预测人类阅读时间和脑成像数据时的表现:

Experiment

本研究在多个数据集上进行了实验,包括自定步阅读(SPR)、眼动追踪(ET)和功能性磁共振成像(fMRI)数据(如Natural Stories SPR、Dundee ET、Provo ET等)。

Further Thoughts

本文提出的反向扩展现象和模型与人类句子处理机制的错位是一个值得深入探讨的方向。我认为,这种错位可能不仅与模型规模有关,还可能与训练目标(例如,下一词预测)与人类语言处理的认知机制(如语义整合和上下文依赖)之间的根本差异有关。未来的研究可以结合认知科学理论,探索LLMs的内部表示是否偏离了人类语言处理的关键特征,例如通过对比模型中间层激活与人类脑成像数据的对应关系。此外,本文的实验仅限于英语数据,跨语言验证可能揭示文化或语言结构对模型预测能力的影响,这与近期一些关于多语言模型表现差异的研究(如在低资源语言上的泛化能力)相关联。另一个思考点是,是否可以通过调整训练目标或引入人类认知约束(如注意力机制的生物学启发设计)来缓解这种错位,从而提升模型对人类行为的预测能力?这些方向可能为构建更贴近人类认知的AI模型提供新思路。



Previous Post
SSR: Speculative Parallel Scaling Reasoning in Test-time
Next Post
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning