本文通过设计三种任务评估大型语言模型(LLMs)的组合性能力,发现模型规模扩大通常提升组合性表现,而指令微调效果不一致,提示组合性对性能提升的解释力有限。
Large Language Model, Reasoning, Representation Learning, Instruction Tuning, Scaling Laws
Ruchira Dhar, Anders Søgaard
University of Copenhagen
Generated by grok-3
Background Problem
本文的出发点是探讨大型语言模型(LLMs)是否通过学习组合性策略来提升性能,并验证组合性是否能够解释其作为认知架构的潜力。作者基于认知科学中的经典问题,引用Fodor和Pylyshyn(1988)对连接主义系统的批评,认为组合性是人类认知的核心特征,连接主义系统(如LLMs)若要作为认知架构,必须展现组合性行为并以此解释其性能表现。关键问题在于:模型规模的扩大和指令微调是否通过提升组合性来改善性能?本文试图通过设计特定任务,分析组合性在LLMs中的表现及其对性能提升的解释力。
Method
本文提出了一种基于任务驱动的评估方法,旨在测量LLMs的组合性能力及其对性能的解释价值:
- 核心思想:通过设计三种任务类型,分别测试组合性的不同方面,包括替代性(Substitutivity)、系统性和全局性(Systematicity & Globalism)以及过度泛化(Over-generalization)。
- 具体步骤:
- 使用ANTAILS数据集测试替代性,评估模型在形容词-名词组合替换后是否能保持语义蕴含理解。
- 使用PLANE数据集测试系统性和全局性,要求模型在已知形容词-名词蕴含模式基础上,推断新上下文中的蕴含关系。
- 引入新颖的COMPCOMB数据集测试过度泛化,通过比较名词与形容词-名词组合及离心复合词的语义距离,评估模型区分组合性和非组合性现象的能力。
- 评估方式:对四个模型家族(Falcon、Llama 2、CodeLlama、Mistral)的12个模型进行测试,比较基础模型、指令微调模型和更大规模模型的表现,使用准确率和嵌入距离等指标。
- 批判性思考:虽然任务设计有理论依据,但聚焦于形容词-名词组合可能过于狭窄,难以全面反映组合性能力;此外,COMPCOMB作为手工艺数据集,规模和代表性存疑,可能影响结果的普适性。
Experiment
实验在三个数据集(ANTAILS、PLANE、COMPCOMB)上进行,测试了四个模型家族(12个模型)在不同规模和指令微调条件下的组合性表现:
- 数据集与设置:ANTAILS和PLANE数据集采用两种评估设置(基于选择题和对数概率),COMPCOMB通过嵌入距离分析模型语义理解。实验设计考虑了提示变体和形容词类别的影响,试图增加评估的全面性。
- 结果:
- 模型规模扩大通常提升组合性表现,例如在ANTAILS和PLANE数据集上,较大模型(如Llama 2-13B)相较基础模型(7B)有显著改进。
- 指令微调(IFT)的效果不一致,部分模型(如Falcon和Mistral)在IFT后组合性表现下降,而Llama 2有所提升,表明IFT可能与组合性能力不完全对齐。
- 在COMPCOMB数据集上,较大模型的最后隐藏状态(LHS)表现优于嵌入层(EL),显示规模提升有助于语义区分,但指令微调效果仍不稳定。
- 分析与批判:实验设置较为细致,但结果解释力有限,未能深入探讨为何IFT对组合性有负面影响;此外,任务聚焦于特定语言现象,实验的全面性和结论的普适性存疑;COMPCOMB数据集的手工艺性质可能导致结果偏倚,缺乏大规模验证。
Further Thoughts
本文的研究引发了对LLMs作为认知架构潜力的更深层次思考:组合性作为人类认知的核心特征,其在LLMs中的表现是否真正与人类语言处理机制对齐?指令微调(IFT)对组合性的负面影响可能指向当前训练范式的一个局限,即过度关注任务对齐而忽视了底层认知能力的培养。未来研究可以探索更广泛的语言现象(如动词短语或复杂句式)来测试组合性,以验证结论的普适性。此外,结合神经科学方法(如分析模型内部表示与人类大脑活动的对应性)可能为组合性的解释力提供新视角。另一个值得关注的点是,是否可以通过设计特定的预训练目标或微调策略,增强模型的组合性能力,从而更好地模拟人类认知过程?这或许能为构建更接近人类智能的AI系统提供启发。