Skip to content
Go back 2407.13419 arXiv logo

From Words to Worlds: Compositionality for Cognitive Architectures

Published:  at  11:24 AM
91.89 🤔

本文通过设计三种任务评估大型语言模型(LLMs)的组合性能力,发现模型规模扩大通常提升组合性表现,而指令微调效果不一致,提示组合性对性能提升的解释力有限。

Large Language Model, Reasoning, Representation Learning, Instruction Tuning, Scaling Laws

Ruchira Dhar, Anders Søgaard

University of Copenhagen

Generated by grok-3

Background Problem

本文的出发点是探讨大型语言模型(LLMs)是否通过学习组合性策略来提升性能,并验证组合性是否能够解释其作为认知架构的潜力。作者基于认知科学中的经典问题,引用Fodor和Pylyshyn(1988)对连接主义系统的批评,认为组合性是人类认知的核心特征,连接主义系统(如LLMs)若要作为认知架构,必须展现组合性行为并以此解释其性能表现。关键问题在于:模型规模的扩大和指令微调是否通过提升组合性来改善性能?本文试图通过设计特定任务,分析组合性在LLMs中的表现及其对性能提升的解释力。

Method

本文提出了一种基于任务驱动的评估方法,旨在测量LLMs的组合性能力及其对性能的解释价值:

Experiment

实验在三个数据集(ANTAILS、PLANE、COMPCOMB)上进行,测试了四个模型家族(12个模型)在不同规模和指令微调条件下的组合性表现:

Further Thoughts

本文的研究引发了对LLMs作为认知架构潜力的更深层次思考:组合性作为人类认知的核心特征,其在LLMs中的表现是否真正与人类语言处理机制对齐?指令微调(IFT)对组合性的负面影响可能指向当前训练范式的一个局限,即过度关注任务对齐而忽视了底层认知能力的培养。未来研究可以探索更广泛的语言现象(如动词短语或复杂句式)来测试组合性,以验证结论的普适性。此外,结合神经科学方法(如分析模型内部表示与人类大脑活动的对应性)可能为组合性的解释力提供新视角。另一个值得关注的点是,是否可以通过设计特定的预训练目标或微调策略,增强模型的组合性能力,从而更好地模拟人类认知过程?这或许能为构建更接近人类智能的AI系统提供启发。



Previous Post
Adaptive Deep Reasoning: Triggering Deep Thinking When Needed
Next Post
Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs