Skip to content
Go back 2501.15674 arXiv logo

TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs

Published:  at  11:21 PM
86.82 🤔

本文提出了一种基于多头张量化和Tucker分解的框架,通过强制共享高维子空间对大型语言模型的多头注意力权重进行结构化去噪和压缩,显著提升推理能力并实现高达247倍的压缩率。

Large Language Model, Transformer, Reasoning, Efficiency, Multimodality

Yuxuan Gu, Wuyang Zhou, Giorgos Iacovides, Danilo Mandic

Imperial College London

Generated by grok-3

Background Problem

大型语言模型(LLMs)基于Transformer架构,在自然语言处理(NLP)中取得了巨大成功,但其过参数化特性导致推理和部署成本高昂。现有研究表明,通过结构化去噪和压缩模型权重,可以在不显著牺牲性能的情况下提升效率和推理能力。然而,当前方法(如LASER和TRAWL)主要聚焦于前馈网络(FFN)块的去噪,对Transformer核心组件——多头注意力(MHA)块的去噪效果不佳。论文试图解决这一问题,探索如何通过利用MHA的领域知识(即同一层内注意力头共享相似抽象层次但具有不同特化功能),提升LLMs的推理能力并实现MHA权重的高效压缩。

Method

论文提出了一种新颖的框架,通过多头张量化(Multi-Head Tensorisation)和Tucker分解对MHA权重进行结构化去噪和压缩。具体方法如下:

Experiment

实验在三个LLM模型(RoBERTa 125M、GPT-J 6B、LLaMA2 7B)上进行,涵盖编码器和解码器架构,并使用四个推理基准数据集(HotPotQA、FEVER、Bios Profession、BigBench-WikidataQA)评估性能。

Further Thoughts

论文提出的共享因子矩阵设计为MHA权重去噪提供了一种新颖视角,但其理论基础仍显薄弱。未来研究可以探索共享子空间的具体机制,例如通过可视化或分析因子矩阵的语义含义,验证其是否真正捕捉了注意力头的协同作用。此外,方法在高压缩率下的潜在性能权衡值得深入研究,尤其是在长上下文任务或多模态模型中,压缩可能对模型的泛化能力产生更大影响。另一个有趣的方向是将此方法与其他参数高效微调技术(如Low-Rank Adaptation)结合,探索去噪与微调的协同效应,尤其是在资源受限环境下的应用场景。最后,考虑到作者提到的超参数敏感性问题,可以引入自动化超参数搜索或元学习方法,以提升方法的通用性和实用性。



Previous Post
Recall with Reasoning: Chain-of-Thought Distillation for Mamba's Long-Context Memory and Extrapolation
Next Post
Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning