Skip to content
Go back 2505.23184 arXiv logo

Two Is Better Than One: Rotations Scale LoRAs

Published:  at  11:30 AM
87.12 🤔

本文提出 RadarGate,一种基于几何的门控方法,通过旋转和拉伸操作增强 LoRA-MoE 的表达能力,在拟合、泛化和可扩展性方面显著优于现有方法,实验结果在 6 个基准数据集的 21 个任务上得到验证。

Large Language Model, Parameter-Efficient Fine-Tuning, Low-Rank Adaptation, Multimodality, Efficiency

Hongcan Guo, Guoshun Nan, Yuan Yang, Diyang Zhang, Haotian Li, Zhican Chen, Qinchuan Zhou, Yuhan Ran, Xinye Cao, Sicong Leng, Xiaofeng Tao, Xudong Jiang

Beijing University of Posts and Telecommunications, China, Nanyang Technological University, Singapore, University of Bristol, UK

Generated by grok-3

Background Problem

大型语言模型(LLMs)在适应多样化下游任务时面临计算资源和训练效率的巨大挑战。Low-Rank Adaptation (LoRA) 作为一种参数高效的微调方法,通过冻结预训练模型权重并注入低秩可训练组件来降低计算成本。然而,随着任务多样性需求的增加,LoRA 与 Mixture of Experts (MoE) 的结合(即 LoRA-MoE)被提出以提升模型的可扩展性和泛化能力。现有 LoRA-MoE 的门控机制在 LoRA 数量增加时表现出欠拟合和泛化能力差的问题,限制了模型在多样化任务上的表现。本文旨在解决这些问题,通过提出一种新的几何门控方法来增强 LoRA 表达的丰富性和跨 LoRA 的特征交互能力。

Method

本文提出了 RadarGate,一种基于几何的门控方法,通过引入 LoRA 表示的旋转操作来提升可扩展性 LLMs 的表达能力和特征交互。其核心思想是超越传统的加权和机制,增加额外的自由度以解决欠拟合和泛化问题。具体方法包括两个关键组件:

Experiment

实验在多个公共基准数据集上进行,包括 GLUE、MMLU、WMT14、MATH、GSM8K 和 GPQA,涵盖 21 个任务,旨在验证 RadarGate 在拟合能力、泛化能力和可扩展性方面的表现。实验设置基于 Ubuntu 服务器,使用 PyTorch 框架和 NVIDIA A40 GPU。作者将 RadarGate 与多种基线方法(包括规则-based 和可学习方法,如 LoraHub、HydraLoRA、MoLE 等)进行对比,并通过准确率作为主要评估指标。

Further Thoughts

尽管 RadarGate 在理论和实验上展现了一定的创新性,但其旋转操作的实际影响机制仍需进一步探索。例如,旋转角度的计算依赖于输入相关的二元关系,但在高维空间中,这种关系的稳定性如何保证?此外,论文中提到的旋转操作的对比性(contrastive nature)是一个有趣的观察,可能与对比学习(Contrastive Learning)领域的研究有潜在联系,未来可以探索是否能结合对比学习方法进一步优化 LoRA 表示的对齐和分离效果。另一个值得思考的方向是,RadarGate 是否能推广到其他参数高效微调方法(如 Adapter 或 Prefix Tuning),以及在多模态任务中的应用潜力,如论文结论中提到的图像和视频数据处理场景。如果能在这些领域中验证其有效性,将进一步提升该方法的实用价值。



Previous Post
Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective
Next Post
Task Specific Pruning with LLM-Sieve: How Many Parameters Does Your Task Really Need?