Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Zero-Shot Vision Encoder Grafting via LLM Surrogates
本文提出通过构建小型代理模型训练视觉编码器并零样本嫁接至大型LLM(如Llama-70B),在保持视觉理解能力的同时将VLM训练成本降低约45%。
-
From Words to Worlds: Compositionality for Cognitive Architectures
本文通过设计三种任务评估大型语言模型(LLMs)的组合性能力,发现模型规模扩大通常提升组合性表现,而指令微调效果不一致,提示组合性对性能提升的解释力有限。
-
ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance
ExpandR通过联合优化大型语言模型和密集检索器,利用LLM生成语义丰富的查询扩展并结合DPO训练和对比学习,在多个检索基准上实现了超过5.8%的性能提升。
-
Scalable Complexity Control Facilitates Reasoning Ability of LLMs
本文通过调整初始化率和权重衰减系数控制大语言模型复杂性,显著提升推理能力,尤其在数学任务上表现突出,并在扩展律上展现更优性能。
-
Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning
本文提出LoRA-SB方法,通过基于全参数微调第一步梯度近似的初始化策略优化低秩微调,在参数量减少27-90倍的情况下,显著超越LoRA-XS并接近全参数微调性能。