Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants
本文提出*Avengers*框架,通过无训练的嵌入、聚类、评分和投票操作,整合多个小型开源语言模型的集体智能,在15个多样化数据集上平均性能超越GPT-4.1,展现了开源模型挑战专有巨头的潜力。
-
Zero-Shot Vision Encoder Grafting via LLM Surrogates
本文提出通过构建小型代理模型训练视觉编码器并零样本嫁接至大型LLM(如Llama-70B),在保持视觉理解能力的同时将VLM训练成本降低约45%。
-
Agentic AI: The Era of Semantic Decoding
本文提出语义解码视角,将大型语言模型、人类和工具的协作框架化为语义空间中的优化过程,通过语义令牌的交换和语义解码算法的设计探索AI系统的新计算范式。
-
ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance
ExpandR通过联合优化大型语言模型和密集检索器,利用LLM生成语义丰富的查询扩展并结合DPO训练和对比学习,在多个检索基准上实现了超过5.8%的性能提升。
-
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation
本文提出CoLA及其内存优化变体CoLA-M,通过用低秩自动编码器替换LLMs的全尺寸MLP和投影层,实现2倍模型大小和计算成本的减少,同时保持全秩性能,并在训练和推理中显著提升吞吐量。