Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
SLOT: Sample-specific Language Model Optimization at Test-time
本文提出SLOT方法,通过测试时对每个输入提示优化一个轻量级样本特定参数向量δ,显著提升大型语言模型在推理任务上的性能,如Qwen2.5-7B在GSM8K上提升8.65%。
-
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models
本文提出了一种层交换方法,通过将语言专家模型的顶部和底部层与数学专家模型的中间层重组,实现零样本跨语言迁移,在低资源语言的数学推理任务上显著提升性能达10%。
-
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging
本文提出一个多模态大语言模型(MLLM)融合基准和改进的任务向量优化方法(WUDI v2),通过低秩近似去除噪声并优化合并向量,在多任务和跨模态融合实验中取得平均2.48%的性能提升,展现了无需数据训练即可构建高性能MLLMs的潜力。
-
Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts
本文提出LayerMoE算法,通过基于层间语言相似性的专家分配和路由分类器,实现了多语言LLM的高效扩展,以更少的参数显著提升新语言性能并减少旧语言遗忘。
-
General-Reasoner: Advancing LLM Reasoning Across All Domains
本文提出General-Reasoner,通过零强化学习结合跨领域高质量数据集和基于生成模型的验证器,显著提升大型语言模型在多领域推理任务上的性能,同时保持数学推理的有效性。