Tag: Large Language Model

All the articles with the tag "Large Language Model".

SLOT: Sample-specific Language Model Optimization at Test-time

Published: 22 May, 2025 at 11:22 AM

88.26 🤔

本文提出SLOT方法，通过测试时对每个输入提示优化一个轻量级样本特定参数向量δ，显著提升大型语言模型在推理任务上的性能，如Qwen2.5-7B在GSM8K上提升8.65%。
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models

Published: 31 May, 2025 at 11:35 AM

88.25 🤔

本文提出了一种层交换方法，通过将语言专家模型的顶部和底部层与数学专家模型的中间层重组，实现零样本跨语言迁移，在低资源语言的数学推理任务上显著提升性能达10%。
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging

Published: 30 May, 2025 at 11:19 AM

88.24 🤔

本文提出一个多模态大语言模型（MLLM）融合基准和改进的任务向量优化方法（WUDI v2），通过低秩近似去除噪声并优化合并向量，在多任务和跨模态融合实验中取得平均2.48%的性能提升，展现了无需数据训练即可构建高性能MLLMs的潜力。
Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts

Published: 2 Jun, 2025 at 11:24 AM

88.22 🤔

本文提出LayerMoE算法，通过基于层间语言相似性的专家分配和路由分类器，实现了多语言LLM的高效扩展，以更少的参数显著提升新语言性能并减少旧语言遗忘。
General-Reasoner: Advancing LLM Reasoning Across All Domains

Published: 30 May, 2025 at 11:21 AM

88.18 🤔

本文提出General-Reasoner，通过零强化学习结合跨领域高质量数据集和基于生成模型的验证器，显著提升大型语言模型在多领域推理任务上的性能，同时保持数学推理的有效性。

Tag: Large Language Model

SLOT: Sample-specific Language Model Optimization at Test-time

Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging

Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts

General-Reasoner: Advancing LLM Reasoning Across All Domains