Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
本文通过仅使用920个蒸馏样本对Qwen2.5-32B基础模型进行监督微调,显著超越了资源密集的Zero-RL方法,并揭示了蒸馏模型通过拟人化语言和高级认知行为实现更灵活推理的机制。
-
MoRE: A Mixture of Low-Rank Experts for Adaptive Multi-Task Learning
本文提出MoRE方法,通过将LoRA的不同秩视为专家并设计自适应秩选择器,显著提升了大型语言模型在多任务场景中的微调效率和性能,同时保持较低的参数量。
-
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
本文通过质疑‘aha moment’模式与推理能力提升的相关性,提出了一种结合监督微调(SFT)和强化学习(RL)的两阶段方法,在3B和7B规模的多模态大语言模型上显著提升了多模态推理性能,达到开源模型中的最优水平。
-
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy
本文通过XReasoning基准揭示了大型推理模型在多语言推理中语言匹配与答案准确性之间的权衡,并通过提示破解和少样本后训练方法提高语言匹配率,但以牺牲准确性为代价,凸显了当前模型的局限性。
-
Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts
本文提出LayerMoE算法,通过基于层间语言相似性的专家分配和路由分类器,实现了多语言LLM的高效扩展,以更少的参数显著提升新语言性能并减少旧语言遗忘。