Tag: Fine-tuning
All the articles with the tag "Fine-tuning".
-   No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces本文提出了一种等向性模型合并框架,通过展平任务矩阵奇异值谱并结合公共与任务特定子空间,显著提升了多任务模型的性能,在视觉和语言任务上达到了最先进的合并效果。 
-   Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning本文通过将自然语言理解任务转化为强化学习问题,使用PPO算法微调中小规模LLMs,在GLUE和SuperGLUE基准上显著提升性能,超越监督微调和BERT-large,并展现出优于GPT-4o的零样本泛化能力。 
-   Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning本文提出Prune-on-Logic框架,通过将长链思维(Long-CoT)转化为逻辑图并选择性剪枝低效验证步骤,在提升小型语言模型(SLMs)推理准确率的同时降低推理成本,揭示了剪枝作为能力对齐策略的潜力。 
-   Incentivizing Strong Reasoning from Weak Supervision本文提出弱到强推理(W2SR)范式,通过显著较弱教师模型生成的结构化链式思维轨迹对强学生模型进行监督微调,以低成本方式显著提升其推理能力,接近甚至超越昂贵的强化学习效果。 
-   MoL for LLMs: Dual-Loss Optimization to Enhance Domain Expertise While Preserving General Capabilities本文提出MoL框架,通过对领域语料使用CE损失和对通用语料使用KL散度损失的双重优化策略,显著提升大型语言模型的领域专长,同时有效保留通用能力,并在医学领域任务中取得优异表现。