Tag: Fine-tuning

All the articles with the tag "Fine-tuning".

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

Published: 2 Jun, 2025 at 11:31 AM

85.18 🤔

本文提出PURE框架，通过最小形式信用分配方法利用过程奖励改进大型语言模型的推理能力，实验显示其在数学推理任务上与可验证奖励方法性能相当，且结合少量地面真实信号可进一步提升准确率至53.3%。
Zebra-Llama: Towards Extremely Efficient Hybrid Models

Published: 31 May, 2025 at 11:34 AM

89.05 🤔

Zebra-Llama通过结合状态空间模型和多头潜在注意力层，从预训练Transformer构建高效混合模型，显著降低KV缓存大小并提升推理吞吐量，同时保持或超越基线性能。
Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster

Published: 1 Jun, 2025 at 11:53 AM

86.49 🤔

本文提出分块训练（CWT）和跳跃思维训练（STT），通过将推理过程分块并跳过非核心块，显著提升小型语言模型在链式思维蒸馏中的推理准确性和速度。
Parameter-Efficient Fine-Tuning with Column Space Projection

Published: 31 May, 2025 at 11:16 AM

88.66 🤔

本文提出PiCa，一种基于谱特性的参数高效微调方法，通过将梯度投影到预训练权重的低秩列子空间并结合权重共享，在显著减少参数量的同时实现了优于LoRA和SVFT的性能。
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models

Published: 31 May, 2025 at 11:35 AM

88.25 🤔

本文提出了一种层交换方法，通过将语言专家模型的顶部和底部层与数学专家模型的中间层重组，实现零样本跨语言迁移，在低资源语言的数学推理任务上显著提升性能达10%。

Tag: Fine-tuning

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

Zebra-Llama: Towards Extremely Efficient Hybrid Models

Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster

Parameter-Efficient Fine-Tuning with Column Space Projection

Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models