Tag: Supervised Learning
All the articles with the tag "Supervised Learning".
-
Behavior Injection: Preparing Language Models for Reinforcement Learning
本文提出BRIDGE方法,通过在SFT阶段注入探索和利用行为增强大型语言模型的RL准备度,并在数学与逻辑推理任务上显著提升RFT性能。
-
Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster
本文提出分块训练(CWT)和跳跃思维训练(STT),通过将推理过程分块并跳过非核心块,显著提升小型语言模型在链式思维蒸馏中的推理准确性和速度。
-
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models
本文提出残差对齐模型(RAM),通过重要性采样分离对齐模块,实现高效的序列级训练和令牌级解码,在多个对齐任务中显著提升性能并降低资源成本。
-
Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning
本文通过理论分析和Re-distillation技术,揭示了小规模SFT在R1风格RL中的效率瓶颈,并以极少样本(<1K)在K&K和MATH数据集上接近RL性能,显著提升了数据效率。
-
Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning
本文通过实验验证了长上下文能力与推理性能的正相关,提出在监督微调前增强长上下文能力的训练策略,并在数学推理基准上显著提升了模型性能。