Tag: Supervised Learning
All the articles with the tag "Supervised Learning".
-
Constraint Back-translation Improves Complex Instruction Following of Large Language Models
本文提出约束反向翻译方法,通过从现有指令-响应对中提取隐含约束构建高质量复杂指令数据集CRAB,并结合反向训练显著提升大型语言模型在复杂指令跟随任务上的性能。
-
Weight Ensembling Improves Reasoning in Language Models
本文发现监督微调导致推理模型多样性坍塌损害 Pass@K,并提出通过插值早期与后期 SFT 检查点(WiSE-FT)的方法,有效提升模型多样性,同时提高 Pass@1 和 Pass@K,进而改善测试时缩放和强化学习效果。
-
Phi-4-reasoning Technical Report
本文通过数据导向的监督微调和强化学习,开发了小型LLM Phi-4-reasoning 和 Phi-4-reasoning-plus,提升了其在复杂推理任务上的性能,与大型模型竞争。