Tag: Supervised Learning
All the articles with the tag "Supervised Learning".
-
IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment
IDEAL提出了一种基于梯度的迭代数据均衡适应框架,通过动态优化监督微调(SFT)中多领域数据集的比例,在2次迭代内显著提升大型语言模型的多任务性能,平均得分提高约7%。
-
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
本文通过构建模型特定数据集和信念操控实验,揭示了大型语言模型(LLMs)的撤回行为受内部信念因果影响,并通过监督微调显著提高撤回性能。
-
Adaptive Deep Reasoning: Triggering Deep Thinking When Needed
本文提出了一种自适应深度推理方法,通过监督微调和强化学习使大型语言模型根据问题复杂性自动切换长链和短链推理模式,并在数学任务上展示了有效性和效率提升。
-
Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data
本文提出判别式微调(DFT)框架,通过判别式概率模型优化大型语言模型的输出概率,无需人类偏好数据或奖励模型,在数学推理和通用语言任务上显著优于SFT并与SFT→PO方法相当。
-
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
本文首次系统调查了大型语言模型高效推理的进展,通过分类模型、输出和提示-based方法,探讨了减少"过度思考"现象的策略,以优化计算效率并保持推理能力。