Tag: Instruction Tuning
All the articles with the tag "Instruction Tuning".
-
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback
本文提出REFINE-AF框架,利用小型开源语言模型和基于自动化反馈的强化学习生成任务无关指令数据集,相较基线在SUPER-NI数据集上显著提升了63-66%的任务表现,同时降低了成本和人工干预。
-
LIFEBench: Evaluating Length Instruction Following in Large Language Models
本文通过引入LIFEBENCH基准,系统评估了26个大型语言模型在长度指令遵循上的能力,发现其在长长度约束下普遍表现不佳,且远未达到厂商宣称的最大输出长度,揭示了模型在长度感知和长文本生成上的根本局限性。
-
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models
本文通过MathIF基准测试评估大型推理模型在数学任务中的指令遵循能力,揭示了推理能力提升与指令遵循能力下降之间的权衡关系,并通过实验验证了训练策略和推理链长度对这一权衡的影响。
-
When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs
本文通过对15个大型语言模型在指令遵循任务上的评估,揭示了链式思维(CoT)提示会导致性能下降的现象,并通过约束注意力分析和四种缓解策略(尤其是分类器选择性推理)有效恢复了部分性能。
-
Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs
本文提出了一种动态自适应的混合训练框架 SASR,通过基于梯度范数和 KL 散度的动态调整机制结合 SFT 和 RL,在数学推理和逻辑推理任务上显著提升了大语言模型的性能,优于传统 SFT、RL 和静态混合方法。