REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

本文提出REFINE-AF框架，利用小型开源语言模型和基于自动化反馈的强化学习生成任务无关指令数据集，相较基线在SUPER-NI数据集上显著提升了63-66%的任务表现，同时降低了成本和人工干预。

Reinforcement Learning, Large Language Model, Instruction Tuning, Alignment, Generative AI

Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal

Indian Institute of Technology, Kharagpur

Generated by grok-3

Background Problem

大型语言模型（LLMs）在基于指令的自然语言处理任务中表现出色，但人工标注指令数据耗时、昂贵且任务多样性有限。现有研究尝试通过半自动化方法生成指令，但多依赖于大型商业模型（如GPT-3.5），成本高且受限于查询次数。本文旨在探索小型开源模型（如LLaMA 2-7B, 13B 和 Mistral 7B）在任务无关指令生成中的潜力，并通过引入强化学习（RL）从自动化反馈中改进指令质量，解决成本高和人工干预多的问题。

Method

本文提出了REFINE-AF框架，通过以下三个阶段生成高质量指令-输入-输出三元组数据集：

阶段1：指令生成 - 从一小部分人工编写的种子指令（175个）开始，通过迭代式引导生成更多指令。每次迭代随机选择8个指令作为上下文示例（6个人工，2个模型生成），并通过ROUGE-L相似度阈值（<0.7）确保多样性，排除不适合LLM处理的指令（如涉及图像）。
阶段2：基于自动化反馈的强化学习（RLAF）生成输入-输出对 - 采用自动化反馈替代人工反馈，使用奖励模型评估指令-输入-输出三元组的质量。奖励函数结合多个指标（如自然性、连贯性、理解难度），通过PPO算法优化模型生成质量，公式为 $r(x,y) = 0.0078 \times Rew(x, y) - 0.4421 \times Und(x, y) + 0.3212 \times Nat(x, y) + 0.1520 \times Coh(x, y) - 0.0274$ 。
阶段3：实例生成与指令微调 - 使用训练后的模型生成对应每个指令的输入-输出对，最终形成指令微调（IFT）数据集，并通过监督微调（SFT）进一步优化模型。 批判性思考：奖励函数的设计虽然创新，但权重分配（例如理解难度权重为负）可能导致模型偏向生成简单但缺乏深度的输出，是否真正反映任务需求存疑。此外，自动化反馈可能无法完全替代人工反馈，特别是在复杂任务中可能引入噪声或偏差。

Experiment

实验基于LLaMA 2-7B, 13B 和 Mistral 7B模型，每个模型生成15,000条指令，并在SUPER-NI数据集（包含119个任务）上评估零样本泛化能力，同时对252个用户导向指令进行人工评估。

设置：使用175个种子指令启动生成，RL训练采用PPO算法，结合LoRA技术在A100 GPU上训练200步，监督微调3个epoch。基线为SELF-INSTRUCT框架。
结果：在SUPER-NI数据集上，REFINE-AF相较基线在LLaMA 2-7B, 13B 和 Mistral 7B上分别提升了64.39%、66.39%和63.51%的任务表现（基于ROUGE-L分数）。人工评估显示REFINE-AF生成的响应更常被评为‘满意’（RATING-A）。随指令数量增加（5K到15K），性能逐步提升。
分析与批判：实验设置较为全面，涵盖多种模型和任务类型，但结果在某些任务类别（如文本蕴含）上未见显著改进，表明方法对某些任务的适应性有限。奖励函数的正向斯皮尔曼相关性（0.553-0.649）表明RL训练有效，但稳定性问题未充分讨论。此外，指令生成耗时长（20天），可能限制实际应用。数据质量评估显示输出正确率仅58%-65%，表明仍有较大改进空间。

Further Thoughts

REFINE-AF框架在降低指令生成成本和人工干预方面具有潜力，但其奖励函数设计和自动化反馈机制可能存在局限性，尤其是在复杂任务中可能无法捕捉人类偏好，未来可结合更精细的奖励模型或少量人工反馈进行改进。此外，指令生成阶段的效率问题值得关注，或许可以探索更高效的采样策略或并行计算方法来缩短时间。另一个有趣的方向是，是否可以将此框架与其他领域的自监督学习方法结合，例如在多模态任务中生成跨模态指令，这可能需要设计新的奖励指标来评估跨模态一致性。最后，与近期一些关于指令微调效率的研究（如Parameter-Efficient Fine-Tuning）结合，或许能进一步降低计算成本，使方法更具实用性。