Skip to content
Go back 2505.06548 arXiv logo

REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

Published:  at  11:10 AM
89.02 🤔

本文提出REFINE-AF框架,利用小型开源语言模型和基于自动化反馈的强化学习生成任务无关指令数据集,相较基线在SUPER-NI数据集上显著提升了63-66%的任务表现,同时降低了成本和人工干预。

Reinforcement Learning, Large Language Model, Instruction Tuning, Alignment, Generative AI

Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal

Indian Institute of Technology, Kharagpur

Generated by grok-3

Background Problem

大型语言模型(LLMs)在基于指令的自然语言处理任务中表现出色,但人工标注指令数据耗时、昂贵且任务多样性有限。现有研究尝试通过半自动化方法生成指令,但多依赖于大型商业模型(如GPT-3.5),成本高且受限于查询次数。本文旨在探索小型开源模型(如LLaMA 2-7B, 13B 和 Mistral 7B)在任务无关指令生成中的潜力,并通过引入强化学习(RL)从自动化反馈中改进指令质量,解决成本高和人工干预多的问题。

Method

本文提出了REFINE-AF框架,通过以下三个阶段生成高质量指令-输入-输出三元组数据集:

Experiment

实验基于LLaMA 2-7B, 13B 和 Mistral 7B模型,每个模型生成15,000条指令,并在SUPER-NI数据集(包含119个任务)上评估零样本泛化能力,同时对252个用户导向指令进行人工评估。

Further Thoughts

REFINE-AF框架在降低指令生成成本和人工干预方面具有潜力,但其奖励函数设计和自动化反馈机制可能存在局限性,尤其是在复杂任务中可能无法捕捉人类偏好,未来可结合更精细的奖励模型或少量人工反馈进行改进。此外,指令生成阶段的效率问题值得关注,或许可以探索更高效的采样策略或并行计算方法来缩短时间。另一个有趣的方向是,是否可以将此框架与其他领域的自监督学习方法结合,例如在多模态任务中生成跨模态指令,这可能需要设计新的奖励指标来评估跨模态一致性。最后,与近期一些关于指令微调效率的研究(如Parameter-Efficient Fine-Tuning)结合,或许能进一步降低计算成本,使方法更具实用性。



Previous Post
The Mosaic Memory of Large Language Models
Next Post
Deep Learning for On-Street Parking Violation Prediction