本文提出使用Group Relative Policy Optimization结合Chain-of-Thought学习的方法提升自然语言推理任务的性能,无需标注推理路径,通过参数高效微调在对抗性基准上实现最先进结果。
Natural Language Inference, Reinforcement Learning, Chain-of-Thought Learning, Parameter-Efficient Fine-Tuning, Robustness, Reasoning
Pablo Miralles-González, Javier Huertas-Tato, Alejandro Martín, David Camacho
Technical University of Madrid
Generated by grok-3-mini-latest
Background Problem
自然语言推理(NLI)是自然语言理解的核心任务,具有事实检查、问答和信息检索等应用。尽管其重要性,但当前NLI系统主要依赖监督学习,训练数据往往包含标注偏差和人工制品,导致模型泛化能力差和实际应用受限。本文的工作起点是使用强化学习方法,特别是Group Relative Policy Optimization(GRPO)结合Chain-of-Thought(CoT)学习来处理NLI任务,消除了对标注推理路径的依赖,从而能够在更具挑战性的数据集如ANLI上进行训练,解决了现有方法在数据质量和泛化方面的关键问题。
Method
本文的方法核心是应用Group Relative Policy Optimization(GRPO)算法进行NLI任务的Chain-of-Thought学习。具体实现包括:将NLI表述为文本到文本问题,使用特定提示模板(如SYSTEM和USER指令,强制模型生成推理步骤后给出预测);GRPO优化目标为,其中是归一化优势函数,控制剪切范围,是KL散度正则化系数,以防止模型偏离基线分布;无需人工标注推理路径,通过在线采样和奖励函数(如准确性奖励)实现训练;采用参数高效微调技术LoRA和QLoRA,在7B、14B和32B模型上应用。
Experiment
实验使用Qwen2.5系列模型(7B、14B、32B),采用AWQ量化(4位)和LoRA/QLoRA微调,数据集包括标准基准(如SNLI、MultiNLI)和对抗性基准(如ANLI、Counter NLI、HANS、NLI Diagnostic)。实验设置全面,涵盖模型大小、LoRA秩(8到128)、量化影响和训练动态分析。结果显示GRPO训练显著提升了模型在对抗性数据集上的性能,例如32B AWQ量化模型在11个对抗性子集中的7个上达到最先进水平,内存占用仅22GB;平均准确率提升明显(如ANLI R3从53.58%到71.75%),量化后性能损失小(平均下降2.95%),LoRA秩增加时性能趋于稳定;实验结果符合预期,证明了方法的鲁棒性和高效性,同时通过消融实验和输出分析验证了泛化能力。
Further Thoughts
本文的GRPO方法在NLI任务中展示了强化学习在提升推理能力方面的潜力,值得扩展到其他领域如数学推理或代码生成中,与DeepSeek-R1类似;基模型质量的重要性突出,提示使用更大规模预训练模型来避免监督学习的偏差;未来可探索与其他数据集(如WANLI或合成数据)的结合,或优化KL散度权重以平衡探索与稳定性;此外,量化技术的应用(如AWQ)提供高效部署思路,但需关注潜在信息损失对复杂推理的影响,与Kavumba et al.的工作相比,GRPO的无监督优势可能在多模态任务中更具泛化性。