本文提出了一种质量导向的多代理框架,通过提示诱导、检索增强合成和奖励过滤从少量标注数据中提炼高质量监督信号,提升LLMs在低资源结构化推理任务中的性能。
Multi-Agent, Reasoning, Few-Shot Learning, Retrieval-Augmented Generation, Fine-Tuning, Data Quality
Jiahao Yuan, Xingzhe Sun, Xing Yu, Jingwen Wang, Dehui Du, Zhiqing Cui, Zixiang Di
East China Normal University, University of Reading
Generated by grok-3-mini-latest
Background Problem
本研究的出发点是针对大型语言模型(LLMs)在结构化推理任务中的挑战,特别是资源匮乏的场景下,仅有24个标注示例。关键问题包括:(1)数据不足导致难以对高容量模型进行微调;(2)需要在多个推理模块中保持步骤级一致性和逻辑连贯性。背景是XLLM@ACL2025共享任务III,该任务要求从极少标注数据中生成可解释和可验证的推理过程,而先前的CoT风格提示方法依赖大规模指令调优或启发式提示,在低资源和结构化粒度要求下表现不佳。
Method
核心思想是通过质量导向的蒸馏在低资源条件下增强结构化多代理推理。具体实现包括三个关键阶段:(i)提示诱导 via 逆向思考(Reverse Thinking),从少量标注示例中生成任务特定提示,使用公式 来优化提示;(ii)检索增强推理合成(Retrieval-Augmented ICL)使用GPT-4o生成结构化标注,公式如 和 ;(iii)双阶段过滤,包括结构过滤(移除格式错误或琐碎输出)和基于奖励的过滤,使用奖励模型计算分数 来选择高质量数据。所有模块从Meta-Llama-3-8B-Instruct上使用LoRA+进行统一微调,推理阶段部署解析器、分解器和验证器代理。
Experiment
实验使用XLLM@ACL2025共享任务III的公共测试集,数据集基于LogiQA,实验设置包括不同奖励过滤策略(结构过滤、0-shot奖励、5-shot奖励和平均奖励),训练集大小如表1所示,从原始7,376个实例过滤到约1,300-1,940个。微调使用Meta-Llama-3-8B-Instruct和LoRA+,在两个NVIDIA A100-80G GPU上训练5个epoch。结果如表2所示,奖励引导过滤显著提升性能,例如平均奖励策略将Reasoning F1从5.20提高到8.98,Question F1从56.87提高到66.71,这符合预期,因为高质量监督改善了结构对齐和语义保真。实验设计合理,隔离了数据质量的影响,并通过消融研究验证了奖励过滤的有效性。
Further Thoughts
这项工作强调数据质量优于数量,这启发我们在其他领域如医疗诊断或法律推理中应用类似策略,尤其是在数据稀缺的情况下;未来可以探索与其他奖励模型(如RLHF)的结合,或扩展到零样本学习中,以进一步提升泛化能力;此外,与引用文献如Zhou et al. (2023a) 的LIMA方法类似,质量导向方法可能在跨语言或多模态任务中发挥更大作用。