Skip to content
Go back 2407.03181 arXiv logo

Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs

Published:  at  11:26 AM
85.53 🤔

本文提出DCoT方法,通过在单次推理步骤内生成多个多样化推理链并进行自我改进,显著提升了大型语言模型在复杂推理任务上的性能,尤其在结果空间较大的任务中效果突出。

Large Language Model, Reasoning, Instruction Tuning, Fine-tuning, In-Context Learning

Haritz Puerto, Tilek Chubakov, Xiaodan Zhu, Harish Tayyar Madabushi, Iryna Gurevych

Ubiquitous Knowledge Processing Lab (UKP Lab), TU Darmstadt, Germany, ATHENE National Research Center for Applied Cybersecurity, Germany, Dept. of ECE & Ingenuity Labs Research Institute, Queen’s University, Canada, University of Bath, UK

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过生成中间推理步骤(Chain of Thought, CoT)已被证明能显著提升在复杂推理任务上的表现。然而,现有方法多通过多次独立生成CoT并进行后处理(如投票集成)来提升性能,这种方式无法让模型在单次推理中访问之前的推理链,限制了推理过程中的动态改进潜力。本文提出并解决的问题是如何通过训练让LLMs在单次推理步骤内生成多个多样化的推理链(DCoT),并利用之前的推理链进行自我改进,尤其是在结果空间较大的任务(如数值计算)中提升性能。

Method

本文提出了一种名为Diverse Chains of Thought (DCoT)的新训练方法,核心思想是通过指令微调让大型语言模型(LLMs)在单次推理步骤内生成多个多样化的推理链,并通过访问之前的推理链实现动态改进。

批判性思考:虽然DCoT的串联训练方式创新,但其假设模型能通过访问前一推理链实现改进缺乏直接证据支持,可能是训练数据多样性带来的泛化能力提升,而非真正的动态改进。此外,仅使用正确CoT训练可能导致模型在面对错误推理时无法有效修正,限制了方法的鲁棒性。

Experiment

作者在多种模型规模(1.3B到70B,包括Phi和LLaMA-2系列)和任务类型(数值、文本抽取、多选、二元、符号)上进行了广泛实验,旨在验证DCoT的有效性及适用场景。

批判性思考:实验设计较为全面,但70B模型实验由于成本限制仅在小规模数据上进行,且未优化超参数,结果可靠性存疑。此外,部分任务未见显著提升,可能是由于任务特性或数据限制,作者未深入探讨这些失败案例的根本原因。手动分析虽支持推理修订的结论,但样本量较小(31个),可能存在选择偏差,需更大规模验证。

Further Thoughts

DCoT方法通过单次推理内生成多个推理链实现自我改进,这一思路启发我们思考是否可以将类似机制应用于其他提示策略,如代码提示或图形化推理(Graph of Thoughts),以进一步提升模型在特定领域的推理能力。此外,DCoT在k=2时已达到性能峰值,增加更多推理链未带来额外收益,这与自纠正领域的研究一致,提示我们可能需要探索更智能的停止机制或动态调整k值的方法,而非固定数量的推理链。

另一个值得关注的点是DCoT仅使用正确CoT训练,这可能限制了模型处理错误推理的能力。未来可以结合对抗性训练或引入错误CoT数据,增强模型的鲁棒性。同时,DCoT的成本增加虽被作者认为可接受,但在边缘设备或高并发场景下仍可能成为瓶颈,值得探索如何通过知识蒸馏或高效采样策略降低推理开销。

最后,DCoT的理念与多智能体系统(Multi-Agent Systems)中的协作推理有潜在联系,多智能体框架下不同代理可以模拟多个推理链并进行交互改进,这可能为DCoT提供新的应用场景和优化方向。



Previous Post
1bit-Merging: Dynamic Quantized Merging for Large Language Models
Next Post
R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning