Skip to content
Go back 2504.18246 arXiv logo

Efficient Single-Pass Training for Multi-Turn Reasoning

Published:  at  04:30 PM
74.08 🤔

本文提出了一种通过响应令牌复制和自定义注意力掩码来实现多轮推理对话单次前向传递训练的方法,显著提高了训练效率,同时维护了推理可见性和位置一致性。

Large Language Model, Fine-tuning, Reasoning, Efficiency, Human-AI Interaction, Multimodal Systems

Ritesh Goru, Shanay Mehta, Prateek Jain

DevRev

Generated by grok-3-mini-latest

Background Problem

大型语言模型(LLMs)通过生成显式推理来提升性能已被证明有效,尤其在数学和编码任务中。然而,在多轮推理数据集上微调LLMs时,存在独特挑战:推理令牌在生成响应后被排除,不再作为后续输入,这使得无法像多轮非推理数据集那样使用单次前向传递优化(即将整个对话一次性处理),导致训练效率低下。具体问题包括可见性约束(推理令牌仅在生成当前响应时可见,不能影响后续回合)和位置ID不一致(响应令牌在不同回合中的相对位置不匹配),这些问题在非推理设置中可以通过简单的方法避免,但会显著增加多轮推理训练的计算开销。

Method

核心思想是通过响应令牌复制和自定义注意力掩码来实现多轮推理对话的单次前向传递训练,而不牺牲可见性约束和位置一致性。具体实现步骤包括:

Experiment

论文未提供实际的实证实验结果,而是通过理论分析评估了方法的有效性。具体实验设置包括时间和内存复杂度的比较:

Further Thoughts

这项工作强调了注意力机制在训练效率中的关键作用,或许可以与其他优化技术如LoRA(Low-Rank Adaptation)结合,进一步减少参数更新开销;此外,在多模态模型中,类似令牌复制策略可能用于处理不同模态的可见性约束,提升跨领域泛化能力;同时,考虑到开源社区如DeepSeek-R1的进展,这方法可推广到强化学习框架中,激励模型在多轮交互中更有效地生成推理。



Previous Post
Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach
Next Post
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training