Skip to content
Go back 2505.11423 arXiv logo

When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs

Published:  at  11:11 AM
87.93 🤔

本文通过对15个大型语言模型在指令遵循任务上的评估,揭示了链式思维(CoT)提示会导致性能下降的现象,并通过约束注意力分析和四种缓解策略(尤其是分类器选择性推理)有效恢复了部分性能。

Large Language Model, Reasoning, Instruction Tuning, Human-AI Interaction, Efficiency

Xiaomin Li, Zhou Yu, Zhiwei Zhang, Xupeng Chen, Ziji Zhang, Yingying Zhuang, Narayanan Sadagopan, Anurag Beniwal

Harvard University, Amazon, NYU

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过链式思维(CoT)提示或专门的推理训练,在复杂推理任务(如数学问题求解和多步问答)中取得了显著成功。然而,指令遵循能力——即模型按照用户指定约束生成输出的能力——对于模型的对齐、安全性和实用性至关重要。论文提出一个关键问题:明确推理是否真的有助于模型更准确地遵循指令?通过实验,作者发现了一个未被充分探索的现象:CoT提示可能会显著降低指令遵循的准确性,尤其是在处理简单或组合约束时。这一研究旨在揭示推理对指令遵循的负面影响,并探索其原因和缓解方法。

Method

论文主要围绕揭示链式思维(CoT)对指令遵循的负面影响及其缓解策略展开,具体方法如下:

Experiment

实验在两个指令遵循基准数据集上进行:

Further Thoughts

本文揭示了链式思维(CoT)在指令遵循任务中的负面影响,这一发现对大型语言模型(LLMs)的对齐和安全性研究具有重要启示。未来研究可以探索CoT提示设计中的潜在问题,例如是否可以通过优化提示结构(如明确强调约束优先级)来减少注意力分散。此外,约束注意力指标虽然新颖,但其与模型性能的相关性需要进一步验证,是否可以结合神经科学中的注意力机制研究,为模型设计提供更深层次的理论支持?

另一个值得思考的方向是缓解策略的通用性。分类器选择性推理虽然效果最佳,但其模型特定性限制了大规模应用,是否可以开发一种基于元学习(Meta-Learning)的通用分类器,适应不同模型和任务?同时,本文未探讨CoT在其他非指令遵循任务(如创意生成或对话)中的潜在负面影响,这可能是未来研究的一个重要方向。最后,考虑到计算成本,是否可以通过轻量级的提示调整或参数高效微调(如Parameter-Efficient Fine-Tuning)来实现类似的效果,而无需额外的推理步骤或外部分类器?这些问题值得进一步探索,以平衡推理能力和指令遵循的实用性。



Previous Post
Scalable Strategies for Continual Learning with Replay
Next Post
A Unified Approach to Routing and Cascading for LLMs