Skip to content
Go back 2505.22635 arXiv logo

Learning Composable Chains-of-Thought

Published:  at  11:12 AM
90.13 🤔

本文提出Composable Chain-of-Thought方法,通过数据增强改进原子任务CoT格式,并结合多任务学习或模型合并实现零样本组合推理,使用拒绝采样微调进一步提升性能,在字符串操作和自然语言任务上优于标准CoT基准。

Large Language Model, Reasoning, Fine-tuning, Multimodal Data, Instruction Tuning

Fangcong Yin, Zeyu Leo Liu, Liu Leqi, Xi Ye, Greg Durrett

The University of Texas at Austin, Princeton University

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理任务上取得了显著成功,但它们在面对未见过的组合推理任务时往往表现不佳,缺乏组合泛化能力(Compositional Generalization)。本研究旨在解决这一问题:如何让模型通过学习简单的原子推理任务(Atomic Tasks),在推理时将这些技能组合起来,解决更复杂的组合任务(Compositional Tasks),特别是在缺乏组合任务标注数据的情况下。论文试图通过改进链式思维(Chain-of-Thought, CoT)格式,减少对大规模训练数据的依赖,提升模型的推理效率和鲁棒性。

Method

论文提出了‘Composable Chain-of-Thought (CoT)’方法,核心思想是通过数据增强的方式改造原子任务的CoT格式,使其在推理时更易于组合。具体步骤如下:

Experiment

实验在两类任务上进行评估:字符串操作任务(如字母顺序、ASCII值计算)和自然语言技能组合任务(Skill-Mix数据集)。

Further Thoughts

论文提出的Composable CoT方法为组合推理提供了一个有前景的方向,但其局限性值得进一步探讨。例如,方法目前仅限于两个原子任务的组合,而现实世界中的推理任务往往涉及更多技能的嵌套组合,未来可以尝试扩展到n-way组合,并设计更复杂的代理前缀CoT以模拟真实场景。此外,模型合并的不稳定性提示我们,可能需要引入更高级的参数融合技术(如基于任务相关性的加权合并),或者探索模块化模型架构,将不同技能隔离以减少冲突。另一个有趣的方向是与领域自适应或迁移学习结合,测试Composable CoT是否能在跨领域任务(如从字符串操作到数学推理)中实现技能组合。最后,考虑到RFT对初始模型质量的依赖,是否可以通过强化学习或其他自监督方法进一步减少对标注数据的依赖?这可能是一个值得探索的交叉领域。



Previous Post
Steering LLM Reasoning Through Bias-Only Adaptation
Next Post
Next Token Perception Score: Analytical Assessment of your LLM Perception Skills