Learning Composable Chains-of-Thought

本文提出Composable Chain-of-Thought方法，通过数据增强改进原子任务CoT格式，并结合多任务学习或模型合并实现零样本组合推理，使用拒绝采样微调进一步提升性能，在字符串操作和自然语言任务上优于标准CoT基准。

Large Language Model, Reasoning, Fine-tuning, Multimodal Data, Instruction Tuning

Fangcong Yin, Zeyu Leo Liu, Liu Leqi, Xi Ye, Greg Durrett

The University of Texas at Austin, Princeton University

Generated by grok-3

Background Problem

大型语言模型（LLMs）在推理任务上取得了显著成功，但它们在面对未见过的组合推理任务时往往表现不佳，缺乏组合泛化能力（Compositional Generalization）。本研究旨在解决这一问题：如何让模型通过学习简单的原子推理任务（Atomic Tasks），在推理时将这些技能组合起来，解决更复杂的组合任务（Compositional Tasks），特别是在缺乏组合任务标注数据的情况下。论文试图通过改进链式思维（Chain-of-Thought, CoT）格式，减少对大规模训练数据的依赖，提升模型的推理效率和鲁棒性。

Method

论文提出了‘Composable Chain-of-Thought (CoT)’方法，核心思想是通过数据增强的方式改造原子任务的CoT格式，使其在推理时更易于组合。具体步骤如下：

数据增强（Composable CoT Construction）：对于每个原子任务的CoT数据，随机添加前缀或后缀标签（Prefix/Suffix Tags），并在提示后附加代理前缀CoT（Proxy Prefix CoT），以模拟组合推理过程中的中间步骤。目标是让模型学习在任意前缀CoT后生成合理的后续推理。
模型训练与组合：使用增强后的CoT数据，通过多任务学习（MTL）或模型合并（Model Merging）方法训练原子任务模型。MTL在多个原子任务数据集上联合训练一个模型，而模型合并则通过任务算术（Task Arithmetic）将单独训练的原子模型参数线性组合。
拒绝采样微调（Rejection Sampling Fine-Tuning, RFT）：在有限的组合任务数据（仅含答案标签）上，通过采样模型自身的正确CoT响应进行进一步微调，以提升组合性能。 批判性思考：虽然方法创新，但代理前缀CoT的设计过于简单（随机字母序列），可能无法充分模拟真实组合任务的复杂性。此外，模型合并方法在某些任务上表现不稳定，可能是由于参数空间中的任务冲突，论文未深入探讨如何缓解这一问题。

Experiment

实验在两类任务上进行评估：字符串操作任务（如字母顺序、ASCII值计算）和自然语言技能组合任务（Skill-Mix数据集）。

数据集与设置：原子任务数据量较小（≤500样本），组合任务数据同样有限。实验包括零样本和少样本设置，基准模型包括标准CoT格式的MTL和合并模型，以及直接在组合数据上微调的模型。使用Llama 2-7B和Qwen 2.5-7B作为基础模型。
结果：在零样本设置中，Composable CoT方法（MTL和Merge）在大多数任务上优于标准CoT基准，有时甚至接近或超过有组合监督的微调模型。例如，在Qwen 2.5-7B上，ComposableCoT-MTL在多个字符串任务上的准确率显著提升（如Last Letter + Mult任务从3.6%提升至96.3%）。在少样本设置中，结合RFT的Composable CoT模型进一步提升性能，优于其他微调基准。
分析与批判：实验设置较为全面，涵盖了不同类型任务和模型，但结果存在不一致性，例如ComposableCoT-Merge在某些任务（如Concat + Last Letter）上表现较差，可能是模型合并导致的参数冲突。论文未充分探讨这种不稳定性的根本原因。此外，实验规模较小，数据量有限，难以判断方法在大规模复杂任务上的适用性。Skill-Mix任务的评估依赖GPT-4o-mini自动评分，可能引入偏差。

Further Thoughts

论文提出的Composable CoT方法为组合推理提供了一个有前景的方向，但其局限性值得进一步探讨。例如，方法目前仅限于两个原子任务的组合，而现实世界中的推理任务往往涉及更多技能的嵌套组合，未来可以尝试扩展到n-way组合，并设计更复杂的代理前缀CoT以模拟真实场景。此外，模型合并的不稳定性提示我们，可能需要引入更高级的参数融合技术（如基于任务相关性的加权合并），或者探索模块化模型架构，将不同技能隔离以减少冲突。另一个有趣的方向是与领域自适应或迁移学习结合，测试Composable CoT是否能在跨领域任务（如从字符串操作到数学推理）中实现技能组合。最后，考虑到RFT对初始模型质量的依赖，是否可以通过强化学习或其他自监督方法进一步减少对标注数据的依赖？这可能是一个值得探索的交叉领域。