Trace-of-Thought Prompting: Investigating Prompt-Based Knowledge Distillation Through Question Decomposition

本文提出了 Trace-of-Thought Prompting，一种基于提示的知识蒸馏框架，通过将复杂问题分解为可管理的步骤，有效地将高资源模型的推理能力迁移到低资源模型，显著提升了低资源模型在算术推理任务上的表现，且无需大量微调。

Knowledge Distillation, In-Context Learning, Prompt Engineering, Reasoning, Problem Decomposition, Human-AI Interaction

Tyler McDonald, Ali Emami

Brock University

Generated by gemini-2.5-flash-preview-04-17

Background Problem

传统的知识蒸馏方法对于大型语言模型（LLMs）通常需要大量的计算资源进行微调，这限制了其可访问性。同时，现有的提示工程方法（如 Chain-of-Thought）在应用于较小的、低资源的开源模型时往往效果不佳。因此，需要一种无需大量微调、更易于访问和扩展的知识蒸馏方法，能够有效地将高资源模型的复杂推理能力迁移到低资源模型，并利用提示工程的优势。

Method

核心思想: 利用 In-Context Learning (ICL) 通过精心设计的提示（prompt）来实现知识蒸馏，避免了传统方法所需的大量微调。
具体方法 (Trace-of-Thought Prompting): 将复杂问题分解为一系列相互依赖的简单步骤。
流程:
1. 委托阶段 (Delegation Phase): 使用一个教师模型（可以是高资源或低资源模型）接收原始问题，并提示它生成解决该问题的分步提示列表，但不直接解决问题。例如，提示模板为 “Create very short step-by-step prompts for the following problem: . Format as a list. Do not solve the problem.”
2. 解决阶段 (Solution Phase): 使用一个学生模型（通常是低资源模型）接收原始问题和教师模型生成的步骤列表，并提示它使用这些步骤来解决问题。例如，提示模板为 “We are given the following problem: . Use the following steps to solve the problem: .”
目标: 通过这种方式，教师模型的推理过程被“蒸馏”成结构化的步骤提示，学生模型通过遵循这些步骤来学习和执行推理，从而提升其解决问题的能力。

Experiment

数据集: 使用了两个算术推理数据集：GSM8K (8k个小学数学问题) 和 MATH (50k个合成数学问题，包含简单到困难的各种数学领域)。从每个数据集中随机抽取了 n=200 个样本进行评估。
对比方法: 对比了四种零样本提示方法：Standard Prompting, Chain-of-Thought (CoT) Prompting, Plan & Solve Prompting, 以及 Trace-of-Thought (ToT) Prompting。
ToT 配置: ToT 方法使用了两种教师模型：高资源的 GPT-4 和低资源的 Llama 3 8B，以研究不同资源水平教师模型的蒸馏效果。学生模型包括 GPT-3.5-Turbo, WizardMath-7B, Llama 3 Chat 8B, Llama 2 Chat 7B, 和 Zephyr。
评估方法: 对模型的输入、输出和数据集提供的正确答案进行人工评估，计算准确率（满分200，报告百分比）。
实验结果:
- 使用 GPT-4 作为教师模型时，Trace-of-Thought 在 58.3% 的测试套件中取得了最高准确率。特别是对于低资源模型，性能提升显著。例如，Llama 2 在 GSM8K 上的绝对准确率从 23.5% 提升到 50%（相对提升 112.77%），Zephyr 在 GSM8K 上的绝对准确率从 30% 提升到 55%（相对提升 83.3%）。
- 使用 Llama 3 8B 作为教师模型时，Llama 2 和 Zephyr 等模型在 GSM8K 上仍有显著提升（Llama 2 相对提升 59.57%，Zephyr 相对提升 43.33%）。Zephyr 在 MATH 上也有相对 20.83% 的提升。
- 实验表明，Trace-of-Thought 尤其能提升规模较小、能力较弱的模型的性能。
- 定性分析显示，ToT 提高了推理过程的透明度，有助于人工干预和纠错，并增强了模型的自适应推理能力。
- 误差分析发现，教师模型的错误蒸馏会传播到学生模型，而学生模型的自我纠错能力弱或未能严格遵循步骤时也会出错。
实验设置合理性: 选择了代表性的算术推理数据集和多种主流提示方法进行对比，并考虑了不同资源水平的教师模型，实验设置较为全面合理。显著的性能提升（尤其在低资源模型上）验证了方法的有效性。

Further Thoughts

这项工作通过提示工程实现了知识蒸馏，为低资源模型赋能提供了一个无需大量计算资源（如微调）的新思路。这与传统的基于 logits 或特征匹配的蒸馏方法形成对比。 Trace-of-Thought 的核心在于将复杂任务分解，这与人类解决复杂问题的方式类似，也与一些多智能体协作或规划类的工作（如 Tree-of-Thoughts, Plan-and-Solve）有共通之处。未来的研究可以探索如何自动化教师模型的步骤生成过程，使其更鲁棒，减少教师错误传播。此外，这种基于步骤的蒸馏是否适用于更抽象或需要创造性推理的任务（如论文限制中提到的抽象推理）值得进一步探索。将这种方法与少量微调结合，或者让低资源模型在蒸馏过程中具备一定的自我纠错能力，可能会进一步提升效果。这项工作也暗示了，即使是能力相对较弱的模型，如果能被引导遵循一个清晰的推理路径，也能显著提升性能。