本文提出了 Trace-of-Thought Prompting,一种基于提示的知识蒸馏框架,通过将复杂问题分解为可管理的步骤,有效地将高资源模型的推理能力迁移到低资源模型,显著提升了低资源模型在算术推理任务上的表现,且无需大量微调。
Knowledge Distillation, In-Context Learning, Prompt Engineering, Reasoning, Problem Decomposition, Human-AI Interaction
Tyler McDonald, Ali Emami
Brock University
Generated by gemini-2.5-flash-preview-04-17
Background Problem
传统的知识蒸馏方法对于大型语言模型(LLMs)通常需要大量的计算资源进行微调,这限制了其可访问性。同时,现有的提示工程方法(如 Chain-of-Thought)在应用于较小的、低资源的开源模型时往往效果不佳。 因此,需要一种无需大量微调、更易于访问和扩展的知识蒸馏方法,能够有效地将高资源模型的复杂推理能力迁移到低资源模型,并利用提示工程的优势。
Method
- 核心思想: 利用 In-Context Learning (ICL) 通过精心设计的提示(prompt)来实现知识蒸馏,避免了传统方法所需的大量微调。
- 具体方法 (Trace-of-Thought Prompting): 将复杂问题分解为一系列相互依赖的简单步骤。
- 流程:
- 委托阶段 (Delegation Phase): 使用一个教师模型(可以是高资源或低资源模型)接收原始问题,并提示它生成解决该问题的分步提示列表,但不直接解决问题。例如,提示模板为 “Create very short step-by-step prompts for the following problem:
. Format as a list. Do not solve the problem.” - 解决阶段 (Solution Phase): 使用一个学生模型(通常是低资源模型)接收原始问题和教师模型生成的步骤列表,并提示它使用这些步骤来解决问题。例如,提示模板为 “We are given the following problem:
. Use the following steps to solve the problem: .”
- 委托阶段 (Delegation Phase): 使用一个教师模型(可以是高资源或低资源模型)接收原始问题,并提示它生成解决该问题的分步提示列表,但不直接解决问题。例如,提示模板为 “Create very short step-by-step prompts for the following problem:
- 目标: 通过这种方式,教师模型的推理过程被“蒸馏”成结构化的步骤提示,学生模型通过遵循这些步骤来学习和执行推理,从而提升其解决问题的能力。
Experiment
- 数据集: 使用了两个算术推理数据集:GSM8K (8k个小学数学问题) 和 MATH (50k个合成数学问题,包含简单到困难的各种数学领域)。从每个数据集中随机抽取了 n=200 个样本进行评估。
- 对比方法: 对比了四种零样本提示方法:Standard Prompting, Chain-of-Thought (CoT) Prompting, Plan & Solve Prompting, 以及 Trace-of-Thought (ToT) Prompting。
- ToT 配置: ToT 方法使用了两种教师模型:高资源的 GPT-4 和低资源的 Llama 3 8B,以研究不同资源水平教师模型的蒸馏效果。学生模型包括 GPT-3.5-Turbo, WizardMath-7B, Llama 3 Chat 8B, Llama 2 Chat 7B, 和 Zephyr。
- 评估方法: 对模型的输入、输出和数据集提供的正确答案进行人工评估,计算准确率(满分200,报告百分比)。
- 实验结果:
- 使用 GPT-4 作为教师模型时,Trace-of-Thought 在 58.3% 的测试套件中取得了最高准确率。特别是对于低资源模型,性能提升显著。例如,Llama 2 在 GSM8K 上的绝对准确率从 23.5% 提升到 50%(相对提升 112.77%),Zephyr 在 GSM8K 上的绝对准确率从 30% 提升到 55%(相对提升 83.3%)。
- 使用 Llama 3 8B 作为教师模型时,Llama 2 和 Zephyr 等模型在 GSM8K 上仍有显著提升(Llama 2 相对提升 59.57%,Zephyr 相对提升 43.33%)。Zephyr 在 MATH 上也有相对 20.83% 的提升。
- 实验表明,Trace-of-Thought 尤其能提升规模较小、能力较弱的模型的性能。
- 定性分析显示,ToT 提高了推理过程的透明度,有助于人工干预和纠错,并增强了模型的自适应推理能力。
- 误差分析发现,教师模型的错误蒸馏会传播到学生模型,而学生模型的自我纠错能力弱或未能严格遵循步骤时也会出错。
- 实验设置合理性: 选择了代表性的算术推理数据集和多种主流提示方法进行对比,并考虑了不同资源水平的教师模型,实验设置较为全面合理。显著的性能提升(尤其在低资源模型上)验证了方法的有效性。
Further Thoughts
这项工作通过提示工程实现了知识蒸馏,为低资源模型赋能提供了一个无需大量计算资源(如微调)的新思路。这与传统的基于 logits 或特征匹配的蒸馏方法形成对比。 Trace-of-Thought 的核心在于将复杂任务分解,这与人类解决复杂问题的方式类似,也与一些多智能体协作或规划类的工作(如 Tree-of-Thoughts, Plan-and-Solve)有共通之处。 未来的研究可以探索如何自动化教师模型的步骤生成过程,使其更鲁棒,减少教师错误传播。此外,这种基于步骤的蒸馏是否适用于更抽象或需要创造性推理的任务(如论文限制中提到的抽象推理)值得进一步探索。将这种方法与少量微调结合,或者让低资源模型在蒸馏过程中具备一定的自我纠错能力,可能会进一步提升效果。 这项工作也暗示了,即使是能力相对较弱的模型,如果能被引导遵循一个清晰的推理路径,也能显著提升性能。