Thinker: Learning to Think Fast and Slow

本文提出Thinker任务，通过将问答过程分解为快速思考、验证、慢速思考和总结四个阶段，利用强化学习针对性训练大型语言模型的直觉和推理能力，在数学推理基准上实现了显著性能提升。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Human-AI Interaction

Stephen Chung, Wenyu Du, Jie Fu

DualityRL, Shanghai AI Lab, University of Cambridge, University of Hong Kong

Generated by grok-3

Background Problem

大型语言模型（LLMs）在数学和编码等问答（QA）任务中的推理能力可以通过强化学习（RL）显著提升，但其推理过程（如DeepSeek R1中的自我修正行为）往往冗长、低效，表现出过多的回溯和验证，缺乏直觉和精准的评估能力。论文受心理学双重过程理论（Dual Process Theory）的启发，试图通过分解QA任务为快速思考（Fast Thinking）和慢速思考（Slow Thinking）等阶段，解决模型在直觉和推理效率上的不足，明确训练模型在不同认知能力上的表现。

Method

论文提出了Thinker任务，将传统的QA任务分解为四个阶段，旨在通过特定的奖励信号分别训练模型的不同能力：

快速思考（Fast Thinking）：模型在严格的token预算（例如1000个token）内快速生成初始答案，奖励基于答案正确性，旨在训练直觉能力。
验证（Verification）：模型评估初始答案的正确性，允许较长的token预算（例如6000个token），奖励基于验证结果的准确性（通过加权二元函数平衡类别），旨在训练评估能力。
慢速思考（Slow Thinking）：若初始答案错误，模型在较长的token预算内尝试修正答案，奖励基于修正后答案的正确性，旨在训练推理和修正能力。
总结（Summarization）：模型将慢速思考的正确推理过程提炼为简洁步骤，奖励基于总结的正确性和与快速思考模式的一致性（通过对数概率项），旨在强化直觉和整合能力。

每个阶段的奖励信号独立，不向后传播到前一阶段，确保学习信号的针对性。训练时，阶段间折扣因子设为0，阶段内折扣因子设为1，以实现有效的token级信用分配。Thinker任务不限制RL算法或模型架构选择，具有通用性。

批判性思考：虽然方法设计有创新，但奖励函数的复杂性（如验证阶段的加权因子和总结阶段的对数概率项）可能引入训练不稳定性，且依赖启发式参数选择，缺乏系统性调优。此外，快速思考和慢速思考的界限在实际操作中可能不够清晰，导致能力训练的重叠或冲突。

Experiment

实验在两个1.5B参数模型（Qwen2.5-1.5B和DeepSeek-R1-Distill-Qwen-1.5B）上进行，使用PPO算法在Thinker任务和标准QA任务（基线）上进行微调，训练数据为Open-Reasoner-Zero提供的129K数学问答数据集。实验设置包括快速思考和总结阶段的1000 token预算，验证和慢速思考阶段的6000 token预算，训练在两台各配备8个A100 GPU的计算节点上耗时约7天。评估在多个数学推理基准（如MATH500、AIME2024、GPQA Diamond等）上进行，测量Pass@1准确率。

结果：Thinker任务在Qwen2.5-1.5B上的平均准确率从24.9%提升至27.9%，在DeepSeek-R1-Distill-Qwen-1.5B上从45.9%提升至49.8%，相对提升分别为11.9%和8.5%。快速思考模式单独使用时，Qwen2.5-1.5B达到26.8%准确率，显示出推理效率的提升，但DeepSeek-R1模型的快速思考准确率（37.55%）低于基线（45.9%），表明其直觉训练效果有限。分析还显示Thinker任务减少了推理中的反思模式（reflection patterns），但响应长度增加，特别是在验证阶段，可能影响计算效率。

批判性思考：实验设置较为全面，涵盖多个基准，但仅限于1.5B参数模型，缺乏对更大模型的测试，限制了结果的泛化性。token预算和超参数的选择基于启发式，未经系统优化，可能未达到最佳性能。此外，快速思考模式准确率低于完整任务，表明直觉训练效果可能不如预期，特别是在已有较强推理能力的模型上。响应长度增加的问题也未有效解决，计算效率的权衡需进一步探讨。

Further Thoughts

Thinker任务通过环境增强（Environment Augmentation）提升强化学习效果，这一思路值得深入探索。环境设计在RL中的潜力可能不仅限于问答任务，还可以扩展到多智能体系统（Multi-Agent Systems）或动态任务设计中，例如通过模拟人类决策过程的复杂交互来训练智能体的协作推理能力。此外，Thinker任务中总结阶段对直觉训练的贡献（通过提炼慢速思考的推理过程）让我联想到知识蒸馏（Knowledge Distillation）的概念，是否可以通过类似机制将大型模型的复杂推理能力压缩到小型模型中，同时保持效率？另一个值得思考的方向是，Thinker任务的阶段分解是否可以动态调整，例如根据任务难度或模型能力自适应地分配token预算，以进一步优化计算效率和性能。