Skip to content
Go back 2502.17419 arXiv logo

From System 1 to System 2: A Survey of Reasoning Large Language Models

Published:  at  04:26 PM
75.04 🤔

本文综述了从基础LLMs向推理LLMs的演进,通过整合System 2技术提升AI的逐步推理能力,并在基准测试中展示了显著性能改进。

Large Language Model, Reasoning, Reinforcement Learning, Human-AI Interaction, Efficiency

Zhong-Zhi Li, Duzhen Zhang, Ming-Liang Zhang, Jiaxin Zhang, Zengyan Liu, Yuxuan Yao, Haotian Xu, Junhao Zheng, Pei-Jie Wang, Xiuyi Chen, Yingying Zhang, Fei Yin, Jiahua Dong, Zhiwei Li, Bao-Long Bi, Ling-Rui Mei, Junfeng Fang, Zhijiang Guo, Le Song, Cheng-Lin Liu

University of Strathclyde, Glasgow, UK, Mohamed bin Zayed University of Artificial Intelligence, Abu Dhabi, UAE, Institute of Automation, Chinese Academy of Sciences, Beijing, China, Alibaba Group, Beijing, China, City University of Hong Kong, Hong Kong, China, Hong Kong University of Science and Technology (Guangzhou), China, Xiaohongshu Inc, Beijing, China, East China Normal University, Shanghai, China, Nanyang Technological University, Singapore, South China University of Technology, Guangzhou, China

Generated by grok-3-mini-latest

Background Problem

本文探讨了从快速、直观的System 1思维向缓慢、深思熟虑的System 2思维的转变,以实现人类级别的智能。双系统理论指出,人类认知包括System 1(快速、自动、直观的决策)和System 2(缓慢、分析、深思熟虑的推理)。基础大型语言模型(LLMs)在快速决策方面表现出色,但缺乏复杂推理的深度,无法进行类似于System 2的逐步分析,从而在涉及逻辑推理、多步问题解决或细微理解的场景中表现不足。推理LLMs(如OpenAI的o1/o3和DeepSeek的R1)通过模拟System 2思维,实现了专家级性能,特别是在数学、编码和多模态推理任务中,展示了类人认知能力。本文的关键问题是如何将基础LLMs与早期System 2技术(如符号逻辑、MCTS和RL)相结合,构建出更强大的推理模型,以解决复杂任务中的偏差和错误。

Method

本文的方法是通过调查和分析构建推理LLMs的核心思想和步骤。首先,概述了基础LLMs的发展和早期System 2技术的进展,包括符号逻辑系统、Monte Carlo树搜索(MCTS)和强化学习(RL),强调这些技术的结合为推理LLMs铺平了道路。具体实现包括:分析推理LLMs的特征,从输出行为(如探索与规划、验证与检查结构、推理长度)和服务训练动态(如数据效率、稀疏训练、参数特性)两个角度进行比较;识别核心方法,包括结构搜索(使用MCTS模拟推理路径)、奖励建模(ORM和PRM提供反馈)、自我改进(通过自我训练和强化学习)、宏观行动(分层规划和行动框架)、以及强化微调(RFT通过RL优化推理)。这些方法通过在推理过程中动态调整和优化,确保模型在不牺牲性能的前提下实现高效、准确的推理。

Experiment

实验部分评估了推理LLMs在各种基准上的性能,使用的数据集包括数学(如GSM8K、MATH、AIME 2024)、代码(如Codeforces、SWE-bench)、科学(如GPQA、MMLU-Pro)和多模态任务(如MMMU、MathVista)的基准。实验设置全面,比较了推理LLMs(如DeepSeek-R1、OpenAI o1/o3)与基础LLMs(如DeepSeek-V3、GPT-4o)的性能,采用指标如Pass@1、准确率和Percentile。结果显示,推理LLMs在保持教师模型准确率的同时显著提升了推理能力,例如DeepSeek-R1在MATH-500上的Pass@1得分高达97.3%,优于基础模型;MCTS和RL方法在实验中证明了有效性,但也暴露了问题,如计算开销大和奖励机制依赖性强。这些结果与预期一致,突出了推理LLMs的优势,但也指出了基准饱和、数据泄漏和泛化挑战,需要更全面的评估框架。

Further Thoughts

本文强调了符号逻辑和MCTS与LLMs的结合,可能启发在其他领域如机器人规划或金融决策中开发混合AI系统,以提高可解释性和推理能力。同时,奖励建模方法可能与博弈论的多代理系统相关联,探索如何在动态环境中优化决策策略;此外,推理LLMs的自我改进机制可扩展到跨语言或多模态任务,解决低资源语言的推理挑战,并促进AI在科学发现中的应用,如通过强化学习实现更安全的模型演化。



Previous Post
WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
Next Post
Learning to Plan Before Answering: Self-Teaching LLMs to Learn Abstract Plans for Problem Solving