Skip to content
Go back 2504.21801 arXiv logo

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition

Published:  at  04:32 PM
56.98 🤔

本文提出DeepSeek-Prover-V2,通过子目标分解和强化学习统一非正式和正式数学推理,显著提升了神经定理证明的性能,在多个基准上达到最先进水平。

Reinforcement Learning, Reasoning, Large Language Model, Pre-training, Fine-tuning

Z. Z. Ren, Zhihong Shao, Junxiao Song, Huajian Xin, Haocheng Wang, Wanjia Zhao, Liyue Zhang, Zhe Fu, Qihao Zhu, Dejian Yang, Z. F. Wu, Zhibin Gou, Shirong Ma, Hongxuan Tang, Yuxuan Liu, Wenjun Gao, Daya Guo, Chong Ruan

DeepSeek-AI

Generated by grok-3-mini-latest

Background Problem

大型语言模型(LLMs)在非正式数学推理中表现出色,能够处理自然语言中的推理任务,但正式定理证明需要严格的逻辑结构和无歧义的证明步骤,这与LLMs的启发式和近似方法存在显著差距。本文的工作起点是桥接这一差距,通过利用非正式推理指导正式证明,解决的关键问题是提升神经定理证明的性能,特别是针对复杂定理的分解和求解,以实现更高效和准确的自动定理证明。

Method

Experiment

Further Thoughts

本文的方法展示了如何通过强化学习和子目标分解来桥接非正式和正式推理,这可能启发其他领域如代码验证或逻辑推理任务的应用;此外,随着模型规模的增加,推理能力的提升表明未来可以探索更复杂的证明策略,例如结合符号方法或多模态数据,以进一步缩小AI在数学推理中的人类水平差距,并可能扩展到其他证明助手如Coq或Isabelle中。



Previous Post
Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning
Next Post
A closer look at how large language models trust humans: patterns and biases