Skip to content
Go back 2504.19188 arXiv logo

Hierarchical Attention Generates Better Proofs

Published:  at  11:16 PM
69.57 🤔

本文提出层次注意力正则化方法,通过引导大型语言模型的注意力机制与数学推理的五级层次结构对齐,在 miniF2F 和 ProofNet 基准上分别提升证明成功率 2.05% 和 1.69%,并显著降低证明复杂度。

Large Language Model, Reasoning, Hierarchical Attention, Pre-training, Fine-tuning, AI for Science

Jianlong Chen, Chao Li, Yang Yuan, Andrew C Yao

The Chinese University of Hong Kong, Shenzhen, Shanghai Qi Zhi Institute, IIIS, Tsinghua University

Generated by grok-3

Background Problem

近年来,人工智能与数学的交叉领域成为重要研究方向,尤其是在形式化定理证明方面。尽管大型语言模型(LLMs)在生成数学证明和解决广泛问题方面表现出色,但其基于令牌序列的处理方式往往无法捕捉数学证明固有的层次结构,导致在生成复杂证明时失败或生成冗长的证明。本文旨在解决这一关键问题:如何让 LLMs 更好地理解和利用数学推理中的结构化信息流,以提高证明的成功率和简洁性。

Method

本文提出了一种名为层次注意力(Hierarchical Attention)的正则化方法,旨在通过引导 LLMs 的注意力机制与数学推理的层次结构对齐来改进证明生成。具体方法如下:

Experiment

本文在多个定理证明基准数据集上进行了实验评估,具体设置和结果如下:

Further Thoughts

本文提出的层次注意力机制为 LLMs 在形式化定理证明中的应用提供了一个有趣的方向,但其固定五级层次结构可能限制了方法对更复杂数学推理场景的适应性。未来可以探索动态层次结构或基于图结构的注意力机制,以捕捉数学证明中非线性的依赖关系。此外,考虑到不同证明语言(如 Coq、Isabelle)的语义差异,跨语言的通用性测试将是重要研究方向。另一个值得思考的点是,该方法是否可以与其他技术(如强化学习或蒙特卡洛树搜索)结合,进一步优化证明搜索效率?与近期工作如 DeepSeek-Prover 的对比也可能揭示层次注意力在高性能模型上的潜力或局限性。最后,层次注意力机制或许不仅适用于数学推理,也可以扩展到其他需要结构化推理的领域,如法律文本分析或代码生成,值得跨领域探索其适用性。



Previous Post
When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars
Next Post
RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization