Let's Predict Sentence by Sentence

本文提出了一种句子级推理框架，通过自回归预测连续句子嵌入，将预训练语言模型提升到抽象推理空间，上下文嵌入在连续推理模式下与Chain-of-Thought (CoT) 表现相当，同时平均将推理计算成本降低一半。

Large Language Model, Representation Learning, Reasoning, Embeddings, Efficiency

Hyeonbin Hwang, Byeongguk Jeon, Seungone Kim, Jiyeon Kim, Hoyeon Chang, Sohee Yang, Seungpil Won, Dohaeng Lee, Youbin Ahn, Minjoon Seo

KAIST, Carnegie Mellon University, University College London, LG AI Research

Generated by grok-3

Background Problem

自回归语言模型（LMs）通过逐个token预测在复杂推理任务上取得了显著成功，尤其是在Chain-of-Thought (CoT) 方法的辅助下，通过生成中间推理步骤来提升性能。然而，这种逐token生成的方式在计算上效率低下，且是否以如此细粒度进行推理是最优的仍未有定论。人类认知通常在更高层次的抽象（如句子、命题或概念）上运作，因此本研究探索了一个核心问题：预训练语言模型是否能基于其已有的token级表示，构建更高层次的抽象推理空间，从而实现更结构化和高效的推理。

Method

本论文提出了一种框架，将预训练的token级语言模型适应到句子级推理空间，通过自回归预测连续的下一句嵌入来实现抽象推理。具体方法如下：

核心思想：基于预训练的Transformer模型（如GPT-2），不再逐token生成输出，而是预测整个句子的连续嵌入，这些嵌入可以解码回自然语言，但主要作为抽象概念表示用于推理。
嵌入范式：提出了两种嵌入方式，灵感来源于经典表示学习：
- 语义嵌入（Semantic Embeddings）：通过自编码目标学习，强调通过重建输入句子来保留文本语义的保真度。
- 上下文嵌入（Contextual Embeddings）：通过下一句预测目标学习，强调捕捉预测上下文结构，分为无正则化（CTX-B）和对比正则化（CTX-C）两种变体。
推理模式：设计了两种推理方式来处理预测嵌入的映射：
- 离散化模式（DISCRETIZED）：将预测的嵌入解码为文本，再重新编码为下一输入，旨在减少误差累积，但计算成本较高。
- 连续模式（CONTINUOUS）：直接在嵌入空间内进行推理，映射为恒等函数，显著提高计算效率。
训练策略：使用交叉熵损失（基于冻结解码器的自然语言目标）和InfoNCE对比损失的组合来训练模型，确保预测嵌入与解码器定义的流形对齐。
可解释性工具：引入SentenceLens，通过解码中间隐藏状态为可读句子，提供对模型内部推理轨迹的直观洞察。 批判性思考：虽然方法创新性地尝试了句子级推理，但连续推理模式对噪声的敏感性可能限制其在需要高精度的任务中的应用。此外，依赖预训练模型的适应性可能在大规模模型上遇到分布偏移问题，论文也未充分探讨如何缓解这一问题。

Experiment

实验基于GPT-2模型，在四个推理领域（数学-GSM8K、常识-CommonsenseQA、逻辑-ProsQA、规划-Blocksworld）进行评估，旨在验证句子级推理框架是否能与token级CoT媲美，并分析不同嵌入范式和推理模式的表现。

数据集与设置：使用各领域的训练和测试集，评估语义嵌入（以精确匹配率EM衡量重建保真度）和上下文嵌入（以最终答案准确率ACC衡量推理效果）。
结果分析：
- 语义嵌入在重建任务中表现出高保真度（EM接近100%），但在推理任务中表现较差。
- 上下文嵌入（尤其是CTX-B和CTX-C）在连续推理模式下，在逻辑和规划任务上接近甚至超过CoT，在常识和数学任务上略逊，但差距较小。
- 连续推理模式在计算效率上显著优于CoT，平均FLOPs减少约一半（例如CSQA从25.89 GFLOPs降至9.96 GFLOPs）。
- 离散化推理在常识和数学任务上略有优势，可能是由于语言 grounding 效应，但计算成本较高。
实验设计的合理性：实验覆盖了多种推理领域，设置较为全面，比较了不同嵌入和推理模式的表现，并与CoT、No-CoT和Coconut等基线对比。然而，实验规模受限，仅使用GPT-2系列模型，未涉及更大规模的预训练模型，限制了结果的普适性。
批判性思考：虽然结果显示上下文嵌入在连续模式下具有竞争力，但数学和规划任务中的性能差距表明连续嵌入可能在需要高精度的场景中丢失细节。此外，论文未充分探讨噪声对连续推理的影响（尽管在讨论部分提到脆弱性），实验中缺乏对鲁棒性的系统性测试。

Further Thoughts

本论文提出的句子级推理框架为语言模型的高效推理开辟了新方向，但其连续推理的脆弱性问题值得深入探讨。未来的研究可以考虑引入混合框架，在关键推理步骤中加入离散化瓶颈，以提高稳定性，同时保留连续推理的效率优势。此外，论文中提到的自训练和强化学习方向具有潜力，例如利用中间解码句子作为辅助监督信号，可能进一步优化推理轨迹的连贯性和准确性。跨领域关联方面，这一框架可能与多模态推理结合，通过将视觉或音频数据映射到类似的抽象嵌入空间，实现跨模态的高效推理，这与当前多模态基础模型（如Vision Foundation Model）的发展趋势相呼应。最后，论文的可解释性工具SentenceLens虽然提供了直观洞察，但其推理连贯性不足的问题提示我们需要在抽象推理和语言 grounding 之间找到更好的平衡，这可能是未来AI可解释性研究的一个关键点。