Skip to content
Go back 2505.15045 arXiv logo

Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

Published:  at  11:23 AM
85.84 🤔

本文提出基于扩散语言模型的文本嵌入方法DIFFEMBED,利用其双向注意力机制在长文档检索和推理密集型任务上显著优于自回归LLM嵌入模型,同时在传统嵌入任务上表现相当。

Diffusion Model, Text Embedding, Bidirectional Attention, Long Document Retrieval, Reasoning, Contrastive Learning

Siyue Zhang, Yilun Zhao, Liyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao

Nanyang Technological University, Yale University, NYU Shanghai, Alibaba-NTU Singapore Joint Research Institute, Center for Data Science, New York University

Generated by grok-3

Background Problem

文本嵌入是自然语言处理(NLP)中的基础问题,广泛应用于文档检索、聚类和分类等下游任务。传统的文本嵌入模型基于双向语言模型(如BERT和T5)通过对比学习训练,而近年来自回归大型语言模型(LLMs)在嵌入任务上取得了显著进步。然而,自回归LLMs由于其单向注意力机制(causal attention)在预训练过程中无法访问未来token,导致其在需要双向上下文理解的文本嵌入任务中存在局限,尤其是在长文档和复杂推理场景中表现不佳。为此,本文提出利用扩散语言模型(Diffusion Language Models)进行文本嵌入,试图通过其固有的双向注意力架构解决上述问题,特别是在长文档编码和逻辑推理任务中捕捉全局上下文。

Method

本文提出了一种新的文本嵌入模型DIFFEMBED,其核心思想是利用扩散语言模型的双向注意力机制来生成更具全局上下文感知的文本嵌入。具体方法如下:

批判性思考:虽然双向注意力机制在理论上对长文档和推理任务有益,但论文未充分探讨扩散模型的去噪训练方式是否真正优于自回归模型的下一token预测目标。此外,DIFFEMBED是否在计算效率或推理速度上存在劣势?这些问题可能限制其实际应用价值,论文对此讨论不足。

Experiment

本文通过四个任务设置评估了DIFFEMBED与自回归LLM嵌入模型的性能,实验设计和结果如下:

Further Thoughts

DIFFEMBED的提出为文本嵌入领域引入了一个新颖的视角,即利用扩散模型的双向注意力机制解决自回归模型的局限性。然而,我认为其实际应用潜力仍需进一步验证,尤其是在计算成本和推理效率方面。扩散模型在图像生成领域的成功启发了我,或许可以探索其在多模态嵌入任务中的应用,例如结合文本和图像数据生成统一的嵌入表示。此外,论文中提到的REASONAUG数据集构建方法(依赖LLM生成)可能存在数据质量问题,未来可以考虑引入人工标注或更严格的质量控制机制来提升数据集可靠性。另一个值得思考的方向是,是否可以通过混合自回归和扩散模型的训练目标,结合两者的优势,进一步提升嵌入模型的性能?这一思路可能为未来的研究提供新的突破点。



Previous Post
SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization
Next Post
When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners