ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance

ExpandR通过联合优化大型语言模型和密集检索器，利用LLM生成语义丰富的查询扩展并结合DPO训练和对比学习，在多个检索基准上实现了超过5.8%的性能提升。

Large Language Model, Dense Retrieval, Query Expansion, Contrastive Learning, Direct Preference Optimization, Semantic Alignment

Sijia Yao, Pengcheng Huang, Zhenghao Liu, Yu Gu, Yukun Yan, Shi Yu, Ge Yu

Northeastern University, China, Tsinghua University, China, Beijing National Research Center for Information Science and Technology, China

Generated by grok-3

Background Problem

密集检索器（Dense Retriever）通过将查询和文档编码到同一嵌入空间中实现高效的语义匹配，但其性能高度依赖于输入查询的质量。实际用户查询往往短小且模糊，导致查询与相关文档之间存在显著的语义差距，影响检索效果。近年来，大型语言模型（LLM）通过查询增强（如生成查询改写或扩展）为解决这一问题提供了可能。然而，现有方法通常将LLM和检索器作为独立模块处理，忽视了生成和检索目标之间的对齐问题，导致LLM生成的扩展内容难以被检索器有效利用。ExpandR旨在通过联合优化LLM和密集检索器，解决生成与检索目标不一致的问题，提升查询扩展的质量和检索性能。

Method

ExpandR是一个LLM增强的密集检索框架，其核心思想是通过联合优化LLM和密集检索器，使两者在生成查询扩展和检索文档的过程中相互适应。具体方法如下：

查询扩展生成：利用LLM根据输入查询生成语义丰富的扩展内容（ $d^{\exp}$ ），通过特定的指令提示（Instruct_{q2d}）引导LLM生成与查询相关的信息。
密集检索器优化：将查询和扩展内容的嵌入进行平均（ $\vec{q}^{\exp} = \frac{\vec{q} + \vec{d}^{\exp}}{2}$ ），作为新的查询表示，并通过对比学习损失（ $\mathcal{L}_{\text{DR}}$ ）训练检索器，以提升对相关文档的排名能力。
LLM优化：采用直接偏好优化（DPO）方法对LLM进行训练，设计了一个结合自一致性奖励（ $R_{\text{self}}$ ）和检索奖励（ $R_{\text{retriever}}$ ）的奖励函数（ $R(d^{\exp}) = R_{\text{self}}(d^{\exp}) + R_{\text{retriever}}(d^{\exp})$ ）。自一致性奖励通过LLM生成答案与扩展内容的语义相似性评估扩展质量，而检索奖励则基于扩展内容与真实文档的排名相关性，确保扩展内容对检索有益。
联合优化：通过交替优化检索器参数（ $\Phi$ ）和LLM参数（ $\Theta$ ），实现生成和检索目标的对齐。

批判性思考：虽然联合优化是一个创新点，但方法中对查询扩展质量的依赖性较高，若LLM生成内容存在偏差或错误，可能误导检索器。此外，奖励函数的设计虽然考虑了两种信号，但是否足够全面仍有待验证，例如未考虑扩展内容的多样性或上下文相关性。计算开销也是一个潜在问题，联合训练可能限制了方法在资源受限环境下的应用。

Experiment

实验在多个基准数据集上进行，包括E5数据集用于训练，MS MARCO和BEIR（包含14个任务）用于评估。评估指标为nDCG@10，统计显著性通过置换检验（p<0.05）验证。

实验设置：使用Meta-LLaMA-3-8B-Instruct作为LLM骨干模型，采用LoRA进行高效微调；检索器骨干模型包括BERT、Contriever和AnchorDR，分别在原始（Raw）、标准微调（FT）和ExpandR策略下进行对比。基线方法包括BM25、DPR、CoCondenser和ANCE。
结果：ExpandR在所有任务上的平均性能（nDCG@10）比Raw和FT分别提升了15.6%和5.8%，在BEIR的14个任务中平均性能达到49.28（Contriever）和48.47（AnchorDR），显著优于基线方法，尤其在NQ、HotpotQA等复杂数据集上表现突出。消融实验表明，联合优化（LLM和检索器训练）对性能提升至关重要，去除任一优化步骤都会导致性能下降；奖励函数中自一致性和检索奖励均有贡献，但检索奖励的影响更大。
可视化分析：通过T-SNE可视化查询和文档嵌入，发现联合优化后查询-文档对的语义对齐显著改善。

批判性思考：实验结果显示ExpandR在性能上确实有提升，但对比基线较为传统，未包括最新的LLM增强检索方法，可能高估了性能优势。此外，实验对不同数据集的语义差距和任务难度的分析不足，难以判断方法在特定场景下的适用性。计算开销问题在实验中未被充分量化，实际应用中的效率问题仍需关注。实验设置虽然全面，但对LLM生成质量的影响未深入探讨，若生成内容质量较低，是否仍能保持性能优势值得怀疑。

Further Thoughts

ExpandR的联合优化思路为检索系统设计提供了一个新视角，特别是在生成与检索目标对齐方面具有启发性。然而，其对LLM生成质量的依赖性可能是一个瓶颈，未来可以探索更鲁棒的生成策略，例如结合多模型生成或引入生成内容质量评估机制。此外，计算开销问题提示我们是否可以借鉴参数高效微调（如LoRA）的进一步优化，或探索更轻量级的生成模型来降低成本。另一个有趣的方向是奖励函数的设计，可以考虑引入更多维度的反馈信号，如用户交互数据或上下文相关性，以进一步提升扩展内容的质量和检索效果。联想到近期在检索增强生成（RAG）领域的研究，ExpandR的框架是否可以与RAG结合，通过生成更具针对性的查询扩展来提升生成模型的准确性，也是一个值得探索的跨领域应用方向。