Skip to content
Go back 2502.17057 arXiv logo

ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance

Published:  at  11:32 AM
87.44 🤔

ExpandR通过联合优化大型语言模型和密集检索器,利用LLM生成语义丰富的查询扩展并结合DPO训练和对比学习,在多个检索基准上实现了超过5.8%的性能提升。

Large Language Model, Dense Retrieval, Query Expansion, Contrastive Learning, Direct Preference Optimization, Semantic Alignment

Sijia Yao, Pengcheng Huang, Zhenghao Liu, Yu Gu, Yukun Yan, Shi Yu, Ge Yu

Northeastern University, China, Tsinghua University, China, Beijing National Research Center for Information Science and Technology, China

Generated by grok-3

Background Problem

密集检索器(Dense Retriever)通过将查询和文档编码到同一嵌入空间中实现高效的语义匹配,但其性能高度依赖于输入查询的质量。实际用户查询往往短小且模糊,导致查询与相关文档之间存在显著的语义差距,影响检索效果。近年来,大型语言模型(LLM)通过查询增强(如生成查询改写或扩展)为解决这一问题提供了可能。然而,现有方法通常将LLM和检索器作为独立模块处理,忽视了生成和检索目标之间的对齐问题,导致LLM生成的扩展内容难以被检索器有效利用。ExpandR旨在通过联合优化LLM和密集检索器,解决生成与检索目标不一致的问题,提升查询扩展的质量和检索性能。

Method

ExpandR是一个LLM增强的密集检索框架,其核心思想是通过联合优化LLM和密集检索器,使两者在生成查询扩展和检索文档的过程中相互适应。具体方法如下:

批判性思考:虽然联合优化是一个创新点,但方法中对查询扩展质量的依赖性较高,若LLM生成内容存在偏差或错误,可能误导检索器。此外,奖励函数的设计虽然考虑了两种信号,但是否足够全面仍有待验证,例如未考虑扩展内容的多样性或上下文相关性。计算开销也是一个潜在问题,联合训练可能限制了方法在资源受限环境下的应用。

Experiment

实验在多个基准数据集上进行,包括E5数据集用于训练,MS MARCO和BEIR(包含14个任务)用于评估。评估指标为nDCG@10,统计显著性通过置换检验(p<0.05)验证。

批判性思考:实验结果显示ExpandR在性能上确实有提升,但对比基线较为传统,未包括最新的LLM增强检索方法,可能高估了性能优势。此外,实验对不同数据集的语义差距和任务难度的分析不足,难以判断方法在特定场景下的适用性。计算开销问题在实验中未被充分量化,实际应用中的效率问题仍需关注。实验设置虽然全面,但对LLM生成质量的影响未深入探讨,若生成内容质量较低,是否仍能保持性能优势值得怀疑。

Further Thoughts

ExpandR的联合优化思路为检索系统设计提供了一个新视角,特别是在生成与检索目标对齐方面具有启发性。然而,其对LLM生成质量的依赖性可能是一个瓶颈,未来可以探索更鲁棒的生成策略,例如结合多模型生成或引入生成内容质量评估机制。此外,计算开销问题提示我们是否可以借鉴参数高效微调(如LoRA)的进一步优化,或探索更轻量级的生成模型来降低成本。另一个有趣的方向是奖励函数的设计,可以考虑引入更多维度的反馈信号,如用户交互数据或上下文相关性,以进一步提升扩展内容的质量和检索效果。联想到近期在检索增强生成(RAG)领域的研究,ExpandR的框架是否可以与RAG结合,通过生成更具针对性的查询扩展来提升生成模型的准确性,也是一个值得探索的跨领域应用方向。



Previous Post
Zero-Shot Vision Encoder Grafting via LLM Surrogates
Next Post
Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model