Skip to content
Go back 2505.20046 arXiv logo

REARANK: Reasoning Re-ranking Agent via Reinforcement Learning

Published:  at  11:19 AM
90.58 🤔

本文提出REARANK,一种基于强化学习的列表式重排序代理,通过显式推理和数据增强,仅用179个标注查询即在多个信息检索基准上显著超越基线并媲美甚至超越GPT-4,尤其在推理密集型任务中表现突出。

Reinforcement Learning, Large Language Model, Reasoning, Reranking, Efficiency

Le Zhang, Bo Wang, Xipeng Qiu, Siva Reddy, Aishwarya Agrawal

Mila - Quebec AI Institute, Université de Montréal, Fudan University, McGill University

Generated by grok-3

Background Problem

信息检索(IR)是智能系统的核心组成部分,现代IR系统通常采用两阶段方法:初始检索和重排序,以提高结果的相关性。大型语言模型(LLM)在重排序阶段显示出潜力,但面临挑战:缺乏针对排名目标的优化、标注数据稀缺、推理过程不透明以及对大型模型的依赖导致的高计算成本和延迟。本文提出REARANK,旨在通过强化学习(RL)和显式推理解决这些问题,提升重排序性能和可解释性,同时降低对大规模标注数据和大型模型的依赖。

Method

REARANK是一种基于LLM的列表式重排序代理,其核心方法包括以下几点:

Experiment

实验基于Qwen2.5-7B模型构建REARANK-7B,使用179个标注查询生成12k训练实例,通过RL训练160步,采用滑动窗口(窗口大小20)对BM25前100结果进行重排序。实验设置包括:

Further Thoughts

REARANK的列表式重排序和RL训练方法为LLM在信息检索中的应用提供了新思路,尤其是在数据稀缺场景下的高效训练策略值得借鉴。然而,其对初始检索结果(BM25)的依赖提示我们,未来研究可探索与更强大的初始检索模型(如基于神经网络的Dense Retrieval)结合的可能性,以进一步提升整体性能。此外,推理能力的迁移性测试结果提示,针对特定任务(如重排序)的RL训练可能对通用推理能力有一定正向影响,这与近期一些关于任务特化训练如何意外提升模型泛化能力的研究(如DeepSeek系列在数学推理上的突破)相呼应,值得进一步探索其背后的机制,比如是否可以通过设计更复杂的奖励函数来同时优化任务性能和通用推理能力。最后,论文未深入探讨推理内容的真实性和幻觉问题,这在实际应用中可能影响用户信任,未来可结合可解释性研究(如注意力机制分析)来验证推理的忠实度。



Previous Post
Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning
Next Post
SELF: Self-Extend the Context Length With Logistic Growth Function