RaCT通过链式思维(CoT)提示和排序偏好优化(RPO)的两阶段训练框架,显著提升了大型语言模型在文本重排序任务中的性能,同时保留了其通用语言建模能力,在多个基准上超越基线模型。
Large Language Model, Reasoning, Supervised Learning, Fine-tuning, Recommender Systems
Haowei Liu, Xuyang Wu, Guohao Sun, Zhiqiang Tao, Yi Fang
Santa Clara University, Rochester Institute of Technology
Generated by grok-3
Background Problem
文本重排序是信息检索中的关键任务,广泛应用于搜索引擎、对话AI和推荐系统等领域。大型语言模型(LLMs)因其强大的推理和类人思维能力在重排序任务中表现出色,但通过监督微调(SFT)优化排序性能往往会损害模型的通用语言建模能力,导致其在非排序任务(如开放式文本生成)中表现不佳。本研究聚焦于这一权衡问题,旨在开发一种方法,既能提升LLMs的重排序性能,又能保留其固有的语言理解和生成能力。
Method
RaCT(Ranking-aware Chain-of-Thought Optimization)提出了一种新颖的两阶段训练框架,旨在解决LLM重排序任务中的性能与通用能力权衡问题:
- 核心思想: 将列表式重排序任务转化为链式思维(CoT)推理过程,通过逐步选择最相关的段落进行排序,同时结合排序偏好优化(RPO)进一步增强推理能力。
- 第一阶段 - CoT微调: 使用CoT提示引导模型(如LLaMA3.1-8B)根据查询和段落集合逐步输出排序结果。训练数据包含40k个样本,基于RankGPT标注的BM25检索结果,采用混合提示模板进行零样本设置。训练目标是最大化似然估计(MLE),优化排序序列的生成概率。
- 第二阶段 - RPO训练: 在CoT微调后,模型对RPO数据生成多个排序预测,通过与真实标签的重叠步骤构建偏好数据集。损失函数设计为最大化正确步骤的概率,最小化错误步骤的概率,利用参考模型概率(π_ref)确保训练稳定性,增强零样本场景下的泛化能力。
- 关键问题: CoT提示的设计是否足够引导模型进行有效推理?RPO阶段依赖重叠步骤作为奖励函数,可能导致模型过于关注局部一致性,而忽略全局排序质量。此外,训练数据依赖RankGPT标注,可能引入潜在偏差,影响模型的独立性。
Experiment
实验在多个公开基准上评估RaCT的排序性能和通用能力:
- 数据集与设置: 排序性能在TREC DL19/20/21/22、BEIR和BRIGHT基准上测试,使用BM25检索结果作为基础,采用滑动窗口策略进行重排序。通用能力通过MMLU基准(涵盖57个学科领域)评估。训练在4块NVIDIA A100 80GB GPU上进行,CoT微调耗时约20小时,RPO阶段耗时约6小时。
- 结果分析: RaCT在TREC DL系列上的nDCG@10得分(例如DL19为0.758,DL20为0.720)优于所有基线模型,包括闭源的RankGPT4和开源的RankZephyr,同时在MMLU上的得分(0.720)与LLaMA3.1持平,表明其成功保留了通用能力。相比之下,RankZephyr在MMLU上得分为0,显示其通用能力完全丧失。RaCT在BEIR和BRIGHT上的泛化性能也显著优于BM25和RankZephyr。
- 消融研究: 移除CoT或RPO组件后性能下降明显(例如DL22上nDCG@10从0.532降至0.407或0.504),证明两者的必要性及组合效果。使用更强的检索器(如SPLADE++ED)进一步提升性能至0.683。
- 评估与问题: 实验结果表明RaCT在排序性能和通用能力之间取得了较好的平衡,但滑动窗口策略的具体影响未在正文中详细说明,可能影响结果的可解释性。此外,RankZephyr在MMLU上的极端表现(得分为0)未被深入分析,可能隐藏了SFT过度优化的潜在风险。实验设置虽覆盖多个基准,但对长上下文场景下的性能下降问题仅在限制部分提及,缺乏深入探讨。
Further Thoughts
RaCT提出的CoT和RPO方法在平衡任务特定性能与通用能力方面展现了潜力,但其对RankGPT标注数据的依赖可能限制模型的独立性和泛化能力,未来是否可以探索无标注或自监督的排序数据生成方法?此外,论文提到的长上下文问题(即使支持128k上下文窗口,性能仍可能下降)与当前LLM研究中的注意力稀释和上下文利用效率问题密切相关,是否可以通过分层注意力机制或自适应段落选择来解决?
更广泛地看,RaCT的框架是否可以应用于其他需要推理的任务(如问答或多轮对话),以类似方式平衡任务性能和通用能力?这可能为LLM在多任务场景下的部署提供新思路。同时,RankZephyr在MMLU上的得分0这一极端结果值得进一步研究,是否反映了SFT在某些情况下会导致灾难性遗忘?这一现象可能为未来的模型训练策略(如正则化或多目标优化)提供重要启示。