RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs

RaCT通过链式思维（CoT）提示和排序偏好优化（RPO）的两阶段训练框架，显著提升了大型语言模型在文本重排序任务中的性能，同时保留了其通用语言建模能力，在多个基准上超越基线模型。

Large Language Model, Reasoning, Supervised Learning, Fine-tuning, Recommender Systems

Haowei Liu, Xuyang Wu, Guohao Sun, Zhiqiang Tao, Yi Fang

Santa Clara University, Rochester Institute of Technology

Generated by grok-3

Background Problem

文本重排序是信息检索中的关键任务，广泛应用于搜索引擎、对话AI和推荐系统等领域。大型语言模型（LLMs）因其强大的推理和类人思维能力在重排序任务中表现出色，但通过监督微调（SFT）优化排序性能往往会损害模型的通用语言建模能力，导致其在非排序任务（如开放式文本生成）中表现不佳。本研究聚焦于这一权衡问题，旨在开发一种方法，既能提升LLMs的重排序性能，又能保留其固有的语言理解和生成能力。

Method

RaCT（Ranking-aware Chain-of-Thought Optimization）提出了一种新颖的两阶段训练框架，旨在解决LLM重排序任务中的性能与通用能力权衡问题：

核心思想： 将列表式重排序任务转化为链式思维（CoT）推理过程，通过逐步选择最相关的段落进行排序，同时结合排序偏好优化（RPO）进一步增强推理能力。
第一阶段 - CoT微调： 使用CoT提示引导模型（如LLaMA3.1-8B）根据查询和段落集合逐步输出排序结果。训练数据包含40k个样本，基于RankGPT标注的BM25检索结果，采用混合提示模板进行零样本设置。训练目标是最大化似然估计（MLE），优化排序序列的生成概率。
第二阶段 - RPO训练： 在CoT微调后，模型对RPO数据生成多个排序预测，通过与真实标签的重叠步骤构建偏好数据集。损失函数设计为最大化正确步骤的概率，最小化错误步骤的概率，利用参考模型概率（π_ref）确保训练稳定性，增强零样本场景下的泛化能力。
关键问题： CoT提示的设计是否足够引导模型进行有效推理？RPO阶段依赖重叠步骤作为奖励函数，可能导致模型过于关注局部一致性，而忽略全局排序质量。此外，训练数据依赖RankGPT标注，可能引入潜在偏差，影响模型的独立性。

Experiment

实验在多个公开基准上评估RaCT的排序性能和通用能力：

数据集与设置： 排序性能在TREC DL19/20/21/22、BEIR和BRIGHT基准上测试，使用BM25检索结果作为基础，采用滑动窗口策略进行重排序。通用能力通过MMLU基准（涵盖57个学科领域）评估。训练在4块NVIDIA A100 80GB GPU上进行，CoT微调耗时约20小时，RPO阶段耗时约6小时。
结果分析： RaCT在TREC DL系列上的nDCG@10得分（例如DL19为0.758，DL20为0.720）优于所有基线模型，包括闭源的RankGPT4和开源的RankZephyr，同时在MMLU上的得分（0.720）与LLaMA3.1持平，表明其成功保留了通用能力。相比之下，RankZephyr在MMLU上得分为0，显示其通用能力完全丧失。RaCT在BEIR和BRIGHT上的泛化性能也显著优于BM25和RankZephyr。
消融研究： 移除CoT或RPO组件后性能下降明显（例如DL22上nDCG@10从0.532降至0.407或0.504），证明两者的必要性及组合效果。使用更强的检索器（如SPLADE++ED）进一步提升性能至0.683。
评估与问题： 实验结果表明RaCT在排序性能和通用能力之间取得了较好的平衡，但滑动窗口策略的具体影响未在正文中详细说明，可能影响结果的可解释性。此外，RankZephyr在MMLU上的极端表现（得分为0）未被深入分析，可能隐藏了SFT过度优化的潜在风险。实验设置虽覆盖多个基准，但对长上下文场景下的性能下降问题仅在限制部分提及，缺乏深入探讨。

Further Thoughts

RaCT提出的CoT和RPO方法在平衡任务特定性能与通用能力方面展现了潜力，但其对RankGPT标注数据的依赖可能限制模型的独立性和泛化能力，未来是否可以探索无标注或自监督的排序数据生成方法？此外，论文提到的长上下文问题（即使支持128k上下文窗口，性能仍可能下降）与当前LLM研究中的注意力稀释和上下文利用效率问题密切相关，是否可以通过分层注意力机制或自适应段落选择来解决？

更广泛地看，RaCT的框架是否可以应用于其他需要推理的任务（如问答或多轮对话），以类似方式平衡任务性能和通用能力？这可能为LLM在多任务场景下的部署提供新思路。同时，RankZephyr在MMLU上的得分0这一极端结果值得进一步研究，是否反映了SFT在某些情况下会导致灾难性遗忘？这一现象可能为未来的模型训练策略（如正则化或多目标优化）提供重要启示。