Skip to content
Go back 2412.14405 arXiv logo

RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs

Published:  at  11:51 AM
89.43 🤔

RaCT通过链式思维(CoT)提示和排序偏好优化(RPO)的两阶段训练框架,显著提升了大型语言模型在文本重排序任务中的性能,同时保留了其通用语言建模能力,在多个基准上超越基线模型。

Large Language Model, Reasoning, Supervised Learning, Fine-tuning, Recommender Systems

Haowei Liu, Xuyang Wu, Guohao Sun, Zhiqiang Tao, Yi Fang

Santa Clara University, Rochester Institute of Technology

Generated by grok-3

Background Problem

文本重排序是信息检索中的关键任务,广泛应用于搜索引擎、对话AI和推荐系统等领域。大型语言模型(LLMs)因其强大的推理和类人思维能力在重排序任务中表现出色,但通过监督微调(SFT)优化排序性能往往会损害模型的通用语言建模能力,导致其在非排序任务(如开放式文本生成)中表现不佳。本研究聚焦于这一权衡问题,旨在开发一种方法,既能提升LLMs的重排序性能,又能保留其固有的语言理解和生成能力。

Method

RaCT(Ranking-aware Chain-of-Thought Optimization)提出了一种新颖的两阶段训练框架,旨在解决LLM重排序任务中的性能与通用能力权衡问题:

Experiment

实验在多个公开基准上评估RaCT的排序性能和通用能力:

Further Thoughts

RaCT提出的CoT和RPO方法在平衡任务特定性能与通用能力方面展现了潜力,但其对RankGPT标注数据的依赖可能限制模型的独立性和泛化能力,未来是否可以探索无标注或自监督的排序数据生成方法?此外,论文提到的长上下文问题(即使支持128k上下文窗口,性能仍可能下降)与当前LLM研究中的注意力稀释和上下文利用效率问题密切相关,是否可以通过分层注意力机制或自适应段落选择来解决?

更广泛地看,RaCT的框架是否可以应用于其他需要推理的任务(如问答或多轮对话),以类似方式平衡任务性能和通用能力?这可能为LLM在多任务场景下的部署提供新思路。同时,RankZephyr在MMLU上的得分0这一极端结果值得进一步研究,是否反映了SFT在某些情况下会导致灾难性遗忘?这一现象可能为未来的模型训练策略(如正则化或多目标优化)提供重要启示。



Previous Post
Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures
Next Post
Born a Transformer -- Always a Transformer?