Skip to content
Go back 2504.03947 arXiv logo

Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking

Published:  at  11:15 PM
83.31 🤔

本文提出InteRank方法,通过知识蒸馏和强化学习训练一个3B参数小型语言模型,在推理密集型文档重排序任务中生成解释并实现与70B+参数模型相当的性能,在BRIGHT基准上位列第三。

Knowledge Distillation, Reinforcement Learning, Reasoning, Document Ranking, Small Language Model, Interpretability

Chris Samarinas, Hamed Zamani

University of Massachusetts Amherst

Generated by grok-3

Background Problem

搜索引擎和检索增强生成系统面临越来越多的复杂查询,这些查询需要多步骤推理和综合分析来理解查询意图与文档内容之间的深层联系。传统排名模型依赖昂贵的人工标注数据,而现有神经排名模型在推理密集型任务(如BRIGHT基准)上表现不佳,nDCG@10仅约18%。同时,大型语言模型(LLM)虽在零样本重排序中展现出强大推理能力,但其计算成本和延迟限制了大规模部署。小型模型虽然更高效,但缺乏复杂的推理能力。因此,本研究旨在通过知识蒸馏和强化学习,训练一个紧凑的3B参数模型,在推理密集型文档重排序任务中实现与70B+参数模型相当的性能,同时提供可解释的排名决策。

Method

本文提出了一种名为InteRank的训练方法,用于在小型语言模型(3B参数)中提炼推理能力,应用于推理密集型文档重排序。具体方法如下:

Experiment

实验在BRIGHT基准上进行,该基准包含1,384个推理密集型查询,覆盖StackExchange的7个领域(生物学、地球科学等)和5个编码与数学推理数据集,平均每个查询有6.37个正文档。实验设置如下:

Further Thoughts

本文提出的通过生成解释来提升小型模型推理能力的思路具有启发性,但也引发了一些值得深入探讨的问题。首先,合成数据依赖教师模型的输出质量,而教师模型本身可能存在推理偏差或领域局限性,未来可以探索多教师模型集成或数据多样性增强策略来缓解这一问题。其次,强化学习阶段的奖励模型设计对结果影响显著,但论文未详细讨论奖励模型的选择标准或潜在缺陷,是否可以引入更复杂的奖励机制(如结合人类反馈或多维度评估)来进一步优化推理路径?此外,本方法在推理密集型任务上的成功是否可以推广到其他领域,如对话系统或知识图谱推理,特别是在资源受限的边缘设备上部署小型模型时,是否需要额外的模型压缩技术(如量化或剪枝)来平衡性能和效率?最后,与近期一些工作(如DeepSeek R1在推理数据蒸馏中的泛化能力研究)结合,或许可以探索推理数据的领域适应性对不同模型蒸馏效果的影响,为小型模型的推理能力提升提供更广泛的应用场景。



Previous Post
What do Language Model Probabilities Represent? From Distribution Estimation to Response Prediction
Next Post
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning