Skip to content
Go back 2505.11166 arXiv logo

SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization

Published:  at  11:24 AM
88.16 🤔

SoLoPO通过将长上下文偏好优化分解为短上下文优化和短到长奖励对齐,显著提升了大型语言模型在长上下文任务中的性能和训练效率,同时保持短上下文能力。

Large Language Model, Preference Optimization, Long Context, Efficiency, Reward Alignment

Huashan Sun, Shengyi Liao, Yansen Han, Yu Bai, Yang Gao, Cheng Fu, Weizhou Shen, Fanqi Wan, Ming Yan, Ji Zhang, Fei Huang

Tongyi Lab, Alibaba Group, Beijing Institute of Technology

Generated by grok-3

Background Problem

大型语言模型(LLMs)在长上下文建模中面临显著挑战,尽管预训练上下文长度不断增加,但模型有效利用长上下文信息的能力仅占其容量的10-20%,主要由于数据质量问题、训练效率低下以及缺乏针对性的优化目标导致的长上下文对齐不足。本研究旨在解决长上下文对齐中的三大难题:数据构建困难、训练过程低效以及优化目标不合适,提出了一种新的框架以提升LLMs在长上下文场景中的性能。

Method

SoLoPO(Short-to-Long Preference Optimization)是一个通用的长上下文偏好优化框架,其核心思想是将长上下文偏好优化(PO)分解为两个部分:短上下文PO和短到长奖励对齐(SoLo-RA)。具体步骤如下:

批判性思考:虽然分解方法在理论上提供了新颖视角,但其基于的冗余假设(即长上下文包含更多无关信息)可能在某些任务(如长上下文翻译,压缩率c=100%)中不成立,论文未充分探讨这一局限性。此外,仅对选定响应应用SoLo-RA可能忽略拒绝响应的上下文信息,潜在引入偏见,影响模型对负面反馈的学习能力。

Experiment

实验基于Qwen2.5-7B-Instruct和Llama3.1-8B-Instruct模型,使用MuSiQue数据集构建训练数据(短上下文平均1.1K tokens,长上下文平均7.5K tokens),并在多个长上下文基准(如LongBenchV1、RULER、LongBenchV2)和短上下文基准(如MMLU-Pro、MATH)上评估SoLoPO的效果。

Further Thoughts

SoLoPO提供了一个有趣的视角,通过短上下文优化间接提升长上下文能力,但其理论假设(如冗余假设)可能在某些任务中不适用,例如需要完整上下文信息的长文档翻译或复杂推理任务,未来研究可以探索自适应压缩率或动态任务相关信息提取方法来解决这一问题。此外,SoLoPO的效率提升令人印象深刻,但其在超长上下文(例如128K以上)中的表现仍需验证,特别是在内存和计算资源受限的场景下,是否能与最新的上下文扩展技术(如YARN)无缝结合值得进一步探索。另一个值得思考的方向是SoLo-RA仅对选定响应的应用可能导致模型对负面反馈的忽视,是否可以通过引入加权机制或结合拒绝响应的上下文信息来平衡学习效果?最后,SoLoPO的框架或许可以与其他长上下文数据增强方法结合,例如通过生成更高质量的长依赖数据来进一步提升模型的泛化能力,这可能为长上下文对齐研究开辟新的路径。



Previous Post
Task-Oriented Semantic Communication in Large Multimodal Models-based Vehicle Networks
Next Post
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective