Skip to content
Go back 2505.16245 arXiv logo

Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models

Published:  at  11:24 AM
87.09 🤔

本文提出Diverse-NS框架,通过长度控制的自学习和偏好优化显著提升了大型语言模型在创造性任务中的响应多样性,同时在大多数情况下保持了输出质量,并验证了小模型作为大模型多样性教师的可行性。

Large Language Model, Self-Supervised Learning, Instruction Tuning, Generative AI, Human-AI Interaction

Vijeta Deshpande, Debasmita Ghose, John D. Patterson, Roger Beaty, Anna Rumshisky

University of Massachusetts Lowell, Yale University, Pennsylvania State University, Amazon AGI

Generated by grok-3

Background Problem

大型语言模型(LLMs)在对齐训练(如指令微调和偏好优化)后,虽然在实用性和安全性上有所提升,但输出多样性显著下降。这种多样性减少对创造性任务(如发散性思维和开放式写作)以及模型的持续改进(避免模型坍缩)产生了负面影响。现有方法(如采样技术和提示策略)在提升多样性时往往牺牲了输出质量,且未充分考虑文本长度对多样性评估的偏差影响。本文旨在解决这一关键问题:如何在保持输出质量的同时,提升对齐模型的响应多样性,并通过控制长度偏差来实现更公平的多样性评估和训练。

Method

本文提出了’Diverse, not Short’(Diverse-NS),一个长度控制的自学习框架,旨在提升语言模型的响应多样性,同时避免长度偏差的影响。其核心思想和步骤如下:

Experiment

实验在LLaMA-3.1-8B和Olmo-2系列(7B和13B)模型上进行,数据集基于创造性写作任务生成,包含20万个提示-响应对,最终过滤为3000个偏好对用于训练。评估涵盖四个创造性任务:发散联想任务(DAT)、人格生成任务(PGT)、替代用途任务(AUT)和创造性写作任务(CWT)。实验设置合理,任务选择覆盖了结构化和自由形式生成,旨在全面检验多样性提升效果。结果显示:

Further Thoughts

Diverse-NS框架在长度控制和多样性提升方面的创新令人印象深刻,但其对单一多样性指标的依赖可能限制了方法的全面性。未来研究可以探索多维度多样性指标(如词汇、语义和句法多样性)的联合优化,以更全面地提升输出多样性。此外,小模型作为大模型’多样性教师’的发现启发了我思考模型规模与特定能力(如多样性生成)之间的关系,或许可以通过分析不同规模模型的输出特性,设计更高效的知识迁移策略。另一个值得关注的点是长度控制的潜在扩展应用,例如在生成任务中控制风格或内容深度,这可能为个性化生成提供新思路。最后,论文中提到的多轮自训练对多样性的影响与近期关于模型坍缩的研究密切相关,建议后续工作结合这一视角,探索Diverse-NS在长期自学习中的表现,以确保其可持续性和安全性。



Previous Post
MoM: Linear Sequence Modeling with Mixture-of-Memories
Next Post
UFT: Unifying Supervised and Reinforcement Fine-Tuning