Skip to content
Go back 2505.16234 arXiv logo

LIFEBench: Evaluating Length Instruction Following in Large Language Models

Published:  at  11:47 AM
88.64 🤔

本文通过引入LIFEBENCH基准,系统评估了26个大型语言模型在长度指令遵循上的能力,发现其在长长度约束下普遍表现不佳,且远未达到厂商宣称的最大输出长度,揭示了模型在长度感知和长文本生成上的根本局限性。

Large Language Model, Instruction Tuning, Long Context, Generative AI, Benchmark

Wei Zhang, Zhenhong Zhou, Junfeng Fang, Rongwu Xu, Kun Wang, Yuanhe Zhang, Rui Wang, Ge Zhang, Xinfeng Li, Li Sun, Lingjuan Lyu, Yang Liu, Sen Su

北京邮电大学 (BUPT), 南洋理工大学 (NTU), 新加坡国立大学 (NUS), 清华大学 (THU), M-A-P, 华北电力大学 (NCEPU), Sony AI

Generated by grok-3

Background Problem

大型语言模型(LLMs)在处理长上下文输入和复杂推理任务上表现出色,但却在看似简单的明确长度指令(如‘写一篇10,000字的小说’)遵循上表现不佳,常常生成过短的输出、提前终止生成或直接拒绝请求。现有的基准测试主要关注生成质量,而忽略了长度约束的遵循情况。因此,本研究引入了长度指令遵循评估基准(LIFEBENCH),旨在全面评估LLMs在不同任务和广泛长度约束下的长度指令遵循能力,揭示其根本局限性,并为未来的模型改进提供关键见解。

Method

LIFEBENCH是一个专门设计的基准测试集,用于评估大型语言模型(LLMs)在遵循长度指令方面的能力。其核心方法包括以下几个方面:

批判性思考:虽然LIFEBENCH的设计在任务多样性和长度范围上较为全面,但其评估指标可能对不同任务类型的适应性存在问题,例如创意生成任务可能天然允许更大的长度偏差,而摘要任务则要求更精确的控制,论文未讨论指标是否需要任务特定调整。此外,数据精选和模板化过程可能引入人为偏差,影响评估的客观性。

Experiment

实验在26个广泛使用的LLMs上进行,包括9个专有模型、8个开源模型和3个长文本增强模型,测试了LIFEBENCH基准的所有10,800个实例。实验设置包括统一的最大输出长度(65,536 token或模型支持的最大值)和温度参数(0.8),推理模型额外配置了中等推理努力级别。评估结果如下:

批判性思考:实验设置较为全面,覆盖了多种模型和场景,但结果显示模型性能与预期差距较大,尤其是在长文本生成上,论文未深入探讨为何长上下文模型未能在长度指令遵循上取得优势。此外,‘懒惰策略’的归因分析较为表面,仅提到安全对齐和预训练,未结合模型架构或训练数据特性进行更深层次探讨。实验虽合理,但缺乏对指标稳健性的验证,例如LS是否在所有任务类型上均有效。

Further Thoughts

LIFEBENCH的研究揭示了大型语言模型在长度指令遵循上的重要局限性,这与模型的token化机制和训练目标可能密切相关。未来的研究可以探索是否通过调整预训练阶段的长文本生成目标或引入长度感知的中间监督信号来改进模型表现。此外,‘懒惰策略’的出现可能与安全对齐(如RLHF)过度限制模型输出有关,这提示我们需要在对齐和功能性之间找到更好的平衡点。另一个有趣的方向是跨领域比较,例如将此研究与AI在机器人控制中的指令遵循能力对比,探讨长度指令遵循是否与更广泛的指令理解能力存在共性问题。这些思考不仅限于语言模型领域,也可能为多模态系统或智能体的设计提供启发。



Previous Post
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?
Next Post
Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement