本文提出基于认知负载的适应性流式传输框架,用于优化 LLM 服务,通过动态调整输出速度减少计算资源消耗高达 16.8%,同时维持用户满意度。
Large Language Model, Efficiency, Adaptive Systems, Human-AI Interaction, Multimodal Systems
Chang Xiao, Brenda Yang
未在提供的内容中指定
Generated by grok-3-mini-latest
Background Problem
这项工作的起点是针对大型语言模型(LLM)在云服务中的流式输出问题,LLM通常以固定的速度逐 token 流式传输输出,而忽略了用户阅读速度和内容认知负载的差异,导致资源利用低效。例如,在高峰期,快速流式传输复杂内容可能浪费计算资源,用户无法及时处理,而简单内容传输过慢则导致不必要等待。论文解决了关键问题,包括优化计算资源分配、减少等待时间和资源浪费,同时在高用户需求场景下提升系统效率和用户体验。
Method
- 核心思想: 通过实时估计内容认知负载来动态调整 LLM 输出流式速度,实现计算资源高效分配,而不影响用户体验。
- 实现方式: 使用认知负载估计方法,包括 Gunning-Fog 指数等可读性指标或通过提示 LLM 自身生成认知负载分数(如在输出中添加
标签表示分数)。然后,采用资源分配算法计算权重:,其中 是控制参数, 是认知负载分数。最终,流式速度计算为 ,以在并发请求中按内容复杂度分配速度。 - 主要步骤: 1. 估计每个文本段落的认知负载;2. 归一化负载分数并插值计算权重;3. 根据权重调整流式速度,确保复杂内容减速,简单内容加速。
Experiment
- 实验设置: 论文通过众包用户研究(使用 Prolific 平台)收集用户舒适阅读速度数据,采用 Parameter Estimation by Sequential Testing (PEST) 方法。数据集包括 GPT-4o 生成的 10 个不同主题和认知负载的英语段落(长度 150-200 词),参与者通过模拟流式接口调整速度。实验控制了数据质量,排除了不一致响应。
- 为什么这样设计: 这种设置允许量化认知负载估计的准确性和适应性流式方法的效率,验证了认知负载与阅读速度的相关性,并模拟了真实云服务场景下的资源约束。
- 结果: 认知负载估计方法验证显示,LLM-based 方法相关系数 r=0.955(p<0.001),Gunning-Fog 方法 r=0.828(p=0.003),表明有效性。比较实验显示,适应性流式方法在相同用户满意率下显著降低计算资源使用,例如在 95% 满意率下,LLM-based 方法节省 16.79%,Gunning-Fog 方法节省 10.33%。结果符合预期,证明了方法在资源有限场景下的优势。
Further Thoughts
论文的启发性想法包括将目光追踪技术整合到 LLM 交互中,以实现更精确的实时认知负载监测,可能扩展到多模态 AI 系统(如结合语音或视频流式传输);此外,可以探索与推测性解码或其他资源优化技术结合,提升整体效率;还可考虑用户个性化因素,如基于历史数据或人口统计学特征的适应性调整,潜在应用场景包括教育 AI 或医疗助手,以进一步改善人机交互体验。