Skip to content
Go back 2505.16552 arXiv logo

Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains

Published:  at  11:22 AM
85.52 🤔

本文提出Compressed Latent Reasoning (CoLaR)框架,通过潜在空间动态压缩和强化学习优化大型语言模型的推理过程,在数学推理任务中显著提升效率并保持较高准确率。

Large Language Model, Reasoning, Reinforcement Learning, Efficiency, Representation Learning

Wenhui Tan, Jiaze Li, Jianzhong Ju, Zhenbo Luo, Jian Luan, Ruihua Song

中国人民大学, 小米公司

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过链式推理(Chain-of-Thought, CoT)在数学推理任务中表现出色,但冗长的推理链带来了高昂的计算成本和低效率问题,特别是在高并发场景下对服务器负载造成显著压力。本文提出了一种新的框架Compressed Latent Reasoning (CoLaR),旨在通过在潜在空间中动态压缩推理过程,解决推理链过长的问题,同时保持模型性能和探索-利用能力。

Method

CoLaR框架通过两阶段训练实现推理过程的动态压缩:

Experiment

实验在四个小学级数学推理数据集(GSM8k-Aug, GSM-Hard, SVAMP, MultiArith)和一个更具挑战性的MATH数据集上进行评估:

Further Thoughts

CoLaR框架在潜在空间压缩推理链方面的创新值得关注,但其对任务复杂度的依赖性提示我们需要在不同领域进一步测试其适用性。例如,在自然语言推理或多模态任务中,潜在空间压缩是否仍能有效保留关键信息?此外,强化学习在简单任务上的效果不显著,可能意味着需要设计更自适应的奖励机制,以根据任务难度动态调整探索和利用的平衡。另一个有趣的方向是探索与知识蒸馏技术的结合,通过将显式CoT的推理知识更精细地转移到潜在空间中,可能进一步提升性能并减少信息丢失。结合近期关于LLM推理路径多样性的研究,CoLaR的概率性Latent Head或许可以与其他探索策略(如蒙特卡洛树搜索)结合,以在复杂任务中实现更高效的推理路径搜索。



Previous Post
Gameplay Highlights Generation
Next Post
Reward Reasoning Model