Skip to content
Go back 2505.21178 arXiv logo

Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning

Published:  at  11:13 AM
86.69 🤔

本文提出 ConciseR,一种两阶段强化学习框架,通过 GRPO++ 提升推理能力并通过 L-GRPO 优化响应长度,在保持准确性的同时显著减少 CoT 响应长度,优于多个基准数据集上的现有方法。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Generative AI

Mingyang Song, Mao Zheng

Tencent Hunyuan

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理任务中通过长链式推理(Chain-of-Thought, CoT)生成详细的推理过程以提升性能已成为研究热点。然而,现有模型普遍存在过度思考现象,表现为冗长的CoT响应中包含无关信息和重复思考模式,不仅增加计算成本,还可能因逻辑偏差导致推理错误。本文旨在解决这一问题,提出了一种方法以在保持推理准确性的同时生成更简洁的CoT响应,探索推理能力与响应长度之间的平衡。

Method

本文提出了一种名为 ConciseR 的两阶段强化学习框架,旨在实现大型语言模型的简洁推理,核心思想是遵循’先走再跑’原则,即先确保推理准确性,再优化响应长度。具体方法如下:

批判性思考:虽然两阶段设计理念清晰,但 GRPO++ 阶段是否会过度鼓励长响应,导致第二阶段优化困难?此外,L-GRPO 的长度奖励函数依赖于最大上下文长度,可能在不同任务或上下文限制下表现不一致,缺乏对推理质量的直接约束,可能导致模型在追求简洁时丢失关键推理步骤。

Experiment

实验基于 Qwen2.5-Math-7B 模型,使用 verl 框架进行训练,数据集包括 DeepScaleR、DAPO-Math-17K 和 MATH 等约59K个数学推理问题。评估在 AIME 2024、MATH-500、AMC 2023、Minerva 和 Olympiad 等五个竞赛级基准数据集上进行,采用 Pass@1 准确率指标,并记录响应长度变化。

Further Thoughts

ConciseR 的两阶段设计提供了一个有趣的视角,即在强化学习中分阶段优化不同目标(准确性和简洁性),这可能启发其他领域的多目标优化问题,例如在机器人控制中先确保任务完成再优化能量消耗。然而,论文未充分探讨简洁化对推理质量的潜在负面影响,未来研究应引入更细致的评估指标,如推理步骤的完整性或逻辑一致性,而不仅仅是准确率和长度。此外,L-GRPO 的长度奖励设计依赖于最大上下文长度,可能在长上下文任务(如法律文档分析)中失效,是否可以通过引入内容密度或信息熵等指标进一步改进奖励函数?

联想到近期在多模态模型中的类似问题,冗长输出不仅限于文本推理,在图像描述或视频摘要任务中也存在类似挑战。ConciseR 的方法是否可以迁移到这些领域,通过强化学习优化多模态输出的简洁性?例如,在文本到图像生成中,是否可以通过类似的两阶段训练减少生成描述的冗余性?这可能是一个值得探索的跨领域应用方向。



Previous Post
R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search
Next Post
Pretraining Language Models to Ponder in Continuous Space