Tag: Reinforcement Learning
All the articles with the tag "Reinforcement Learning".
-
Distilling the Implicit Multi-Branch Structure in LLMs' Reasoning via Reinforcement Learning
本文提出RLKD,一个基于强化学习的知识蒸馏框架,通过生成结构奖励模型(GSRM)将教师模型推理中的隐式多分支结构传递给学生模型,实验表明其在数学和问答任务上显著优于SFT和传统RL方法。
-
AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale
AM-Thinking-v1 是一个32B参数的密集语言模型,通过精心设计的监督微调和强化学习后训练框架,在数学推理和代码生成任务上实现了与大型MoE模型媲美的性能,展示了中型规模模型在推理能力与部署效率之间的平衡潜力。
-
Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling
本文提出响应条件Bradley-Terry(Rc-BT)模型,通过区分语义意图和长度指令,显著缓解大语言模型在RLHF中的长度偏见,并提升长度指令遵循能力,实验验证了其在多个模型和数据集上的优越性。
-
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models
CoThink 提出了一种双阶段推理框架,通过指令模型生成解决方案大纲指导推理模型完成解答,在保持准确率的同时平均减少 22.3% 的令牌生成量,提升了大型语言模型的推理效率。
-
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning
本文通过控制实验研究SFT和RL在增强LLM推理能力中的相互作用,发现短CoT预热对RL有中等贡献,回溯次数需与任务难度匹配,且RL对SFT数据正确性依赖较小而对结构一致性敏感。