Tag: Reasoning
All the articles with the tag "Reasoning".
-
Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs
本文提出动态采样预算分配和温度调度机制,通过基于问题难度的资源再分配和维持策略熵的探索能力,显著提升了大型语言模型在数学任务中的强化学习效率和性能,尤其在AIME 2024基准上pass@1和pass@16分别提高5.31%和3.33%。
-
An Analysis for Reasoning Bias of Language Models with Small Initialization
本文通过理论分析和实验验证,揭示了小参数初始化规模如何通过影响嵌入空间和训练动态,促使大型语言模型更倾向于推理任务而非记忆任务。
-
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
本文通过在softmax注意力机制的SDPA输出后引入头特定sigmoid门控机制,显著提升了15B MoE和1.7B密集模型的性能、训练稳定性和长上下文泛化能力,同时消除了注意力沉积现象。
-
Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs
本文揭示了强化学习中低概率token过度主导模型更新的问题,并提出Advantage Reweighting和Lopti两种方法,通过平衡token更新权重显著提升GRPO训练的大语言模型性能,最高在K&K Logic Puzzle任务上提升46.2%。
-
Distilling the Implicit Multi-Branch Structure in LLMs' Reasoning via Reinforcement Learning
本文提出RLKD,一个基于强化学习的知识蒸馏框架,通过生成结构奖励模型(GSRM)将教师模型推理中的隐式多分支结构传递给学生模型,实验表明其在数学和问答任务上显著优于SFT和传统RL方法。