Tag: Reinforcement Learning
All the articles with the tag "Reinforcement Learning".
-
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search
本文提出Satori模型,通过Chain-of-Action-Thought (COAT) 推理框架和两阶段训练(小规模格式调整与大规模强化学习),显著提升了单一7B大型语言模型在数学推理及非领域任务中的自回归搜索和推理能力。
-
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
本文揭示强化学习(RL)微调大型语言模型(LLMs)时仅更新5%-30%参数子网络的现象,通过实验验证仅微调子网络即可恢复全微调性能,并指出训练数据分布接近策略是稀疏性主因,为高效微调策略提供新思路。
-
Language Model Distillation: A Temporal Difference Imitation Learning Perspective
本文提出了一种基于时间差分学习的模型蒸馏框架,利用大型语言模型输出分布的稀疏性,通过top-p候选集缩减动作空间,在指令跟随任务中实现了性能提升和计算效率的改进。
-
Interleaved Reasoning for Large Language Models via Reinforcement Learning
本文提出了一种交错推理范式,通过强化学习训练大型语言模型交替思考和回答,显著降低时间到首token(TTFT)超过80%,并在多个推理任务上提升准确率最高达19.3%。
-
Structured Agent Distillation for Large Language Model
本文提出结构化代理蒸馏框架,通过分割大型语言模型代理轨迹为推理和行动片段并施加分段特定监督,在压缩模型时显著提升任务成功率、推理效率和一致性,优于token级基线。