Tag: Reinforcement Learning
All the articles with the tag "Reinforcement Learning".
-
Training Language Models to Reason Efficiently
本文提出了一种通过强化学习训练大型推理模型以高效推理的方法,利用长度惩罚目标函数和可调参数α显著降低推理成本,同时在多个数学数据集上保持大部分准确性。
-
AdaptThink: Reasoning Models Can Learn When to Think
本文提出 *AdaptThink*,一种基于强化学习的算法,通过自适应选择 *Thinking* 或 *NoThinking* 模式显著降低推理模型的响应长度(平均减少 40-53%)并提升准确率(平均提升 2.3-2.4%),在数学任务上展现了效率与性能的良好平衡。
-
REARANK: Reasoning Re-ranking Agent via Reinforcement Learning
本文提出REARANK,一种基于强化学习的列表式重排序代理,通过显式推理和数据增强,仅用179个标注查询即在多个信息检索基准上显著超越基线并媲美甚至超越GPT-4,尤其在推理密集型任务中表现突出。
-
Thinking Out Loud: Do Reasoning Models Know When They're Right?
本文通过对比指令微调、监督微调和强化学习训练的大型推理模型,发现推理导向训练显著提升了推理任务中的准确性和校准能力,但在事实性任务中可能削弱小规模模型对知识边界的感知。
-
RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning
本文提出RL-of-Thoughts (RLoT) 方法,通过强化学习训练轻量化导航模型,在推理时动态构建任务特定逻辑结构,显著提升大型语言模型在多领域推理任务中的表现,并展现出跨模型和任务的强迁移能力。