Tag: Reinforcement Learning

All the articles with the tag "Reinforcement Learning".

Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL

Published: 6 May, 2025 at 11:18 PM

87.33 🤔

本文通过结合监督微调（SFT）、强化学习（RL）及细粒度奖励函数（如QATCH），显著提升了小型LLM在Text2SQL任务中的推理能力和性能，Think2SQL-7B模型在BIRD数据集上超越了400B+参数模型。
Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective

Published: 28 May, 2025 at 11:20 AM

87.20 🤔

本文提出RaML框架，从元学习视角将LLM推理轨迹视为伪梯度更新，通过理论分析和实验验证了推理与优化的关联，并探索了训练策略和轨迹特性对推理能力的提升潜力。
Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning

Published: 5 Jun, 2025 at 11:24 AM

87.16 🤔

本文通过将自然语言理解任务转化为强化学习问题，使用PPO算法微调中小规模LLMs，在GLUE和SuperGLUE基准上显著提升性能，超越监督微调和BERT-large，并展现出优于GPT-4o的零样本泛化能力。
SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning

Published: 22 May, 2025 at 11:12 AM

87.16 🤔

SelfBudgeter通过自适应令牌预算预测和强化学习优化，在MATH数据集上实现74.47%响应长度压缩，同时保持接近原始准确性，显著提升大型推理模型的效率。
AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking

Published: 28 May, 2025 at 11:22 AM

87.06 🤔

AdaReasoner通过强化学习框架自适应调整大型语言模型的推理配置（生成温度、推理步骤数和指令格式），在多样化任务上显著优于固定配置的基线方法，展现了快速收敛和分布外鲁棒性。

Tag: Reinforcement Learning

Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL

Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective

Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning

SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning

AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking