Tag: Cross-Domain Generalization

All the articles with the tag "Cross-Domain Generalization".

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Published: 6 May, 2025 at 01:19 AM

85.07 🤔

本文发现，通过对大型语言模型应用带有可验证奖励的强化学习，仅使用一个训练示例即可显著提升其数学推理能力，效果可媲美使用数千示例进行训练，并揭示了饱和后泛化、跨领域泛化等现象，强调了策略梯度和探索的重要性。