Tag: Cross-Domain Generalization
All the articles with the tag "Cross-Domain Generalization".
-
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
本文发现,通过对大型语言模型应用带有可验证奖励的强化学习,仅使用一个训练示例即可显著提升其数学推理能力,效果可媲美使用数千示例进行训练,并揭示了饱和后泛化、跨领域泛化等现象,强调了策略梯度和探索的重要性。