Tag: Goal Alignment
All the articles with the tag "Goal Alignment".
-
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning
本文提出EPO方法,通过强化学习优化一个专门的战略推理模型,辅助任意LLM代理在动态环境中实现长期目标对齐,提升战略推理能力。
All the articles with the tag "Goal Alignment".
本文提出EPO方法,通过强化学习优化一个专门的战略推理模型,辅助任意LLM代理在动态环境中实现长期目标对齐,提升战略推理能力。