Tag: Adaptive Systems
All the articles with the tag "Adaptive Systems".
-
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning
本文提出EPO方法,通过强化学习优化一个专门的战略推理模型,辅助任意LLM代理在动态环境中实现长期目标对齐,提升战略推理能力。
-
MARFT: Multi-Agent Reinforcement Fine-Tuning
本文提出MARFT框架,通过序列决策和信任区域优化在LLM-based多代理系统中实现高效强化微调,提升代理协作能力并解决传统MARL的适用性问题。
-
Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs
本文通过实证研究发现,大型语言模型在推理任务中存在"过度思考"简单问题和"思考不足"困难问题的现象,其推理长度与正确性呈非单调关系,且简单偏好更短回答可在保持准确率的同时显著减少生成长度。