Skip to content
Go back 2505.08120 arXiv logo

Putting It All into Context: Simplifying Agents with LCLMs

Published:  at  11:19 AM
86.55 🤔

本文提出基于长上下文语言模型(LCLM)的‘state-in-context’代理设计,通过将整个环境状态纳入上下文简化软件工程任务的代理架构,在SWE-bench Verified上实现与复杂脚手架方法相当的性能(Gemini-2.5-Pro达到50.8% pass@1)。

Large Language Model, Long Context, Agent, Reasoning, Prompt Engineering

Mingjian Jiang, Yangjun Ruan, Luis Lastras, Pavan Kapanipathi, Tatsunori Hashimoto

Stanford University, IBM Research, University of Toronto

Generated by grok-3

Background Problem

近年来,语言模型代理(LM Agents)在自动化复杂现实世界任务(如软件工程、机器人控制和科学研究)方面展现出巨大潜力。然而,传统LM代理架构通常依赖复杂的脚手架设计,包括多步骤检索工具、多代理协作和特定任务的定制管道,以应对部分可观察环境中的信息收集挑战。本文提出一个关键问题:在许多代理任务(如SWE-bench)中,环境实际上是完全可观察的,是否可以通过长上下文语言模型(LCLM)直接处理整个环境状态,简化代理设计并减少对复杂脚手架的依赖?本文旨在探索这种简化的可能性,挑战传统代理设计范式,并评估LCLM在无脚手架情况下解决复杂任务的能力。

Method

本文提出了一种基于长上下文语言模型(LCLM)的‘state-in-context’代理设计方法,旨在简化传统LM代理架构:

Experiment

实验在SWE-bench Verified基准数据集(包含500个经过专家验证的软件工程问题)上进行,评估了提出的DIRECTSOLVE和SELECTSOLVE方法与传统脚手架方法(如Agentless和CodeAct)的性能:

Further Thoughts

本文提出的‘state-in-context’概念为简化代理设计提供了一个有趣的视角,但其依赖于LCLM的长上下文处理能力,而当前LCLM在处理超长上下文时存在明显性能下降(如‘lost in the middle’问题)。这提示我们需要在模型架构或训练方法上进一步优化长上下文理解能力,例如探索更高效的注意力机制(如FlashAttention)或上下文压缩技术。此外,LCLM方法的高成本(2.6vsAgentless2.6 vs Agentless的0.25)可能限制其在资源受限场景中的应用,未来可以研究如何结合KV缓存等技术进一步降低推理成本。另一个值得思考的方向是,这种方法是否能推广到其他完全可观察的代理任务(如多跳问答或文档处理),以及是否能与检索增强生成(RAG)结合,形成更高效的混合架构。这些问题值得后续研究深入探讨,以验证该方法的广泛适用性和实际价值。



Previous Post
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
Next Post
Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study