本文提出WALL-E 2.0,一种无训练的神经符号学习方法,通过对齐LLM与环境动态构建精确世界模型,并结合模型预测控制框架,显著提升了LLM代理在开放世界任务中的性能。
Large Language Model, Neurosymbolic Learning, World Alignment, Model-Predictive Control, Reasoning, Planning
Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
Australian AI Institute, University of Technology Sydney, Department of Computer Science, University of Maryland, Tencent
Generated by grok-3-mini-latest
Background Problem
大型语言模型(LLMs)在特定开放世界环境中表现不可靠,主要原因是LLMs的先验知识与环境动态之间的差距,导致预测错误、幻觉或违反基本规律。虽然LLMs与人类偏好的对齐已被广泛研究,但与环境动态的世界对齐尚未得到充分探讨。此外,现有的LLM代理通常是模型无关的,直接在真实环境中生成和执行动作,而没有在世界模型或模拟器中验证或优化,导致安全风险和次优轨迹。本文旨在解决这一问题,通过提出世界对齐方法来桥接LLMs的先验知识与特定环境动态的差距。
Method
核心思想是通过无训练的神经符号学习实现世界对齐,学习环境特定的符号知识,包括动作规则、知识图和场景图,这些知识从探索轨迹中提取,并转化为可执行的代码规则以调节LLM代理的政策。具体步骤包括四个阶段:(1)探索轨迹数据,通过比较预测轨迹和真实轨迹来评估不一致性;(2)学习符号知识,利用LLM的归纳推理从真实轨迹中提取动作规则、构建知识图(表示可行性约束和动作先决条件)和场景图(补充部分可观测性);(3)将符号知识转化为紧凑的代码规则,使用LLM的编码能力生成Python函数来评估观察-动作对;(4)通过求解最大覆盖问题对代码规则进行剪枝,以保持规则集的紧凑性和有效性。之后,使用模型预测控制(MPC)框架,LLM代理通过与神经符号世界模型交互来优化未来动作,实现高效的规划。
Experiment
实验在Mars(类似Minecraft的开放世界环境)和ALFWorld(具身室内环境)benchmark上进行。Mars数据集评估代理在部分可观测马尔可夫决策过程(POMDP)中的适应性和推理能力,使用奖励和加权几何平均分数作为指标;ALFWorld数据集包括六种任务类型,使用成功率作为指标。实验设置合理全面,包括与基线方法(如ReAct、Reflexion、Skill Library、IfR等)的比较,以及消融研究来验证各组件的有效性。结果显示WALL-E 2.0显著优于基线:在Mars上,成功率提高16.1%至51.6%,在反常常识场景下至少提高21.8%;在ALFWorld上,仅4次迭代后达到98%的成功率,超越现有最佳方法。结果符合预期,证明了神经符号学习在提升世界模型准确性和代理性能方面的有效性。
Further Thoughts
论文强调当前方法仅处理简单过渡规则,未来可探索学习更抽象的规则,如规划过程的全局约束;此外,处理随机动态环境(如资源收集受随机因素影响)是关键挑战,可结合概率建模或强化学习增强鲁棒性。结合其他领域,如机器人学中的世界模型构建或医疗AI中的动态对齐,可以进一步提升泛化能力;例如,与WorldGPT(Ge et al., 2024)类似的工作可整合多模态数据,以实现更全面的环境适应。