Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains

本文提出了一种缓存高效的后验采样框架，通过元学习优化的缓存机制重用LLM先验，显著降低强化学习中的计算成本（查询减少3.8-4.7倍，延迟降低4.0-12.0倍），同时在文本和连续控制任务中保持96-98%的性能。

Reinforcement Learning, Large Language Model, Efficiency, Meta-Learning, Control, Multimodality

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

Iowa State University

Generated by grok-3

Background Problem

强化学习（RL）在结构化领域（如棋盘游戏和机器人控制）取得了显著成功，但在开放式现实世界任务中面临样本效率低、计算成本高和泛化能力有限的问题。近年来，大型语言模型（LLM）被整合到RL中作为策略先验或动作提议者，以提升探索和推理能力。然而，频繁的LLM查询导致了高昂的计算成本，尤其是在连续控制领域中，符号输出与实际控制的匹配问题进一步加剧了这一挑战。本文提出了一种缓存高效的后验采样框架，旨在通过重用LLM生成的先验来显著降低计算成本，同时保持决策质量，解决LLM-guided RL在资源受限环境下的可行性问题。

Method

本文提出了一种基于Control-as-Inference范式的缓存高效后验采样框架，核心方法如下：

状态抽象：通过学习状态抽象模块将原始状态（文本或连续向量）转换为语言描述，利用人类标注、对比学习和联合优化来确保描述的准确性和多样性。
元学习缓存机制：设计了一个自适应缓存系统，缓存参数（如容量K、相似性阈值δ、刷新率r）通过元学习优化，利用策略性能的代理梯度动态调整，以在语义相似的状态间重用LLM生成的先验，减少查询次数。
后验采样策略：结合缓存的LLM先验和学习的Q值，通过后验分布选择动作，并引入自适应温度调度来平衡探索与利用。
符号-连续集成：扩展软演员-评论家（SAC）算法，将LLM提出的符号动作与连续控制动作结合，处理混合动作空间。
扩展到离线RL：提出CQL-Prior方法，将缓存机制与保守Q学习结合，通过KL正则化整合LLM先验，提升离线学习性能。

批判性思考：虽然缓存机制在理论上减少了计算成本，但其依赖于元学习优化可能导致过拟合或在动态环境中失效。此外，状态抽象的质量对整体性能至关重要，但论文未充分讨论其鲁棒性，尤其是在复杂或噪声环境下可能出现的描述错误。

Experiment

实验在八个不同环境中进行，包括文本任务（TextWorld, ALFWorld, BabyAI, WebShop）和连续控制任务（MetaWorld, MuJoCo HalfCheetah, Walker2d, Ant），对比了Direct LLM, ReAct, RAP, SAC, Dreamer-V3等基线。

结果：在文本任务中，本方法成功率达92.5-95.6%，接近RAP（94.2-96.7%），但比Direct LLM和ReAct高出约20%；在连续控制任务中，平均回报为480.2-684.2，接近SAC和Dreamer-V3，但略低于最佳结果。LLM查询次数减少3.8-4.7倍，延迟降低4.0-12.0倍（中位延迟85-93ms），性能保持在无缓存的96-98%。
离线RL（CQL-Prior）：在ALFWorld和MuJoCo数据集上，性能提升14-29%，训练时间减少38-40%。
5-shot微调：5-shot微调显著优于0-shot，接近10-shot性能，验证了微调协议的有效性。
设置合理性：实验覆盖了离散和连续领域，数据集和任务选择具有代表性，但缺乏对更复杂环境（如多智能体或大规模3D场景）的测试，可能限制了结果的泛化性。
批判性思考：虽然查询次数和延迟的减少令人印象深刻，但性能保持在96-98%的说法可能被高估，因为在某些任务中与最先进方法的差距（2-3%）可能在实际应用中显著。此外，缓存命中率（78-82%）虽高，但未讨论在高度随机环境中的表现，可能导致性能下降。理论KL散度界限与实际性能的相关性（20% KL减少对应15-18%性能提升）未被充分验证，可能仅为理论支持而非实际指导。

Further Thoughts

本文提出的缓存机制为LLM-guided RL的资源效率问题提供了一个有趣的解决方案，但其适用性可能受到环境复杂性和随机性的限制。未来可以探索在多智能体系统中的分布式缓存机制，以解决大规模协作任务中的计算瓶颈。此外，缓存机制与世界模型（World Model）的结合可能是一个有前景的方向，类似于Dreamer-V3的工作，通过缓存先验和学习动态模型的协同作用，进一步提升长距离规划能力。另一个值得思考的点是，缓存机制是否可以与联邦学习结合，用于跨设备共享LLM先验，同时保护隐私，这可能对移动设备上的RL应用（如个性化助手）产生深远影响。然而，必须警惕缓存机制在快速变化环境中的过时问题，可能需要引入更动态的刷新策略或结合在线学习来解决这一问题。