Tag: Reasoning
All the articles with the tag "Reasoning".
-
Monte Carlo Planning with Large Language Model for Text-Based Game Agents
本文提出MC-DML算法,通过整合大型语言模型的动态记忆机制与蒙特卡罗树搜索,提升文本-based游戏代理的规划效率和性能,实验结果显示其在初始阶段就优于需多次迭代的强基线。
-
An Empirical Study of Evaluating Long-form Question Answering
本文实证研究了长形式问题回答的自动评估指标,证明了基于LLM的指标在准确性和稳定性上的优势,同时分析了其偏差和改进策略。
-
SuperARC: An Agnostic Test for Narrow, General, and Super Intelligence Based On the Principles of Recursive Compression and Algorithmic Probability
本文提出SuperARC测试框架,通过算法概率和Kolmogorov复杂度的原理,设计了一个客观的AGI和ASI评估方法,证明递归压缩等价于预测,并展示了LLMs的局限性。
-
Synergizing RAG and Reasoning: A Systematic Review
本论文系统综述了检索增强生成(RAG)与推理能力的协同整合,构建了多维分类框架、提供了实用指南,并指出了未来研究方向,以推进RAG系统在复杂任务中的认知能力。
-
Meeseeks: An Iterative Benchmark Evaluating LLMs Multi-Turn Instruction-Following Ability
本文提出Meeseeks多轮指令遵循基准,通过迭代反馈机制系统评估LLMs的自纠错能力,发现模型在多轮互动中性能显著提升。