Tag: Reasoning
All the articles with the tag "Reasoning".
-
Codenames as a Benchmark for Large Language Models
本论文提出使用Codenames游戏作为LLMs推理能力的基准,通过实验评估不同LLMs在语言理解、战略推理和合作方面的表现,展示了它们的独特行为和泛化潜力。
-
Humanity's Last Exam
本文引入HUMANITY'S LAST EXAM基准测试,通过专家创建的挑战性多模态问题,解决现有LLM基准饱和问题,评估模型在封闭式学术任务中的能力。
-
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
Insight-V introduces a scalable data generation pipeline and a multi-agent system with iterative DPO training to significantly enhance long-chain visual reasoning in MLLMs, achieving up to 7.0% performance gains on challenging benchmarks while maintaining perception capabilities.
-
Trace-of-Thought Prompting: Investigating Prompt-Based Knowledge Distillation Through Question Decomposition
本文提出了 Trace-of-Thought Prompting,一种基于提示的知识蒸馏框架,通过将复杂问题分解为可管理的步骤,有效地将高资源模型的推理能力迁移到低资源模型,显著提升了低资源模型在算术推理任务上的表现,且无需大量微调。
-
A Survey on Test-Time Scaling in Large Language Models: What, How, Where, and How Well?
本文通过提出一个四维度分类框架(什么扩展、如何扩展、哪里扩展、扩展效果如何),系统综述了测试时扩展(TTS)在大型语言模型中的研究现状,为理解和应用推理阶段计算扩展提供了结构化视角和实践指导。