Tag: Reasoning
All the articles with the tag "Reasoning".
-
Evidence of conceptual mastery in the application of rules by Large Language Models
本文通过心理实验证明大型语言模型在规则应用中表现出概念掌握能力,能够泛化到新情境并部分模仿人类对时间压力等语境的敏感性。
-
Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning
本文提出Reason2Attack方法,通过基于Frame Semantics的CoT示例合成和带攻击过程奖励的强化学习,增强LLM的推理能力,以高效生成对抗性提示实现对T2I模型的越狱攻击。
-
DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
本文提出DeepSeek-Prover-V2,通过子目标分解和强化学习统一非正式和正式数学推理,显著提升了神经定理证明的性能,在多个基准上达到最先进水平。
-
Pushing the boundary on Natural Language Inference
本文提出使用Group Relative Policy Optimization结合Chain-of-Thought学习的方法提升自然语言推理任务的性能,无需标注推理路径,通过参数高效微调在对抗性基准上实现最先进结果。
-
MARFT: Multi-Agent Reinforcement Fine-Tuning
本文提出MARFT框架,通过序列决策和信任区域优化在LLM-based多代理系统中实现高效强化微调,提升代理协作能力并解决传统MARL的适用性问题。