Tag: Reasoning
All the articles with the tag "Reasoning".
-
You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects
本文提出ExecutionAgent,一个基于LLM的自主代理,通过meta-prompting和迭代反馈机制自动设置并执行任意软件项目的测试套件,显著提高了测试执行的成功率和准确性。
-
TTRL: Test-Time Reinforcement Learning
本文提出测试时强化学习(TTRL)方法,通过多数投票估计奖励,在无标签测试数据上训练大语言模型,实现模型自演化并显著提升推理任务性能。
-
Improving Reasoning Performance in Large Language Models via Representation Engineering
本文通过表示工程方法,利用控制向量干预大型语言模型的残差流,成功提升了Pythia和Mistral模型在归纳、演绎和数学推理任务上的表现,表明推理能力可通过调整内部表示进行调控。
-
Which Attention Heads Matter for In-Context Learning?
本文通过对12个大型语言模型进行消融研究和训练动态分析,发现函数向量头是驱动少样本上下文学习的主要机制,尤其在大型模型中,并且许多函数向量头在训练过程中从归纳头演变而来,纠正了先前认为归纳头是主要驱动力的观点。
-
Reinforcement Learning for LLM Reasoning Under Memory Constraints
本文提出了S-GRPO和T-SPMO两种内存高效、无批评者的强化学习方法,结合LoRA微调,在有限硬件资源下显著提升了大型语言模型在数学推理任务上的性能,其中T-SPMO在需要细粒度信用分配的任务上表现尤为突出。