Tag: Reasoning

All the articles with the tag "Reasoning".

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

Published: 3 Jun, 2025 at 11:45 AM

88.30 🤔

本文提出了一种通过强化学习（GRPO）优化大型语言模型自我反思能力的方法，在函数调用和数学方程任务上显著提升性能（平均9.0%和16.0%），并展示小模型在训练后可超越未训练大模型。
SLOT: Sample-specific Language Model Optimization at Test-time

Published: 22 May, 2025 at 11:22 AM

88.26 🤔

本文提出SLOT方法，通过测试时对每个输入提示优化一个轻量级样本特定参数向量δ，显著提升大型语言模型在推理任务上的性能，如Qwen2.5-7B在GSM8K上提升8.65%。
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models

Published: 31 May, 2025 at 11:35 AM

88.25 🤔

本文提出了一种层交换方法，通过将语言专家模型的顶部和底部层与数学专家模型的中间层重组，实现零样本跨语言迁移，在低资源语言的数学推理任务上显著提升性能达10%。
General-Reasoner: Advancing LLM Reasoning Across All Domains

Published: 30 May, 2025 at 11:21 AM

88.18 🤔

本文提出General-Reasoner，通过零强化学习结合跨领域高质量数据集和基于生成模型的验证器，显著提升大型语言模型在多领域推理任务上的性能，同时保持数学推理的有效性。
You Do Not Fully Utilize Transformer's Representation Capacity

Published: 31 May, 2025 at 11:35 AM

88.14 🤔

本文提出Layer-Integrated Memory (LIMe)，通过学习跨层路由机制整合之前所有层的Key-Value表示，显著缓解Transformer的表示崩塌问题，并在语言建模、推理任务和深层网络中实现更快收敛和更高准确率。

Tag: Reasoning

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

SLOT: Sample-specific Language Model Optimization at Test-time

Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models

General-Reasoner: Advancing LLM Reasoning Across All Domains

You Do Not Fully Utilize Transformer's Representation Capacity