Tag: Large Language Model

All the articles with the tag "Large Language Model".

R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning

Published: 3 Jun, 2025 at 11:42 AM

87.73 🤔

本文提出 R1-Code-Interpreter 框架，通过监督微调和强化学习训练大型语言模型动态生成和执行代码，在 144 个推理和规划任务上显著提升准确率，R1-CI-14B 达到 64.1%，接近 GPT-4o+Code Interpreter 的性能。
How much do language models memorize?

Published: 3 Jun, 2025 at 11:44 AM

87.61 🤔

本文提出了一种基于信息论的记忆量化方法，通过区分无意记忆和泛化，测量GPT风格语言模型的容量约为每个参数3.6比特，并揭示了数据集规模与模型容量比对双重下降和成员推断性能的影响。
One-shot Entropy Minimization

Published: 2 Jun, 2025 at 11:33 AM

89.83 🤔

本文提出一-shot熵最小化（EM）方法，通过仅使用单个无标签数据和10步优化即可显著提升大型语言模型在数学推理任务上的性能，媲美或超越传统强化学习方法。
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

Published: 4 Jun, 2025 at 11:28 AM

85.25 🤔

本文提出强化蒸馏（REDI）框架，通过两阶段训练利用正向和负向推理轨迹，显著提升小型语言模型的数学推理性能，Qwen-REDI-1.5B在公开数据上达到1.5B模型的最新水平。
Understanding Overadaptation in Supervised Fine-Tuning: The Role of Ensemble Methods

Published: 4 Jun, 2025 at 11:59 AM

85.17 🤔

本文通过理论和实验分析，提出模型集成方法通过平衡‘bias-variance’权衡有效缓解监督微调中的过适应问题，提升下游任务性能并减少预训练知识遗忘。

Tag: Large Language Model

R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning

How much do language models memorize?

One-shot Entropy Minimization

Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

Understanding Overadaptation in Supervised Fine-Tuning: The Role of Ensemble Methods