Skip to content
Go back 2502.11569 arXiv logo

Towards Reasoning Ability of Small Language Models

Published:  at  04:26 PM
86.53 😐

本文通过系统基准测试72个SLMs,证明小型语言模型可以通过结构化训练和压缩技术实现与大型模型相当的推理能力,从而挑战了规模依赖的传统观点。

Reasoning, Efficiency, Pre-training, Fine-tuning, Robustness

Gaurav Srivastava, Shuxiang Cao, Xuan Wang

Virginia Tech, University of Oxford, NVIDIA Corporation

Generated by grok-3-mini-latest

Background Problem

长期以来,推理能力被视为大型语言模型(LLMs)的涌现属性,仅在模型规模达到约100B参数时出现。然而,最近的研究挑战了这一假设,表明小型语言模型(SLMs)也能实现具有竞争力的推理性能。SLMs因其高效性和易部署性而日益受欢迎,但缺乏对不同SLMs(包括从头训练或通过量化、剪枝和蒸馏从LLMs派生而来的模型)的系统性研究,这引发了一个关键问题:SLMs能否实现与LLMs相当的推理能力?本研究旨在通过系统调查和基准测试来填补这一空白。

Method

Experiment

Further Thoughts

这项研究强调了SLMs在推理任务中的潜力,并提示未来工作应探索更先进的压缩策略和训练方法,以提升模型的泛化能力;同时,与DeepSeek-R1的蒸馏方法相比,本文的结果表明,SLMs的推理能力可能更依赖于高质量的数据和优化,而非单纯的规模扩展,这为资源受限环境下的AI部署提供了新思路,并可能与其他领域如计算机视觉中的轻量模型设计相结合,以实现更高效的跨模态推理系统。



Previous Post
Param$Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost
Next Post
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test