Skip to content
Go back 2505.21600 arXiv logo

R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

Published:  at  11:13 AM
85.25 🤔

本文提出R2R,一种令牌级别的神经路由方法,通过选择性使用LLM修正SLM推理路径中的分歧令牌,在平均激活参数5.6B下超越R1-14B模型性能,并比R1-32B实现2.8倍墙钟加速。

Large Language Model, Efficiency, Reasoning, Multimodal Systems

Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang

Tsinghua University, Infinigence AI, Shanghai Jiao Tong University

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理任务中表现出色,但其推理过程的高计算成本限制了实际部署。相比之下,蒸馏后的小型语言模型(SLMs)虽然效率更高,但在推理路径上与LLM的分歧导致性能显著下降。研究发现,只有少部分令牌真正导致推理路径的分歧,而大部分差异是中性的(如表达方式的细微变化)。基于此,本文提出一个关键问题:是否可以通过仅替换分歧令牌,让SLM跟随LLM的推理路径,从而在保持高质量推理的同时大幅提升效率?

Method

本文提出了Roads to Rome (R2R),一种令牌级别的神经路由方法,通过选择性地在推理路径分歧的令牌上使用LLM,而将大部分令牌生成任务交给SLM,以实现效率和性能的平衡。

Experiment

实验基于DeepSeek-R1系列模型(R1-1.5B作为SLM,R1-32B作为LLM),在数学(AIME)、编码(LiveCodeBench)和问答(GPQA)等挑战性基准上评估R2R的性能和效率。

Further Thoughts

R2R的方法为高效推理提供了一个新颖视角,但其依赖于特定模型对和贪婪采样的假设可能限制其在更广泛场景中的应用。未来可以探索R2R在非贪婪采样策略下的表现,以及是否能通过自适应路由阈值进一步优化性能-效率权衡。此外,数据标注管道中验证者LLM的使用可能引入偏差,是否可以通过无监督或半监督方法减少对额外LLM的依赖是一个值得研究的方向。跨领域应用也是一个潜在扩展点,例如将R2R应用于多模态任务(如文本-图像推理),可能需要重新设计路由指标以适应不同模态的数据特性。结合其他效率优化技术(如量化或剪枝)或许能进一步提升R2R的实际部署能力,但需要平衡性能损失和效率提升之间的关系。



Previous Post
When More is Less: Understanding Chain-of-Thought Length in LLMs
Next Post
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation