Tag: Test Time

All the articles with the tag "Test Time".

Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately

Published: 23 May, 2025 at 11:10 AM

90.81 🤔

本文提出SART框架，通过冗余采样与早期停止以及两阶段动态修剪方法，显著提升了大型语言模型推理服务的效率（最高28.2倍），同时保持了与基线相近的准确性。
Can Past Experience Accelerate LLM Reasoning?

Published: 31 May, 2025 at 11:16 AM

90.72 🤔

本文提出SpeedupLLM框架，通过自适应计算分配和记忆机制实现LLM推理加速，实验表明计算成本最高可减少56%，尤其在高相似度问题上效果显著。
SLOT: Sample-specific Language Model Optimization at Test-time

Published: 22 May, 2025 at 11:22 AM

88.26 🤔

本文提出SLOT方法，通过测试时对每个输入提示优化一个轻量级样本特定参数向量δ，显著提升大型语言模型在推理任务上的性能，如Qwen2.5-7B在GSM8K上提升8.65%。
First Finish Search: Efficient Test-Time Scaling in Large Language Models

Published: 1 Jun, 2025 at 11:52 AM

87.92 🤔

本文提出First Finish Search (FFS)，一种无需训练的测试时扩展策略，通过并行解码并选择最先完成的推理轨迹，在推理任务上显著提升大型语言模型准确率（如DeepSeek-R1在AIME数据集达82.23%），同时减少高达45%的令牌使用量。
Thought calibration: Efficient and confident test-time scaling

Published: 28 May, 2025 at 11:22 AM

87.79 🤔

本文提出‘思想校准’方法，通过推理树抽象和轻量级探针动态决定语言模型推理终止时机，在分布内数据上减少高达60%的思考token，同时保持性能，并在分布外数据上实现20%的减少。

Tag: Test Time

Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately

Can Past Experience Accelerate LLM Reasoning?

SLOT: Sample-specific Language Model Optimization at Test-time

First Finish Search: Efficient Test-Time Scaling in Large Language Models

Thought calibration: Efficient and confident test-time scaling