Tag: Efficiency

All the articles with the tag "Efficiency".

1bit-Merging: Dynamic Quantized Merging for Large Language Models

Published: 1 Jun, 2025 at 11:52 AM

92.20 🤔

1bit-Merging提出了一种动态模型合并框架，通过1位量化任务向量和任务特定路由，在保持94.53%性能的同时将存储需求降至55.02%，在通用知识、数学推理和代码生成任务上优于传统和动态合并方法。
Gameplay Highlights Generation

Published: 14 May, 2025 at 11:06 AM

92.19 🤔

This paper presents a method to generate gameplay highlight reels by finetuning the X-CLIP multimodal model on an in-house FPS game dataset, achieving over 90% event detection accuracy and demonstrating transfer learning, while optimizing deployment through quantization.
Reward Reasoning Model

Published: 24 May, 2025 at 11:08 AM

92.11 🤔

本文提出奖励推理模型（RRMs），通过链式推理过程在生成奖励前自适应利用测试时计算资源，在多个奖励建模基准和实际应用中显著提升性能，尤其在复杂推理任务上表现优异。
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Published: 5 Jun, 2025 at 11:22 AM

92.10 🤔

本文提出TLDR方法，通过动态再加权系统1和系统2推理数据，显著压缩大型语言模型的推理输出token数量（约40%），同时在多难度数学任务上基本保持准确性。
Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL

Published: 20 May, 2025 at 11:10 AM

92.09 🤔

本文提出 *AutoThink*，通过省略号提示和多阶段强化学习框架，使 R1 风格大型推理模型根据问题复杂性自适应地决定是否进行显式推理，在五个数学基准上实现了准确性和效率的优越权衡。

Tag: Efficiency

1bit-Merging: Dynamic Quantized Merging for Large Language Models

Gameplay Highlights Generation

Reward Reasoning Model

TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL