Tag: Large Language Model

All the articles with the tag "Large Language Model".

Sentinel: Attention Probing of Proxy Models for LLM Context Compression with an Understanding Perspective

Published: 2 Jun, 2025 at 11:24 AM

91.96 🤔

Sentinel提出了一种轻量化的句子级别上下文压缩框架，通过探测0.5B代理模型的注意力信号实现高达5倍压缩率，并在LongBench基准上匹配7B规模系统的QA性能。
RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning

Published: 4 Jun, 2025 at 11:26 AM

87.36 🤔

本文提出 RaaS 算法，通过识别推理任务中的里程碑令牌并采用 LRU 缓存策略管理 KV 向量，在保持高准确性的同时实现了 O(L) 的时间和内存复杂度，显著优于现有方法如 Quest 的内存效率。
Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective

Published: 5 Jun, 2025 at 11:23 AM

85.08 🤔

本文提出'Trajectory Policy Gradient Theorem'，从理论上证明在LLM在线强化学习中仅用响应级别奖励即可无偏估计token级奖励的策略梯度，并基于此设计了TRePO算法，简化PPO设计并具备token级建模能力。
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging

Published: 31 May, 2025 at 11:35 AM

95.81 🤔

本文通过模型融合方法整合快速思维和慢速推理能力，实现长到短推理，在7B模型上将响应长度压缩高达55%且保持性能，提出了一种高效解决大语言模型过度思考问题的方案。
Skywork Open Reasoner 1 Technical Report

Published: 3 Jun, 2025 at 11:44 AM

88.60 🤔

Skywork-OR1通过提出MAGIC框架，利用多阶段训练和自适应熵控制的强化学习方法，显著提升了长链式推理模型在数学和编码任务上的性能，并在AIME24和AIME25基准上超越了DeepSeek-R1和Qwen3-32B。

Tag: Large Language Model

Sentinel: Attention Probing of Proxy Models for LLM Context Compression with an Understanding Perspective

RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning

Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective

Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging

Skywork Open Reasoner 1 Technical Report