Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Sentinel: Attention Probing of Proxy Models for LLM Context Compression with an Understanding Perspective
Sentinel提出了一种轻量化的句子级别上下文压缩框架,通过探测0.5B代理模型的注意力信号实现高达5倍压缩率,并在LongBench基准上匹配7B规模系统的QA性能。
-
RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning
本文提出 RaaS 算法,通过识别推理任务中的里程碑令牌并采用 LRU 缓存策略管理 KV 向量,在保持高准确性的同时实现了 O(L) 的时间和内存复杂度,显著优于现有方法如 Quest 的内存效率。
-
Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective
本文提出'Trajectory Policy Gradient Theorem',从理论上证明在LLM在线强化学习中仅用响应级别奖励即可无偏估计token级奖励的策略梯度,并基于此设计了TRePO算法,简化PPO设计并具备token级建模能力。
-
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
本文通过模型融合方法整合快速思维和慢速推理能力,实现长到短推理,在7B模型上将响应长度压缩高达55%且保持性能,提出了一种高效解决大语言模型过度思考问题的方案。
-
Skywork Open Reasoner 1 Technical Report
Skywork-OR1通过提出MAGIC框架,利用多阶段训练和自适应熵控制的强化学习方法,显著提升了长链式推理模型在数学和编码任务上的性能,并在AIME24和AIME25基准上超越了DeepSeek-R1和Qwen3-32B。