Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models
CoThink 提出了一种双阶段推理框架,通过指令模型生成解决方案大纲指导推理模型完成解答,在保持准确率的同时平均减少 22.3% 的令牌生成量,提升了大型语言模型的推理效率。
-
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning
本文通过控制实验研究SFT和RL在增强LLM推理能力中的相互作用,发现短CoT预热对RL有中等贡献,回溯次数需与任务难度匹配,且RL对SFT数据正确性依赖较小而对结构一致性敏感。
-
RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning
本文提出 RaaS 算法,通过识别推理任务中的里程碑令牌并采用 LRU 缓存策略管理 KV 向量,在保持高准确性的同时实现了 O(L) 的时间和内存复杂度,显著优于现有方法如 Quest 的内存效率。
-
Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL
本文通过结合监督微调(SFT)、强化学习(RL)及细粒度奖励函数(如QATCH),显著提升了小型LLM在Text2SQL任务中的推理能力和性能,Think2SQL-7B模型在BIRD数据集上超越了400B+参数模型。
-
Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning
本文提出LoRA-SB方法,通过基于全参数微调第一步梯度近似的初始化策略优化低秩微调,在参数量减少27-90倍的情况下,显著超越LoRA-XS并接近全参数微调性能。