Posts
All the articles I've posted.
-
Do Language Models Use Their Depth Efficiently?
本文通过对Llama 3.1和Qwen 3模型的残差流分析和干预实验,发现大型语言模型未有效利用深度,后半部分层主要细化概率分布而非进行新计算,且处理深度与输入复杂性无关,提示当前架构和训练目标需改进。
-
Memorization-Compression Cycles Improve Generalization
本文通过提出信息瓶颈语言建模(IBLM)目标和Gated Phase Transition (GAPT)算法,理论和实验上证明了通过动态切换记忆和压缩阶段来降低表征熵,可以显著提升大型语言模型的泛化能力和冲突记忆分辨能力。
-
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models
本文提出动态思维模式优化框架(DTO),通过分割和优化大型推理模型的推理路径,显著减少计算开销并提升准确率,在数学推理基准上实现高达12%的准确率提升和47%的FLOPs减少。
-
Large Language Models are Miscalibrated In-Context Learners
本文通过对大型语言模型在低资源场景下的校准问题进行深入分析,揭示上下文学习(ICL)未一致改善校准效果,并提出自集成方法显著提升校准性能(平均降低ECE 43%),同时维持或略提升任务性能。
-
LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs
本文提出LiSTEN框架,通过动态提示选择策略高效适应大型语言模型到音频任务,在减少大规模数据集依赖和训练参数量的同时,实现了多任务学习中的竞争性能和更高的可解释性。