Posts
All the articles I've posted.
-
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models
本文提出两种测试时计算扩展算法(淘汰赛式和联赛式),通过生成多个候选解决方案并进行成对比较,在理论上证明其失败概率随计算资源增加呈指数或幂律下降,并在多个数据集和模型上验证了性能提升。
-
SELF: Self-Extend the Context Length With Logistic Growth Function
本文提出SELF方法,通过逻辑增长函数动态调整token分组大小以扩展大型语言模型的上下文长度,在部分长上下文任务上相较Self-Extend提升了性能,但普适性和稳定性仍需验证。
-
Investigating Task Arithmetic for Zero-Shot Information Retrieval
本文提出任务算术方法,通过参数加减操作实现零样本信息检索的领域和语言适应,在科学、生物医学和多语言数据集上取得最高18%的NDCG@10提升,展现了轻量级模型适应的潜力。
-
Thinker: Learning to Think Fast and Slow
本文提出Thinker任务,通过将问答过程分解为快速思考、验证、慢速思考和总结四个阶段,利用强化学习针对性训练大型语言模型的直觉和推理能力,在数学推理基准上实现了显著性能提升。
-
Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data
本文通过大规模实验证明,预训练小型Transformer模型在考虑参数大小的情况下,能在文本、图像和音频的分布外数据上实现与传统压缩算法竞争的压缩比,尤其在训练模态内表现优异,但跨模态迁移能力较弱。