Posts

All the articles I've posted.

Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

Published: 23 May, 2025 at 11:14 AM

85.73 🤔

本文提出TokenAdapt框架，通过混合启发式初始化策略实现分词器移植，并在零样本困惑度测试中显著优于基线方法，同时初步探索Supertoken学习以提升压缩效率。
Tensor Product Attention Is All You Need

Published: 1 Jun, 2025 at 11:51 AM

85.73 🤔

本文提出Tensor Product Attention (TPA)，通过上下文相关的张量分解压缩KV缓存，显著减少推理内存占用，并在语言建模任务中优于或匹配MHA、MQA等基线性能。
SSR: Speculative Parallel Scaling Reasoning in Test-time

Published: 23 May, 2025 at 11:09 AM

85.72 🤔

本文提出SSR框架，通过选择性并行模块和步骤级推测性解码，在测试时显著提升大型语言模型在数学推理任务中的效率-准确性权衡，无需额外训练。
Vectors from Larger Language Models Predict Human Reading Time and fMRI Data More Poorly when Dimensionality Expansion is Controlled

Published: 23 May, 2025 at 11:10 AM

85.71 🤔

本文通过控制维度扩展发现，大型语言模型（LLMs）在预测人类阅读时间和脑成像数据时，随着模型规模增加，训练过程的贡献反而减少，揭示了模型与人类句子处理机制的潜在错位。
A Unified Approach to Routing and Cascading for LLMs

Published: 26 May, 2025 at 11:41 AM

85.71 🤔

本文通过理论分析推导出最优的路由和级联策略，并提出级联路由这一统一框架，在成本预算内显著提升大型语言模型的输出质量，尤其在质量估计准确的场景下性能提升明显。

Posts

Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

Tensor Product Attention Is All You Need

SSR: Speculative Parallel Scaling Reasoning in Test-time

Vectors from Larger Language Models Predict Human Reading Time and fMRI Data More Poorly when Dimensionality Expansion is Controlled

A Unified Approach to Routing and Cascading for LLMs