Empirical Evaluation of Progressive Coding for Sparse Autoencoders

本文通过实证评估比较了Matryoshka SAEs和基于字典幂律修剪的方法，以实现SAEs的渐进式编码，提高计算效率、重建保真度和可解释性。

Sparse Autoencoder, Representation Learning, Unsupervised Learning, Efficiency, Interpretability

Hans Peter, Anders Søgaard

University of Copenhagen

Generated by grok-3-mini-latest

Background Problem

稀疏自编码器（SAEs）是一种无监督方法，用于从神经网络中提取可解释特征，具有应用在表示工程和信息检索等领域，但训练和推理过程计算成本高昂，尤其是当需要多个不同大小的SAEs时。本文的研究起点是解决如何高效获得高保真、可解释的SAEs的关键问题，背景在于SAEs依赖字典学习来处理神经网络的内部表示，而大型语言模型（LLMs）的快速发展加剧了计算资源的需求。核心问题包括如何诱导渐进式编码，使SAEs在不同粒度下提供灵活的动态重建，减少计算开销，同时保持重建质量和可解释性。

Method

核心思想: 本文探索两种方法来实现SAEs的渐进式编码：(1) Matryoshka SAEs，通过借鉴Matryoshka表示学习的思想，联合训练嵌套的SAEs；(2) 对vanilla SAEs进行基于字典幂律的修剪，利用特征的条件独立性和置换不变性。 如何实现: 对于Matryoshka SAEs，共享编码器和解码器权重，针对多个粒度最小化损失函数，包括重建损失、稀疏损失和辅助损失，具体损失函数为： $\mathcal{L} = \left(\frac{1}{|D|} \sum_{X \in D} \sum_{m \in \mathcal{M}} c_m \cdot |X - \hat{X}_m|_2^2\right) + \lambda \mathcal{S}(z) + \alpha \cdot \mathcal{L}_{\text{max}\{z\}}$ ；对于修剪方法，通过对特征根据激活均方值或激活频率排序，并选择子集来实现渐进式重建，而不改变原始模型权重。

Experiment

实验设置: 使用Gemma-2-2b模型的第二层残差流激活（位置0-512）和Pile uncopyrighted数据集的50M标记子集，训练Matryoshka SAEs和修剪SAEs，并与基线TopK SAEs比较。粒度集合为M = {2^{14}, 2^{15}, 2^{16}}，稀疏水平包括{64/2^{16}, 128/2^{16}, 256/2^{16}, 512/2^{16}}。评估指标涵盖重建损失（FVU）、捕获的语言建模交叉熵损失、表示相似性（RSA，使用Pearson相关性计算表示差异矩阵）、以及可解释性（如模拟评分和模糊测试）。实验设计合理，控制了相对稀疏性，并在独立测试集（10^5标记）上评估。 结果: Matryoshka SAEs在不同粒度下显示出更低的重建损失和更高的RSA，表明重建保真度更好，但修剪SAEs在可解释性上更优（如模拟评分更高）。结果与预期一致，展示了方法改进的明显性（Matryoshka SAEs在渐进式编码上更高效），实验设置全面，考虑了粒度-保真度边界和稀疏性-保真度边界，但也揭示了特征分裂问题导致性能下降的权衡。

Further Thoughts

本文的Matryoshka SAEs框架突显了在保持高效计算的同时提升特征层次结构的潜力，未来可与跳跃ReLU激活函数或其他稀疏编码技术结合，减少特征分裂问题；此外，字典幂律假设可能扩展到计算机视觉或多模态学习领域，优化特征选择机制；同时，动态粒度采样策略（如嵌套dropout）可能进一步改善渐进式编码的泛化能力，推动AI模型在资源受限环境下的部署。