Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning¶

会议: NEURIPS2025
arXiv: 2504.02922
代码: 待确认
领域: recommender / interpretability
关键词: Crosscoder, 稀疏性伪影, BatchTopK, chat调优解释

一句话总结¶

识别Crosscoder L1训练中的稀疏性伪影导致虚假模型特定潜变量归因，提出BatchTopK损失+Latent Scaling揭示真正的chat特定概念。

Crosscoder用于解释base/chat模型差异，但L1稀疏化引入伪影。

Latent Scaling标记存在测量误差；BatchTopK代替L1；因果效应测试。

Gemma 2 2B base/chat；揭示chat特定潜变量。

识别L1引入的伪影；BatchTopK缓解。

BatchTopK仅部分缓解；单模型对。