PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding
PolySAE: 通过多项式解码建模稀疏自编码器中的特征交互
AI总结 提出PolySAE,在稀疏自编码器解码器中引入高阶项以建模特征交互,通过低秩张量分解在共享投影子空间上捕获成对和三元特征交互,在保持可解释性的同时提升探测F1约8%,并产生与共现频率无关的组合结构。
Comments 43rd International Conference on Machine Learning (ICML 2026); Code: https://github.com/pakoromilas/PolySAE