How Linear Is a Transformer Feed-Forward Block? Per-Block Linear Recoverability Is Learned, Not Architectural
Transformer 前馈块有多线性?逐块线性可恢复性是学习得到的,而非架构决定的
发表机构 * Independent Research(独立研究)
AI总结 通过精确最小二乘线性近似,测量训练后 Transformer 各前馈块的线性可恢复性,发现其高度异质且非单调,是学习得到的属性而非架构决定,并可用于压缩和诊断。
Comments 14 pages, 5 figures