Spectrum-Adaptive Generalization Bounds for Trained Deep Transformers
AI总结 本文研究了训练好的Transformer模型泛化性能良好的原因,提出了基于谱适配的后验泛化界。通过逐层控制谱范数,作者将泛化界表示为查询-键、值和前馈权重矩阵的Schatten量,这些量可根据训练后的奇异值分布进行自适应选择,从而在谱复杂度与维度、深度相关因素之间取得平衡。实验表明,与基于范数的界相比,本文提出的复杂度代理量随深度和隐藏维度的增长速度更慢,为理解Transformer的泛化能力提供了新的视角。