DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention
DashAttention: 可微且自适应的稀疏分层注意力
发表机构 * Tsinghua University(清华大学) ; Instituto Superior Técnico, Universidade de Lisboa(里斯本大学理工学院) ; Instituto de Telecomunicações(电信研究院) ; Carnegie Mellon University(卡内基梅隆大学) ; Sapienza University of Rome(罗马萨皮恩扎大学) ; University of Edinburgh(爱丁堡大学) ; TransPerfect(TransPerfect公司) ; ELLIS Unit Lisbon(里斯本ELLIS单位)
AI总结 本研究提出DashAttention,一种可微且自适应的稀疏分层注意力机制,通过自适应稀疏α-entmax变换选择可变数量的块,从而在保持整个层次结构可微的同时,提升长上下文建模能力,实验表明其在高稀疏度下优于现有方法。
Comments Preprint