HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization
HydraHead:从头部级功能异质性到专业化注意力混合
发表机构 * Alibaba Group(阿里巴巴集团)
专题命中 长上下文 :长上下文注意力混合架构
AI总结 提出HydraHead架构,沿头部维度混合全注意力和线性注意力,通过可解释性驱动的头部选择和尺度归一化融合模块,在长上下文任务中优于层级混合设计,仅用15B token训练即在512K上下文长度上提升69%。