Most Transformer Modifications Still Do Not Transfer at 1-3B: A 2020-2026 Update to Narang et al. (2021) with Downstream Evaluation and a Noise Floor
大多数变换器修改仍无法在1-3B规模上迁移:对Narang等人(2021)的2020-2026年更新,包含下游评估和噪声底限
AI总结 本文在1-3B参数规模下,大多数变换器修改仍无法迁移,通过严格的等数据、等计算、等配方控制测试,并结合下游评估和噪声底限进行验证。
Comments 19 pages, 3 figures, under review at EMNLP 2026