Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate
量化超参数迁移与嵌入层学习率的重要性
发表机构 * Department of Physics, University of Maryland, College Park(马里兰大学物理系) ; Department of Computer Science, University of Maryland, College Park(马里兰大学计算机科学系) ; Joint Quantum Institute, University of Maryland, College Park(马里兰大学联合量子研究所) ; Meta Superintelligence Labs, Fundamental AI Research(Meta超智能实验室,基础人工智能研究)
AI总结 本文研究了超参数迁移的量化方法,通过三种指标评估超参数迁移的质量,发现Maximal Update(μP)参数化在训练中通过最大化嵌入层学习率提升了超参数迁移质量,而权重衰减虽改善了缩放定律拟合,但会降低外推鲁棒性。
Comments 10+28 pages, 5+17 figures