OrScale: Orthogonalised Optimization with Layer-Wise Trust-Ratio Scaling
AI总结 OrScale 是一种基于正交化优化的新型训练方法,通过引入层-wise 信任比缩放机制,改进了 Muon 在神经网络训练中的更新策略。该方法利用实际参数方向的 Frobenius 范数作为分母,实现了更精确的层适应性更新,有效避免了传统混合方法中的收敛问题。实验表明,OrScale 在图像分类和语言模型预训练任务中均优于现有方法,展现出更强的收敛性和泛化能力。