Softsign: Smooth Sign in Your Optimizer For Better Parameter Heterogeneity Handling
Softsign: 优化器中的平滑符号函数以更好地处理参数异质性
AI总结 提出SoftSignum和SoftMuon优化器,通过温度控制的软符号变换替代硬符号映射,结合自适应分位数温度调度,解决基于符号的优化器在参数异质性和终端收敛上的问题,并在随机非凸设置下证明收敛性,实验表明在多种深度学习任务(包括大语言模型预训练)中优于硬符号优化器和AdamW。