PowerStep: Memory-Efficient Adaptive Optimization via $\ell_p$-Norm Steepest Descent
AI总结 本文提出了一种名为 PowerStep 的内存高效的自适应优化算法,旨在解决大规模神经网络训练中传统自适应优化器(如 Adam)所面临的内存开销过大的问题。该方法通过在动量缓冲区上直接应用非线性变换,实现了坐标自适应性,而无需存储二阶矩统计量。实验表明,PowerStep 在保持与 Adam 相当收敛速度的同时,显著降低了优化器的内存占用,并在结合量化技术后进一步提升了内存效率。