On the Convergence Rate of LoRA Gradient Descent
AI总结 本文研究了原始LoRA梯度下降算法的收敛速率问题,该算法在微调大模型中广泛应用,因其计算效率高且效果良好。由于LoRA缺乏Lipschitz平滑性,其收敛性分析较为困难,现有理论多依赖强假设或仅分析渐进行为。本文首次在不依赖这些假设的前提下,提供了LoRA梯度下降的非渐近收敛分析,证明其收敛速率可达 $O\left(\frac{1}{\log T}\right)$,并通过数值实验验证了理论结果。
Comments ICML 2026