Effects of Momentum in Implicit Bias of Gradient Flow for Diagonal Linear Networks-《AAAI会议》2025
本文聚焦于回归场景中基于动量的方法的正则化效应,并分析了常见的对角线性网络,以精确刻画重球法(HB)和涅斯捷罗夫加速梯度法(NAG)连续版本的隐式偏差。我们表明,对于对角线性网络,HB 和 NAG 展现出与梯度下降法(GD)不同的隐式偏差,这与经典线性回归问题的情况有所不同,在经典线性回归问题中,基于动量的方法与 GD 具有相同的隐式偏差。具体而言,动量在 GD 隐式偏差中的作用有两方面:(a) HB 和 NAG 会引发类似于随机梯度下降法(SGD)的额外初始化缓解效应,这有利于稀疏回归的泛化;(b) HB 和 NAG 的隐式正则化效应还明确取决于梯度的初始化情况,而这对泛化而言可能并非有益。因此,HB 和 NAG 是否比 GD 具有更好的泛化性能,共同取决于上述由学习率、动量因子、梯度积分等各种参数所决定的两方面效应。我们的研究结果凸显了动量潜在的有益作用,并有助于理解它在实践中的优势,例如何时能带来更优的泛化性能。
发布日期:2025.03.04