Natural Policy Gradient as Doubly Smoothed Policy Iteration: A Bellman-Operator Framework
发表机构 * Edwardson School of Industrial Engineering, Purdue University(工业工程学院,普渡大学)
AI总结 本文将强化学习中的自然策略梯度算法表示为一种双重平滑策略迭代(DSPI)形式,并将其嵌入到贝尔曼算子的框架中。该框架通过在历史 Q 函数的加权平均上应用正则化贪心步骤来生成策略,涵盖了策略迭代、双平均策略迭代等多种方法。作者证明了 DSPI 在无需修改 MDP 或使用轨迹依赖步长的情况下,具有分布无关的全局几何收敛性,并给出了自然策略梯度和策略双平均方法的迭代复杂度上界。此外,该框架还可扩展至具有线性函数逼近的折扣 MDP 和随机最短路径问题。