Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games with Average Reward
平均奖励均值场博弈的最大熵逆强化学习
发表机构 * Bilkent University(比尔肯大学) ; Özyeğin University(厄齐金大学)
AI总结 针对平均奖励准则下的离散时间无限时域均值场博弈,提出基于最大因果熵的逆强化学习方法,通过占据测度框架统一处理有限维线性奖励和无限维RKHS奖励,并设计梯度上升算法实现策略恢复。
Comments 49 pages, 2 figures, 2 tables