Imperfect World Models are Exploitable
不完美的世界模型是可利用的
AI总结 本文提出了一种新的强化学习中模型利用的定义,指出世界模型如果暗示某种策略应严格优于另一种策略,而真实环境转移模型却暗示相反,那么该模型就是可利用的。研究通过发展奖励黑客和模型利用的一般理论,证明在大规模策略集上利用本质上是不可避免的,并揭示了安全规划在世界模型中的局限性。
Comments 17 pages, 3 figures, 2 tables; modified (fixed metadata)