From Cumulative Constraints to Adaptive Runtime Safety Control for Nonstationary Reinforcement Learning
从累积约束到适应性运行时安全控制:非平稳强化学习
发表机构 * McMaster Centre for Software Certification(麦斯特软件认证中心) ; Department of Computing and Software(计算与软件系) ; McMaster University(麦斯特大学)
AI总结 本文提出了一种适应性运行时安全控制机制CPSS,通过将累积安全预算转化为适应性的状态级控制约束,以应对非平稳强化学习中的安全问题,通过动态调整安全阈值来保证执行动作的安全性,同时在多个高速公路合并场景中验证了其有效性。
Comments 13 pages. Preprint version