Safety-Constrained Reinforcement Learning with Post-Training Reachability Verification for Robot Navigation
AI总结 该研究针对移动机器人在复杂环境中安全导航的问题,提出了一种结合条件风险价值(CVaR)约束优化与后训练可达性验证的强化学习框架。通过在离策略TD3算法中引入CVaR约束,使策略对高风险尾部事件更加敏感,从而提升安全性;训练后利用泰勒模型分析计算动作可达集,量化策略在不同状态下的安全余量。实验表明,该方法在多个导航场景中取得了最高的安全验证率,并揭示了传统平均成本指标可能遗漏的风险。