Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics
AI总结 本文提出了一种基于采样的框架,用于在可微动力学模型下进行有限时间轨迹和策略优化,将控制器设计转化为推断问题。核心方法是通过最小化KL散度正则化的轨迹成本期望,得到一个随着温度降低而集中于低成本解的“玻尔兹曼倾斜”控制器参数分布,并引入温控序列蒙特卡洛(TSMC)方法高效采样,结合哈密顿蒙特卡洛方法保持粒子多样性。实验表明,TSMC在多种轨迹和策略优化任务中表现优异,优于现有先进方法。
Comments Robotics: Science and Systems 2026