Interpreting Reinforcement Learning Agents with Susceptibilities
AI总结 本文提出了一种基于“易感性”的方法,用于解释强化学习智能体的行为,该方法通过研究损失函数扰动对观测量后验期望值的影响来揭示模型内部特性。研究将这一技术扩展到深度强化学习的遗憾(regret)分析中,并在一个具有非平凡阶段性发展的网格世界模型中验证了其有效性。实验表明,易感性能够揭示仅通过研究策略演化无法发现的模型参数空间中的内部特征,并通过激活引导进一步验证了其解释能力。
Comments 55 pages, comments welcome