2605.13554
2026-05-14
cs.LG
cs.AI
Self-Supervised On-Policy Reinforcement Learning via Contrastive Proximal Policy Optimisation
Asim Osman, Sasha Abramowitz, Mark Bergh, Ulrich Armel Mbou Sob, Ruan John de Kock, Omayma Mahjoub, Oussama Hidaoui, Noah De Nicola, Arnol Manuel Fokam, Felix Chalumeau, Daniel Rajaonarivonivelomanantsoa, Siddarth Singh, Refiloe Shabe, Juan Claude Formanek, Simon Verster Du Toit, Arnu Pretorius
AI总结
本文提出了一种基于对比学习的策略优化算法——对比近端策略优化(CPPO),用于实现无需人工设计奖励函数的自监督强化学习。该方法通过对比状态-动作与目标的表示学习Q值,并直接在策略上优化这些对比Q值,从而实现了端到端的自监督训练。实验表明,CPPO在多种连续和离散动作空间的单智能体和协作多智能体任务中,不仅显著优于现有对比强化学习方法,还在多数任务中达到了使用人工密集奖励的PPO算法的性能水平。