2606.01561
2026-06-16
cs.AI
cs.LG
版本更新
S-SPPO: Semantic-Calibrated Self-Play Preference Optimization
S-SPPO:语义校准的自对弈偏好优化
Xiwen Chen, Wenhui Zhu, Jingjing Wang, Peijie Qiu, Zhipeng Wang, Huayu Li, ZhengXiao He, Xuanzhao Dong, Prayag Tiwari, Mingkun Xu, Yujian Xiong, Feng Luo, Abolfazl Razi, Brendan Hogan Rappazzo, Anderson Schneider, Yuriy Nevmyvaka
发表机构
*
University of Arizona, USA(亚利桑那大学)
;
Arizona State University, USA(亚利桑那州立大学)
;
Now at Google LLC, work done at Rice University(现就职于谷歌公司,曾就职于里士大学)
;
Clemson University, USA(克莱姆森大学)
;
Washington University in St. Louis, USA(圣路易斯华盛顿大学)
;
Halmstad University, Sweden(哈姆斯塔德大学)
;
Guangdong Institute of Intelligence Science and Technology, China(广东智能科学与技术研究院)
AI总结
针对自对弈偏好优化(SPPO)中因偏好预测过度自信导致策略退化的问题,提出双空间语义校准框架S-SPPO,通过语义门控监督校准和潜在排斥表示校准,在保持博弈结构的同时提升对齐性能。