Steerable Cultural Preference Optimization of Reward Models
可引导的文化偏好优化奖励模型
发表机构 * Stanford University(斯坦福大学) ; University of Amsterdam(阿姆斯特丹大学)
专题命中 偏好对齐 :提出SCPO算法优化奖励模型文化偏好对齐
AI总结 提出SCPO算法,通过平衡多种文化偏好训练奖励模型,在PRISM和GlobalOpinionQA数据集上提升少数群体偏好预测准确率最多7点,训练效率提高280%。
Comments Accepted to Pluralistic Alignment @ ICML 2026