Mind the Gap: How Elicitation Protocols Shape the Stated-Revealed Preference Gap in Language Models
AI总结 该研究探讨了语言模型中陈述偏好与揭示偏好之间的差距(SvR gap),并分析了不同偏好获取协议对此差距的影响。研究发现,允许在陈述偏好过程中表达中立或弃权可以提升偏好相关性,但若在揭示偏好中也允许弃权,则可能导致相关性显著下降。研究强调,偏好获取方法需考虑不确定偏好,以更准确地评估模型的真实价值倾向。
Comments Accepted to ACL 2026 Eval Eval Workshop and 3rd Technical AI Safety Conference (TAIS 2026)