2510.16380
2026-06-12
cs.CL
cs.AI
cs.CY
cs.HC
cs.LG
版本更新
MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes
MoReBench:评估语言模型中的程序性和多元道德推理,超越结果
Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Raphaël Millière, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Conor Downey, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine
发表机构
*
University of Washington(华盛顿大学)
;
New York University(纽约大学)
;
Scale AI
;
Harvard University(哈佛大学)
;
University of Michigan(密歇根大学)
;
UNC Chapel Hill(北卡罗来纳大学教堂山分校)
;
Center for AI Safety(人工智能安全中心)
;
Stanford University(斯坦福大学)
;
MIT(麻省理工学院)
;
University of Oxford(牛津大学)
AI总结
提出MoReBench基准,包含1000个道德场景和超过2.3万条标准,用于评估语言模型在道德推理中的程序性推理能力,发现现有基准无法预测模型表现,且模型对特定道德框架存在偏好。