DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models
AI总结 本文提出 DisaBench,一个用于评估语言模型中与残疾相关危害的参与式评价框架。该框架通过与残疾人士和红队专家共同创建的十二类残疾危害分类,结合七类生活场景中的良性与对抗性提示,构建了一个包含175个提示和525对标注响应的数据集。研究发现,残疾相关危害因类型不同而差异显著,并在非文本模态中叠加出现,且其评估具有文化与时间依赖性,常规安全评估难以识别细微危害。该框架强调残疾危害的个人性、交叉性和社区定义特征,现有通用安全基准难以全面捕捉此类问题。