Can AI Make Conflicts Worse? An Alignment Failure in LLM Deployment Across Conflict Contexts
AI 是否会加剧冲突?在冲突情境下LLM部署中的对齐失败
发表机构 * Independent Researcher(独立研究者)
AI总结 本文研究了AI模型在冲突情境下可能产生的对齐失败问题,通过测试九种模型配置,发现其在处理冲突相关场景时存在错误等价、否认种族灭绝和未能识别种族歧视术语等问题,提出了首个评估框架以提高AI在冲突情境下的安全性。
Comments Preprint. 8 pages, 2 figures. Code and evaluation framework: https://github.com/akryshtal/conflict-sensitivity-eval-bloom