Adversarial Concept Search: Predicting Compositional Errors From Feature Geometry
对抗性概念搜索:从特征几何预测组合错误
发表机构 * Brown University(布朗大学) ; University of Southern California(南加州大学) ; Harvard University(哈佛大学) ; Boston University(波士顿大学)
AI总结 利用LLM的表征几何预测其组合失败模式,发现概念编码近正交时可靠组合,编码接近时因干扰导致失败,无需评估具体输入即可预测错误。