Grad-ECLIP: Gradient-based Visual and Textual Explanations for CLIP
Grad-ECLIP: 基于梯度的CLIP视觉与文本解释
发表机构 * Department of Computer Science, City University of Hong Kong(香港城市大学计算机科学系) ; Division of Social Science and Department of Computer Science & Engineering, Hong Kong University of Science & Technology(香港科学与技术大学社会科学学院及计算机科学与工程系) ; SenseTime Group Ltd(时光集团有限公司)
AI总结 本文提出Grad-ECLIP方法,通过分解CLIP编码器架构并分析匹配相似度与中间空间特征的关系,生成有效热图以解释CLIP匹配结果。通过通道和空间权重提升视觉解释质量,并通过定性定量评估验证其有效性。