Metadata Predictability Is Not Evidence Dependence: An Intervention-Based Audit for Weak-Label Benchmarks
元数据可预测性并非证据依赖性:基于干预的弱标签基准审计
AI总结 本文研究了弱标注基准测试中的一种协议级测试方法,即在干预提供的证据时,基准输出是否会变化。作者指出,仅基于元数据的快捷检查关注的是输出是否可由元数据预测,而非对证据的依赖性。为此,他们结合元数据统计量MPDS与证据干预统计量ΔEvi,揭示了元数据预测能力与证据敏感性的区别,并通过实验展示了不同数据集在不同模型下的表现差异,强调在基准审计中应同时报告元数据筛选、证据干预和模型校准结果。