Acceptance Cards:A Four-Diagnostic Standard for Safe Fine-Tuning Defense Claims
AI总结 该论文提出了一种名为“Acceptance Cards”的四维诊断标准,用于评估安全微调防御方法的有效性。研究指出,单纯依赖保留集差距缩小来判断防御效果可能不可靠,因此引入了包括统计可靠性、新语义泛化、机制对齐和跨任务迁移四个方面的评估体系。实验表明,SafeLoRA在该标准下未能通过全部诊断,揭示了现有安全微调方法在实际应用中的潜在缺陷。