Rethinking Fraud Safety Evaluation: Multi-Round Attacks Reveal Safety-Utility Tradeoffs in Graph-Context LLM Defenders
重新思考欺诈安全评估:多轮攻击揭示图上下文LLM防御中的安全与效用权衡
AI总结 本文通过多轮攻击评估欺诈防御系统,发现图上下文防御在早期安全拒绝方面优于纯文本基线,但同时产生更多的良性误报,揭示了安全与效用之间的权衡。
Comments 19 pages, 3 figures