Safe, or Simply Incapable? Rethinking Safety Evaluation for Phone-Use Agents
AI总结 本文探讨了手机使用代理在避免危害时,究竟是表现出安全性还是仅仅缺乏行动能力的问题。为了解决现有评估方法无法区分这两类情况的缺陷,研究者构建了PhoneSafety基准,包含700个来自130多款应用的真实安全关键时刻。通过分析八个代表性代理的表现,研究发现更强的通用能力并不一定意味着更高的安全性,且无法采取有效行动的情况更多反映的是能力不足而非安全问题,这对手机使用代理的安全评估提出了新的思考方向。
Comments work in progress