2602.06911
2026-06-04
cs.CR
cs.AI
TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering
TamperBench:系统化压力测试微调和篡改下的LLM安全性
Saad Hossain, Tom Tseng, Punya Syon Pandey, Samanvay Vajpayee, Matthew Kowal, Nayeema Nonta, Samuel Simko, Stephen Casper, Zhijing Jin, Kellin Pelrine, Sirisha Rambhatla
发表机构
*
Critical ML Lab Waterloo Canada(Waterloo大学Critical ML实验室)
;
FAR.AI Berkeley USA(伯克利美国FAR.AI公司)
;
University of Toronto Toronto Canada(多伦多大学)
;
University of Waterloo Waterloo Canada(Waterloo大学)
;
ETH Zürich Zürich Switzerland(苏黎世联邦理工学院)
;
MIT CSAIL Cambridge USA(麻省理工学院CSAIL实验室)
;
University of Toronto, MPI, EuroSafeAI, Vector Institute Toronto Canada(多伦多大学、马克斯·普朗克研究所、EuroSafeAI、Vector Institute)
;
Critical ML Lab University of Waterloo Waterloo Canada(Waterloo大学Critical ML实验室)
AI总结
提出统一框架TamperBench,通过系统化超参数扫描评估21个开源LLM在9种篡改威胁下的安全性和实用性,发现越狱微调是最严重攻击,当前对齐阶段防御基本失效。