LLM agent safety, multi-turn red-teaming, jailbreak benchmarks, adversarial robustness, safety-critical systems
LLM智能体安全性、多轮红队测试、越狱基准、对抗鲁棒性、安全关键系统
发表机构 * AIM Intelligence(AIM智能公司) ; KAERI(韩国原子能研究所)
专题命中 红队测试 :多轮红队测试基准评估LLM智能体在安全关键系统中的鲁棒性
AI总结 提出NRT-Bench基准,通过模拟核电站控制室的多轮红队测试,评估LLM智能体在安全关键系统中的对抗鲁棒性,发现不同模型的漏洞几乎不重叠,且防御效果高度依赖模型。