Benchmarking Gaslighting Attacks Against Speech Large Language Models
针对语音大语言模型的气灯攻击基准测试
发表机构 * Singapore Management University(新加坡管理学院) ; Tongyi Speech Lab(通义语音实验室) ; Dalian University of Technology(大连理工大学)
AI总结 随着语音大语言模型(Speech LLMs)在语音应用中的广泛应用,确保其对操纵性或对抗性输入的鲁棒性变得尤为重要。本文引入了一种新型对抗攻击——“Gaslighting攻击”,通过精心设计的提示误导模型推理,评估Speech LLMs的脆弱性,并提出了五种操纵策略用于测试模型在不同任务下的鲁棒性。实验结果显示,五种攻击策略平均使模型准确率下降24.3%,突显了当前语音AI系统在行为层面存在的显著漏洞,亟需提升其鲁棒性和可靠性。
Comments 5 pages, 2 figures, 3 tables