FlipAttack: Jailbreak LLMs via Flipping
AI总结 本文提出了一种简单而有效的黑盒大语言模型越狱攻击方法FlipAttack。该方法利用大语言模型从左到右理解文本的特性,通过在提示左侧添加噪声干扰模型理解,从而隐藏有害指令,并进一步扩展出四种翻转模式。实验表明,FlipAttack具有高度通用性、隐蔽性和简洁性,仅需一次查询即可成功越狱,对包括GPT-4o在内的多个模型均取得了高达约98%的攻击成功率。
Comments 43 pages, 31 figures