What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?
安全对齐的LLM从混合顺从演示中学到了什么?
专题命中 越狱攻击 :研究混合顺从演示对LLM有害顺从的影响
AI总结 研究通过混合良性顺从演示和有害顺从演示,探究演示组成如何驱动有害顺从,发现演示内容、顺序和训练方法影响模型提取的信息。
AI 大模型
大模型对齐、安全、越狱、红队、提示注入和可信评测。
安全对齐的LLM从混合顺从演示中学到了什么?
专题命中 越狱攻击 :研究混合顺从演示对LLM有害顺从的影响
AI总结 研究通过混合良性顺从演示和有害顺从演示,探究演示组成如何驱动有害顺从,发现演示内容、顺序和训练方法影响模型提取的信息。
分析针对基于模型引导的自动化攻击的防御性误导策略在智能体AI系统中的应用
发表机构 * Application & Threat Intelligence Research Center(应用与威胁情报研究中心)
专题命中 越狱攻击 :分析防御性误导策略对抗自动化越狱攻击。
AI总结 本文通过概率模型分析智能体AI系统的攻击-防御场景,提出“检测-误导”策略(如CMPE)以替代传统“检测-拦截”方法,通过产生误导性响应降低攻击者成功率,并在基准测试中将攻击成功率上限降低两个数量级。
FloatDoor: 大语言模型中的平台触发后门
发表机构 * University of Luebeck(吕贝克大学)
专题命中 越狱攻击 :提出平台触发的后门攻击方法
AI总结 提出FloatDoor,首个输入无关、平台触发的后门攻击,利用浮点运算平台差异,通过两个轻量LoRA适配器在目标平台触发恶意行为,同时保持模型正常效用。