AI 大模型

大模型对齐与安全

大模型对齐、安全、越狱、红队、提示注入和可信评测。

今日/当前日期收录 3 篇信号源：cs.CL, cs.AI, cs.CY, cs.LG

2606.20508 2026-06-19 cs.AI cs.LG 新提交专题 90

What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?

安全对齐的LLM从混合顺从演示中学到了什么？

Sihui Dai, Mann Patel

专题命中越狱攻击：研究混合顺从演示对LLM有害顺从的影响

AI总结研究通过混合良性顺从演示和有害顺从演示，探究演示组成如何驱动有害顺从，发现演示内容、顺序和训练方法影响模型提取的信息。

URL PDF HTML

2606.20470 2026-06-19 cs.CR cs.AI 新提交专题 90

分析针对基于模型引导的自动化攻击的防御性误导策略在智能体AI系统中的应用

Reza Soosahabi, Vivek Namsani

专题命中越狱攻击：分析防御性误导策略对抗自动化越狱攻击。

AI总结本文通过概率模型分析智能体AI系统的攻击-防御场景，提出“检测-误导”策略（如CMPE）以替代传统“检测-拦截”方法，通过产生误导性响应降低攻击者成功率，并在基准测试中将攻击成功率上限降低两个数量级。

URL PDF HTML

2606.19535 2026-06-19 cs.CR cs.LG 新提交专题 90

FloatDoor: 大语言模型中的平台触发后门

Nils Loose, Jonas Sander, Felix Mächtle, Thomas Eisenbarth

专题命中越狱攻击：提出平台触发的后门攻击方法

AI总结提出FloatDoor，首个输入无关、平台触发的后门攻击，利用浮点运算平台差异，通过两个轻量LoRA适配器在目标平台触发恶意行为，同时保持模型正常效用。

URL PDF HTML