arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型对齐与安全

大模型对齐、安全、越狱、红队、提示注入和可信评测。

今日/当前日期收录 3 信号源:cs.CL, cs.AI, cs.CY, cs.LG
2606.20508 2026-06-19 cs.AI cs.LG 新提交 专题 90

What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?

安全对齐的LLM从混合顺从演示中学到了什么?

Sihui Dai, Mann Patel

专题命中 越狱攻击 :研究混合顺从演示对LLM有害顺从的影响

AI总结 研究通过混合良性顺从演示和有害顺从演示,探究演示组成如何驱动有害顺从,发现演示内容、顺序和训练方法影响模型提取的信息。

2606.20470 2026-06-19 cs.CR cs.AI 新提交 专题 90

Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems

分析针对基于模型引导的自动化攻击的防御性误导策略在智能体AI系统中的应用

Reza Soosahabi, Vivek Namsani

专题命中 越狱攻击 :分析防御性误导策略对抗自动化越狱攻击。

AI总结 本文通过概率模型分析智能体AI系统的攻击-防御场景,提出“检测-误导”策略(如CMPE)以替代传统“检测-拦截”方法,通过产生误导性响应降低攻击者成功率,并在基准测试中将攻击成功率上限降低两个数量级。

2606.19535 2026-06-19 cs.CR cs.LG 新提交 专题 90

FloatDoor: Platform-Triggered Backdoors in LLMs

FloatDoor: 大语言模型中的平台触发后门

Nils Loose, Jonas Sander, Felix Mächtle, Thomas Eisenbarth

专题命中 越狱攻击 :提出平台触发的后门攻击方法

AI总结 提出FloatDoor,首个输入无关、平台触发的后门攻击,利用浮点运算平台差异,通过两个轻量LoRA适配器在目标平台触发恶意行为,同时保持模型正常效用。