大模型对齐与安全

2606.18673 2026-06-18 cs.CR 新提交专题 95

Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications

理解并缓解真实世界基于LLM的应用中的提示泄露攻击

Yong Yang, Chong Fu, Tong Zhang, Rui Zeng, Qingming Li, Tianyu Du, Zonghui Wang, Shouling Ji, Wenzhi Chen

专题命中安全评测：系统提示泄露攻击与防御

AI总结本研究系统测量了1200个真实世界基于LLM的应用，发现超过80%会泄露系统提示，并提出了基于注意力漂移分析的AREA防御方法，在保持可用性的同时有效防止泄露。

Comments Accepted at ACM CCS 2026

URL PDF HTML

2606.19222 2026-06-18 cs.LG cs.AI 新提交专题 90

Mechanism-Guided Selective Unlearning for RLVR-Induced Reasoning

机制引导的选择性遗忘：针对RLVR诱导的推理

Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou

专题命中安全评测：针对RLVR推理的遗忘方法，涉及模型安全

AI总结提出MAST方法，通过机制引导选择性更新参数，在遗忘RLVR诱导的推理行为时，显著降低对保留性能的附带损害。

Comments 15 pages, 4 figures, 7 tables

URL PDF HTML

2606.19168 2026-06-18 cs.AI cs.LG 新提交专题 90

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

超越安全数据：具有正则安全反射的预训练阶段对齐

Jinhan Li, Kexian Tang, Yihan Xu, Zhuorui Ye, Kaifeng Lyu

专题命中安全评测：预训练阶段安全对齐方法，属于安全

AI总结提出安全反射预训练方法，在预训练语料中插入安全反思，使模型具备自我监控能力，实验表明该方法能有效降低推理和微调攻击成功率。

URL PDF HTML

2606.19023 2026-06-18 cs.CR cs.LG 新提交专题 90

Lifecycle-Aware Dynamic Analysis for Secure ML Model Execution

生命周期感知的动态分析用于安全ML模型执行

Gabriele Digregorio, Marco Di Gennaro, Francesco Pastore, Stefano Zanero, Stefano Longari, Michele Carminati

专题命中安全评测：提出动态生命周期分析方法检测ML模型恶意行为。

AI总结提出Moat，一种动态生命周期感知方法，通过监控模型执行各阶段与宿主系统的结构化交互来检测恶意行为，在多个框架上实现零误报率。

URL PDF HTML

2606.18656 2026-06-18 cs.CL 新提交专题 90

The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs

错误的正确：量化和定位大语言模型中的失调对齐

Naihao Deng, Yiming Feng, Chimaobi Okite, Kaijian Zou, Lu Wang, Rada Mihalcea, Yulong Chen

专题命中安全评测：提出失调对齐基准VETO和量化指标MAR

AI总结本文提出VETO基准和失调对齐率（MAR）指标，发现所有LLM在刻板印象相关问题上均存在非平凡的失调对齐，且人类为0%，机制分析表明对齐诱导的线索会放大该现象。

URL PDF HTML

2606.18430 2026-06-18 cs.LG cs.CR 新提交专题 90

Signature filtering: a lightweight enhancement for statistical watermark detection in large language models

签名过滤：大型语言模型中统计水印检测的轻量级增强方法

Chih-Duo Hong, Yen-Pang Chen, Fang Yu

专题命中安全评测：提出签名过滤增强LLM水印检测

AI总结提出签名过滤模块，通过移除干扰水印检测的签名令牌，在弱信号和低熵设置下将检测率从8-31%提升至78-99%，同时保持可控的假阳性率。

URL PDF HTML

2606.18356 2026-06-18 cs.CR cs.AI 新提交专题 90

SafeClawBench: Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents

SafeClawBench: 区分工具使用LLM代理中的语义、审计证据和沙箱危害

Yuchuan Tian, Mengyu Zheng, Haocheng Mei, Ye Yuan, Chao Xu, Xinghao Chen, Hanting Chen, Yu Wang

专题命中安全评测：提出工具使用LLM代理安全基准，区分语义、审计和沙箱危害。

AI总结提出SafeClawBench基准，通过三个独立端点（语义攻击接受、审计可见危害证据、沙箱观察危害）评估工具使用LLM代理的安全性，揭示不同失败模式并支持可复现比较。

Comments 32 pages, 5 figures

URL PDF HTML

2412.16468 2026-06-18 cs.LG 版本更新专题 90

The Road to Artificial SuperIntelligence: A Comprehensive Survey of Superalignment

通往人工超级智能之路：超级对齐的全面综述

HyunJin Kim, DongHyun Ryu, Xiaoyuan Yi, Jing Yao, Jianxun Lian, Muhua Huang, Shitong Duan, JinYeong Bak, Xing Xie

专题命中安全评测：综述超级对齐问题，分析可扩展监督范式

AI总结本文综述了超级对齐问题，通过分析可扩展监督范式（夹层、自我增强和弱到强泛化）及其局限性，探讨了监督、控制和管理人工超级智能的挑战与路径。

Comments 24 pages

URL PDF HTML

2606.19106 2026-06-18 cs.CR cs.CY 新提交专题 85

Quantifying Compromise Risk in Exceptional Access Architectures Under Sparse and Indirect Evidence

在稀疏和间接证据下量化特殊访问架构中的泄露风险

Alan Woodward

专题命中安全评测：量化特殊访问架构的系统性泄露风险，属于安全评测。

AI总结针对特殊访问系统缺乏公开泄露数据的问题，构建结构化不确定性框架，通过历史类比、蒙特卡洛场景、信道独立性分解和贝叶斯结构风险模型，量化传输层与平台层EA架构的系统性泄露风险，发现两类架构风险均高于无EA基线，且分布形态不同。

URL PDF HTML

2606.18936 2026-06-18 cs.AI cs.CY 新提交专题 85

SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

SciRisk-Bench：面向AI4Science安全的风险维度感知基准

Linghao Feng, Yinqian Sun, Dongqi Liang, Sicheng Shen, Chenfei Yan, Yuxuan Peng, Yilin Zhao, Haibo Tong, Kai Li, FeiFei Zhao, Yi Zeng

专题命中安全评测：提出科学领域安全基准，评测风险维度

AI总结提出SciRisk-Bench基准，从显式风险维度和科学学科两个角度评估AI4Science安全，覆盖7个学科、31个子学科和10个风险维度，实验揭示主流及科学大模型的安全薄弱环节。

URL PDF HTML

2606.18782 2026-06-18 cs.CL cs.AI 新提交专题 85

RedactionBench

RedactionBench：基于上下文完整性的隐私保护基准测试

Sean Brynjólfsson, Shashvat Jayakrishnan, Esha Sali, Diptanshu Purwar, Madhav Aggarwal

专题命中安全评测：提出隐私保护基准测试，评估大模型上下文完整性。

AI总结 RedactionBench通过200个跨11个领域的文档，评估红actions的上下文隐私问题，提出R-Score指标，揭示红actions的主观性，推动隐私保护系统的发展。

URL PDF HTML

2606.18473 2026-06-18 cs.CL 新提交专题 85

PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

PreUnlearn: 在大语言模型遗忘之前审计附带知识损害

Bo Su, Ankit Shah, Thai Le

专题命中安全评测：审计大模型遗忘的附带知识损害

AI总结提出PreUnlearn方法，通过数据特征预测遗忘操作对同领域和远距离知识的附带损害，实现遗忘前的风险审计。

Comments 12 pages, 6 figures

URL PDF HTML

2606.12618 2026-06-18 cs.AI 新提交专题 85

"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

“你撒谎了吗？”评估不同规模模型和信念验证模型生物体的谎言检测器

Alan Cooney, David Africa, Geoffrey Irving

专题命中安全评测：评估语言模型谎言检测器

AI总结本研究通过构建13个信念可验证的推理模型生物体和多样化提示撒谎测试集，评估了四种谎言检测器在不同规模模型上的表现，发现基于激活和概率的检测器在训练模型生物体上性能显著下降，而思维链法官保持较强性能，但存在伪影。

Comments 12 pages, 6 figures

URL PDF HTML

2505.20045 2026-06-18 cs.CL 版本更新专题 85

Efficient Hallucination Detection for LLMs Using Uncertainty-Aware Attention Heads

基于不确定性感知注意力头的高效大语言模型幻觉检测

Artem Vazhentsev, Lyudmila Rvanova, Gleb Kuzmin, Ekaterina Fadeeva, Ivan Lazichny, Alexander Panchenko, Maxim Panov, Mrinmaya Sachan, Preslav Nakov, Timothy Baldwin, Artem Shelmanov

专题命中安全评测：无监督幻觉检测，提升LLM可靠性

AI总结提出RAUQ框架，利用不确定性感知注意力头与令牌级置信度，通过单次前向传递实现无监督、高效的序列级幻觉检测，在12个数据集上优于现有方法且额外计算少于1%。

Journal ref Proceedings of the 43rd International Conference on Machine Learning (ICML), Seoul, South Korea, 2026

URL PDF HTML

2606.19057 2026-06-18 stat.ML cs.LG stat.CO stat.ME 新提交专题 80

Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning

通过正-无标签学习量化与审计大语言模型评估

Zilong Zhang, Yi-Ting Hung, Lei Ding, Chi-Kuang Yeh

专题命中安全评测：审计LLM评估偏差

AI总结针对大语言模型作为评估者存在的系统性偏差（如冗长偏好），提出基于部分最优传输的几何审计框架，利用少量人工验证正样本校正偏差，无需重训练即可提升与人类偏好的一致性。

URL PDF HTML

2606.19262 2026-06-18 cs.LG 新提交专题 80

Detecting Hidden ML Training With Zero-Overhead Telemetry

使用零开销遥测检测隐藏的机器学习训练

Robi Rahman, Sabiha Tajdari

专题命中安全评测：检测隐藏ML训练，用于AI治理安全

AI总结本文评估了仅使用零开销、隐私保护的NVML遥测（内容无关信号）对GPU工作负载分类的对抗鲁棒性，开发了一个分类器，在识别训练工作负载时达到98.2%的二元准确率，并对最具挑战性的意外工作负载达到43-87%的准确率。

Comments Technical AI Governance Research workshop at ICML 2026

URL PDF HTML

2606.19242 2026-06-18 cs.SE 新提交专题 80

Runtime Compliance Verification for AI Agents

AI代理的运行时合规性验证

Nafiseh Kahani, Masoud Barati, Diana Addae

专题命中安全评测：运行时监控确保GDPR合规

AI总结提出C-Trace框架，通过运行时监控和形式化策略谓词，确保AI代理在工具调用和对话中遵守GDPR规则，将攻击成功率降至12%以下。

URL PDF HTML

2606.18767 2026-06-18 cs.CL 新提交专题 80

Output Vector Editing for Memorization Mitigation in Large Language Models

输出向量编辑：缓解大型语言模型中的记忆化问题

Ahmad Dawar Hakimi, Kaiwei Lei, Isabelle Augenstein, Hinrich Schütze

专题命中安全评测：缓解LLM记忆化，输出向量编辑方法。

AI总结提出输出向量编辑方法，通过约束优化修改MLP神经元输出向量引入干扰项，在不改变激活值的情况下抑制记忆化序列，在OLMo-7B上实现87.9%抑制率，并揭示MLP编辑的机制边界。

URL PDF HTML

2606.18532 2026-06-18 cs.CR cs.AI cs.RO cs.SE 新提交专题 80

AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework

AI沙箱：威胁模型、分类法与测量框架

Inderjeet Singh, Haitham Mahmoud, Andrés Murillo

专题命中安全评测：AI沙箱威胁模型与测量框架

AI总结提出AI沙箱的威胁模型、分类法和测量框架，形式化沙箱边界与最弱链规则，定义网络物理威胁模型，并通过三个案例验证。

Comments 50 pages, 8 figures, 10 tables

URL PDF HTML

2605.17986 2026-06-18 cs.CR cs.AI 版本更新专题 95

LivePI: More Realistic Benchmarking of Agents Against Indirect Prompt Injection

LivePI：更真实的智能体对抗间接提示注入基准测试

Lei Zhao, Abhay Bhaskar, Edgar Dobriban

专题命中提示注入：基准测试AI智能体对抗间接提示注入，核心是安全。

AI总结提出LivePI基准，覆盖7种输入表面、12种攻击/渲染家族和5种恶意目标，在真实虚拟机环境中评估多个AI智能体，发现攻击成功率10.7%-29.6%，并验证了两层防御的有效性。

URL PDF HTML

2606.18550 2026-06-18 cs.CR 新提交专题 85

The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating

门仅与其合约一样诚实：面向风险感知因果门控合约层的ContractGuard

Laxmipriya Ganesh Iyer, Rahul Suresh Babu

专题命中提示注入：防御间接提示注入攻击

AI总结针对工具增强型LLM代理的间接提示注入，提出ContractGuard，通过验证合约完整性（而非风险标签）来防御攻击，在基准测试中实现零注入成功率。

URL PDF HTML

2606.18530 2026-06-18 cs.CR cs.CL cs.LG 新提交专题 85

Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks

评估基于提示的防御策略对抗领域伪装注入攻击

Aaditya Pai

专题命中提示注入：评估防御领域伪装注入攻击

AI总结针对领域伪装注入攻击，评估五种基于提示的防御方法（如释义、重点标记等）在三个模型家族和三个部署领域中的有效性，发现释义法最有效，可将伪装攻击成功率降低55-84%。

Comments 9 pages, 4 figures, 4 tables; under review at the AdvML-Frontiers x CoTMA workshop, COLM 2026

URL PDF HTML

2606.19235 2026-06-18 cs.CR 新提交专题 80

CodeSentinel: A Three-Layer Defense Against Indirect Prompt Injection in Code Contexts

CodeSentinel：代码上下文中针对间接提示注入的三层防御

Po-Han Cheng, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

专题命中提示注入：针对代码上下文的提示注入防御

AI总结针对代码大语言模型在检索外部代码时面临的间接提示注入攻击，提出CodeSentinel三层推理时净化器，结合语法引导预过滤、CST引导动态Min-K%评分和节点扰动分析，实现0.80节点级F1，优于现有方法。

URL PDF HTML

2410.15595 2026-06-18 cs.AI cs.CL cs.LG 版本更新专题 95

A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications

直接偏好优化综述：数据集、理论、变体及应用

Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu

专题命中偏好对齐：DPO是偏好对齐的核心方法之一

AI总结综述直接偏好优化（DPO）在理论、变体、数据集和应用方面的进展，指出其作为RL-free替代方案的潜力与局限，并提出未来研究方向。

Comments Accepted by TPAMI 2026. Project page: https://github.com/Mr-Loevan/DPO-Survey

URL PDF HTML

2606.18606 2026-06-18 cs.CL cs.AI 新提交专题 90

Steerable Cultural Preference Optimization of Reward Models

可引导的文化偏好优化奖励模型

Minsik Oh, Advit Deepak, Sophie Wu, Douwe Kiela, Ekaterina Shutova

专题命中偏好对齐：提出SCPO算法优化奖励模型文化偏好对齐

AI总结提出SCPO算法，通过平衡多种文化偏好训练奖励模型，在PRISM和GlobalOpinionQA数据集上提升少数群体偏好预测准确率最多7点，训练效率提高280%。

Comments Accepted to Pluralistic Alignment @ ICML 2026

URL PDF HTML

2606.18487 2026-06-18 cs.LG cs.AI cs.CL 新提交专题 90

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

SFT 过训练通过熵崩溃预测 RLVR 下的排名反转

Siddharth Aphale, Kelly Liu

专题命中偏好对齐：SFT过训练导致RLVR下排名反转

AI总结研究发现 SFT 过度训练导致 rollout 分布熵降低，使 GRPO 中优势信号消失，从而引发排名反转；提出基于熵的两阶段诊断方法可预警高风险检查点。

Comments 14 pages, 6 figures. Accepted at the Deep Learning for Code (DL4C) Workshop at ICML 2026

URL PDF HTML

2606.16276 2026-06-18 cs.AI 新提交专题 90

SpecAlign: Efficient Specification-Grounded Alignment of Large Language Models via Synthetic Data

SpecAlign: 通过合成数据实现高效的大语言模型规范对齐

Wenjie Wang, Yue Huang, Zhengqing Yuan, Han Bao, Shiyi Du, Yuchen Ma, Yue Zhao, Yanfang Ye, Xiangliang Zhang

专题命中偏好对齐：规范对齐框架，合成数据实现规则遵守

AI总结提出规范对齐新范式，通过从规范文档合成数据（SpecAlign框架），结合结构化规则标注、可控规范实例化和多智能体对抗数据合成，生成细粒度偏好对，提升规则遵守度且不损害通用能力。

Comments 58 pages

URL PDF HTML

2601.17637 2026-06-18 cs.CY cs.HC 专题 90

Scaling Laws for Moral Machine Judgment in Large Language Models

大语言模型中道德机器判断的扩展规律

Kazuhiro Takemoto

专题命中偏好对齐：研究LLM道德判断与人类偏好对齐的扩展规律

AI总结研究通过评估75种大语言模型配置，发现模型规模与人类偏好距离呈幂律关系，扩展推理模型在较小规模时表现更优，为价值判断的扩展规律研究提供依据。

Comments 12 pages, 4 figures, 3 tables

Journal ref R Soc Open Sci. (2026) 13 (6): 260202

URL PDF HTML

2604.23130 2026-06-18 cs.CL cs.AI 版本更新专题 90

From Concept-Aligned Tokens to Vulnerable Features: Mechanistic Localization of Jailbreaks

从概念对齐的Token到脆弱特征：越狱的机制定位

Nilanjana Das, Mathew Dawit, Aman Chadha, Manas Gaur

专题命中越狱攻击：机制定位越狱漏洞，分析有害特征

AI总结提出一种基于Token的机制流水线，通过稀疏自编码器特征子组定位越狱漏洞，发现单个有害Token足以定位脆弱特征，且这些特征集中在中后期层。

URL PDF HTML

2511.20002 2026-06-18 cs.CV cs.AI cs.CR 版本更新专题 85

Semantic Router: On the Feasibility of Hijacking MLLMs via a Single Adversarial Perturbation

语义路由器：通过单一对抗扰动劫持多模态大语言模型的可行性研究

Changyue Li, Jiaying Li, Youliang Yuan, Jiaming He, Zhicong Huang, Pinjia He

专题命中越狱攻击：提出语义感知通用扰动劫持MLLM，属于越狱攻击。

AI总结提出语义感知通用扰动（SAUP），作为语义路由器同时劫持多个无状态决策，通过理论分析和SORT优化策略实现，在Qwen上对五个目标达到66%攻击成功率。

Comments Accepted to ICML 2026

URL PDF HTML

1. 安全评测 19 篇

Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications

Mechanism-Guided Selective Unlearning for RLVR-Induced Reasoning

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Lifecycle-Aware Dynamic Analysis for Secure ML Model Execution

The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs

Signature filtering: a lightweight enhancement for statistical watermark detection in large language models

SafeClawBench: Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents

The Road to Artificial SuperIntelligence: A Comprehensive Survey of Superalignment

Quantifying Compromise Risk in Exceptional Access Architectures Under Sparse and Indirect Evidence

SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

RedactionBench

PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

Efficient Hallucination Detection for LLMs Using Uncertainty-Aware Attention Heads

Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning

Detecting Hidden ML Training With Zero-Overhead Telemetry

Runtime Compliance Verification for AI Agents

Output Vector Editing for Memorization Mitigation in Large Language Models

AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework

2. 提示注入 4 篇

LivePI: More Realistic Benchmarking of Agents Against Indirect Prompt Injection

The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating

Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks

CodeSentinel: A Three-Layer Defense Against Indirect Prompt Injection in Code Contexts

3. 偏好对齐 5 篇

A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications

Steerable Cultural Preference Optimization of Reward Models

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

SpecAlign: Efficient Specification-Grounded Alignment of Large Language Models via Synthetic Data

Scaling Laws for Moral Machine Judgment in Large Language Models

4. 越狱攻击 2 篇

From Concept-Aligned Tokens to Vulnerable Features: Mechanistic Localization of Jailbreaks

Semantic Router: On the Feasibility of Hijacking MLLMs via a Single Adversarial Perturbation