arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型对齐与安全

大模型对齐、安全、越狱、红队、提示注入和可信评测。

今日/当前日期收录 50 信号源:cs.CL, cs.AI, cs.CY, cs.LG

1. 安全评测 19 篇

2606.18673 2026-06-18 cs.CR 新提交 专题 95

Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications

理解并缓解真实世界基于LLM的应用中的提示泄露攻击

Yong Yang, Chong Fu, Tong Zhang, Rui Zeng, Qingming Li, Tianyu Du, Zonghui Wang, Shouling Ji, Wenzhi Chen

专题命中 安全评测 :系统提示泄露攻击与防御

AI总结 本研究系统测量了1200个真实世界基于LLM的应用,发现超过80%会泄露系统提示,并提出了基于注意力漂移分析的AREA防御方法,在保持可用性的同时有效防止泄露。

Comments Accepted at ACM CCS 2026

2606.19222 2026-06-18 cs.LG cs.AI 新提交 专题 90

Mechanism-Guided Selective Unlearning for RLVR-Induced Reasoning

机制引导的选择性遗忘:针对RLVR诱导的推理

Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou

专题命中 安全评测 :针对RLVR推理的遗忘方法,涉及模型安全

AI总结 提出MAST方法,通过机制引导选择性更新参数,在遗忘RLVR诱导的推理行为时,显著降低对保留性能的附带损害。

Comments 15 pages, 4 figures, 7 tables

2606.19168 2026-06-18 cs.AI cs.LG 新提交 专题 90

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

超越安全数据:具有正则安全反射的预训练阶段对齐

Jinhan Li, Kexian Tang, Yihan Xu, Zhuorui Ye, Kaifeng Lyu

专题命中 安全评测 :预训练阶段安全对齐方法,属于安全

AI总结 提出安全反射预训练方法,在预训练语料中插入安全反思,使模型具备自我监控能力,实验表明该方法能有效降低推理和微调攻击成功率。

2606.19023 2026-06-18 cs.CR cs.LG 新提交 专题 90

Lifecycle-Aware Dynamic Analysis for Secure ML Model Execution

生命周期感知的动态分析用于安全ML模型执行

Gabriele Digregorio, Marco Di Gennaro, Francesco Pastore, Stefano Zanero, Stefano Longari, Michele Carminati

专题命中 安全评测 :提出动态生命周期分析方法检测ML模型恶意行为。

AI总结 提出Moat,一种动态生命周期感知方法,通过监控模型执行各阶段与宿主系统的结构化交互来检测恶意行为,在多个框架上实现零误报率。

2606.18656 2026-06-18 cs.CL 新提交 专题 90

The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs

错误的正确:量化和定位大语言模型中的失调对齐

Naihao Deng, Yiming Feng, Chimaobi Okite, Kaijian Zou, Lu Wang, Rada Mihalcea, Yulong Chen

专题命中 安全评测 :提出失调对齐基准VETO和量化指标MAR

AI总结 本文提出VETO基准和失调对齐率(MAR)指标,发现所有LLM在刻板印象相关问题上均存在非平凡的失调对齐,且人类为0%,机制分析表明对齐诱导的线索会放大该现象。

2606.18430 2026-06-18 cs.LG cs.CR 新提交 专题 90

Signature filtering: a lightweight enhancement for statistical watermark detection in large language models

签名过滤:大型语言模型中统计水印检测的轻量级增强方法

Chih-Duo Hong, Yen-Pang Chen, Fang Yu

专题命中 安全评测 :提出签名过滤增强LLM水印检测

AI总结 提出签名过滤模块,通过移除干扰水印检测的签名令牌,在弱信号和低熵设置下将检测率从8-31%提升至78-99%,同时保持可控的假阳性率。

2606.18356 2026-06-18 cs.CR cs.AI 新提交 专题 90

SafeClawBench: Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents

SafeClawBench: 区分工具使用LLM代理中的语义、审计证据和沙箱危害

Yuchuan Tian, Mengyu Zheng, Haocheng Mei, Ye Yuan, Chao Xu, Xinghao Chen, Hanting Chen, Yu Wang

专题命中 安全评测 :提出工具使用LLM代理安全基准,区分语义、审计和沙箱危害。

AI总结 提出SafeClawBench基准,通过三个独立端点(语义攻击接受、审计可见危害证据、沙箱观察危害)评估工具使用LLM代理的安全性,揭示不同失败模式并支持可复现比较。

Comments 32 pages, 5 figures

2412.16468 2026-06-18 cs.LG 版本更新 专题 90

The Road to Artificial SuperIntelligence: A Comprehensive Survey of Superalignment

通往人工超级智能之路:超级对齐的全面综述

HyunJin Kim, DongHyun Ryu, Xiaoyuan Yi, Jing Yao, Jianxun Lian, Muhua Huang, Shitong Duan, JinYeong Bak, Xing Xie

专题命中 安全评测 :综述超级对齐问题,分析可扩展监督范式

AI总结 本文综述了超级对齐问题,通过分析可扩展监督范式(夹层、自我增强和弱到强泛化)及其局限性,探讨了监督、控制和管理人工超级智能的挑战与路径。

Comments 24 pages

2606.19106 2026-06-18 cs.CR cs.CY 新提交 专题 85

Quantifying Compromise Risk in Exceptional Access Architectures Under Sparse and Indirect Evidence

在稀疏和间接证据下量化特殊访问架构中的泄露风险

Alan Woodward

专题命中 安全评测 :量化特殊访问架构的系统性泄露风险,属于安全评测。

AI总结 针对特殊访问系统缺乏公开泄露数据的问题,构建结构化不确定性框架,通过历史类比、蒙特卡洛场景、信道独立性分解和贝叶斯结构风险模型,量化传输层与平台层EA架构的系统性泄露风险,发现两类架构风险均高于无EA基线,且分布形态不同。

2606.18936 2026-06-18 cs.AI cs.CY 新提交 专题 85

SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

SciRisk-Bench:面向AI4Science安全的风险维度感知基准

Linghao Feng, Yinqian Sun, Dongqi Liang, Sicheng Shen, Chenfei Yan, Yuxuan Peng, Yilin Zhao, Haibo Tong, Kai Li, FeiFei Zhao, Yi Zeng

专题命中 安全评测 :提出科学领域安全基准,评测风险维度

AI总结 提出SciRisk-Bench基准,从显式风险维度和科学学科两个角度评估AI4Science安全,覆盖7个学科、31个子学科和10个风险维度,实验揭示主流及科学大模型的安全薄弱环节。

2606.18782 2026-06-18 cs.CL cs.AI 新提交 专题 85

RedactionBench

RedactionBench:基于上下文完整性的隐私保护基准测试

Sean Brynjólfsson, Shashvat Jayakrishnan, Esha Sali, Diptanshu Purwar, Madhav Aggarwal

专题命中 安全评测 :提出隐私保护基准测试,评估大模型上下文完整性。

AI总结 RedactionBench通过200个跨11个领域的文档,评估红actions的上下文隐私问题,提出R-Score指标,揭示红actions的主观性,推动隐私保护系统的发展。

2606.18473 2026-06-18 cs.CL 新提交 专题 85

PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

PreUnlearn: 在大语言模型遗忘之前审计附带知识损害

Bo Su, Ankit Shah, Thai Le

专题命中 安全评测 :审计大模型遗忘的附带知识损害

AI总结 提出PreUnlearn方法,通过数据特征预测遗忘操作对同领域和远距离知识的附带损害,实现遗忘前的风险审计。

Comments 12 pages, 6 figures

2606.12618 2026-06-18 cs.AI 新提交 专题 85

"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

“你撒谎了吗?”评估不同规模模型和信念验证模型生物体的谎言检测器

Alan Cooney, David Africa, Geoffrey Irving

专题命中 安全评测 :评估语言模型谎言检测器

AI总结 本研究通过构建13个信念可验证的推理模型生物体和多样化提示撒谎测试集,评估了四种谎言检测器在不同规模模型上的表现,发现基于激活和概率的检测器在训练模型生物体上性能显著下降,而思维链法官保持较强性能,但存在伪影。

Comments 12 pages, 6 figures

2505.20045 2026-06-18 cs.CL 版本更新 专题 85

Efficient Hallucination Detection for LLMs Using Uncertainty-Aware Attention Heads

基于不确定性感知注意力头的高效大语言模型幻觉检测

Artem Vazhentsev, Lyudmila Rvanova, Gleb Kuzmin, Ekaterina Fadeeva, Ivan Lazichny, Alexander Panchenko, Maxim Panov, Mrinmaya Sachan, Preslav Nakov, Timothy Baldwin, Artem Shelmanov

专题命中 安全评测 :无监督幻觉检测,提升LLM可靠性

AI总结 提出RAUQ框架,利用不确定性感知注意力头与令牌级置信度,通过单次前向传递实现无监督、高效的序列级幻觉检测,在12个数据集上优于现有方法且额外计算少于1%。

Journal ref Proceedings of the 43rd International Conference on Machine Learning (ICML), Seoul, South Korea, 2026

2606.19057 2026-06-18 stat.ML cs.LG stat.CO stat.ME 新提交 专题 80

Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning

通过正-无标签学习量化与审计大语言模型评估

Zilong Zhang, Yi-Ting Hung, Lei Ding, Chi-Kuang Yeh

专题命中 安全评测 :审计LLM评估偏差

AI总结 针对大语言模型作为评估者存在的系统性偏差(如冗长偏好),提出基于部分最优传输的几何审计框架,利用少量人工验证正样本校正偏差,无需重训练即可提升与人类偏好的一致性。

2606.19262 2026-06-18 cs.LG 新提交 专题 80

Detecting Hidden ML Training With Zero-Overhead Telemetry

使用零开销遥测检测隐藏的机器学习训练

Robi Rahman, Sabiha Tajdari

专题命中 安全评测 :检测隐藏ML训练,用于AI治理安全

AI总结 本文评估了仅使用零开销、隐私保护的NVML遥测(内容无关信号)对GPU工作负载分类的对抗鲁棒性,开发了一个分类器,在识别训练工作负载时达到98.2%的二元准确率,并对最具挑战性的意外工作负载达到43-87%的准确率。

Comments Technical AI Governance Research workshop at ICML 2026

2606.19242 2026-06-18 cs.SE 新提交 专题 80

Runtime Compliance Verification for AI Agents

AI代理的运行时合规性验证

Nafiseh Kahani, Masoud Barati, Diana Addae

专题命中 安全评测 :运行时监控确保GDPR合规

AI总结 提出C-Trace框架,通过运行时监控和形式化策略谓词,确保AI代理在工具调用和对话中遵守GDPR规则,将攻击成功率降至12%以下。

2606.18767 2026-06-18 cs.CL 新提交 专题 80

Output Vector Editing for Memorization Mitigation in Large Language Models

输出向量编辑:缓解大型语言模型中的记忆化问题

Ahmad Dawar Hakimi, Kaiwei Lei, Isabelle Augenstein, Hinrich Schütze

专题命中 安全评测 :缓解LLM记忆化,输出向量编辑方法。

AI总结 提出输出向量编辑方法,通过约束优化修改MLP神经元输出向量引入干扰项,在不改变激活值的情况下抑制记忆化序列,在OLMo-7B上实现87.9%抑制率,并揭示MLP编辑的机制边界。

2606.18532 2026-06-18 cs.CR cs.AI cs.RO cs.SE 新提交 专题 80

AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework

AI沙箱:威胁模型、分类法与测量框架

Inderjeet Singh, Haitham Mahmoud, Andrés Murillo

专题命中 安全评测 :AI沙箱威胁模型与测量框架

AI总结 提出AI沙箱的威胁模型、分类法和测量框架,形式化沙箱边界与最弱链规则,定义网络物理威胁模型,并通过三个案例验证。

Comments 50 pages, 8 figures, 10 tables

2. 提示注入 4 篇

2605.17986 2026-06-18 cs.CR cs.AI 版本更新 专题 95

LivePI: More Realistic Benchmarking of Agents Against Indirect Prompt Injection

LivePI:更真实的智能体对抗间接提示注入基准测试

Lei Zhao, Abhay Bhaskar, Edgar Dobriban

专题命中 提示注入 :基准测试AI智能体对抗间接提示注入,核心是安全。

AI总结 提出LivePI基准,覆盖7种输入表面、12种攻击/渲染家族和5种恶意目标,在真实虚拟机环境中评估多个AI智能体,发现攻击成功率10.7%-29.6%,并验证了两层防御的有效性。

2606.18550 2026-06-18 cs.CR 新提交 专题 85

The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating

门仅与其合约一样诚实:面向风险感知因果门控合约层的ContractGuard

Laxmipriya Ganesh Iyer, Rahul Suresh Babu

专题命中 提示注入 :防御间接提示注入攻击

AI总结 针对工具增强型LLM代理的间接提示注入,提出ContractGuard,通过验证合约完整性(而非风险标签)来防御攻击,在基准测试中实现零注入成功率。

2606.18530 2026-06-18 cs.CR cs.CL cs.LG 新提交 专题 85

Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks

评估基于提示的防御策略对抗领域伪装注入攻击

Aaditya Pai

专题命中 提示注入 :评估防御领域伪装注入攻击

AI总结 针对领域伪装注入攻击,评估五种基于提示的防御方法(如释义、重点标记等)在三个模型家族和三个部署领域中的有效性,发现释义法最有效,可将伪装攻击成功率降低55-84%。

Comments 9 pages, 4 figures, 4 tables; under review at the AdvML-Frontiers x CoTMA workshop, COLM 2026

2606.19235 2026-06-18 cs.CR 新提交 专题 80

CodeSentinel: A Three-Layer Defense Against Indirect Prompt Injection in Code Contexts

CodeSentinel:代码上下文中针对间接提示注入的三层防御

Po-Han Cheng, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

专题命中 提示注入 :针对代码上下文的提示注入防御

AI总结 针对代码大语言模型在检索外部代码时面临的间接提示注入攻击,提出CodeSentinel三层推理时净化器,结合语法引导预过滤、CST引导动态Min-K%评分和节点扰动分析,实现0.80节点级F1,优于现有方法。

3. 偏好对齐 5 篇

2410.15595 2026-06-18 cs.AI cs.CL cs.LG 版本更新 专题 95

A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications

直接偏好优化综述:数据集、理论、变体及应用

Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu

专题命中 偏好对齐 :DPO是偏好对齐的核心方法之一

AI总结 综述直接偏好优化(DPO)在理论、变体、数据集和应用方面的进展,指出其作为RL-free替代方案的潜力与局限,并提出未来研究方向。

Comments Accepted by TPAMI 2026. Project page: https://github.com/Mr-Loevan/DPO-Survey

2606.18606 2026-06-18 cs.CL cs.AI 新提交 专题 90

Steerable Cultural Preference Optimization of Reward Models

可引导的文化偏好优化奖励模型

Minsik Oh, Advit Deepak, Sophie Wu, Douwe Kiela, Ekaterina Shutova

专题命中 偏好对齐 :提出SCPO算法优化奖励模型文化偏好对齐

AI总结 提出SCPO算法,通过平衡多种文化偏好训练奖励模型,在PRISM和GlobalOpinionQA数据集上提升少数群体偏好预测准确率最多7点,训练效率提高280%。

Comments Accepted to Pluralistic Alignment @ ICML 2026

2606.18487 2026-06-18 cs.LG cs.AI cs.CL 新提交 专题 90

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

SFT 过训练通过熵崩溃预测 RLVR 下的排名反转

Siddharth Aphale, Kelly Liu

专题命中 偏好对齐 :SFT过训练导致RLVR下排名反转

AI总结 研究发现 SFT 过度训练导致 rollout 分布熵降低,使 GRPO 中优势信号消失,从而引发排名反转;提出基于熵的两阶段诊断方法可预警高风险检查点。

Comments 14 pages, 6 figures. Accepted at the Deep Learning for Code (DL4C) Workshop at ICML 2026

2606.16276 2026-06-18 cs.AI 新提交 专题 90

SpecAlign: Efficient Specification-Grounded Alignment of Large Language Models via Synthetic Data

SpecAlign: 通过合成数据实现高效的大语言模型规范对齐

Wenjie Wang, Yue Huang, Zhengqing Yuan, Han Bao, Shiyi Du, Yuchen Ma, Yue Zhao, Yanfang Ye, Xiangliang Zhang

专题命中 偏好对齐 :规范对齐框架,合成数据实现规则遵守

AI总结 提出规范对齐新范式,通过从规范文档合成数据(SpecAlign框架),结合结构化规则标注、可控规范实例化和多智能体对抗数据合成,生成细粒度偏好对,提升规则遵守度且不损害通用能力。

Comments 58 pages

2601.17637 2026-06-18 cs.CY cs.HC 专题 90

Scaling Laws for Moral Machine Judgment in Large Language Models

大语言模型中道德机器判断的扩展规律

Kazuhiro Takemoto

专题命中 偏好对齐 :研究LLM道德判断与人类偏好对齐的扩展规律

AI总结 研究通过评估75种大语言模型配置,发现模型规模与人类偏好距离呈幂律关系,扩展推理模型在较小规模时表现更优,为价值判断的扩展规律研究提供依据。

Comments 12 pages, 4 figures, 3 tables

Journal ref R Soc Open Sci. (2026) 13 (6): 260202

4. 越狱攻击 2 篇

2604.23130 2026-06-18 cs.CL cs.AI 版本更新 专题 90

From Concept-Aligned Tokens to Vulnerable Features: Mechanistic Localization of Jailbreaks

从概念对齐的Token到脆弱特征:越狱的机制定位

Nilanjana Das, Mathew Dawit, Aman Chadha, Manas Gaur

专题命中 越狱攻击 :机制定位越狱漏洞,分析有害特征

AI总结 提出一种基于Token的机制流水线,通过稀疏自编码器特征子组定位越狱漏洞,发现单个有害Token足以定位脆弱特征,且这些特征集中在中后期层。

2511.20002 2026-06-18 cs.CV cs.AI cs.CR 版本更新 专题 85

Semantic Router: On the Feasibility of Hijacking MLLMs via a Single Adversarial Perturbation

语义路由器:通过单一对抗扰动劫持多模态大语言模型的可行性研究

Changyue Li, Jiaying Li, Youliang Yuan, Jiaming He, Zhicong Huang, Pinjia He

专题命中 越狱攻击 :提出语义感知通用扰动劫持MLLM,属于越狱攻击。

AI总结 提出语义感知通用扰动(SAUP),作为语义路由器同时劫持多个无状态决策,通过理论分析和SORT优化策略实现,在Qwen上对五个目标达到66%攻击成功率。

Comments Accepted to ICML 2026