大模型对齐与安全

2602.01425 2026-06-19 cs.AI cs.LG 版本更新专题 80

One Probe Won't Catch Them All: Towards Targeted Deception Detection

一个探针无法捕捉所有：迈向有针对性的欺骗检测

Vikram Natarajan, Devina Jain, Shivam Arora, Satvik Golechha, Joseph Bloom

专题命中安全评测：针对欺骗检测的异质性，提出针对性探针

AI总结针对线性探针在欺骗检测中的异质性，提出根据具体欺骗类型匹配探针可显著提升性能（AUC提升0.108），建议组织定义威胁模型并部署相应探针。

URL PDF HTML

2606.20510 2026-06-19 cs.CR cs.AI 新提交专题 75

Efficient and Sound Probabilistic Verification for AI Agents

高效且可靠的AI智能体概率验证

Alaia Solko-Breslin, Pramod Kaushik Mudrakarta, Mihai Christodorescu, Somesh Jha, Krishnamurthy Dj Dvijotham

专题命中安全评测：涉及智能体安全策略的概率验证

AI总结提出基于分布鲁棒优化的框架，为AI智能体在复杂数字环境中的概率策略违规提供可靠上界，无需独立性假设，在终端和工具调用智能体基准上优于现有方法。

URL PDF HTML

2606.20493 2026-06-19 cs.LG cs.AI cs.MA 新提交专题 75

Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems

传染网络：多智能体LLM系统中的评估者偏见传播

Zewen Liu

专题命中安全评测：量化评估者偏见传播，涉及系统安全性

AI总结提出传染网络框架，量化评估者偏见在多智能体LLM系统中的传播，发现同模型智能体间偏见传播系数为0.157-0.352，且增大评估委员会规模可减少72.4%的传播效应。

Comments 20 pages, 4 figures, 4 tables

URL PDF HTML

2606.19937 2026-06-19 cs.CR 新提交专题 75

AutoTam: Specifying Secure Protocol Implementations with Tamarin Model Generation

AutoTam: 通过 Tamarin 模型生成指定安全协议实现

Johannes Wilson, Mikael Asplund, Niklas Johansson

专题命中安全评测：自动生成Tamarin模型验证协议安全

AI总结提出一种语言优先方法，通过领域特定语言实现协议并自动生成 Tamarin 模型，验证迹属性并保证其传递到实现，同时集成符号执行分析内存安全，在签名 Diffie-Hellman 和 WireGuard 协议上验证了安全性和互操作性。

Comments 19 pages, 5 figures

URL PDF HTML

2606.19588 2026-06-19 cs.AI cs.CR cs.LO 新提交专题 75

Analyzing the Narration Gap in LLM-Solver Loops

分析大语言模型-求解器循环中的叙述差距

Zunchen Huang, Songgaojun Deng

专题命中安全评测：研究LLM与求解器交互中的安全漏洞和证书门控

AI总结研究LLM与SAT/SMT求解器混合推理中，将求解器输出转化为用户答案的叙述步骤存在的安全漏洞，通过形式化建模和实验评估发现证书门控可保证求解结果正确，但对抗攻击可反转结论。

URL PDF HTML

2602.04306 2026-06-19 cs.CL cs.AI 版本更新专题 75

DeFrame: Debiasing Large Language Models Against Framing Effects

DeFrame: 消除大语言模型中的框架效应偏差

Kahee Lim, Soyeon Kim, Steven Euijong Whang

专题命中安全评测：针对框架效应导致的隐藏偏见，提升公平性

AI总结针对大语言模型在语义等价但不同表述的提示下产生不一致偏见的问题，提出框架感知的去偏方法，通过量化框架差异并增强跨框架一致性，有效降低整体偏见并提升鲁棒性。

Comments Accepted to Findings of ACL 2026

URL PDF HTML

2606.20546 2026-06-19 cs.LG 新提交专题 70

Predictability as a Fine-Grained Measure for Privacy

可预测性作为隐私的细粒度度量

Linda Lu, Karthik Sridharan

专题命中安全评测：提出可预测性作为隐私度量，与差分隐私互补。

AI总结提出可预测性框架，通过攻击者预测敏感信息的能力增益来衡量隐私泄露，与差分隐私互补，并基于广义矩方法分析渐近可预测性，用于ERM输出扰动。

URL PDF HTML

2606.20093 2026-06-19 cs.CL 新提交专题 70

Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship

自我偏好在可验证的指令遵循修订中弱或不存在：基于真正作者身份的四模型测试

William Guey, Pierrick Bougault

专题命中安全评测：自我偏好偏差研究

AI总结通过IFEval验证器测试四类中端模型在指令遵循修订中的自我偏好，发现作者拒绝已验证正确编辑的比例与新鲜模型无显著差异，表明自我偏好弱或不存在。

Comments 7 pages, 3 tables. Code and data: https://github.com/williamguey/self-preference-revision

URL PDF HTML

2606.19899 2026-06-19 cs.CY cs.AI 新提交专题 70

Measuring Biological Capabilities and Risks of AI Agents

测量AI代理的生物能力与风险

Patricia Paskov, Jeffrey Lee, Kyle Brady, Alyssa Worland

专题命中安全评测：关注AI代理生物风险的安全评估。

AI总结针对AI科学家等自主执行多步科学任务的代理系统，本文提出生物代理评估作为解释性工具，并基于实践经验给出定义、设计、运行、评分和记录评估的考量，以帮助决策者谨慎解读结果并指导投资。

URL PDF HTML

2606.19532 2026-06-19 cs.LO 新提交专题 70

Vancomycert: A Certified Neuro-Symbolic Drug Delivery System (Case Study)

Vancomycert: 一种经过认证的神经符号药物递送系统（案例研究）

Alistair Sirman, Fleur Conway, Jessica Ciupa, Gusts Gustavs Grīnbergs, Ekaterina Komendantskaya, Thai Son Hoang, Michael Rawson, Alessandro Bruni, Vaishak Belle, Michael John Williams

专题命中安全评测：形式化验证神经网络控制器安全性

AI总结针对抗生素给药神经网络控制器的形式化验证问题，提出一种结合监督学习和定理证明的方法，确保无限时域内自动给药不超过治疗上限。

URL PDF HTML

2602.23248 2026-06-19 cs.AI 版本更新专题 70

Mitigating Legibility Tax with Decoupled Prover-Verifier Games

通过解耦证明者-验证者游戏减轻可读性代价

Yegon Kim, Juho Lee

专题命中安全评测：提高LLM输出的可检查性

AI总结提出解耦证明者-验证者游戏（DPVG），通过分离正确性与可检查性训练一个翻译器模型，将固定求解器的解转化为可检查形式，在保持答案正确性的同时提高可检查性，解决了可读性代价问题。

Comments ICLR 2026 Workshop Trustworthy AI

URL PDF HTML

2505.22829 2026-06-19 cs.LG cs.AI 版本更新专题 70

Bridging Distribution Shift and AI Safety: Conceptual and Methodological Synergies

弥合分布偏移与AI安全：概念与方法论的协同

Chenruo Liu, Kenan Tang, Yao Qin, Qi Lei

专题命中安全评测：分析分布偏移与AI安全的协同关系。

AI总结本文通过分析分布偏移与AI安全之间的概念和方法论协同，建立了特定偏移类型与细粒度安全问题之间的两种联系，促进了两领域研究的深度融合。

Comments 35 pages

URL PDF HTML

2501.18038 2026-06-19 cs.CY 版本更新专题 70

Acceleration AI Ethics and the Telus GenAI Conversational Agent

加速AI伦理与Telus生成式AI对话代理

James Brusseau

专题命中安全评测：讨论加速AI伦理框架，平衡创新与安全

AI总结本文阐述加速伦理学的理论框架，并通过Telus公司的生成式AI语言工具案例，展示加速AI伦理如何在创新与安全之间平衡，以最大化社会责任。

Journal ref Law Ethics Technol. 2026(2):0006

URL PDF HTML

2606.20527 2026-06-19 cs.CL cs.CV 新提交专题 65

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

StylisticBias: 少数人类视觉线索驱动多模态大语言模型中的大部分社会偏见

Shaghayegh Kolli, Timo Cavelius, Nafiseh Nikeghbal, Samantha Dalal, Jana Diesner

专题命中安全评测：评估模型社会偏见，涉及安全与公平

AI总结提出StylisticBias基准，通过控制单一视觉属性变化，发现年龄和体型主导身份层面偏见，而时尚风格等约15个属性解释近80%的偏见变化，偏见集中于少数视觉线索。

Comments Accepted to the non-archival workshops AI4Good and Culture x AI at ICML 2026

URL PDF HTML

2606.20520 2026-06-19 cs.CR cs.AI cs.DC cs.LG 新提交专题 60

Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes

主权执行代理：在智能体控制平面中强制执行证书绑定权限

Jun He, Deying Yu

专题命中安全评测：运行时强制执行权限，涉及安全

AI总结针对自主代理在生产环境中执行变更时缺乏强制权限验证的问题，提出主权执行代理（SEB），通过证书验证、状态检查和范围身份实现运行时强制权限控制，并在AWS和Kubernetes上验证了其安全性和性能。

Comments 19 pages, 6 figures, 10 tables

URL PDF HTML

2606.19831 2026-06-19 cs.CL cs.LG 新提交专题 60

Leverage Is Not Reach: A Control-Window Law for Single-Neuron Steering in Language Models

杠杆不等于可达性：语言模型中单神经元操控的控制窗口定律

Hongliang Liu

专题命中安全评测：涉及神经元干预对行为控制的影响，与安全相关。

AI总结提出预算归一化控制窗口框架，通过残差范数与写入范数之比定义的相干预算，预测单神经元干预何时产生连贯行为控制，并在15个神经元上验证了预测精度。

URL PDF HTML

2606.19794 2026-06-19 econ.GN cs.CY q-fin.EC 新提交专题 55

Forecasting AI-Era Productivity: The Intellectually Converged Human Framework and a Missing Cognitive Mediator in Production Function Theory

预测AI时代的生产率：智力融合人类框架与生产函数理论中缺失的认知中介

Kwan Soo Shin, In Seok Kang

专题命中安全评测：AI生产率悖论，认知中介框架

AI总结本文提出智力融合人类（ICH）框架，通过引入四维认知构念“融合能力”（C）作为AI与生产率之间的认知中介，解释了AI投资未能带来相应生产率增长的理论悖论，并基于20个OECD国家的数据分析验证了AI与C的交互作用对全要素生产率变异的解释力。

Comments 78 pages, 3 figures

URL PDF HTML

2509.25148 2026-06-19 cs.AI 版本更新专题 80

AAPA: Adversarially Anchored Preference Alignment for Post-Training of Large Language Models

AAPA：用于大型语言模型后训练的对抗锚定偏好对齐

Faqiang Qian, Kang An, Weikun Zhang, Ziliang Wang, Xuhui Zheng, Liangjian Wen, Yong Dai, Mengya Gao, Yichao Wu

专题命中偏好对齐：对抗锚定方法用于偏好对齐，防止策略漂移

AI总结提出AAPA框架，通过固定轻量判别器对策略输出与专家响应进行句子级对抗锚定，增强SFT、GRPO等后训练目标，在指令遵循基准上持续提升性能。

URL PDF HTML

2606.20258 2026-06-19 cs.HC cs.AI 新提交专题 70

Editorial Alignment: A Participatory Approach to Engaging Editorial Expertise in LLM-mediated Knowledge Dissemination

编辑对齐：一种参与式方法，将编辑专业知识引入LLM介导的知识传播

Simon Aagaard Enni, Malthe Stavning Erslev, Karl-Emil Kjær Bilstrup, Kristoffer Laigaard Nielbo

专题命中偏好对齐：提出编辑对齐参与式AI设计

AI总结本文提出“编辑对齐”作为参与式AI设计实践，通过设计工作坊让编辑参与重新对齐LLM接口至编辑标准，以维护公共知识机构的编辑职能。

Comments 14 pages

URL PDF HTML

1. 安全评测 17 篇

One Probe Won't Catch Them All: Towards Targeted Deception Detection

Efficient and Sound Probabilistic Verification for AI Agents

Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems

AutoTam: Specifying Secure Protocol Implementations with Tamarin Model Generation

Analyzing the Narration Gap in LLM-Solver Loops

DeFrame: Debiasing Large Language Models Against Framing Effects

Predictability as a Fine-Grained Measure for Privacy

Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship

Measuring Biological Capabilities and Risks of AI Agents

Vancomycert: A Certified Neuro-Symbolic Drug Delivery System (Case Study)

Mitigating Legibility Tax with Decoupled Prover-Verifier Games

Bridging Distribution Shift and AI Safety: Conceptual and Methodological Synergies

Acceleration AI Ethics and the Telus GenAI Conversational Agent

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes

Leverage Is Not Reach: A Control-Window Law for Single-Neuron Steering in Language Models

Forecasting AI-Era Productivity: The Intellectually Converged Human Framework and a Missing Cognitive Mediator in Production Function Theory

2. 偏好对齐 2 篇

AAPA: Adversarially Anchored Preference Alignment for Post-Training of Large Language Models

Editorial Alignment: A Participatory Approach to Engaging Editorial Expertise in LLM-mediated Knowledge Dissemination