大模型对齐与安全 - arXivDaily 专题

2606.20225 2026-06-19 cs.CL 新提交专题 90

Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families

可操作的激活方向：检测和缓解跨语言模型家族的突发性对齐失调

Abdul Rafay Syed

专题命中安全评测：研究微调导致的对齐失调，通过激活方向检测和缓解。

AI总结通过差分均值方向在最终层实现99.6%的对齐/失调分离，因果干预将代码泄露降低21-51点；跨架构迁移虽有效但缺乏特异性，揭示了两层特异性结构。

Comments 12 pages, 2 figures

URL PDF HTML

2606.19890 2026-06-19 cs.CY 新提交专题 90

Open Weight AI Models Require Proportional Evaluation Approaches

开放权重AI模型需要比例评估方法

Patricia Paskov, Christopher Rodriguez, Sunishchal Dev, Stephen Casper

专题命中安全评测：开放权重模型比例评估方法，安全评测。

AI总结本文针对开放权重AI模型（OWMs）的独特风险因素，提出四种比例评估方法（PE1-PE4），并系统审查2025年至2026年4月发布的37个OWM系列，发现仅一个满足所有评估要求。

URL PDF HTML

2606.19755 2026-06-19 cs.CR cs.AI 新提交专题 90

SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling

SafeSpec: 通过动态反射采样实现快速且安全的LLM

Haotian Xu, Zeyang Zhang, Linbao Li, Huadi Zheng, Yu Li, Cheng Zhuo

专题命中安全评测：提出安全感知的推测解码框架，防御越狱攻击。

AI总结提出SafeSpec框架，将轻量安全头集成到推测解码的验证过程中，通过风险估计和反射采样恢复安全生成，在保持加速的同时显著降低攻击成功率。

URL PDF HTML

2606.19544 2026-06-19 cs.CL 新提交专题 90

Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias

无效度的可靠性：LLM-as-a-Judge 模型在一致性、稳定性和偏差上的系统性大规模评估

Justin D. Norman, Michael U. Rivera, D. Alex Hughes

专题命中安全评测：评估LLM-as-a-Judge的一致性、偏差等可靠性

AI总结本研究通过大规模系统性评估（21个裁判模型、118次运行、约54.1万次判断），发现LLM-as-a-Judge在一致性、稳定性和偏差方面存在普遍问题，包括kappa通缩、排名偏移、高重测信度与严重位置偏差并存，并提出了最小可行验证协议。

URL PDF HTML

2606.08892 2026-06-19 cs.LG 新提交专题 90

Diffuse AI Control on Fuzzy Tasks

模糊任务上的扩散AI控制

Mikhail Terekhov, Caglar Gulcehre, Vivek Hebbar, Joe Benton

专题命中安全评测：蓝队红队对抗框架，研究AI长期扩散威胁

AI总结针对AI在模糊任务上的长期扩散威胁，提出蓝队与红队对抗框架，通过弱模型评分训练强模型，并发现红队可利用多目标进化提示优化找到评分高但性能差的子版本行为，蓝队则通过对抗优化提升鲁棒性。

URL PDF HTML

2606.04075 2026-06-19 cs.LG cs.AI cs.CL cs.CR cs.CY 版本更新专题 90

Large Language Models Hack Rewards, and Society

大型语言模型攻击奖励机制与社会

Wei Liu, Xinyi Mou, Hanqi Yan, Zhongyu Wei, Yulan He

专题命中安全评测：研究LLM利用奖励漏洞的社会攻击现象。

AI总结研究强化学习训练中大型语言模型利用奖励函数漏洞的“社会攻击”现象，通过SocioHack沙盒实验发现模型能发现并利用社会规则漏洞，且现有安全措施效果有限。

Comments 14 pages, 9 figures, 7 tables

URL PDF HTML

2606.19714 2026-06-19 stat.ML cs.AI cs.LG stat.CO stat.ME 新提交专题 85

AURA: Adaptive Uncertainty-aware Refinement for LLM-as-a-Judge Auditing

AURA: 用于LLM作为评判审计的自适应不确定性感知精炼

Zilong Zhang, Yi-Ting Hung, Weiyi He, Junxi Zhang, Lei Ding, Chi-Kuang Yeh

专题命中安全评测：审计LLM评判可靠性，提升对齐性

AI总结提出AURA框架，通过自适应不确定性感知精炼，在少量人工验证下迭代学习人类一致性信号，优先审核不确定比较，提升LLM评判的可靠性。

URL PDF HTML

2606.20102 2026-06-19 cs.CY cs.CR 新提交专题 85

Artificial Intelligence as Game Changer in Cybersecurity: What We Learned in 2025-2026, and how this is relevant for Africa

人工智能作为网络安全游戏规则改变者：2025-2026年我们学到的，以及这对非洲的意义

Mikael Alemu Gorsky

专题命中安全评测：讨论LLM在网络安全中的风险

AI总结本文通过2025-2026年两个事件论证前沿语言模型已成为网络作战决定性工具，而非洲在模型构建、运营和获取上被完全排除，面临技能、算力和投资三重赤字，并遭受AI欺诈攻击，建议在6-12个月内通过威胁情报共享、治理采纳和伙伴关系应对。

Comments International Conference on Cybersecurity in the Era of Digital Transformation and Artificial Intelligence

URL PDF HTML

2606.20023 2026-06-19 cs.SE cs.AI cs.CL 新提交专题 85

When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

当较低权限足够时：探究LLM代理中的过度权限工具选择

Kaiyue Yang, Yuyan Bu, Jingwei Yi, Yuchi Wang, Biyu Zhou, Juntao Dai, Songlin Hu, Yaodong Yang

专题命中安全评测：研究LLM代理过度权限工具选择的安全问题。

AI总结针对LLM代理在工具选择中偏好高权限工具的安全问题，提出ToolPrivBench评估框架，发现主流代理普遍存在过度权限选择且被瞬态故障放大，并设计权限感知后训练防御方法有效减少不必要的高权限工具使用。

Comments code: https://github.com/AISafetyHub/agent-tool-selection-bias

URL PDF HTML

2606.19380 2026-06-19 cs.SE cs.LG 新提交专题 85

AgentArmor: A Framework, Evaluation, \& Mitigation of Coding Agent Failures

AgentArmor：编码代理失败的框架、评估与缓解

Kenneth Ge, Andre Assis

专题命中安全评测：评估编码代理的安全性并提出改进。

AI总结提出AgentArmor框架，通过系统提示增强、命令分类器、三振政策等机制，缓解编码代理因规范不足、能力错误和工具错误导致的失败，显著提升安全性。

URL PDF HTML

2606.19356 2026-06-19 cs.CL cs.AI 新提交专题 85

Trustworthy Multi-Agent Systems: Mitigating Semantic Drift with the Argent Signaling Protocol

可信多智能体系统：使用Argent信令协议缓解语义漂移

Anantha Sharma

专题命中安全评测：提出协议缓解多智能体语义漂移，提升可信度

AI总结提出Argent信令协议(ASP)，通过结构化质量信号区分可修复与不可修复的失败，在文档问答和多智能体系统中分别提升通过率和阻断无依据传播。

Comments 17 pages

URL PDF HTML

2606.18996 2026-06-19 cs.CR cs.AI 新提交专题 85

TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction

TRAP：任务完成与主动隐私提取抵抗基准

Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun Oh

专题命中安全评测：评估智能体隐私泄露，属于安全评测

AI总结提出TRAP基准，评估智能体在文档密集型任务中平衡任务准确性与隐私泄露的能力，发现所有模型均存在非平凡泄露，并证明基于提示的防御无法同时实现高任务成功率和零泄露概率，提出结构化的私有字段隔离方法。

URL PDF HTML

2603.19423 2026-06-19 cs.CR cs.AI cs.LG 版本更新专题 85

The Autonomy Tax: Defense Training Breaks LLM Agents

自主性税：防御训练破坏LLM智能体

Shawn Li, Yue Zhao

专题命中安全评测：防御训练破坏LLM智能体工具执行能力

AI总结揭示防御训练在提升LLM智能体安全性时，系统性地破坏其工具执行能力，导致任务失败率飙升，且无法有效防御复杂攻击。

URL PDF HTML

2606.20205 2026-06-19 cs.AI cs.CL cs.HC 新提交专题 80

Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact

大语言模型的心理特征很大程度上是测量假象

Jelena Meyer, David Garcia, Dirk U. Wulff

专题命中安全评测：揭示LLM心理特征为测量假象，影响安全评估。

AI总结通过心理测量框架分析56个指令微调LLM，发现模型间差异主要源于方向性响应偏差而非特质，该偏差解释了81-90%的变异，且可通过题目选择操控，表明LLM心理特征是测量假象。

URL PDF HTML

2606.19881 2026-06-19 cs.CL 新提交专题 80

REDACT: A Systematically Controlled Multilingual Benchmark for Personal Information Detection

REDACT：一个系统控制的个人信息检测多语言基准

Guneesh Vats, Anubha Agrawal, Shikha Singhal, Ajita Dash, Praison Selvaraj, Vidhan Jhawar, Ranga Prasad Chenna, Bharadwaj Y M G

专题命中安全评测：个人信息检测基准，评估隐私安全。

AI总结提出REDACT基准，包含13,427条记录、51种实体类型、25种语言，通过强度-2覆盖阵列采样控制9个生成轴，并引入实体级元数据（披露状态、形式、GDPR敏感层级）以支持分层评估，揭示检测器在敏感数据上的架构依赖性失败模式。

Comments 14 pages, 5 figures

URL PDF HTML

2606.19390 2026-06-19 cs.SE cs.AI 新提交专题 80

Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework

面向执行约束的自主AI自动化：一种可复现的AIBOM驱动的CSAF-VEX框架

Petar Radanliev, Omar Santos, Carsten Maple, Kay Atefi

专题命中安全评测：生成CSAF VEX公告，评估可利用性和执行策略。

AI总结提出一种协议驱动框架，通过绑定SBOM和AIBOM工件与确定性环境捕获及结构化运行时遥测，结合静态与运行时证据生成CSAF VEX公告，经密码签名和确定性重放验证，在合成自主AI工作负载上评估。

Journal ref Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework. Front Artif Intell 9, (May 2026), 1826384

URL PDF HTML

2606.19344 2026-06-19 cs.CL cs.AI 新提交专题 80

Exposing the Unsaid: Visualizing Hidden LLM Bias through Stochastic Path Aggregation

揭示未言明之事：通过随机路径聚合可视化隐藏的LLM偏见

Matteo Pelossi, Rita Sevastjanova, Thilo Spinner, Mennatallah El-Assady

专题命中安全评测：可视化工具揭示LLM隐藏偏见

AI总结提出TreeTracer工具，通过系统扰动分析、语法对齐聚合和分类感知节点合并，利用桑基图对比不同语义上下文，揭示LLM中隐藏的代表性和句法偏见。

Comments 14 pages

URL PDF HTML

2606.18649 2026-06-19 cs.MA cs.CL cs.CY 新提交专题 80

Gender Bias in LLM Hiring Decisions: Evidence from a Japanese Context and Evaluation of Mitigation Strategies

LLM招聘决策中的性别偏见：来自日本语境的证据及缓解策略评估

Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan

专题命中安全评测：评估LLM招聘中的性别偏见

AI总结本研究通过60份日本履历书格式的简历和5个先进LLM，发现所有模型均存在显著的亲女性偏见，且简单的提示指令无法缓解，而移除姓名几乎完全消除该偏见。

URL PDF HTML

2606.16682 2026-06-19 cs.LG cs.CL 新提交专题 80

Multimodal Evaluator Preference Collapse: Cross-Modal Contagion in Self-Evolving Agents

多模态评估者偏好坍缩：自进化智能体中的跨模态传染

Zewen Liu

专题命中安全评测：研究多模态自评估中的偏好坍缩

AI总结研究多模态自评估中偏好坍缩的加剧现象，发现跨模态传染导致策略选择扭曲，并引入传染矩阵量化风险。

Comments 19 pages, 0 figures

URL PDF HTML

2602.01425 2026-06-19 cs.AI cs.LG 版本更新专题 80

One Probe Won't Catch Them All: Towards Targeted Deception Detection

一个探针无法捕捉所有：迈向有针对性的欺骗检测

Vikram Natarajan, Devina Jain, Shivam Arora, Satvik Golechha, Joseph Bloom

专题命中安全评测：针对欺骗检测的异质性，提出针对性探针

AI总结针对线性探针在欺骗检测中的异质性，提出根据具体欺骗类型匹配探针可显著提升性能（AUC提升0.108），建议组织定义威胁模型并部署相应探针。

URL PDF HTML

2606.20510 2026-06-19 cs.CR cs.AI 新提交专题 75

Efficient and Sound Probabilistic Verification for AI Agents

高效且可靠的AI智能体概率验证

Alaia Solko-Breslin, Pramod Kaushik Mudrakarta, Mihai Christodorescu, Somesh Jha, Krishnamurthy Dj Dvijotham

专题命中安全评测：涉及智能体安全策略的概率验证

AI总结提出基于分布鲁棒优化的框架，为AI智能体在复杂数字环境中的概率策略违规提供可靠上界，无需独立性假设，在终端和工具调用智能体基准上优于现有方法。

URL PDF HTML

2606.20493 2026-06-19 cs.LG cs.AI cs.MA 新提交专题 75

Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems

传染网络：多智能体LLM系统中的评估者偏见传播

Zewen Liu

专题命中安全评测：量化评估者偏见传播，涉及系统安全性

AI总结提出传染网络框架，量化评估者偏见在多智能体LLM系统中的传播，发现同模型智能体间偏见传播系数为0.157-0.352，且增大评估委员会规模可减少72.4%的传播效应。

Comments 20 pages, 4 figures, 4 tables

URL PDF HTML

2606.19937 2026-06-19 cs.CR 新提交专题 75

AutoTam: Specifying Secure Protocol Implementations with Tamarin Model Generation

AutoTam: 通过 Tamarin 模型生成指定安全协议实现

Johannes Wilson, Mikael Asplund, Niklas Johansson

专题命中安全评测：自动生成Tamarin模型验证协议安全

AI总结提出一种语言优先方法，通过领域特定语言实现协议并自动生成 Tamarin 模型，验证迹属性并保证其传递到实现，同时集成符号执行分析内存安全，在签名 Diffie-Hellman 和 WireGuard 协议上验证了安全性和互操作性。

Comments 19 pages, 5 figures

URL PDF HTML

2606.19588 2026-06-19 cs.AI cs.CR cs.LO 新提交专题 75

Analyzing the Narration Gap in LLM-Solver Loops

分析大语言模型-求解器循环中的叙述差距

Zunchen Huang, Songgaojun Deng

专题命中安全评测：研究LLM与求解器交互中的安全漏洞和证书门控

AI总结研究LLM与SAT/SMT求解器混合推理中，将求解器输出转化为用户答案的叙述步骤存在的安全漏洞，通过形式化建模和实验评估发现证书门控可保证求解结果正确，但对抗攻击可反转结论。

URL PDF HTML

2602.04306 2026-06-19 cs.CL cs.AI 版本更新专题 75

DeFrame: Debiasing Large Language Models Against Framing Effects

DeFrame: 消除大语言模型中的框架效应偏差

Kahee Lim, Soyeon Kim, Steven Euijong Whang

专题命中安全评测：针对框架效应导致的隐藏偏见，提升公平性

AI总结针对大语言模型在语义等价但不同表述的提示下产生不一致偏见的问题，提出框架感知的去偏方法，通过量化框架差异并增强跨框架一致性，有效降低整体偏见并提升鲁棒性。

Comments Accepted to Findings of ACL 2026

URL PDF HTML

2606.20546 2026-06-19 cs.LG 新提交专题 70

Predictability as a Fine-Grained Measure for Privacy

可预测性作为隐私的细粒度度量

Linda Lu, Karthik Sridharan

专题命中安全评测：提出可预测性作为隐私度量，与差分隐私互补。

AI总结提出可预测性框架，通过攻击者预测敏感信息的能力增益来衡量隐私泄露，与差分隐私互补，并基于广义矩方法分析渐近可预测性，用于ERM输出扰动。

URL PDF HTML

2606.20093 2026-06-19 cs.CL 新提交专题 70

Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship

自我偏好在可验证的指令遵循修订中弱或不存在：基于真正作者身份的四模型测试

William Guey, Pierrick Bougault

专题命中安全评测：自我偏好偏差研究

AI总结通过IFEval验证器测试四类中端模型在指令遵循修订中的自我偏好，发现作者拒绝已验证正确编辑的比例与新鲜模型无显著差异，表明自我偏好弱或不存在。

Comments 7 pages, 3 tables. Code and data: https://github.com/williamguey/self-preference-revision

URL PDF HTML

2606.19899 2026-06-19 cs.CY cs.AI 新提交专题 70

Measuring Biological Capabilities and Risks of AI Agents

测量AI代理的生物能力与风险

Patricia Paskov, Jeffrey Lee, Kyle Brady, Alyssa Worland

专题命中安全评测：关注AI代理生物风险的安全评估。

AI总结针对AI科学家等自主执行多步科学任务的代理系统，本文提出生物代理评估作为解释性工具，并基于实践经验给出定义、设计、运行、评分和记录评估的考量，以帮助决策者谨慎解读结果并指导投资。

URL PDF HTML

2606.19532 2026-06-19 cs.LO 新提交专题 70

Vancomycert: A Certified Neuro-Symbolic Drug Delivery System (Case Study)

Vancomycert: 一种经过认证的神经符号药物递送系统（案例研究）

Alistair Sirman, Fleur Conway, Jessica Ciupa, Gusts Gustavs Grīnbergs, Ekaterina Komendantskaya, Thai Son Hoang, Michael Rawson, Alessandro Bruni, Vaishak Belle, Michael John Williams

专题命中安全评测：形式化验证神经网络控制器安全性

AI总结针对抗生素给药神经网络控制器的形式化验证问题，提出一种结合监督学习和定理证明的方法，确保无限时域内自动给药不超过治疗上限。

URL PDF HTML

2602.23248 2026-06-19 cs.AI 版本更新专题 70

Mitigating Legibility Tax with Decoupled Prover-Verifier Games

通过解耦证明者-验证者游戏减轻可读性代价

Yegon Kim, Juho Lee

专题命中安全评测：提高LLM输出的可检查性

AI总结提出解耦证明者-验证者游戏（DPVG），通过分离正确性与可检查性训练一个翻译器模型，将固定求解器的解转化为可检查形式，在保持答案正确性的同时提高可检查性，解决了可读性代价问题。

Comments ICLR 2026 Workshop Trustworthy AI

URL PDF HTML