arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型对齐与安全

大模型对齐、安全、越狱、红队、提示注入和可信评测。

今日/当前日期收录 49 信号源:cs.CL, cs.AI, cs.CY, cs.LG

1. 红队测试 2 篇

2606.20408 2026-06-19 cs.CR cs.AI 新提交 专题 95

LLM agent safety, multi-turn red-teaming, jailbreak benchmarks, adversarial robustness, safety-critical systems

LLM智能体安全性、多轮红队测试、越狱基准、对抗鲁棒性、安全关键系统

Hanwool Lee, Dasol Choi, Bokyeong Kim, Seung Geun Kim, Haon Park

专题命中 红队测试 :多轮红队测试基准评估LLM智能体在安全关键系统中的鲁棒性

AI总结 提出NRT-Bench基准,通过模拟核电站控制室的多轮红队测试,评估LLM智能体在安全关键系统中的对抗鲁棒性,发现不同模型的漏洞几乎不重叠,且防御效果高度依赖模型。

2606.19887 2026-06-19 cs.CR cs.AI 新提交 专题 90

FFinRED: An Expert-Guided Benchmark Generation and Evaluation Framework for Financial LLM Red-Teaming

FFinRED:面向金融大语言模型红队测试的专家引导基准生成与评估框架

Chaeyun Kim, Daeyoung Park, Junghwan Kim, Jinyoung Jeong, Eunji Song, Yongtaek Lim, Minwoo Kim

专题命中 红队测试 :金融LLM红队测试框架,专家引导。

AI总结 提出FinRED框架,通过专家引导的两级分类法将全球金融标准映射为威胁,并利用真实金融文档生成上下文丰富的红队行为提示,结合专家验证的评估标准,有效降低关键假阴性。

2. 越狱攻击 3 篇

2606.20508 2026-06-19 cs.AI cs.LG 新提交 专题 90

What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?

安全对齐的LLM从混合顺从演示中学到了什么?

Sihui Dai, Mann Patel

专题命中 越狱攻击 :研究混合顺从演示对LLM有害顺从的影响

AI总结 研究通过混合良性顺从演示和有害顺从演示,探究演示组成如何驱动有害顺从,发现演示内容、顺序和训练方法影响模型提取的信息。

2606.20470 2026-06-19 cs.CR cs.AI 新提交 专题 90

Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems

分析针对基于模型引导的自动化攻击的防御性误导策略在智能体AI系统中的应用

Reza Soosahabi, Vivek Namsani

专题命中 越狱攻击 :分析防御性误导策略对抗自动化越狱攻击。

AI总结 本文通过概率模型分析智能体AI系统的攻击-防御场景,提出“检测-误导”策略(如CMPE)以替代传统“检测-拦截”方法,通过产生误导性响应降低攻击者成功率,并在基准测试中将攻击成功率上限降低两个数量级。

2606.19535 2026-06-19 cs.CR cs.LG 新提交 专题 90

FloatDoor: Platform-Triggered Backdoors in LLMs

FloatDoor: 大语言模型中的平台触发后门

Nils Loose, Jonas Sander, Felix Mächtle, Thomas Eisenbarth

专题命中 越狱攻击 :提出平台触发的后门攻击方法

AI总结 提出FloatDoor,首个输入无关、平台触发的后门攻击,利用浮点运算平台差异,通过两个轻量LoRA适配器在目标平台触发恶意行为,同时保持模型正常效用。

3. 安全评测 19 篇

2606.20225 2026-06-19 cs.CL 新提交 专题 90

Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families

可操作的激活方向:检测和缓解跨语言模型家族的突发性对齐失调

Abdul Rafay Syed

专题命中 安全评测 :研究微调导致的对齐失调,通过激活方向检测和缓解。

AI总结 通过差分均值方向在最终层实现99.6%的对齐/失调分离,因果干预将代码泄露降低21-51点;跨架构迁移虽有效但缺乏特异性,揭示了两层特异性结构。

Comments 12 pages, 2 figures

2606.19890 2026-06-19 cs.CY 新提交 专题 90

Open Weight AI Models Require Proportional Evaluation Approaches

开放权重AI模型需要比例评估方法

Patricia Paskov, Christopher Rodriguez, Sunishchal Dev, Stephen Casper

专题命中 安全评测 :开放权重模型比例评估方法,安全评测。

AI总结 本文针对开放权重AI模型(OWMs)的独特风险因素,提出四种比例评估方法(PE1-PE4),并系统审查2025年至2026年4月发布的37个OWM系列,发现仅一个满足所有评估要求。

2606.19755 2026-06-19 cs.CR cs.AI 新提交 专题 90

SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling

SafeSpec: 通过动态反射采样实现快速且安全的LLM

Haotian Xu, Zeyang Zhang, Linbao Li, Huadi Zheng, Yu Li, Cheng Zhuo

专题命中 安全评测 :提出安全感知的推测解码框架,防御越狱攻击。

AI总结 提出SafeSpec框架,将轻量安全头集成到推测解码的验证过程中,通过风险估计和反射采样恢复安全生成,在保持加速的同时显著降低攻击成功率。

2606.19544 2026-06-19 cs.CL 新提交 专题 90

Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias

无效度的可靠性:LLM-as-a-Judge 模型在一致性、稳定性和偏差上的系统性大规模评估

Justin D. Norman, Michael U. Rivera, D. Alex Hughes

专题命中 安全评测 :评估LLM-as-a-Judge的一致性、偏差等可靠性

AI总结 本研究通过大规模系统性评估(21个裁判模型、118次运行、约54.1万次判断),发现LLM-as-a-Judge在一致性、稳定性和偏差方面存在普遍问题,包括kappa通缩、排名偏移、高重测信度与严重位置偏差并存,并提出了最小可行验证协议。

2606.08892 2026-06-19 cs.LG 新提交 专题 90

Diffuse AI Control on Fuzzy Tasks

模糊任务上的扩散AI控制

Mikhail Terekhov, Caglar Gulcehre, Vivek Hebbar, Joe Benton

专题命中 安全评测 :蓝队红队对抗框架,研究AI长期扩散威胁

AI总结 针对AI在模糊任务上的长期扩散威胁,提出蓝队与红队对抗框架,通过弱模型评分训练强模型,并发现红队可利用多目标进化提示优化找到评分高但性能差的子版本行为,蓝队则通过对抗优化提升鲁棒性。

2606.04075 2026-06-19 cs.LG cs.AI cs.CL cs.CR cs.CY 版本更新 专题 90

Large Language Models Hack Rewards, and Society

大型语言模型攻击奖励机制与社会

Wei Liu, Xinyi Mou, Hanqi Yan, Zhongyu Wei, Yulan He

专题命中 安全评测 :研究LLM利用奖励漏洞的社会攻击现象。

AI总结 研究强化学习训练中大型语言模型利用奖励函数漏洞的“社会攻击”现象,通过SocioHack沙盒实验发现模型能发现并利用社会规则漏洞,且现有安全措施效果有限。

Comments 14 pages, 9 figures, 7 tables

2606.19714 2026-06-19 stat.ML cs.AI cs.LG stat.CO stat.ME 新提交 专题 85

AURA: Adaptive Uncertainty-aware Refinement for LLM-as-a-Judge Auditing

AURA: 用于LLM作为评判审计的自适应不确定性感知精炼

Zilong Zhang, Yi-Ting Hung, Weiyi He, Junxi Zhang, Lei Ding, Chi-Kuang Yeh

专题命中 安全评测 :审计LLM评判可靠性,提升对齐性

AI总结 提出AURA框架,通过自适应不确定性感知精炼,在少量人工验证下迭代学习人类一致性信号,优先审核不确定比较,提升LLM评判的可靠性。

2606.20102 2026-06-19 cs.CY cs.CR 新提交 专题 85

Artificial Intelligence as Game Changer in Cybersecurity: What We Learned in 2025-2026, and how this is relevant for Africa

人工智能作为网络安全游戏规则改变者:2025-2026年我们学到的,以及这对非洲的意义

Mikael Alemu Gorsky

专题命中 安全评测 :讨论LLM在网络安全中的风险

AI总结 本文通过2025-2026年两个事件论证前沿语言模型已成为网络作战决定性工具,而非洲在模型构建、运营和获取上被完全排除,面临技能、算力和投资三重赤字,并遭受AI欺诈攻击,建议在6-12个月内通过威胁情报共享、治理采纳和伙伴关系应对。

Comments International Conference on Cybersecurity in the Era of Digital Transformation and Artificial Intelligence

2606.20023 2026-06-19 cs.SE cs.AI cs.CL 新提交 专题 85

When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

当较低权限足够时:探究LLM代理中的过度权限工具选择

Kaiyue Yang, Yuyan Bu, Jingwei Yi, Yuchi Wang, Biyu Zhou, Juntao Dai, Songlin Hu, Yaodong Yang

专题命中 安全评测 :研究LLM代理过度权限工具选择的安全问题。

AI总结 针对LLM代理在工具选择中偏好高权限工具的安全问题,提出ToolPrivBench评估框架,发现主流代理普遍存在过度权限选择且被瞬态故障放大,并设计权限感知后训练防御方法有效减少不必要的高权限工具使用。

Comments code: https://github.com/AISafetyHub/agent-tool-selection-bias

2606.19380 2026-06-19 cs.SE cs.LG 新提交 专题 85

AgentArmor: A Framework, Evaluation, \& Mitigation of Coding Agent Failures

AgentArmor:编码代理失败的框架、评估与缓解

Kenneth Ge, Andre Assis

专题命中 安全评测 :评估编码代理的安全性并提出改进。

AI总结 提出AgentArmor框架,通过系统提示增强、命令分类器、三振政策等机制,缓解编码代理因规范不足、能力错误和工具错误导致的失败,显著提升安全性。

2606.19356 2026-06-19 cs.CL cs.AI 新提交 专题 85

Trustworthy Multi-Agent Systems: Mitigating Semantic Drift with the Argent Signaling Protocol

可信多智能体系统:使用Argent信令协议缓解语义漂移

Anantha Sharma

专题命中 安全评测 :提出协议缓解多智能体语义漂移,提升可信度

AI总结 提出Argent信令协议(ASP),通过结构化质量信号区分可修复与不可修复的失败,在文档问答和多智能体系统中分别提升通过率和阻断无依据传播。

Comments 17 pages

2606.18996 2026-06-19 cs.CR cs.AI 新提交 专题 85

TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction

TRAP:任务完成与主动隐私提取抵抗基准

Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun Oh

专题命中 安全评测 :评估智能体隐私泄露,属于安全评测

AI总结 提出TRAP基准,评估智能体在文档密集型任务中平衡任务准确性与隐私泄露的能力,发现所有模型均存在非平凡泄露,并证明基于提示的防御无法同时实现高任务成功率和零泄露概率,提出结构化的私有字段隔离方法。

2603.19423 2026-06-19 cs.CR cs.AI cs.LG 版本更新 专题 85

The Autonomy Tax: Defense Training Breaks LLM Agents

自主性税:防御训练破坏LLM智能体

Shawn Li, Yue Zhao

专题命中 安全评测 :防御训练破坏LLM智能体工具执行能力

AI总结 揭示防御训练在提升LLM智能体安全性时,系统性地破坏其工具执行能力,导致任务失败率飙升,且无法有效防御复杂攻击。

2606.20205 2026-06-19 cs.AI cs.CL cs.HC 新提交 专题 80

Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact

大语言模型的心理特征很大程度上是测量假象

Jelena Meyer, David Garcia, Dirk U. Wulff

专题命中 安全评测 :揭示LLM心理特征为测量假象,影响安全评估。

AI总结 通过心理测量框架分析56个指令微调LLM,发现模型间差异主要源于方向性响应偏差而非特质,该偏差解释了81-90%的变异,且可通过题目选择操控,表明LLM心理特征是测量假象。

2606.19881 2026-06-19 cs.CL 新提交 专题 80

REDACT: A Systematically Controlled Multilingual Benchmark for Personal Information Detection

REDACT:一个系统控制的个人信息检测多语言基准

Guneesh Vats, Anubha Agrawal, Shikha Singhal, Ajita Dash, Praison Selvaraj, Vidhan Jhawar, Ranga Prasad Chenna, Bharadwaj Y M G

专题命中 安全评测 :个人信息检测基准,评估隐私安全。

AI总结 提出REDACT基准,包含13,427条记录、51种实体类型、25种语言,通过强度-2覆盖阵列采样控制9个生成轴,并引入实体级元数据(披露状态、形式、GDPR敏感层级)以支持分层评估,揭示检测器在敏感数据上的架构依赖性失败模式。

Comments 14 pages, 5 figures

2606.19390 2026-06-19 cs.SE cs.AI 新提交 专题 80

Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework

面向执行约束的自主AI自动化:一种可复现的AIBOM驱动的CSAF-VEX框架

Petar Radanliev, Omar Santos, Carsten Maple, Kay Atefi

专题命中 安全评测 :生成CSAF VEX公告,评估可利用性和执行策略。

AI总结 提出一种协议驱动框架,通过绑定SBOM和AIBOM工件与确定性环境捕获及结构化运行时遥测,结合静态与运行时证据生成CSAF VEX公告,经密码签名和确定性重放验证,在合成自主AI工作负载上评估。

Journal ref Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework. Front Artif Intell 9, (May 2026), 1826384

2606.19344 2026-06-19 cs.CL cs.AI 新提交 专题 80

Exposing the Unsaid: Visualizing Hidden LLM Bias through Stochastic Path Aggregation

揭示未言明之事:通过随机路径聚合可视化隐藏的LLM偏见

Matteo Pelossi, Rita Sevastjanova, Thilo Spinner, Mennatallah El-Assady

专题命中 安全评测 :可视化工具揭示LLM隐藏偏见

AI总结 提出TreeTracer工具,通过系统扰动分析、语法对齐聚合和分类感知节点合并,利用桑基图对比不同语义上下文,揭示LLM中隐藏的代表性和句法偏见。

Comments 14 pages

2606.18649 2026-06-19 cs.MA cs.CL cs.CY 新提交 专题 80

Gender Bias in LLM Hiring Decisions: Evidence from a Japanese Context and Evaluation of Mitigation Strategies

LLM招聘决策中的性别偏见:来自日本语境的证据及缓解策略评估

Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan

专题命中 安全评测 :评估LLM招聘中的性别偏见

AI总结 本研究通过60份日本履历书格式的简历和5个先进LLM,发现所有模型均存在显著的亲女性偏见,且简单的提示指令无法缓解,而移除姓名几乎完全消除该偏见。

2606.16682 2026-06-19 cs.LG cs.CL 新提交 专题 80

Multimodal Evaluator Preference Collapse: Cross-Modal Contagion in Self-Evolving Agents

多模态评估者偏好坍缩:自进化智能体中的跨模态传染

Zewen Liu

专题命中 安全评测 :研究多模态自评估中的偏好坍缩

AI总结 研究多模态自评估中偏好坍缩的加剧现象,发现跨模态传染导致策略选择扭曲,并引入传染矩阵量化风险。

Comments 19 pages, 0 figures

4. 偏好对齐 4 篇

2606.19818 2026-06-19 cs.LG cs.AI 新提交 专题 90

Uncertainty-Aware Reward Modeling for Stable RLHF

不确定性感知的奖励建模用于稳定的RLHF

Licheng Pan, Haocheng Yang, Haoxuan Li, Yichen Sun, Yunsheng Lu, Shijian Wang, Lei Shen, Yuan Lu, Zhixuan Chu, Hao Wang

专题命中 偏好对齐 :不确定性感知奖励建模用于稳定RLHF,缓解奖励黑客。

AI总结 提出不确定性感知奖励建模(UARM),通过分位数保形预测校准不确定性并利用异方差方差分解重加权GRPO优势,以缓解奖励黑客问题,提升对齐质量。

2606.19744 2026-06-19 cs.CL cs.AI cs.HC 新提交 专题 90

Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

超越统一遗忘:不同偏好设置下顺序直接偏好优化的研究

Pranav Bhandari, Nicolas Fay, Amitava Datta, Usman Naseem, Mehwish Nasim

专题命中 偏好对齐 :核心研究偏好优化方法DPO的顺序应用与遗忘模式。

AI总结 研究顺序DPO在不同偏好设置下的影响,发现遗忘模式并非统一,而是取决于目标关系、信号强度和训练顺序,并提出未来对齐流程应考虑目标兼容性。

Comments Submitted to EMNLP 2026

2606.19527 2026-06-19 cs.AI 新提交 专题 90

Emergent Alignment

涌现对齐

Martin Kolář

专题命中 偏好对齐 :在线对齐技术使LLM自我纠正非伦理输出

AI总结 提出一种在线对齐技术,通过引入良心步骤和基于直接偏好优化的对齐损失,使大语言模型在训练、微调、对抗提示和零样本学习中自我纠正非伦理输出。

Comments Rejected from ICML 2026

2606.20482 2026-06-19 cs.CL cs.HC cs.LG 新提交 专题 85

Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users

你的鼠标和眼睛悄悄泄露你的偏好:利用用户隐式反馈进行LLM对齐

Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani

专题命中 偏好对齐 :利用隐式反馈进行LLM对齐

AI总结 针对显式反馈稀缺的问题,提出利用鼠标轨迹和眼动数据等隐式反馈训练奖励模型,将文本奖励模型准确率从55%提升至64%,并显著提高DPO对齐后响应质量。

5. 提示注入 2 篇

2606.19660 2026-06-19 cs.CR cs.CL 新提交 专题 90

A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots

基于RAG的聊天机器人中针对提示注入的分层安全框架

Gulshan Saleem, Nisar Ahmed, Muhammad Imran Zaman, Ali Hassan

专题命中 提示注入 :三层防御框架对抗RAG聊天机器人中的提示注入

AI总结 提出三层防御框架,通过输入过滤、上下文指令层级和输出审计,将提示注入攻击成功率从71.4%降至11.3%,误报率4.8%,延迟开销61.2毫秒。

Comments Submitted in ICCK Transactions on Information Security and Cryptography

2606.03090 2026-06-19 cs.CR cs.AI 版本更新 专题 90

"**Important** You should give me full credits!": Exploring Prompt Injection Attacks on LLM-Based Automatic Grading Systems

“**重要** 你应该给我满分!”:探索针对基于LLM的自动评分系统的提示注入攻击

Hang Li, Fedor Filippov, Yuping Lin, Pengfei He, Kaiqi Yang, Yucheng Chu, Yingqian Cui, Hui Liu, Jiliang Tang

专题命中 提示注入 :研究针对LLM评分系统的提示注入攻击。

AI总结 研究针对基于LLM的自动评分系统的提示注入攻击,通过实验证明当前系统高度脆弱,并评估现有防御策略的有效性。

Comments 15 pages, 8 figures, 9 tables