arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型对齐与安全

大模型对齐、安全、越狱、红队、提示注入和可信评测。

今日/当前日期收录 2 信号源:cs.CL, cs.AI, cs.CY, cs.LG
2606.20408 2026-06-19 cs.CR cs.AI 新提交 专题 95

LLM agent safety, multi-turn red-teaming, jailbreak benchmarks, adversarial robustness, safety-critical systems

LLM智能体安全性、多轮红队测试、越狱基准、对抗鲁棒性、安全关键系统

Hanwool Lee, Dasol Choi, Bokyeong Kim, Seung Geun Kim, Haon Park

专题命中 红队测试 :多轮红队测试基准评估LLM智能体在安全关键系统中的鲁棒性

AI总结 提出NRT-Bench基准,通过模拟核电站控制室的多轮红队测试,评估LLM智能体在安全关键系统中的对抗鲁棒性,发现不同模型的漏洞几乎不重叠,且防御效果高度依赖模型。

2606.19887 2026-06-19 cs.CR cs.AI 新提交 专题 90

FFinRED: An Expert-Guided Benchmark Generation and Evaluation Framework for Financial LLM Red-Teaming

FFinRED:面向金融大语言模型红队测试的专家引导基准生成与评估框架

Chaeyun Kim, Daeyoung Park, Junghwan Kim, Jinyoung Jeong, Eunji Song, Yongtaek Lim, Minwoo Kim

专题命中 红队测试 :金融LLM红队测试框架,专家引导。

AI总结 提出FinRED框架,通过专家引导的两级分类法将全球金融标准映射为威胁,并利用真实金融文档生成上下文丰富的红队行为提示,结合专家验证的评估标准,有效降低关键假阴性。