AI 大模型
大模型对齐与安全
大模型对齐、安全、越狱、红队、提示注入和可信评测。
1. 安全评测 17 篇
AutoTam: Specifying Secure Protocol Implementations with Tamarin Model Generation
AutoTam: 通过 Tamarin 模型生成指定安全协议实现
专题命中 安全评测 :自动生成Tamarin模型验证协议安全
AI总结 提出一种语言优先方法,通过领域特定语言实现协议并自动生成 Tamarin 模型,验证迹属性并保证其传递到实现,同时集成符号执行分析内存安全,在签名 Diffie-Hellman 和 WireGuard 协议上验证了安全性和互操作性。
Comments 19 pages, 5 figures
Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship
自我偏好在可验证的指令遵循修订中弱或不存在:基于真正作者身份的四模型测试
专题命中 安全评测 :自我偏好偏差研究
AI总结 通过IFEval验证器测试四类中端模型在指令遵循修订中的自我偏好,发现作者拒绝已验证正确编辑的比例与新鲜模型无显著差异,表明自我偏好弱或不存在。
Comments 7 pages, 3 tables. Code and data: https://github.com/williamguey/self-preference-revision
StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
StylisticBias: 少数人类视觉线索驱动多模态大语言模型中的大部分社会偏见
专题命中 安全评测 :评估模型社会偏见,涉及安全与公平
AI总结 提出StylisticBias基准,通过控制单一视觉属性变化,发现年龄和体型主导身份层面偏见,而时尚风格等约15个属性解释近80%的偏见变化,偏见集中于少数视觉线索。
Comments Accepted to the non-archival workshops AI4Good and Culture x AI at ICML 2026
Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes
主权执行代理:在智能体控制平面中强制执行证书绑定权限
专题命中 安全评测 :运行时强制执行权限,涉及安全
AI总结 针对自主代理在生产环境中执行变更时缺乏强制权限验证的问题,提出主权执行代理(SEB),通过证书验证、状态检查和范围身份实现运行时强制权限控制,并在AWS和Kubernetes上验证了其安全性和性能。
Comments 19 pages, 6 figures, 10 tables
Forecasting AI-Era Productivity: The Intellectually Converged Human Framework and a Missing Cognitive Mediator in Production Function Theory
预测AI时代的生产率:智力融合人类框架与生产函数理论中缺失的认知中介
专题命中 安全评测 :AI生产率悖论,认知中介框架
AI总结 本文提出智力融合人类(ICH)框架,通过引入四维认知构念“融合能力”(C)作为AI与生产率之间的认知中介,解释了AI投资未能带来相应生产率增长的理论悖论,并基于20个OECD国家的数据分析验证了AI与C的交互作用对全要素生产率变异的解释力。
Comments 78 pages, 3 figures