Analyzing the Narration Gap in LLM-Solver Loops
分析大语言模型-求解器循环中的叙述差距
发表机构 * Eindhoven University of Technology(埃因霍温理工大学)
专题命中 安全评测 :研究LLM与求解器交互中的安全漏洞和证书门控
AI总结 研究LLM与SAT/SMT求解器混合推理中,将求解器输出转化为用户答案的叙述步骤存在的安全漏洞,通过形式化建模和实验评估发现证书门控可保证求解结果正确,但对抗攻击可反转结论。
AI 大模型
大模型对齐、安全、越狱、红队、提示注入和可信评测。
分析大语言模型-求解器循环中的叙述差距
发表机构 * Eindhoven University of Technology(埃因霍温理工大学)
专题命中 安全评测 :研究LLM与求解器交互中的安全漏洞和证书门控
AI总结 研究LLM与SAT/SMT求解器混合推理中,将求解器输出转化为用户答案的叙述步骤存在的安全漏洞,通过形式化建模和实验评估发现证书门控可保证求解结果正确,但对抗攻击可反转结论。
可预测性作为隐私的细粒度度量
发表机构 * Cornell University(康奈尔大学)
专题命中 安全评测 :提出可预测性作为隐私度量,与差分隐私互补。
AI总结 提出可预测性框架,通过攻击者预测敏感信息的能力增益来衡量隐私泄露,与差分隐私互补,并基于广义矩方法分析渐近可预测性,用于ERM输出扰动。
自我偏好在可验证的指令遵循修订中弱或不存在:基于真正作者身份的四模型测试
发表机构 * Department of Industrial Engineering, Tsinghua University(清华大学工业工程系)
专题命中 安全评测 :自我偏好偏差研究
AI总结 通过IFEval验证器测试四类中端模型在指令遵循修订中的自我偏好,发现作者拒绝已验证正确编辑的比例与新鲜模型无显著差异,表明自我偏好弱或不存在。
Comments 7 pages, 3 tables. Code and data: https://github.com/williamguey/self-preference-revision
测量AI代理的生物能力与风险
发表机构 * PATRICIA PASKOV, JEFFREY LEE, KYLE BRADY, ALYSSA WORLAND(PATRICIA PASKOV、JEFFREY LEE、KYLE BRADY、ALYSSA WORLAND)
专题命中 安全评测 :关注AI代理生物风险的安全评估。
AI总结 针对AI科学家等自主执行多步科学任务的代理系统,本文提出生物代理评估作为解释性工具,并基于实践经验给出定义、设计、运行、评分和记录评估的考量,以帮助决策者谨慎解读结果并指导投资。
Vancomycert: 一种经过认证的神经符号药物递送系统(案例研究)
专题命中 安全评测 :形式化验证神经网络控制器安全性
AI总结 针对抗生素给药神经网络控制器的形式化验证问题,提出一种结合监督学习和定理证明的方法,确保无限时域内自动给药不超过治疗上限。
StylisticBias: 少数人类视觉线索驱动多模态大语言模型中的大部分社会偏见
发表机构 * Technical University of Munich(慕尼黑工业大学) ; Munich Center for Machine Learning(慕尼黑机器学习中心) ; Princeton Center for Information and Technology Policy(普林斯顿信息与技术政策中心)
专题命中 安全评测 :评估模型社会偏见,涉及安全与公平
AI总结 提出StylisticBias基准,通过控制单一视觉属性变化,发现年龄和体型主导身份层面偏见,而时尚风格等约15个属性解释近80%的偏见变化,偏见集中于少数视觉线索。
Comments Accepted to the non-archival workshops AI4Good and Culture x AI at ICML 2026
主权执行代理:在智能体控制平面中强制执行证书绑定权限
专题命中 安全评测 :运行时强制执行权限,涉及安全
AI总结 针对自主代理在生产环境中执行变更时缺乏强制权限验证的问题,提出主权执行代理(SEB),通过证书验证、状态检查和范围身份实现运行时强制权限控制,并在AWS和Kubernetes上验证了其安全性和性能。
Comments 19 pages, 6 figures, 10 tables
杠杆不等于可达性:语言模型中单神经元操控的控制窗口定律
发表机构 * Palo Alto Networks
专题命中 安全评测 :涉及神经元干预对行为控制的影响,与安全相关。
AI总结 提出预算归一化控制窗口框架,通过残差范数与写入范数之比定义的相干预算,预测单神经元干预何时产生连贯行为控制,并在15个神经元上验证了预测精度。
预测AI时代的生产率:智力融合人类框架与生产函数理论中缺失的认知中介
专题命中 安全评测 :AI生产率悖论,认知中介框架
AI总结 本文提出智力融合人类(ICH)框架,通过引入四维认知构念“融合能力”(C)作为AI与生产率之间的认知中介,解释了AI投资未能带来相应生产率增长的理论悖论,并基于20个OECD国家的数据分析验证了AI与C的交互作用对全要素生产率变异的解释力。
Comments 78 pages, 3 figures
编辑对齐:一种参与式方法,将编辑专业知识引入LLM介导的知识传播
发表机构 * Aarhus University(奥胡斯大学) ; University of Copenhagen(哥本哈根大学)
专题命中 偏好对齐 :提出编辑对齐参与式AI设计
AI总结 本文提出“编辑对齐”作为参与式AI设计实践,通过设计工作坊让编辑参与重新对齐LLM接口至编辑标准,以维护公共知识机构的编辑职能。
Comments 14 pages