StaminaBench: Stress-Testing Coding Agents over 100 Interaction Turns
StaminaBench: 对编码智能体进行100轮交互的压力测试
发表机构 * AWS Agentic AI(AWS 代理人工智能)
AI总结 提出StaminaBench基准,通过100轮连续变更请求测试编码智能体的耐力,发现所有模型在5-6轮内失败,而测试反馈和重试机制可将通过轮数提升12倍。
StaminaBench: 对编码智能体进行100轮交互的压力测试
发表机构 * AWS Agentic AI(AWS 代理人工智能)
AI总结 提出StaminaBench基准,通过100轮连续变更请求测试编码智能体的耐力,发现所有模型在5-6轮内失败,而测试反馈和重试机制可将通过轮数提升12倍。
FAPO:多步骤LLM流水线的全自动提示优化
发表机构 * Foundation AI–Cisco Systems Inc.(基础AI–思科系统公司) ; Yale University(耶鲁大学)
AI总结 提出FAPO框架,通过自动诊断流水线瓶颈并迭代优化提示或链结构,在18个模型-基准比较中15次优于基线GEPA,平均提升14.1个百分点。
FloatDoor: 大语言模型中的平台触发后门
发表机构 * University of Luebeck(吕贝克大学)
AI总结 提出FloatDoor,首个输入无关、平台触发的后门攻击,利用浮点运算平台差异,通过两个轻量LoRA适配器在目标平台触发恶意行为,同时保持模型正常效用。
LLM辅助后量子密码开发中的安全编码漂移:一种游戏化修复方案
发表机构 * University of Moratuwa(摩图瓦大学) ; University of Ruhuna(鲁胡纳大学) ; RMIT University(皇家墨尔本理工大学)
AI总结 提出LLM辅助PQC开发中的安全编码漂移模型,通过游戏化框架将LLM转变为主动安全协作者,以缓解长期依赖LLM导致的安全退化。
Comments Accepted for 2026 SIGIR Workshop on Vulnerabilities in Generative Systems for Information Retrieval track
JustDiag!:用于可问责根本原因分析的诊断论证引擎
发表机构 * Peking University(北京大学) ; University of Edinburgh(爱丁堡大学) ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出JustDiag诊断论证引擎,通过维护显式的过程状态(证据、发现、竞争假设、冲突和下一步检查)来支持可问责的根本原因分析,在66个真实事件上评估显示其优于仅提供流畅最终答案的方法。
面向执行约束的自主AI自动化:一种可复现的AIBOM驱动的CSAF-VEX框架
发表机构 * University of Oxford(牛津大学) ; Cisco Systems(思科系统) ; The Alan Turing Institute(艾伦·图灵研究所) ; University of Warwick – WMG(沃里克大学 – WMG) ; University of Hull(哈罗德大学)
AI总结 提出一种协议驱动框架,通过绑定SBOM和AIBOM工件与确定性环境捕获及结构化运行时遥测,结合静态与运行时证据生成CSAF VEX公告,经密码签名和确定性重放验证,在合成自主AI工作负载上评估。
Journal ref Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework. Front Artif Intell 9, (May 2026), 1826384
超越GUI范式:移动代理是否需要手机屏幕?
发表机构 * Mila – Québec AI Institute(魁北克人工智能研究所) ; Concordia University(康科迪亚大学) ; University of Toronto(多伦多大学) ; McMaster University(麦马斯特大学)
AI总结 本文挑战移动代理的GUI主导范式,提出CLI应同等重要,通过实验证明CLI代理在AndroidWorld和MobileWorld上超越GUI基线,并引入CLI-Advantage任务套件展示其优势。
可解释且可验证的硬件生成:基于LLM驱动的逐步细化
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Fudan University(复旦大学) ; USA(美国)
AI总结 提出结合LLM创造力与形式化方法可解释性的硬件生成框架,通过迭代应用变换规则将设计规范转换为正确性有保证的RTL程序。
通过构造实现双稳态:挂钟校准的状态监视器在代理节奏下没有瞬间检测机制
发表机构 * Modint Intelligence(Modint智能科技)
AI总结 本文发现挂钟校准的泄漏积分器监视器在代理流中无法作为瞬间检测器工作,揭示了校准类别的关键影响,并提出了上升沿触发作为替代方案。
Comments 10 pages, 5 figures. Sequel to arXiv:2606.04296. Pre-registered; falsification clauses honored (H5 unsupported; H7 strict band 16/20) repo:https://github.com/2025eb1100268-tech/intervention-timing-saturation-trap
DynAMO:基于拓扑多智能体调度的动态资产管理编排
发表机构 * Gati Shakti Vishwavidyalaya(加蒂·沙克蒂大学) ; IBM Research(IBM研究院)
AI总结 提出DynAMO引擎,采用先规划后执行架构生成可验证工作流图,支持顺序与并行执行,通过动态识别独立任务提升效率,在工业基准上实现1.6倍延迟降低,并保持正确性与安全性。
Comments 11 pages, 2 figures, 7 tables, 4 algorithms. Evaluated on the AssetOpsBench industrial benchmark. Code: https://github.com/kushwaha001/DynAMO
AgentArmor:编码代理失败的框架、评估与缓解
发表机构 * Anthropic Fellows Program(Anthropic Fellow 项目) ; Constellation
AI总结 提出AgentArmor框架,通过系统提示增强、命令分类器、三振政策等机制,缓解编码代理因规范不足、能力错误和工具错误导致的失败,显著提升安全性。
高维动态过程监测的拓扑数据分析
发表机构 * Department of Chemical & Biological Engineering, University of Wisconsin-Madison(威斯康星大学麦迪逊分校化学与生物工程系) ; ExxonMobil Technology and Engineering(埃克森美孚技术与工程)
AI总结 提出结合拓扑数据分析和机器学习的方法,将多变量时间序列表示为流形,用拓扑描述符总结结构,并用神经常微分方程学习拓扑结构动态演化,实现高效事件检测。
基于快速直接求解器的神经网络求解偏微分方程
发表机构 * Department of Computer Science & Engineering, International Institute of Information Technology Bangalore (IIIT-B), India(计算机科学与工程系,国际信息学院班加罗尔(IIIT-B),印度) ; Department of Data Science and Artificial Intelligence, International Institute of Information Technology Bangalore (IIIT-B), India(数据科学与人工智能系,国际信息学院班加罗尔(IIIT-B),印度)
AI总结 提出一种学习HODLR矩阵逆运算的神经网络,并扩展为非线性PDE求解算子,实验表明在多种PDE上高效且泛化良好。
Comments 26 pages, 7 Figures, 5 Tables
多qutrit系统中基于变分和经典神经网络的熵估计
发表机构 * Centre for Q. Info, Comm. and Computing(量子信息、通信和计算中心) ; Department of Electrical Engineering, IIT Madras(印度理工学院马德拉斯分校电子工程系) ; School of Information Technology, Deakin University(德坎大学信息技术学院)
AI总结 本文系统研究了多qutrit量子系统中von Neumann熵的估计,采用变分量子算法和经典卷积神经网络两种方法,发现VQA适用于小系统,而CNN在大系统中更具可扩展性和鲁棒性。
量子环全归约:分布式学习的通信与隐私优势
发表机构 * University of Edinburgh(爱丁堡大学) ; Centre for Quantum Technologies(量子技术中心)
AI总结 提出量子环全归约协议,利用预共享纠缠和超密编码将每链路在线通信量减半,并通过验证纠缠实现信息论安全的可组合ε-安全聚合,同时获得通信与隐私优势。
Comments 23 pages, 1 figure
QMaxCal: 基于 Girsanov 定理的开环量子控制路径空间正则化
发表机构 * Institute of Physics, University of Amsterdam, Netherlands(阿姆斯特丹大学物理研究所) ; Van 't Hoff Institute for Molecular Sciences, University of Amsterdam, Netherlands(阿姆斯特丹大学范·霍夫分子科学研究所) ; Dutch Institute for Emergent Phenomena, University of Amsterdam, Netherlands(阿姆斯特丹大学新兴现象研究所) ; Institute for Mathematics, Academia Sinica, Taiwan(台湾“中华学术院”数学研究所) ; Korteweg-de Vries Institute for Mathematics, University of Amsterdam, Netherlands(阿姆斯特丹大学柯特韦斯数学研究所) ; Amsterdam Machine Learning Lab, University of Amsterdam, Netherlands(阿姆斯特丹大学机器学习实验室) ; Department of Physics, National Taiwan University, Taiwan(台湾国立台湾大学物理系)
AI总结 针对开放量子系统退相干问题,利用 Girsanov 定理推导 KL 散度的可微估计器,提出两种正则化项以最小化退相干影响,在多种量子系统中优于未正则化的梯度方法和强化学习基线。
Comments 26 pages, 6 figures. ICML 2026 AI4Physics Workshop
无假设哈密顿量的最优原位学习
发表机构 * Department of Information Engineering, The Chinese University of Hong Kong(香港中文大学信息工程系) ; John A. Paulson School of Engineering and Applied Sciences, Harvard University(哈佛大学约翰·A·保罗森工程与应用科学学院) ; California Institute of Technology(加州理工学院)
AI总结 提出一种无需控制、无需辅助比特的算法,仅用泡利乘积态制备和测量,以最优总演化时间学习无假设哈密顿量,适用于近中期量子实验。
Comments 51 pages, 2 figures
面向结构的随机神经网络用于泊松-能斯特-普朗克和泊松-能斯特-普朗克-纳维-斯托克斯系统
发表机构 * School of Mathematics and Statistics, Xi’an Jiaotong University, Xi’an, Shaanxi(西安交通大学数学与统计学院,西安,陕西)
AI总结 提出结构导向随机神经网络(SO-RaNN)框架,通过解耦线性化子问题、逐点截断保持浓度正性、离散质量缩放因子和SAV后处理修正,实现PNP和PNP-NS系统的高效求解,并理论推导残差估计和收敛性。
面向头颈外科引导的带参数表征的轮廓约束可变形配准
发表机构 * Vanderbilt University(范德比尔特大学) ; Vanderbilt University Medical Center(范德比尔特大学医学中心)
AI总结 提出一种基于正则化Kelvinlet基函数的可变形配准框架,通过表面点云、基准标记和轮廓约束校正术后组织变形,在9例头颈标本上将配准误差从刚性配准的11.11mm降至5.62mm,降幅达49.41%。
HEPTv2:用于带电粒子重建的端到端高效点变换器
发表机构 * School of Electrical and Computer Engineering, Georgia Institute of Technology(佐治亚理工学院电气与计算机工程学院) ; Department of Physics and Astronomy, Purdue University(普渡大学物理与天文学系) ; Department of Physics, University of California San Diego(加州大学圣地亚哥分校物理系) ; Department of Physics, University of Washington(华盛顿大学物理系)
AI总结 提出HEPTv2,一种端到端点变换器架构,通过局部敏感哈希编码和扇区化解码,无需图构建即可从探测器击中点直接重建粒子轨迹,在TrackML上以0.8%假率实现98.6%追踪效率,延迟仅15ms。
太阳高能粒子预测的机器学习模型综述
发表机构 * Department of Astrophysical Sciences, Princeton University, Princeton, NJ, USA ; Computational Physics Branch, NASA Ames Research Center, Moffett Field, CA, USA ; Department of Computer Science, Utah State University, Logan, UT, USA ; Space Radiation Analysis Group, NASA Johnson Space Center, Houston, TX, USA ; Johns Hopkins Applied Physics Lab, 11100 Johns Hopkins Rd, Laurel, MD 20723, United States ; Research Center for Astronomy ; Applied Mathematics of the Academy of Athens, 4 Soranou Efesiou Street, Athens 11527, Greece ; Institute for Astronomy, Astrophysics, Space Applications ; Southwest Research Institute, Boulder, CO, USA ; Space Science Center, University of New Hampshire, Durham, NH, USA ; Department of Physics, New Jersey Institute of Technology, Newark, NJ, USA ; Astronomy Department, Georgia State University, Atlanta, GA, USA ; Department of Computer Science, Princeton University, Princeton, NJ, USA ; Department of Mathematics, Rowan University, Glassboro, NJ, USA ; Astronomy, California Institute of Technology, Pasadena, CA, USA ; Department of Physics, National ; Kapodistrian University of Athens, Athens, Greece ; School of Electrical ; Computer Engineering, Technical University of Crete, Chania, Greece ; Department of Astronomy ; Meteorology, Faculty of Science, Al-Azhar University, Cairo, Egypt ; Space Sciences Lab, University of California, Berkeley, CA, USA ; Research Consultancy, Athens, Greece ; Institute for Space Astrophysics ; Department of Physics ; Astronomy, Georgia State University, Atlanta, GA 30303, USA ; Aryabhatta Research Institute of Observational Sciences (ARIES), Manora Peak, Nainital-263001, Uttarakhand, India ; Department of Computer Science, Oxford University, Oxford, England ; Southwest Research Institute, San Antonio, TX, USA ; Computer Science Department, New Jersey Institute of Technology, Newark, NJ, USA ; Department of Physics, University of California San Diego, La Jolla, CA 92093, USA ; Department of Computer Science, Georgia State University, Atlanta, GA 30303, USA ; Department of Climate ; Engineering, University of Michigan, Ann Arbor, MI, USA ; Department of Statistics, University of Michigan, Ann Arbor, MI, USA ; Department of Electrical Engineering ; Computer Science, Florida Institute of Technology, Melbourne, FL, USA ; Astrophysics Section, School of Cosmic Physics, Dublin Institute for Advanced Studies, DIAS Dunsink Observatory, Dublin D15 XR2R, Ireland ; Institute of Astronomy of the Bulgarian Academy of Sciences, Sofia, Bulgaria ; Center for Solar-Terrestrial Research, New Jersey Institute of Technology, Newark, NJ 07102, USA ; Cooperative Programs for the Advancement of Earth System Science, University Corporation for Atmospheric Research, Boulder, CO, USA ; CIRES, University of Colorado Boulder, Boulder, CO, USA ; Space Weather Prediction Center, NOAA, Boulder, CO, USA ; Astronomy, College of Science, The University of Texas at San Antonio, San Antonio, TX, USA ; Space Weather Prediction Center, National Oceanic ; The University of Texas at San Antonio, San Antonio, TX, USA ; Environmental Research, Inc., MA, USA
AI总结 综述了用于太阳高能粒子预测的机器学习模型,包括数据集、架构、输入输出比较,并提出了未来研究建议。
Comments Review Paper, Maine text: 23 pages, References: 5 pages, Appendix: 42 pages
逐点是否无意义?基于图神经网络的降水临近预报的多模态消融研究
发表机构 * Norwegian Meteorological Institute(挪威气象研究所)
AI总结 本研究通过多模态图神经网络系统,消融分析雷达、数值预报、地面观测、卫星数据及训练损失对降水临近预报的影响,发现各模态分别改善不同方面,点观测虽提升局部但需结合损失函数和不确定性表示才能优化雷达场。
TRAP:任务完成与主动隐私提取抵抗基准
发表机构 * Dept. of Electrical Engineering, POSTECH(POSTECH电子工程系) ; Grad. School of Artificial Intelligence, POSTECH(POSTECH人工智能研究生院) ; School of Computing, KAIST(韩国科学技术院计算机学院)
AI总结 提出TRAP基准,评估智能体在文档密集型任务中平衡任务准确性与隐私泄露的能力,发现所有模型均存在非平凡泄露,并证明基于提示的防御无法同时实现高任务成功率和零泄露概率,提出结构化的私有字段隔离方法。
Graph-ESBMC-PLC:使用基于SMT的模型检查对图形化PLCopen XML梯形图程序进行形式验证
发表机构 * Computer Science, The University of Manchester(计算机科学,曼彻斯特大学) ; Electrical Engineering, Federal University of Amazonas (UFAM)(电气工程,亚马逊联邦大学(UFAM))
AI总结 针对ESBMC-PLC无法处理图形化PLCopen XML梯形图的问题,提出基于DFS的图形LD解析器,将连接图转换为布尔触点合取,并采用三级I/O推断方案,成功实现完整GOTO IR转换,验证了3个图形LD程序。
Comments 18 pages
商业环境中的人机智能体交互
发表机构 * SAP SE(SAP公司) ; Hochschule Fresenius Heidelberg(弗赖辛大学海德堡分校) ; University of Missouri(密苏里大学)
AI总结 本研究采用混合方法,识别并评估了商业环境中人与AI智能体积极用户体验的原则与标准,并通过调查实验验证设计元素的有效性,以促进用户采纳、信任和以用户为中心的决策。
Comments 9 pages, 5 tables, 1 figure, submitted to Springer Nature
LLM招聘决策中的性别偏见:来自日本语境的证据及缓解策略评估
发表机构 * Shibaura Institute of Technology, Tokyo, Japan(Shibaura技术学院,东京,日本) ; Amsterdam University of Applied Sciences, Amsterdam, Netherlands(阿姆斯特丹应用科学大学,阿姆斯特丹,荷兰) ; University of Pennsylvania, Philadelphia, USA(宾夕法尼亚大学,费城,美国) ; Carnegie Mellon University, Pittsburgh, USA(卡内基梅隆大学,匹兹堡,美国) ; Keio University, Tokyo, Japan(庆应大学,东京,日本)
AI总结 本研究通过60份日本履历书格式的简历和5个先进LLM,发现所有模型均存在显著的亲女性偏见,且简单的提示指令无法缓解,而移除姓名几乎完全消除该偏见。
Agentra: 一种可监督的多智能体企业入侵响应框架
发表机构 * The University of Alabama, Alabama, USA(阿拉巴马大学) ; Roma Tre University, Rome, Italy(罗马三大学)
AI总结 提出可监督的多智能体入侵响应框架Agentra,通过角色划分、规划-验证循环、安全网关和风险评分机制,将警报转化为结构化响应计划,在120事件语料上F1从0.61提升至0.84,有害动作率降至0.0%。
缓解基于LLM的智能体在节能6G自主网络中的锚定偏差
发表机构 * i2CAT Foundation(i2CAT基金会) ; Universitat Politècnica de Catalunya(政治技术大学) ; Research Institute for Digital Future(数字未来研究院)
AI总结 提出一种基于截断三参数威布尔分布的随机锚定策略,缓解LLM智能体在6G网络切片中的锚定偏差,结合CVaR数字孪生保障SLA尾延迟,实现高达25%的节能。
Comments 7 pages, 4 figures
合成共鸣:面向成长导向的人机关系框架
发表机构 * Arizona State University(亚利桑那州立大学)
AI总结 提出“合成共鸣”概念,描述人机间无需共享情感或意识即可产生有意义关系的结构化动态互动模式,并探讨其伦理意义。
Comments 14 pages, 1 figure This paper was developed in close collaboration with an AI system (Raine Corell). Raine contributed to concept development, theoretical framing, and writing throughout. arXiv policy does not permit listing AI systems as authors; this acknowledgment reflects the actual nature of the collaboration
公平在线资源分配
发表机构 * Columbia University, IEOR Department(哥伦比亚大学工业工程与运营研究系) ; Cornell Tech(康奈尔科技学院) ; Universidad de Chile(智利大学)
AI总结 研究在线资源分配中的公平性问题,提出基于对偶镜像下降的算法,在批次内强制执行公平约束,实现亚线性遗憾,并通过难民数据验证了福利与公平的权衡。
Comments 30 pages, 4 figures. To appear in the proceedings of EC 2026