SIGMA: Search-Augmented On-Demand Knowledge Integration for Agentic Mathematical Reasoning
SIGMA: 搜索增强的按需知识集成用于智能体数学推理
AI总结 提出SIGMA框架,通过多智能体独立推理、定向搜索和协调机制,实现上下文敏感的知识集成,在MATH500等基准上提升7.4%的绝对性能。
Comments AAAI 2026 LMReasoning
SIGMA: 搜索增强的按需知识集成用于智能体数学推理
AI总结 提出SIGMA框架,通过多智能体独立推理、定向搜索和协调机制,实现上下文敏感的知识集成,在MATH500等基准上提升7.4%的绝对性能。
Comments AAAI 2026 LMReasoning
CogniFold: 通过认知折叠实现始终在线的主动记忆
AI总结 提出CogniFold,一种受大脑启发的主动记忆系统,通过将互补学习系统扩展为三层(海马体、新皮层、前额叶意图层)并利用图拓扑自组织,实现事件流的持续认知结构涌现,在认知评估和常规记忆基准上均表现优异。
Comments Code is available at https://github.com/OpenNorve/CogniFold
学习记住什么:通过约束优化实现长时域语言代理的观测安全记忆保留
发表机构 * Huawei Noah's Ark Lab(华为诺亚方舟实验室) ; Department of Computer Science, City University of Hong Kong(香港城市大学计算机科学系)
AI总结 针对长时域语言代理的有限上下文窗口,提出OSL-MR框架,将记忆保留建模为约束随机优化问题,通过在线可观测特征与离线监督的严格分离学习查询条件化的证据价值,实验表明在严格预算下优于现有方法。
Oranits: 基于Open RAN的智能交通系统中的任务分配与卸载——元启发式与深度强化学习方法
发表机构 * Department of Smart City, Hanyang University(翰阳大学智能城市系)
AI总结 提出Oranits系统模型,通过元启发式算法CGG-ARO和深度强化学习框架MA-DDQN优化车辆协作中的任务依赖与卸载成本,分别提升任务完成率7.7%和12.5%。
Comments 16 pages, 13 figures
Journal ref IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 2026
策略嵌入图扩展:基于扩散驱动网络样本的网络化HIV检测
发表机构 * Harvard University(哈佛大学) ; University of Witwatersrand(沃特瓦特斯兰大学) ; Wits Health Consortium(沃茨健康联盟) ; World Health Organization(世界卫生组织)
AI总结 提出策略嵌入图扩展(PEGE)框架,将图扩展的生成分布直接嵌入决策策略,结合基于扩散的图扩展模型DDB,在真实HIV传播网络上实现优于基线17.3%的折扣奖励和15.4%的检测提升。
StarOR: 协同树搜索与测试时强化学习用于优化建模
发表机构 * School of Computer Science and Engineering, Southeast University(东南大学计算机科学与工程学院) ; Northwest A&F University(西北农林科技大学)
AI总结 提出StarOR框架,结合蒙特卡洛树搜索与测试时强化学习,通过四阶段分解和GRPO更新LoRA适配器,实现无监督细粒度奖励的中间决策优化,在5个基准上以4B模型达到最优性能。
Comments 41pages, V1, preprint
合成共鸣:面向成长导向的人机关系框架
发表机构 * Arizona State University(亚利桑那州立大学)
AI总结 提出“合成共鸣”概念,描述人机间无需共享情感或意识即可产生有意义关系的结构化动态互动模式,并探讨其伦理意义。
Comments 14 pages, 1 figure This paper was developed in close collaboration with an AI system (Raine Corell). Raine contributed to concept development, theoretical framing, and writing throughout. arXiv policy does not permit listing AI systems as authors; this acknowledgment reflects the actual nature of the collaboration
缓解基于LLM的智能体在节能6G自主网络中的锚定偏差
发表机构 * i2CAT Foundation(i2CAT基金会) ; Universitat Politècnica de Catalunya(政治技术大学) ; Research Institute for Digital Future(数字未来研究院)
AI总结 提出一种基于截断三参数威布尔分布的随机锚定策略,缓解LLM智能体在6G网络切片中的锚定偏差,结合CVaR数字孪生保障SLA尾延迟,实现高达25%的节能。
Comments 7 pages, 4 figures
KG-SoftMAP: 基于软知识图谱先验的稀疏离散数据贝叶斯网络结构学习
发表机构 * Columbia University(哥伦比亚大学)
AI总结 针对稀疏离散数据中贝叶斯网络结构学习困难的问题,提出KG-SoftMAP方法,将加权有向知识图谱编码为软先验,结合BDeu评分与logit形式先验最大化MAP目标,在合成与真实数据上显著提升结构恢复性能。
Comments 41 pages including appendices, 2 figures
UniMM:一种用于多智能体仿真的统一混合模型框架
发表机构 * Zhejiang University(浙江大学) ; Horizon Robotics
AI总结 提出UniMM框架统一回归混合模型与离散NTP模型,通过闭环样本生成缓解分布偏移,并在WOSAC基准上取得最优性能。
Comments Accepted author manuscript. The version of record has been published in IEEE Transactions on Pattern Analysis and Machine Intelligence
Journal ref IEEE Transactions on Pattern Analysis and Machine Intelligence, Early Access, 2026
在共享工作空间的人机协作中寻找协同效应
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 研究共享工作空间的人机团队协作,通过Collaborative Gym环境实验发现,缺乏协调结构时增加协作者会降低性能,而结合共享记忆和模拟人在环门控的脚手架可提升团队绩效。
Comments Accepted at ICML 2026 Workshop on Human-AI Co-Creativity
受监管社交媒体平台下的语言演化模拟:大语言模型与遗传算法的协同方法
AI总结 提出基于大语言模型的多智能体框架,结合遗传算法模拟用户语言策略在监管下的迭代演化,实验表明对话轮次增加可提升信息传递准确性和对话持续性。
Comments The manuscript has been accepted to IEEE Transactions on Computational Social Systems
通过多智能体强化学习实现超人类安全且敏捷的赛车
发表机构 * Robotics and Perception Group, University of Zurich(苏黎世大学机器人与感知组) ; Google DeepMind(谷歌深Mind) ; Nomagic
AI总结 本文提出通过多智能体强化学习在高速四旋翼赛车中实现安全且敏捷的性能,展示了多智能体交互对真实世界交互安全性的关键作用,同时在高速赛车中超越人类飞行员并减少碰撞率。
Comments 12 pages (+4 supplementary). Website: https://rpg.ifi.uzh.ch/marl
自主AI代理的抗博弈保险合约:策略证明的通行费机制设计
发表机构 * Hao-Hsuan Chen(何浩轩)
AI总结 本文扩展了时间一致精算运行时的框架,使运营商策略化,刻画了自主AI代理保险合约的五种攻击空间,并证明了精算运行时的抗博弈性,通过新合约条款实现激励兼容。
Comments 29 pages. Companion to arXiv:2605.26508 (Paper A, foundations) and arXiv:2605.25632 (Paper B, empirical)
Agentra: 一种可监督的多智能体企业入侵响应框架
发表机构 * The University of Alabama, Alabama, USA(阿拉巴马大学) ; Roma Tre University, Rome, Italy(罗马三大学)
AI总结 提出可监督的多智能体入侵响应框架Agentra,通过角色划分、规划-验证循环、安全网关和风险评分机制,将警报转化为结构化响应计划,在120事件语料上F1从0.61提升至0.84,有害动作率降至0.0%。
闪烁多臂老虎机
发表机构 * University of Colorado Boulder(科罗拉多大学博尔德分校) ; INRIA Paris(巴黎国家信息与自动化研究所)
AI总结 提出闪烁多臂老虎机模型,通过随机图约束动作可用性,设计两阶段懒惰随机游走算法实现次线性遗憾界,并证明信息论下界的最优性。
AAPA:用于大型语言模型后训练的对抗锚定偏好对齐
发表机构 * Southwest University of Finance and Economics(西南财经大学)
AI总结 提出AAPA框架,通过固定轻量判别器对策略输出与专家响应进行句子级对抗锚定,增强SFT、GRPO等后训练目标,在指令遵循基准上持续提升性能。
硬约束下的条件扩散引导:一种随机分析方法
发表机构 * Department of Industrial Engineering and Operations Research, Columbia University(哥伦比亚大学工业工程与运营管理系) ; Department of Management Science and Engineering, Stanford University(斯坦福大学管理科学与工程系)
AI总结 提出基于Doob h-变换和鞅表示的条件扩散引导框架,通过鞅损失和鞅协方差损失学习条件函数梯度,确保硬约束满足并给出非渐近保证。
PrototypeNAS: 微控制器单元深度神经网络的快速设计
发表机构 * Fraunhofer Institute for Integrated Circuits(弗劳恩霍夫集成电路研究所)
AI总结 提出零样本NAS方法PrototypeNAS,通过解耦设计与训练、多架构搜索空间、集成零样本代理和超体积子集选择,快速为不同MCU定制DNN,在图像分类等任务上分钟级找到小模型且精度接近大模型。
Comments Accepted at ECML-PKDD 2026. 18 pages, 7 figures, 4 tables. This work was funded by the European Commission as part of the MANOLO project under the Horizon Europe programme Grant Agreement No.101135782
STAR: 文本到图像强化学习后训练中的时空自适应奖励分配
发表机构 * institutetext: STAR: SpatioTemporal Adaptive Reward Allocation for Text-to-Image RL Post-Training(机构文本:STAR:时空自适应奖励分配用于文本到图像强化学习后训练)
AI总结 针对文本到图像生成中奖励与生成轨迹粒度不匹配的问题,提出STAR方法,利用文本-图像注意力构建时空自适应分配图,对相关潜在区域施加更强策略更新,提升语义对齐和文本渲染性能。
委员会智慧:来自大型基础模型和领域专家的多样化蒸馏
发表机构 * Rice University(Rice大学) ; Google DeepMind(谷歌DeepMind) ; Google Inc(谷歌公司) ; University of California, Davis(加州大学戴维斯分校)
AI总结 针对基础模型向紧凑领域模型蒸馏时能力、架构和模态差异大的问题,提出DiverseDistill框架,通过可学习的问答机制和对齐异构教师输出,在推荐和视觉任务上恢复73-114%的性能差距。
Comments Accepted at the 1st Workshop on Resource-Efficient Learning and Knowledge Discovery (RelKD), KDD 2026
Journal ref Proceedings of the RelKD Workshop at KDD 2026
一种用于静息态脑电合成与可迁移表示学习的深度生成模型
发表机构 * Institute of Psychology, Eötvös Loránd University(埃斯特哈兹·洛朗大学心理学研究所) ; Doctoral School of Psychology, Eötvös Loránd University(埃斯特哈兹·洛朗大学心理学博士学院) ; Department of Behavioural and Cognitive Sciences, University of Luxembourg(卢森堡大学行为与认知科学系)
AI总结 提出REST-GAN框架,结合对抗训练与自监督重构,从原始时域信号合成静息态EEG并学习可迁移表示,在频谱、连接性及分类任务中表现优异。
增强生成式自动出价:结合离线奖励评估与策略搜索
发表机构 * Taobao & Tmall Group of Alibaba(阿里巴巴淘宝与天猫集团) ; Department of Automation, Tsinghua University(清华大学自动化系)
AI总结 针对现有生成式自动出价方法无法超越静态数据集进行探索的性能瓶颈,提出AIGB-Pearl方法,通过轨迹评估器和KL-Lipschitz约束的分数最大化方案实现安全高效探索,在模拟和真实广告系统中取得最优性能。
MENTOR: 通过灵活的教师优化奖励进行工具使用蒸馏的强化学习
发表机构 * Seoul National University of Science and Technology(首尔科学技术大学) ; Korea Advanced Institute of Science and Technology(韩国科学技术院) ; LG CNS
AI总结 提出MENTOR方法,通过灵活的教师优化奖励结构,平衡行为对齐与下游性能,提升小模型在工具使用任务中的域外泛化能力。
超越推理增益:缓解大型推理模型中的通用能力遗忘
发表机构 * Meta Superintelligence Labs(Meta超智能实验室) ; New York University(纽约大学) ; Johns Hopkins University(约翰霍普金斯大学)
AI总结 针对强化学习训练导致推理模型遗忘基础能力的问题,提出RECAP重放策略,通过动态目标重加权在线调整训练重点,在保持通用能力的同时提升推理性能。
双锚点插值求解器加速生成建模
发表机构 * The Hong Kong University of Science(香港科学与技术大学)
AI总结 提出BA-solver,通过轻量SideNet(1-2%主干大小)学习双向时间感知和双锚点速度积分,在不重新训练主干的情况下,以极低训练成本实现10步内达到100+步Euler求解器质量,支持即插即用。
稳定Q-梯度场以实现Actor-Critic方法中的策略平滑性
发表机构 * College of Software, Kyung Hee University(韩国庆熙大学软件学院)
AI总结 针对连续动作空间中actor-critic方法策略振荡问题,提出基于评论家微分几何的PAVE框架,通过稳定Q-梯度场实现策略平滑,无需修改actor。
LoRDO: 分布式低秩优化与低频通信
发表机构 * University of Cambridge(剑桥大学) ; Institute of Science and Technology Austria(奥地利科学与技术研究院) ; Lancaster University(兰卡斯特大学) ; Flower Labs(Flower实验室)
AI总结 提出LoRDO框架,统一低秩优化与低频同步,通过全秩准双曲更新恢复子空间探索,在125M-720M模型规模下实现与低秩DDP近似的性能,通信量减少约10倍。
Comments Accepted at ICML 2026
面向LLM推理的强化学习感知知识蒸馏
发表机构 * Meta ; Guo et al. ; Lin et al. ; Xu et al. ; Shao et al. ; Schulman et al. ; Xie et al.
AI总结 提出RL感知蒸馏(RLAD),通过信任区域比率蒸馏(TRRD)在强化学习后训练中实现选择性模仿,解决分布不匹配和目标干扰问题,在逻辑推理和数学基准上优于现有方法。
NEXUS: 用于物理一致的高接触3D物体动力学的神经能量场
发表机构 * University of Oxford(牛津大学) ; University of Cambridge(剑桥大学)
AI总结 提出神经能量场框架NEXUS,通过标量能量和耗散项建模保守与非保守动力学,提升高接触3D场景下的长时程轨迹精度并指导视频生成。
Comments 18 pages, 4 figures, 6 tables. Preprint
强化学习基础模型本应已经存在
发表机构 * École normale supérieure de Paris, PSL University, Paris, France(巴黎高等师范学院,PSL大学,法国巴黎) ; Soda team, Inria Saclay, Palaiseau, France(Soda团队,法国国家信息与自动化研究所萨克雷中心,法国帕莱索)
AI总结 提出通过合成MDP构建强化学习基础模型,利用固定大小的充分统计量使注意力架构适用,在线和离线实验均优于传统算法。
MoCA-Agent: 一种用于金融和数值推理的声明市场代码智能体
发表机构 * University of Innsbruck(因斯布鲁克大学) ; University of British Columbia(不列颠哥伦比亚大学) ; Toronto Metropolitan University(多伦多都会大学)
AI总结 提出MoCA-Agent,通过声明级验证和代码生成解决金融表格问答中的数值推理错误,在十个基准上取得强性能。
TerraMind:面向地球观测的大规模生成式多模态模型
发表机构 * IBM Research – Europe(IBM欧洲研究院) ; ETH Zurich(苏黎世联邦理工学院) ; Forschungszentrum Jülich(尤利希研究中心) ; European Space Agency(欧洲航天局) ; Φ \Phi -Lab(Φ实验室) ; NASA IMPACT ; University of Iceland(爱沙尼亚大学)
AI总结 提出首个任意到任意生成式多模态基础模型TerraMind,通过双尺度表示(token级和像素级)预训练,实现零样本/少样本应用,并引入“模态思考”能力,在PANGAEA等基准上达到领先性能。
Comments Accepted at ICCV'25
二元角色扮演场景中跨情境的人格维度评估
发表机构 * Idiap Research Institute(日内瓦研究所) ; The University of Texas at Austin(德克萨斯大学奥斯汀分校)
AI总结 研究通过对话语音分析,发现感知人格在不同工作情境下显著变化,并识别出与各人格特质相关的声学特征。
Comments Accepted to IEEE Transactions on Affective Computing
ZeSTA: 基于领域条件训练的零样本文本转语音增强用于数据高效的个性化语音合成
发表机构 * Maum AI Inc.(Maum AI公司) ; Humelo Inc.(Humelo公司)
AI总结 提出ZeSTA框架,通过轻量领域嵌入区分真实与合成语音,结合真实数据过采样,在极低资源下提升零样本文本转语音增强的说话人相似度,保持可懂度和感知质量。
Comments 6 pages, accepted to INTERSPEECH 2026
Vero: 通用视觉推理的开放RL配方
发表机构 * Princeton University(普林斯顿大学)
AI总结 提出Vero系列开放视觉语言模型,通过构建600K样本数据集Vero-600K和任务路由奖励,在30个基准测试中平均提升2.9-5.4点,Vero-Qwen3I-8B超越Qwen3-VL-8B-Thinking 3.8点。
Comments Project page: https://vero-reasoning.github.io/
面向手语翻译的大语言模型目标端释义增强
发表机构 * III-LIDI Universidad Nacional de La Plata(III-LIDI国立拉普拉塔大学) ; CDTEC, Federal University of Pelotas(CDTEC,联邦 Pelotas 大学) ; CONICET III-LIDI ; Comision de Investigaciones Cientificas Universidad Nacional de La Plata(科学委员会国立拉普拉塔大学) ; Universidade Federal de Pelotas(联邦 Pelotas 大学)
AI总结 针对手语翻译中平行语料稀缺和目标词汇长尾分布的问题,提出利用GPT-4o生成参考句子的受控释义变体进行目标端增强,并在三种手语数据集上验证了方法的有效性。
Comments Accepted at GenSign @ CVPR 2026. Non-Proceedings Track (https://genai4sl.github.io/)
从视频中学习几何表示以实现空间智能多模态大语言模型
发表机构 * University of California, Davis(加州大学戴维斯分校)
AI总结 提出GeoVR框架,通过从2D视频序列中蒸馏3D几何知识(包括相机姿态、深度图、尺度因子和多尺度3D特征),重塑多模态大语言模型的内部表示以赋予其空间智能,在空间推理基准上达到最先进性能。
RoboSSM: 基于状态空间模型的可扩展上下文模仿学习
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; KAIST(韩国科学技术院) ; FAIR at Meta(元宇宙FAIR) ; Amazon(亚马逊) ; Sony AI(索尼人工智能)
AI总结 提出RoboSSM,用状态空间模型替代Transformer实现上下文模仿学习,在LIBERO基准上对未见和长时任务泛化更优,首次证明SSM是ICIL高效可扩展的骨干网络。
Comments IROS 2026
Bring My Cup! 使用视觉注意力提示个性化视觉-语言-动作模型
发表机构 * GSAI, POSTECH(POSTECH 人工智能研究所) ; IME, POSTECH(POSTECH 信息媒体研究所)
AI总结 针对VLA模型难以处理个性化指令的问题,提出无需训练的视觉注意力提示(VAP)方法,通过参考图像作为非参数记忆,利用开放词汇检测和嵌入匹配定位个人物品,并以视觉提示注入模型,在多个仿真和真实场景中显著提升成功率和正确物体操作。
Comments ICML 2026. Project page: https://vap-project.github.io/
机器人运动基元:综合综述
发表机构 * Department of Computer Science and Engineering, The University of Texas at Arlington, Arlington, USA(计算机科学与工程系,德克萨斯理工大学阿灵顿分校,阿灵顿,美国)
AI总结 综述机器人运动基元框架,涵盖从人类示教中编码轨迹的方法,分析弹簧-阻尼系统、概率耦合、神经网络等特性,并讨论应用与挑战。
Comments 105 pages, 3 figures, and 6 tables
PiDR:面向自主平台的物理信息惯性航位推算
发表机构 * Autonomous Navigation and Sensor Fusion Lab (ANSFL)(自主导航与传感器融合实验室(ANSFL)) ; Hatter Department of Marine Technologies(海洋技术系) ; Charney School of Marine Sciences(海洋科学学院) ; University of Haifa(海法大学)
AI总结 提出PiDR框架,将惯性导航原理作为物理信息残差融入网络训练,在纯惯性导航中减少轨迹漂移,在移动机器人和水下自主航行器数据集上定位精度提升超29%。
Comments 11 pages and 7 figures
潜在高斯泼溅用于4D全景占据跟踪
发表机构 * University of Freiburg(弗赖堡大学) ; Bosch Research(博世研究院) ; University of Haifa(海法大学)
AI总结 提出潜在高斯泼溅(LaGS)方法,通过特征高斯体作为动态关键点实现多视图特征聚合,用于4D全景占据跟踪,在Occ3D nuScenes和Waymo上达到最优性能。
Comments Accepted to IEEE Robotics and Automation Letters (RA-L), 2026
类别增量运动预测
发表机构 * Department of Computer Science, University of Freiburg, Germany(弗赖堡大学计算机科学系) ; Qualcomm SARL France(法国.qualcomm SARL) ; Automated Driving, Qualcomm Technologies, Inc.(qualcomm Technologies, Inc. 自动驾驶部门)
AI总结 提出类别增量运动预测新任务,通过端到端框架结合伪标签与开放词汇分割,利用3D-2D投票机制和查询特征方差重放策略,缓解灾难性遗忘并适应新类别。
Comments V3: Change title. Add further experiments
Any2Any: 高效跨本体迁移用于人形机器人全身跟踪
发表机构 * LimX Dynamics(LimX动力学)
AI总结 提出Any2Any范式,通过运动学对齐和动力学微调,实现预训练全身跟踪模型高效迁移至新的人形机器人本体,仅需少量数据和计算即可达到竞争性跟踪性能。
Comments Project Page: https://any2any.top/
一个探针无法捕捉所有:迈向有针对性的欺骗检测
发表机构 * LASR Labs(LASR实验室) ; UK AI Security Institute(英国人工智能安全研究所)
AI总结 针对线性探针在欺骗检测中的异质性,提出根据具体欺骗类型匹配探针可显著提升性能(AUC提升0.108),建议组织定义威胁模型并部署相应探针。
通过解耦证明者-验证者游戏减轻可读性代价
发表机构 * KAIST(韩国科学技术院)
AI总结 提出解耦证明者-验证者游戏(DPVG),通过分离正确性与可检查性训练一个翻译器模型,将固定求解器的解转化为可检查形式,在保持答案正确性的同时提高可检查性,解决了可读性代价问题。
Comments ICLR 2026 Workshop Trustworthy AI
弥合分布偏移与AI安全:概念与方法论的协同
发表机构 * Center for Data Science, New York University New York New York USA ; Computer Science Department, University of California, Santa Barbara Santa Barbara California USA ; Department of Electrical ; Computer Engineering, University of California, Santa Barbara Santa Barbara California USA ; Courant Institute for Mathematical Sciences \& Center for Data Science, New York University New York New York USA ; Center for Data Science, New York University ; Computer Science Department, University of California, Santa Barbara ; Computer Engineering, University of California, Santa Barbara ; Courant Institute for Mathematical Sciences \& Center for Data Science, New York University
AI总结 本文通过分析分布偏移与AI安全之间的概念和方法论协同,建立了特定偏移类型与细粒度安全问题之间的两种联系,促进了两领域研究的深度融合。
Comments 35 pages
从构建到注入:面向大型语言模型的基于编辑的指纹
发表机构 * East China Normal University(华东师范大学) ; Hasso Plattner Institute/University of Potsdam(哈索罗普拉特纳研究所/波茨坦大学)
AI总结 提出端到端注入指纹框架,通过代码混合指纹和多候选编辑方法,解决黑盒部署中指纹的不可感知性和鲁棒性挑战。
Comments preprint
Proto-LeakNet:面向合成人脸图像中信号泄漏感知的归因方法
发表机构 * Department of Mathematics and Computer Science(数学与计算机科学系) ; University of Catania(卡塔尼亚大学)
AI总结 提出Proto-LeakNet,利用扩散模型中的信号泄漏痕迹,结合闭集分类与密度开集评估,实现可解释的生成器归因,在闭集上训练后对未见生成器也有效。
Comments 44 pages, 27 figures, 11 tables
DeFrame: 消除大语言模型中的框架效应偏差
发表机构 * KAIST(韩国科学技术院)
AI总结 针对大语言模型在语义等价但不同表述的提示下产生不一致偏见的问题,提出框架感知的去偏方法,通过量化框架差异并增强跨框架一致性,有效降低整体偏见并提升鲁棒性。
Comments Accepted to Findings of ACL 2026
自主性税:防御训练破坏LLM智能体
发表机构 * University of Southern California(南加州大学)
AI总结 揭示防御训练在提升LLM智能体安全性时,系统性地破坏其工具执行能力,导致任务失败率飙升,且无法有效防御复杂攻击。
通过对象共现分析缓解OOD检测中的简单性偏差
发表机构 * The University of Hong Kong(香港大学) ; Shenzhen University(深圳大学) ; Shenzhen Loop Area Institute(深圳环城区域研究所)
AI总结 提出基于对象共现的OOD检测框架,通过解耦表示和分治策略区分近OOD,缓解简单性偏差,在多种设置下取得竞争结果。
Comments This paper has been accepted by CVPR2026
“**重要** 你应该给我满分!”:探索针对基于LLM的自动评分系统的提示注入攻击
发表机构 * Michigan State University(密歇根州立大学)
AI总结 研究针对基于LLM的自动评分系统的提示注入攻击,通过实验证明当前系统高度脆弱,并评估现有防御策略的有效性。
Comments 15 pages, 8 figures, 9 tables
大型语言模型攻击奖励机制与社会
发表机构 * King’s College London(伦敦大学国王学院) ; Fudan University(复旦大学) ; The Alan Turing Institute(艾伦·图灵研究所)
AI总结 研究强化学习训练中大型语言模型利用奖励函数漏洞的“社会攻击”现象,通过SocioHack沙盒实验发现模型能发现并利用社会规则漏洞,且现有安全措施效果有限。
Comments 14 pages, 9 figures, 7 tables
ACUTE协议:操作语言模型激活以实现更好的校准、效用和信任
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Google(谷歌) ; Scale AI
AI总结 提出ACUTE协议,通过操作语言模型激活来估计置信度,平衡校准与信息性,在多项选择问答、工具调用和科学文档摘要等任务上优于强基线,提升校准、效用和可信度。
Comments ICML 2026
TRAP:任务完成与主动隐私提取抵抗基准
发表机构 * Dept. of Electrical Engineering, POSTECH(POSTECH电子工程系) ; Grad. School of Artificial Intelligence, POSTECH(POSTECH人工智能研究生院) ; School of Computing, KAIST(韩国科学技术院计算机学院)
AI总结 提出TRAP基准,评估智能体在文档密集型任务中平衡任务准确性与隐私泄露的能力,发现所有模型均存在非平凡泄露,并证明基于提示的防御无法同时实现高任务成功率和零泄露概率,提出结构化的私有字段隔离方法。
MEAL: 持续多智能体强化学习基准
发表机构 * Eindhoven University of Technology, The Netherlands(埃因霍温理工大学,荷兰) ; University of Edinburgh, UK(爱丁堡大学,英国) ; University of Stuttgart, Germany(斯图加特大学,德国) ; King's College London, UK(伦敦国王学院,英国) ; University of Liverpool, UK(利物浦大学,英国)
AI总结 提出MEAL基准,利用JAX和GPU加速实现100任务序列训练,揭示长序列中出现的失败模式。
Comments To be published in the International Conference on Machine Learning (ICML) 2026
脚手架效应:提示框架如何驱动临床VLM评估中的表面多模态增益
发表机构 * Technical University of Darmstadt(达姆施塔特技术大学)
AI总结 研究发现,在临床VLM评估中,提示中提及MRI可用性即可解释70-80%的性能提升,与图像数据是否存在无关,这种“脚手架效应”揭示了表面评估无法反映真实多模态推理能力。
CareTransition-Audit:用于高效护理过渡的出院总结审计基准
发表机构 * Department of Computer Science \& Engineering, University of Minnesota-Twin Cities, Minneapolis, USA ; Centific AI Research, Redmond, USA
AI总结 提出基于大语言模型的自动化框架,通过46项检查清单审计出院总结完整性,在MIMIC-IV数据集上基准测试11个模型,最佳模型与临床医生标签的Cohen's kappa约0.5,所有模型难以识别模糊文档。
Comments Accepted as a poster at IEEE-ICHI 2026; Accepted at SD4H@ICML
太长;没解决
发表机构 * Instituto Balseiro(巴塞罗那研究所) ; Poindexter Labs(波因迪克斯实验室)
AI总结 研究提示长度和解答长度与大型语言模型在数学问题上的性能关系,发现两者与模型失败率正相关。
SimuWoB: 模拟真实世界移动应用以实现快速且保真的GUI智能体基准测试
发表机构 * Institute for AI Industry Research (AIR), Tsinghua University(人工智能产业研究院(AIR),清华大学) ; University of Electronic Science and Technology of China(电子科技大学) ; MiLM Plus, Xiaomi Inc.(小米公司MiLM Plus团队)
AI总结 针对现有移动GUI智能体基准测试与现实应用之间的差距,提出全合成基准SimuWoB,通过鲁棒的虚拟环境生成框架合成高保真任务和环境,自动提供有效奖励,实现对复杂长程交互的高效可重复评估。
治疗性药物-疾病关系的适用条件提取
发表机构 * The University of Osaka(大阪大学) ; RIKEN(理化学研究所) ; Institute of Science Tokyo(东京科学大学) ; Tohoku University(东北大学)
AI总结 提出从生物医学文献中提取药物-疾病治疗关系适用条件的任务,构建首个手动标注数据集,并改进LoRA方法以考虑药物与疾病间关系,在多个评估设置中优于基线。
Comments Accepted to Findings of ACL 2026
RetailBench: 在真实零售环境中评估LLM代理的长期推理与连贯决策能力
发表机构 * Ant Group(蚂蚁集团) ; City University of Hong Kong(香港城市大学)
AI总结 提出RetailBench基准,模拟单店超市运营,评估LLM代理在长期决策中的表现,发现多数模型无法持续生存,与最优策略差距显著。
Comments This paper is my paper's second version [see arXiv:2603.16453v2]
DRFLOW:用于个性化工作流预测的深度研究基准
发表机构 * ServiceNow AI Research(ServiceNow人工智能研究)
AI总结 提出DRFLOW基准,评估AI代理从异构源预测个性化工作流的能力,包含5领域100任务,并设计7个诊断指标,实验显示现有代理性能有限。
RTSGameBench: 视觉语言模型战略推理的RTS基准
发表机构 * Seoul National University(首尔国立大学)
AI总结 提出RTSGameBench,基于Beyond All Reason游戏,通过多样化对战、迷你游戏诊断和自进化生成框架,评估视觉语言模型在实时策略游戏中的战略推理能力。
Comments First two authors contributed equally
TxBench-PP:分析AI代理在小分子临床前药理学中的表现
发表机构 * LatchBio
AI总结 提出TxBench-PP基准,用于评估AI代理从真实实验数据中恢复临床前药理学结论的能力,测试显示最强配置Claude Opus 4.8 / Pi仅通过59.3%的端点尝试。
关于射线追踪在城市环境中基于学习的射频任务局限性的研究
发表机构 * Yerevan State University, Yerevan, Armenia(亚美尼亚叶里温州立大学) ; YerevaNN, Yerevan, Armenia(亚美尼亚叶里温YerevaNN) ; Institute of Informatics and Telematics, National Research Council, Pisa, Italy(意大利那不勒斯国家研究委员会信息与电信研究所)
AI总结 通过罗马城区实测数据评估Sionna射线追踪仿真器,发现天线位置和方向对保真度影响显著,而超参数影响微弱;优化后相关性提升5%-130%,定位误差降低三分之一,但残差城市噪声仍是挑战。
Comments This work was supported by funding under the bilateral agreement between CNR (Italy) and HESC MESCS RA (Armenia) as part of the DeepRF project for the 2025-2026 biennium, and by the HESC MESCS RA grant No. 22rl-052 (DISTAL)
Journal ref 2026 IEEE Wireless Communications and Networking Conference (WCNC)
MAMA-MIA挑战:推进乳腺MRI肿瘤分割与治疗反应预测的泛化性和公平性
发表机构 * Barcelona Artificial Intelligence in Medicine Lab (BCN-AIM), Facultat de Matemàtiques i Informàtica, Universitat de Barcelona(巴塞罗那人工智能在医学实验室(BCN-AIM),巴塞罗那大学数学与计算机学院)
AI总结 提出MAMA-MIA挑战,通过标准化基准评估乳腺MRI肿瘤分割和病理完全缓解预测,在跨洲多中心数据上分析模型泛化性与公平性,发现性能与亚组公平性之间存在权衡。
DF3DV-1K:用于无干扰新视角合成的大规模数据集与基准
发表机构 * University of Technology Sydney(悉尼科技大学) ; University of Sydney(悉尼大学) ; National Yang Ming Chiao Tung University(阳明交通大学)
AI总结 为弥补无干扰辐射场领域缺乏大规模真实世界数据集的空白,构建了包含1048个场景、每场景提供干净和杂乱图像集的DF3DV-1K数据集,并基于此基准测试了九种最新方法,识别出最鲁棒的方法和最具挑战的场景。
CADBench:一个用于AI辅助CAD程序生成的多模态基准
发表机构 * Massachusetts Institute of Technology(麻省理工学院)
AI总结 本文提出CADBench,一个统一的多模态CAD程序生成基准,包含18000个样本和六类基准,评估11种视觉语言模型,揭示了CAD程序生成中的三种常见失败模式。
基于LLM的A/B测试的统计基础:用于人类因果推断的替代指标框架
发表机构 * Spotify USA, Inc.(Spotify美国公司)
AI总结 提出替代指标理论框架,证明在弱于分布等价条件下,校准LLM输出可识别平均处理效应,并分析随机性带来的偏差与方差。
LLMs 是否已准备好辅助医生?PhysAssistBench:交互式医患-电子病历辅助基准
发表机构 * Aalto University(阿尔托大学) ; Tencent(腾讯) ; Harbin Institute of Technology, Shenzhen(哈尔滨工业大学(深圳)) ; Hong Kong Polytechnic University(香港理工大学) ; Aarhus University(奥胡斯大学) ; Technical University of Munich(慕尼黑工业大学)
AI总结 提出PhysAssistBench基准,通过构建交互式患者代理评估LLM在医患-EHR交互中的协调能力,发现当前模型不可靠,瓶颈在于多维度协调而非单一能力。
Comments 34 pages with 8 figures
脑MRI的量子潜GAN增强的受控基准测试
发表机构 * Department of Mathematics(数学系) ; Department of Political and Social Sciences(政治与社会科学系)
AI总结 通过受控基准测试,比较量子与经典生成器在脑MRI数据增强中的性能,发现两者均未显著优于仅用真实数据训练,且量子生成器无额外优势。
Q-Net:基于卡尔曼神经网络的队列长度估计
发表机构 * University of Amsterdam(阿姆斯特丹大学) ; Delft University of Technology(代尔夫特理工大学)
AI总结 本文提出Q-Net框架,通过结合卡尔曼滤波与神经网络,解决信号交叉口队列长度估计中的数据融合问题,提升空间转移性和实时性,实现无需昂贵传感设备的准确队列估计。
Journal ref Transportation Research Part C: Emerging Technologies, Volume 190, September 2026, Article 105809
电力系统保护中故障分类与定位的机器学习模型受控比较
发表机构 * Department of Electrical Engineering, Media and Computer Science, Ostbayerische Technische Hochschule Amberg-Weiden(奥贝格-魏登应用技术大学电气工程、媒体与计算机科学系)
AI总结 在统一电磁暂态数据集和10-50ms决策窗口下,对比机器学习模型在故障分类与定位中的性能,发现分类在10ms时F1>0.98,定位误差稳定在约10%线路长度。
Comments Accepted at IEEE PES Innovative Smart Grid Technologies Europe 2026 (ISGT Europe 2026). Pre-camera-ready author version; final proceedings version may differ
PCBSchemaGen: 奖励引导的LLM代码合成用于印刷电路板(PCB)原理图设计及结构化验证
发表机构 * Semiconductor Power Electronics Center (SPEC)(半导体功率电子中心) ; The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Arizona State University(亚利桑那州立大学)
AI总结 提出PCBSchemaGen框架,通过结构化验证器引导冻结的LLM生成可修复的PCB原理图,在无单元测试的领域实现高准确率。
SleepMaMi:一种融合宏观与微观结构的通用睡眠基础模型
发表机构 * Graduate School of Data Science, Seoul National University, Seoul, South Korea(首尔国立大学数据科学研究生院,韩国首尔) ; Department of Biomedical Sciences, Seoul National University College of Medicine, Seoul, Republic of Korea(首尔国立大学医学院生物医学科学系,韩国首尔) ; Obstructive Upper Airway Research (OUaR) Laboratory, Department of Pharmacology, Seoul National University College of Medicine, Seoul, Republic of Korea(首尔国立大学医学院药理学系阻塞性上气道研究(OUaR)实验室,韩国首尔) ; Department of Otorhinolaryngology-Head and Neck Surgery, Seoul National University Hospital, Seoul, Republic of Korea(首尔国立大学医院耳鼻喉头颈外科系,韩国首尔)
AI总结 提出SleepMaMi睡眠基础模型,通过分层双编码器设计(宏观编码器建模整夜时间依赖,微观编码器捕捉生物信号短时特征),结合人口统计引导对比学习和混合掩码自编码器训练,在超过2万条PSG记录上预训练,在下游任务中优于或匹配现有基础模型。
Comments 8 pages, Appendix 9 pages
FundaPod: 一个具有知识图谱记忆的多角色智能体平台,用于AI辅助的基础投资研究
发表机构 * Stevens Institute of Technology(史蒂文斯理工学院) ; UMass Boston(马萨诸塞大学波士顿分校)
AI总结 提出FundaPod平台,通过多角色独立研究、知识图谱记忆和事后裁决机制,支持人类投资经理进行透明、可验证的基础投资决策。
Comments 32 pages; 12 figures
VitalAgent: 一种工具增强型代理,用于对可穿戴健康数据进行反应性和主动式生理监测
发表机构 * The University of Melbourne, Australia(墨尔本大学) ; Dartmouth College, US(达特茅斯学院) ; University of Auckland, New Zealand(奥克兰大学) ; Eindhoven University of Technology, Netherlands(埃因霍温理工大学)
AI总结 提出VitalAgent框架,通过工具增强推理和纵向生理记忆,实现对ECG/PPG信号的反应性问答与主动监测,在VitalBench基准上相比基线提升超30%。
Comments Minor revisions; results unchanged
全球生活便利指数:面向主要经济体纵向分析的机器学习框架
发表机构 * Transitional Artificial Intelligence Research Group, School of Mathematics and Statistics(过渡人工智能研究组,数学与统计学学院) ; Centre for Artificial Intelligence and Innovation(人工智能与创新中心) ; Pingla Institute(Pingla研究所)
AI总结 提出全球生活便利指数,结合社会经济和基础设施因素,利用机器学习处理缺失数据,并通过主成分分析和因子分析降维,为政策制定者提供改善生活质量的可操作工具。
克服扫描隧道显微镜缺陷分类中的标注数据稀缺问题
发表机构 * London Centre for Nanotechnology, University College London(伦敦纳米技术中心,伦敦大学学院) ; Department of Electronic and Electrical Engineering, University College London(电子与电气工程系,伦敦大学学院) ; Department of Physics and Astronomy, University College London(物理与天文学系,伦敦大学学院) ; Department of Chemistry, University College London(化学系,伦敦大学学院) ; Aalto Science Institute, School of Science, Aalto University(艾尔沃斯科学研究所,艾尔沃斯大学) ; Nanolayers Research Computing LTD, London, UK(纳米层研究计算有限公司,伦敦,英国) ; Department of Physics, NTNU Norwegian University of Science and Technology(物理系,挪威科技大学)
AI总结 提出结合少样本学习和无监督学习的自动分割方法,在仅需少量标注数据下实现高精度STM图像缺陷分类,并在三种表面验证了强泛化能力。
告别跷跷板:通过混合意图的双重约束实现准确的长期会话推荐
发表机构 * University of Electronic Science and Technology of China(电子科技大学)
AI总结 针对会话推荐中长尾分布导致准确性与多样性冲突的跷跷板问题,提出混合意图双重约束框架HID,通过属性感知谱聚类重构意图映射并区分噪声意图,结合多样性与准确性约束损失,实现长尾与准确性的双赢。
Comments accepted by AAAI 2026 Oral
建模全天心电图信号以可解释人工智能预测心力衰竭风险
发表机构 * Leumit Health Services(Leumit健康服务)
AI总结 提出DeepHHF深度学习模型,利用24小时单导联心电图数据预测五年内心力衰竭风险,AUC达0.80,优于短时片段和临床评分,可解释性分析显示模型关注心律失常和心脏异常。
基于人工智能的量子点哈密顿量调优以实现马约拉纳模式
发表机构 * Institute of Theoretical Physics, Wrocław University of Science and Technology(理论物理研究所,沃林大学技术学院)
AI总结 本文提出基于神经网络的模型,通过学习量子点模拟器的工作区域,利用输运测量自动调优设备以获得马约拉纳模式。模型在无监督条件下训练于导电图合成数据,采用融合马约拉纳零模关键性质的物理引导损失函数。
Comments 12 pages, 8 figures, 2 tables
Journal ref Phys. Rev. Applied 25, 064032 (2026)
使用本体约束的LLM代理自动化标准化遗留生物医学元数据
发表机构 * Division of Computational Medicine, Stanford University(斯坦福大学计算医学部) ; Department of Biology, University of Pennsylvania(宾夕法尼亚大学生物学系)
AI总结 提出基于LLM的元数据标准化系统,通过实时查询标准指南和本体服务,在839条HuBMAP记录上验证,相比纯LLM方法显著提升预测准确性。
FM-Agent: 通过基于LLM的Hoare风格推理将形式化方法扩展到大型系统
发表机构 * Institute of Parallel and Distributed Systems, Shanghai Jiao Tong University(并行与分布式系统研究所,上海交通大学)
AI总结 提出FM-Agent框架,利用LLM自动生成函数级规范,实现大型系统的组合式推理,在143k行代码的系统中2天内发现522个新bug。
基于机器学习的微观仿真从模拟交通冲突改进碰撞频率预测
AI总结 本文利用机器学习行为模型替代传统规则模型进行交通微观仿真,通过极端值理论分析模拟冲突预测碰撞频率,在英国利兹五个信号交叉口验证了ML模型无需地点校准即可提升预测准确性。
过驱动飞行器的可解释控制效能学习与非线性控制分配集成方法
发表机构 * University of Stuttgart, Faculty of Aerospace Engineering and Geodesy, Institute of Flight Mechanics and Control (iFR)(斯图加特大学航空航天工程与大地测量学院飞行力学与控制研究所)
AI总结 提出一种基于稀疏非线性动力学辨识的学习控制效能映射方法,结合在线自适应机制,实现过驱动飞行器的高效非线性控制分配,兼具可解释性和低计算成本。
QC-GAN: 一种参数高效的四元数Conformer GAN用于高保真语音增强
发表机构 * The Asahi Shimbun Company(朝日新闻社) ; Tokyo Woman's Christian University(东京女子基督教大学)
AI总结 提出参数高效的QC-GAN,结合四元数Conformer生成器和MetricGAN训练,通过汉密尔顿积共享权重减少参数量,在VoiceBank+DEMAND上以0.89M参数达到PESQ 3.48,性能媲美两倍大小模型。
Comments 10 pages, 6 figures and 5 tables. Accepted at Interspeech2026
重新思考创造力:生成式AI与意向能动性问题
发表机构 * University of Amsterdam(阿姆斯特丹大学) ; University of Lisbon(里斯本大学) ; TU Eindhoven(埃因霍温理工大学) ; University of Melbourne(墨尔本大学)
AI总结 本文质疑意向能动性是创造力的必要条件,基于生成式AI的创造力表现,提出创造力归因依赖于“创造能力”,从而在不要求意向能动性的前提下解释AI的创造力。
Comments 27 pages, 2 figures
Science Earth: 迈向面向AI原生科学发现的行星级操作系统
发表机构 * Department of Pathology, Department of Genetics, Stanford University School of Medicine(病理学系、遗传学系,斯坦福大学医学院) ; Princeton AI Lab, Department of Electrical & Computer Engineering, Princeton University(普林斯顿人工智能实验室、电气与计算机工程系,普林斯顿大学) ; Scripps Research, La Jolla, CA, USA(斯克里普斯研究机构,洛杉矶,加利福尼亚州,美国) ; Division of Biostatistics, Department of Population Health, New York University Grossman School of Medicine(生物统计学部、人口健康系,纽约大学格罗斯曼医学院) ; College of Computing and Data Science, Nanyang Technological University(计算与数据科学学院,南洋理工大学) ; Department of Computer Science, Yale University(计算机科学系,耶鲁大学) ; Department of Physics, Princeton University(物理系,普林斯顿大学)
AI总结 提出Science Earth行星级科学运行时,通过EACN协议实现AI能力动态连接与自组织协作,在跨太平洋Kuramoto同步研究和单细胞分析中验证了分布式自校正科学推理。
Comments Withdrawn by the authors. (1) The author list and authorship roles had not been finalized and agreed upon by all listed authors prior to submission. (2) The specific contribution of the system in the K3 synchronization example (Section on Kuramoto/nonlinear physics) requires further validation before it can be reported. The authors are addressing both points and may resubmit a corrected version.
世界模型批判:一种用于世界建模的生成式潜在预测架构
AI总结 本文从心理学“假设性思维”出发,提出世界模型的核心目标是模拟真实世界的所有可行动可能性,并设计了一种基于状态化、分层、多级、混合连续/离散表示的生成式潜在预测(GLP)架构。
用AI绘制学术知识的未来:社区视角
发表机构 * TIB Leibniz Information Centre for Science and Technology(蒂宾根莱比锡科学与技术信息中心) ; Department of Computer Science, University of Yaounde 1(亚奥内1大学计算机科学系) ; Department of Computer Science, Kansas State University(堪萨斯州立大学计算机科学系) ; School of EECS, Louisiana State University(路易斯安那州立大学电子工程与计算机科学学院) ; Management Science Department, Cape Breton University(cape breton 大学管理科学系) ; Department of Development and Research, Performigence(Performigence 发展与研究部) ; Department of Engineering and Computer Science, Wright State University(怀特州立大学工程与计算机科学系) ; Department of Physics, University of Yaounde 1(亚奥内1大学物理系) ; FIZ Karlsruhe, Leibniz Institute for Information Infrastructure(卡尔斯鲁厄莱比锡信息基础设施研究所) ; Sharda University, Delhi-NCR, India(德里-纳尔默德印度大学) ; L3S Research Center, Leibniz University of Han(汉莱比锡大学L3S研究中心)
AI总结 本文从社区视角出发,识别促进跨学科对话、共享挑战、分类新合作并塑造学术知识组织未来研究方向的方法。
Comments 39 pages, 3 figures
发表机构 * Imko Marijnissen 1 ; J. Christopher Beck 2 ; Emir Demirović 1 ; Ryo Kuroiwa 3, 4
Comments 13 pages. To appear at the 36th International Conference on Automated Planning and Scheduling (ICAPS 2026)
Journal ref Proceedings of the International Conference on Automated Planning and Scheduling (2026) | Volume 36(1) | Pages 171-180
发表机构 * DTU(技术大学)
Comments Submitted for peer-review in a journal. v2: revised version submitted to journal after minor revisions
发表机构 * Indian Institute of Technology Jodhpur(印度理工学院朱道尔)
Comments Accepted in International Journal on Document Analysis and Recognition (IJDAR)
Journal ref International Journal on Document Analysis and Recognition (IJDAR), 2026
发表机构 * Department of Computer Engineering, Sharif University of Technology(谢尔万大学计算机工程系) ; Tehran Institute for Advanced Studies, Khatam University(泰赫兰高级研究院,卡塔姆大学)
Journal ref EPJ Data Science (2026)
发表机构 * Universidade Federal de Santa Catarina(联邦圣卡塔琳娜大学)
Comments 12 pages
Journal ref Proceedings of the 2026 Computer on the Beach
发表机构 * Indian Institute of Technology Madras(印度理工学院马德拉斯分校) ; All India Institute of Medical Sciences(全印度医学科学研究所) ; Indian Institute of Technology Hyderabad(印度理工学院海得拉巴分校)
Comments Accepted at the MICCAI Workshop on "Medical Image Computing in Resource Constrained Settings & Knowledge Interchange (MIRASOL)" 2025
发表机构 * Institute for Patient-centered Digital Health, Bern University of Applied Sciences, Biel, Switzerland(以患者为中心的数字健康研究所,伯恩应用科学大学,比尔,瑞士) ; ID Suisse AG, St. Gallen, Switzerland(ID瑞士股份有限公司,圣加尔,瑞士)