What Must Generalist Agents Remember?
通用型智能体必须记住什么?
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 本文形式化论证了通用型智能体为在多个环境和目标下近似最优行动,必须存储领域相关信息以区分观察瓶颈处的不兼容最优动作,并证明记忆可用于重构局部转移动态。
通用型智能体必须记住什么?
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 本文形式化论证了通用型智能体为在多个环境和目标下近似最优行动,必须存储领域相关信息以区分观察瓶颈处的不兼容最优动作,并证明记忆可用于重构局部转移动态。
部分可观测环境下导航的生成模型预测规划
发表机构 * University of Manchester(曼彻斯特大学) ; Aalto University(阿尔托大学)
AI总结 提出BeliefDiffusion框架,结合扩散模型和模型预测控制,显式建模多模态信念分布并进行前瞻规划,在合成地图环境中显著优于无模型强化学习和生成方法。
将搜索与推理解耦:面向LLM Agent的供应商无关的接地架构
发表机构 * DoorDash, Inc.(DoorDash公司)
AI总结 提出解耦搜索接地(DSG)架构,将搜索接地从推理模型中分离,通过MCP兼容网关实现供应商路由、缓存等控制,在降低成本和延迟的同时保持或提升准确性。
Comments 15 pages, Figure 8
迈向智能体优先的Web:为AI智能体重新设计Web
发表机构 * Old Dominion University(欧道明大学) ; AI Motion Labs(AI Motion实验室) ; Florida International University(佛罗里达国际大学) ; Accenture Technology Labs(埃森哲技术实验室) ; Nanyang Technological University(南洋理工大学) ; University of Colombo(科伦坡大学) ; Center for Wireless Communications, University of Oulu(奥卢大学无线通信中心) ; McDonald Army Health Center(麦克唐纳陆军健康中心)
AI总结 本文提出三层重新设计原则,包括访问层(代理继承人类权限)、经济层(基于意图的代币订阅模型)和内容层(ATML标记语言与加密溯源链),以解决AI智能体作为中间人时Web的访问、经济与内容问题。
人机协同演化动力学:长期互动中社会智能涌现的形式理论
AI总结 提出人机协同演化动力学框架(HACD-H),将情感适应、关系组织、社会记忆和人格一致性整合为统一动力学模型,通过约14,700轮对话数据集验证,发现社会智能与社会认知能量显著负相关,揭示社会智能源于长期协同演化。
NeSyCat Torch:神经符号学习中范畴语义的可微张量实现
发表机构 * University of Osnabrück(奥斯纳布吕克大学)
AI总结 提出NeSyCat Torch框架,通过强单子和真值聚合结构统一神经符号语义,利用惰性对数张量单子实现可微训练,在MNIST加法任务上优于LTN和DeepProbLog。
在共享工作空间的人机协作中寻找协同效应
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 研究共享工作空间的人机团队协作,通过Collaborative Gym环境实验发现,缺乏协调结构时增加协作者会降低性能,而结合共享记忆和模拟人在环门控的脚手架可提升团队绩效。
Comments Accepted at ICML 2026 Workshop on Human-AI Co-Creativity. 13 pages, 5 figures, 3 tables
R2D-RL:用于多智能体强化学习的RoboCup 2D足球环境
发表机构 * Graduate School of Informatics, Nagoya University(名古屋大学信息学研究科) ; School of Information and Data Sciences, Nagasaki University(长崎大学信息与数据科学学院)
AI总结 提出R2D-RL环境,通过共享内存通信和周期级同步连接RCSS2D与Python MARL接口,支持全场和场景训练,提供可配置对手、离散/混合动作空间、EPV奖励塑造及并行执行。
Comments Code is available at: https://github.com/open-starlab/R2DRL
面向GUI代理的技能引导延续蒸馏
发表机构 * StepFun ; University of Science and Technology Beijing(北京科技大学) ; Tsinghua University(清华大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出技能引导延续蒸馏(SGCD)框架,通过技能引导策略生成成功延续轨迹,弥补专家轨迹中未覆盖的状态监督缺失,在OSWorld-Verified上将三个基础模型成功率从30%左右提升至50%以上。
RODS: 面向多轮工具使用智能体的奖励驱动在线数据合成
发表机构 * Zhejiang University(浙江大学) ; Shanghai Innovation Institute(上海创新研究院) ; Westlake University(西湖大学)
AI总结 针对多轮工具使用强化学习中静态数据集信息样本快速耗尽的问题,提出RODS方法,利用进度奖励方差作为零成本边界检测器,在线合成与智能体能力边界匹配的样本,以约800样本达到17K样本离线管道的性能。
ARIADNE: 推理时适配器动态选择的不可知路由
发表机构 * University of Turin(都灵大学) ; Samsung AI Center(三星人工智能中心)
AI总结 提出无训练、与适配器无关的路由框架ARIADNE,通过训练集嵌入质心表示适配器,在推理时基于潜在空间距离选择适配器,无需适配器内部信息或额外训练,在44个任务上达到89.7%的选择准确率。
用户作为印迹:将每用户记忆内化为局部参数编辑
发表机构 * Pine AI
AI总结 提出User as Engram方法,将用户事实存储为Engram模型的哈希键控记忆表中的局部编辑,推理技能共享一个适配器,实现高精度间接推理且内存占用极小。
重新思考奖励监督:基于评分准则的自蒸馏
发表机构 * Yale University(耶鲁大学)
AI总结 提出评分准则条件自蒸馏框架,通过结构化细粒度反馈指导推理模型,在科学推理基准上平均超越GRPO 1.0分、OPSD 0.9分。
CaVe-VLM-CoT:一种可解释的视觉-语言模型框架
发表机构 * Vector Institute(向量研究所)
AI总结 提出CaVe-VLM-CoT框架,通过五阶段闭环流水线(提取器、检索器、求解器、引用注入器、验证器)实现证据推理,并引入CaVeScore复合指标评估检索质量、引用忠实度和跨模态基础,在ScienceQA和MMMU上取得性能提升。
ThinkDeception: 一种用于可解释多模态欺骗检测的渐进式强化学习框架
发表机构 * Xi'an Jiaotong-Liverpool University(西安交通大学利物浦大学)
AI总结 提出ThinkDeception框架,将多模态大语言模型引入欺骗检测,通过逐步推理和视觉-音频一致性组相对策略优化(VAC-GRPO)实现可解释的认知推理,在主流基准上达到新SOTA。
Comments 10pages,4figures
超越安全数据:具有正则安全反射的预训练阶段对齐
发表机构 * Institute for Interdisciplinary Information Sciences, Tsinghua University(清华大学交叉信息研究院)
AI总结 提出安全反射预训练方法,在预训练语料中插入安全反思,使模型具备自我监控能力,实验表明该方法能有效降低推理和微调攻击成功率。
CEO-Bench:智能体能否玩转长期博弈?
发表机构 * Princeton University(普林斯顿大学)
AI总结 提出CEO-Bench,通过模拟500天运营初创公司的任务,评估语言模型智能体在长期、不确定、动态环境下的综合决策能力。
DeFAb:基础模型中可废止溯因的可验证基准
发表机构 * University of Colorado Boulder(科罗拉多大学博尔德分校)
AI总结 提出DeFAb基准,通过将知识库转换为可验证的溯因实例,评估基础模型在可废止推理中的创造力与理论推理能力,发现前沿模型准确率远低于符号求解器。
Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc
ForecastBench-Sim:一个模拟世界预测基准
发表机构 * Forecasting Research Institute(预测研究所)
AI总结 提出基于Freeciv游戏模拟的预测基准ForecastBench-Sim,通过游戏回滚生成可控、即时可解的预测问题,用于评估AI系统的概率推理能力。
Comments 15 pages, 5 main figures, 6 appendix figures. Spotlight presentation at Forecasting as a New Frontier of Intelligence / Workshop on AI Forecasting, ICML 2026
WorldLines: 对长时域有状态具身智能体进行基准测试与建模
发表机构 * HKUST(GZ)(香港科技大学(广州)) ; HKUST(香港科技大学) ; Knowin
AI总结 提出WorldLines基准,通过构建带时间跨度的家庭轨迹(含对话、动作、状态变化等)评估具身智能体的长时记忆与任务规划能力,并设计ObsMem记忆框架提升状态感知决策。
Comments 27 pages, 18 figures
SciRisk-Bench:面向AI4Science安全的风险维度感知基准
发表机构 * Brain-inspired Cognitive Intelligence Lab, Institute of Automation, Chinese Academy of Sciences, Beijing, China(脑启发认知智能实验室,自动化研究所,中国科学院,北京,中国) ; School of Future Technology, University of Chinese Academy of Sciences, China(未来技术学院,中国科学院大学,中国) ; School of Artificial Intelligence, University of Chinese Academy of Sciences, China(人工智能学院,中国科学院大学,中国) ; Zhongguancun Academy, China(中关村学院,中国) ; Beijing Key Laboratory of Safe AI and Superalignment(北京安全人工智能与超对齐重点实验室) ; Gaoling School of AI, Renmin University of China(甘露人工智能学院,中国人民大学) ; Beijing Institute of AI Safety and Governance (Beijing-AISI)(北京人工智能安全与治理研究院(北京-AISI)) ; School of Humanities, University of Chinese Academy of Sciences, China(人文学院,中国科学院大学,中国)
AI总结 提出SciRisk-Bench基准,从显式风险维度和科学学科两个角度评估AI4Science安全,覆盖7个学科、31个子学科和10个风险维度,实验揭示主流及科学大模型的安全薄弱环节。
RTSGameBench: 视觉语言模型战略推理的RTS基准
发表机构 * Seoul National University(首尔国立大学)
AI总结 提出RTSGameBench,基于Beyond All Reason游戏,通过多样化对战、迷你游戏诊断和自进化生成框架,评估视觉语言模型在实时策略游戏中的战略推理能力。
Comments First two authors contributed equally
TxBench-PP:分析AI代理在小分子临床前药理学中的表现
发表机构 * LatchBio
AI总结 提出TxBench-PP基准,用于评估AI代理从真实实验数据中恢复临床前药理学结论的能力,测试显示最强配置Claude Opus 4.8 / Pi仅通过59.3%的端点尝试。
X+Slides:面向受众条件的幻灯片生成基准测试
AI总结 提出X+Slides基准,通过动态评估框架和受众特定权重,衡量幻灯片生成系统在受众覆盖、领域覆盖、效率和正确性方面的表现,揭示现有系统在受众关键信息恢复上的不足。
NAVI-Orbital:用于自主地球观测的零样本视觉语言模型的首次在轨演示
发表机构 * NASA Jet Propulsion Laboratory (JPL)(美国宇航局喷气推进实验室) ; Loft Orbital(Loft Orbital公司)
AI总结 本文介绍NAVI-Orbital系统,在低地球轨道卫星上首次实现视觉语言模型的自主多模态推理,通过语义压缩解决数据下传瓶颈。
Comments 17 pages, 47 figures
在地质、需求和定价不确定性下优化锂生产决策:多目标决策的POMDP框架
发表机构 * Computer Science Department, Stanford University(斯坦福大学计算机科学系) ; Aeronautics and Astronautics Department, Stanford University(斯坦福大学航空与航天系) ; Earth and Planetary Sciences Department, Stanford University(斯坦福大学地球与行星科学系)
AI总结 提出POMDP框架,通过信念状态规划优化锂矿开采决策,动态适应价格不确定性,实现更高需求满足和更平衡的经济环境效益。
Comments 24 pages, 14 tables, 4 figures
ProfiLLM: 面向工业网约车调度的效用对齐智能用户画像
发表机构 * Didichuxing Co. Ltd(滴滴出行科技有限公司)
AI总结 提出ProfiLLM,一种通过工具增强全局知识挖掘和效用对齐画像探索的智能LLM数据管道,解决工业网约车调度中大规模行为日志的用户画像问题,在滴滴生产系统中实现AUC提升6.14%、GMV提升4.35%。
通过研究框架将AI科学家的研究综合与验证外部化
发表机构 * X-LANCE Lab, School of Computer Science, Shanghai Jiao Tong University, Shanghai, China(上海交通大学计算机学院X-LANCE实验室) ; Jiangsu Key Lab of Language Computing, Suzhou, China(江苏省语言计算重点实验室) ; Suzhou Laboratory, Suzhou, China(苏州实验室)
AI总结 提出Xcientist框架,将研究综合与实验验证外部化为可检查的合同驱动过程,解决自动研究中的声明漂移问题,并在多个领域验证其有效性。
Comments 65 pages, 14 figures, 19 tables
使用XAI分析欧洲电力市场的驱动因素与相互依赖性
发表机构 * UCL Energy Institute, University College London, UK(伦敦大学学院能源研究所,英国)
AI总结 结合深度神经网络与可解释人工智能(XAI)技术,利用SHAP和SSHAP框架分析39个欧洲竞价区的电价决定因素,发现可再生能源(尤其是太阳能)对电价形成具有重要作用,天然气价格仍是主导驱动因素,且互联互通显著影响价格动态。
Comments 12 pages