AI 大模型
AI Agent
智能体、工具调用、规划、工作流、多智能体和自主任务执行。
1. 规划决策 4 篇
VOiLA: Vectorized Online Planning with Learned Diffusion Model for POMDP Agents
VOiLA: 基于学习扩散模型的向量化在线规划用于POMDP智能体
专题命中 规划决策 :在线规划智能体,处理部分可观测环境。
AI总结 提出VOiLA框架,利用条件扩散模型学习POMDP模型,通过蒸馏加速采样并与向量化在线规划器集成,在三个基准任务和实物机器人上实现高效在线规划。
Comments Submitted to the 2026 International Symposium of Robotics Research (ISRR)
2. 工作流自动化 6 篇
Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning
Connect the Dots:通过强化学习训练具备跨域泛化能力的长期生命周期智能体
专题命中 工作流自动化 :训练LLM作为长期生命周期智能体。
AI总结 提出Connect the Dots框架,通过端到端强化学习训练LLM在长期任务中自我更新上下文并泛化到新领域,实验验证了跨域泛化能力。
Comments Work in progress; we will continuously update the codebase and arXiv version
Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework
面向执行约束的自主AI自动化:一种可复现的AIBOM驱动的CSAF-VEX框架
专题命中 工作流自动化 :提出协议驱动框架,用于自主AI工作负载的自动化。
AI总结 提出一种协议驱动框架,通过绑定SBOM和AIBOM工件与确定性环境捕获及结构化运行时遥测,结合静态与运行时证据生成CSAF VEX公告,经密码签名和确定性重放验证,在合成自主AI工作负载上评估。
Journal ref Execution-bound advisory automation for agentic AI: a reproducible AIBOM-driven CSAF-VEX framework. Front Artif Intell 9, (May 2026), 1826384
3. 软件智能体 5 篇
MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization
MobileForge:基于分层反馈引导策略优化的移动GUI智能体免标注适配
专题命中 软件智能体 :提出移动GUI智能体免标注适配系统MobileForge
AI总结 提出MobileForge系统,通过MobileGym环境实现任务生成与评估,结合分层反馈引导策略优化(HiFPO)将轨迹结果、步骤反馈和修正提示转化为步骤级GRPO更新,实现移动GUI智能体免标注适配,在AndroidWorld上达到67.2% Pass@3。
Comments Project page: https://mobile-forge.github.io/
MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management
MemGUI-Agent: 一种具有主动上下文管理的端到端长时移动GUI智能体
专题命中 软件智能体 :提出长时移动GUI智能体MemGUI-Agent
AI总结 提出MemGUI-Agent,通过主动上下文管理机制(ConAct)将上下文管理作为一等动作,解决长时任务中提示膨胀和关键信息稀释问题,在8B模型上达到最佳性能。
Comments 33 pages, 6 figures. Project page: https://memgui-agent.github.io/
ShoppingBench: A Real-World Intent-Grounded Shopping Benchmark for LLM-based Agents
ShoppingBench:面向LLM智能体的真实世界意图导向购物基准
专题命中 软件智能体 :提出购物基准测试LLM智能体,属于软件智能体
AI总结 提出ShoppingBench基准,包含多层级真实购物意图任务,通过模拟环境和250万商品评估LLM智能体,发现GPT-4.1成功率低于50%,并提出轨迹蒸馏策略提升小模型性能。
Comments Accepted for oral presentation at AAAI 2026
Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes
主权执行代理:在智能体控制平面中强制执行证书绑定权限
专题命中 软件智能体 :自主代理执行时的权限控制机制
AI总结 针对自主代理在生产环境中执行变更时缺乏强制权限验证的问题,提出主权执行代理(SEB),通过证书验证、状态检查和范围身份实现运行时强制权限控制,并在AWS和Kubernetes上验证了其安全性和性能。
Comments 19 pages, 6 figures, 10 tables
4. 多智能体 7 篇
FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research
FundaPod: 一个具有知识图谱记忆的多角色智能体平台,用于AI辅助的基础投资研究
专题命中 多智能体 :多角色智能体平台,支持独立研究和知识图谱记忆
AI总结 提出FundaPod平台,通过多角色独立研究、知识图谱记忆和事后裁决机制,支持人类投资经理进行透明、可验证的基础投资决策。
Comments 32 pages; 12 figures
5. 其他Agent 7 篇
AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts
AtomMem: 通过原子事实构建简单有效的LLM智能体记忆系统
专题命中 其他Agent :为LLM智能体设计长期记忆系统,存储和检索原子事实。
AI总结 针对现有记忆系统存储粗粒度、更新不稳定的问题,提出AtomMem,通过事实执行器提取高价值原子事实作为高效记忆表示,并组织为层次化事件结构和时间档案,实现价值密集存储和稳定演化,在LoCoMo基准上取得最优性能。
Comments 19 pages, 10 figures, 5 tables
Deontic Policies for Runtime Governance of Agentic AI Systems
面向自主AI系统运行时治理的道义策略
专题命中 其他Agent :提出道义策略框架用于自主AI系统运行时治理。
AI总结 针对大语言模型驱动的自主AI系统在安全、隐私和合规方面的治理挑战,提出AgenticRei框架,利用基于Rei的道义策略语言(OWL表示)在运行时通过逻辑引擎强制执行义务、豁免、冲突解决等治理约束,并兼容A2AS等标准。
Comments 10 pages, 1 figure. To be published in the 2026 IEEE Symposium on Agentic Services which is part of the IEEE Conference on Web Services
CogniFold: Always-On Proactive Memory via Cognitive Folding
CogniFold: 通过认知折叠实现始终在线的主动记忆
专题命中 其他Agent :主动记忆系统,持续认知结构涌现
AI总结 提出CogniFold,一种受大脑启发的主动记忆系统,通过将互补学习系统扩展为三层(海马体、新皮层、前额叶意图层)并利用图拓扑自组织,实现事件流的持续认知结构涌现,在认知评估和常规记忆基准上均表现优异。
Comments Code is available at https://github.com/OpenNorve/CogniFold