AI 大模型
AI Agent
智能体、工具调用、规划、工作流、多智能体和自主任务执行。
MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization
MobileForge:基于分层反馈引导策略优化的移动GUI智能体免标注适配
专题命中 软件智能体 :提出移动GUI智能体免标注适配系统MobileForge
AI总结 提出MobileForge系统,通过MobileGym环境实现任务生成与评估,结合分层反馈引导策略优化(HiFPO)将轨迹结果、步骤反馈和修正提示转化为步骤级GRPO更新,实现移动GUI智能体免标注适配,在AndroidWorld上达到67.2% Pass@3。
Comments Project page: https://mobile-forge.github.io/
MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management
MemGUI-Agent: 一种具有主动上下文管理的端到端长时移动GUI智能体
专题命中 软件智能体 :提出长时移动GUI智能体MemGUI-Agent
AI总结 提出MemGUI-Agent,通过主动上下文管理机制(ConAct)将上下文管理作为一等动作,解决长时任务中提示膨胀和关键信息稀释问题,在8B模型上达到最佳性能。
Comments 33 pages, 6 figures. Project page: https://memgui-agent.github.io/
ShoppingBench: A Real-World Intent-Grounded Shopping Benchmark for LLM-based Agents
ShoppingBench:面向LLM智能体的真实世界意图导向购物基准
专题命中 软件智能体 :提出购物基准测试LLM智能体,属于软件智能体
AI总结 提出ShoppingBench基准,包含多层级真实购物意图任务,通过模拟环境和250万商品评估LLM智能体,发现GPT-4.1成功率低于50%,并提出轨迹蒸馏策略提升小模型性能。
Comments Accepted for oral presentation at AAAI 2026
Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes
主权执行代理:在智能体控制平面中强制执行证书绑定权限
专题命中 软件智能体 :自主代理执行时的权限控制机制
AI总结 针对自主代理在生产环境中执行变更时缺乏强制权限验证的问题,提出主权执行代理(SEB),通过证书验证、状态检查和范围身份实现运行时强制权限控制,并在AWS和Kubernetes上验证了其安全性和性能。
Comments 19 pages, 6 figures, 10 tables
Bistable by Construction: Wall-Clock-Calibrated State Monitors Have No Moment-Detection Regime at Agent Cadence
通过构造实现双稳态:挂钟校准的状态监视器在代理节奏下没有瞬间检测机制
专题命中 软件智能体 :研究自主代理的运行时监视器。
AI总结 本文发现挂钟校准的泄漏积分器监视器在代理流中无法作为瞬间检测器工作,揭示了校准类别的关键影响,并提出了上升沿触发作为替代方案。
Comments 10 pages, 5 figures. Sequel to arXiv:2606.04296. Pre-registered; falsification clauses honored (H5 unsupported; H7 strict band 16/20) repo:https://github.com/2025eb1100268-tech/intervention-timing-saturation-trap