arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

AI Agent

智能体、工具调用、规划、工作流、多智能体和自主任务执行。

今日/当前日期收录 101 信号源:cs.AI, cs.CL, cs.LG, cs.SE

1. 其他Agent 5 篇

2606.20041 2026-06-19 econ.GN cs.AI cs.LG q-fin.EC q-fin.GN 新提交 专题 90

AI Economist Agent: An Agentic Framework for Model-Grounded Economic Analysis with RAG, Knowledge Graphs, and Large Language Models

AI经济学家代理:一种基于模型的经济分析代理框架,结合RAG、知识图谱和大语言模型

Masahiro Kato

专题命中 其他Agent :AI经济学家代理框架,规划、检索、生成报告

AI总结 提出一种基于RAG的AI经济学家代理框架,利用知识图谱和大语言模型进行经济情景分析,通过代理规划、检索证据、选择模型并生成报告,提高经济叙事的连贯性和可追溯性。

2606.20510 2026-06-19 cs.CR cs.AI 新提交 专题 90

Efficient and Sound Probabilistic Verification for AI Agents

高效且可靠的AI智能体概率验证

Alaia Solko-Breslin, Pramod Kaushik Mudrakarta, Mihai Christodorescu, Somesh Jha, Krishnamurthy Dj Dvijotham

专题命中 其他Agent :提出AI智能体概率验证框架,确保策略合规

AI总结 提出基于分布鲁棒优化的框架,为AI智能体在复杂数字环境中的概率策略违规提供可靠上界,无需独立性假设,在终端和工具调用智能体基准上优于现有方法。

2606.19704 2026-06-19 cs.AI 新提交 专题 90

Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

超越静态排行榜:LLM智能体评估的预测有效性

Dhaval C. Patel, Kaoutar El Maghraoui, Shuxin Lin, Yusheng Li, Tianjun Feng, Chun-Yi Tsai, Yihan Sun, Wei Alexander Xin, Akshat Bhandari, Tanisha Rathod, Aaron Fan, Sanskruti Vijay Shejwal, Tomas Pasiecznik, Sagar Chethan Kumar, Tanmay Agarwal, Rohith Kanathur, Sam Colman, Amaan Sheikh, Dev Bahl, Ann Li, Krish Veera, Alimurtaza Mustafa Merchant, Shambhawi Baswaraj Bhure, Sajal Kumar Goyla, Chengrui Li, Kirthana Natarajan, Rui Li, Thomas Ajai, Rujing Li, Vivek G. Iyer, Sanjaii Vijayakumar, Yitong Bai, Ayal Yakobe, Darief Maes, Yassine Jebbouri, Tianyang Xu, Thai Quoc On, Vera Mazeeva, Winston Li, Yuval Shemla, Yeshitha Bhuvanesh, Rushin Bhatt, Siddharth Chethan Gowda, Alisha Vinod, Caroline Cahill, Shriya Aishani Rachakonda, Yunfeng Chen, Aryaman Agrawal, Aman Upganlawar, Mao Le Jonathan Ang, Yubin Sally Go, Madhav Rajkondawar, Yang-Jung Chen, Trisha Maturi, Ananya Kapoor, Andrew Li, Shrey Arora, Mana Abbaszadeh, Shen Li, Charles Xu, Byeolah Kwon

专题命中 其他Agent :评估LLM智能体基准的预测有效性,提出新方法。

AI总结 本文通过14项并行研究,论证聚合分数排行榜无法泛化到分布外场景,提出基于预测有效性的排名配置方法,并设计可证伪的分布外评估标准。

Comments 17 pages, 2 tables, 5 figures

2606.11537 2026-06-19 cs.AI cs.CE 新提交 专题 90

MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning

MoCA-Agent: 一种用于金融和数值推理的声明市场代码智能体

Abdelrahman Abdallah, AbdelRahim A. Elmadany, Sameh Al Natour, Hasan Cavusoglu, Adam Jatowt, Muhammad Abdul-Mageed

专题命中 其他Agent :提出声明市场代码智能体,用于金融数值推理

AI总结 提出MoCA-Agent,通过声明级验证和代码生成解决金融表格问答中的数值推理错误,在十个基准上取得强性能。

2606.20475 2026-06-19 cs.LG 新提交 专题 85

Marginal Advantage Accumulation for Memory-Driven Agent Self-Evolution

边际优势累积用于记忆驱动智能体自我进化

Mingyu Yang, Keye Zheng, Congchao Cheng, Yujie Liu, Xingkang Lu, Fan Jiang, Yefei Zheng

专题命中 其他Agent :提出记忆驱动智能体自我进化方法,优化智能体轨迹蒸馏。

AI总结 针对批量式轨迹蒸馏中跨批次证据缺失问题,提出边际优势累积(MAA)方法,通过差分信号构造、指数移动平均累积和语义身份合并,在16个设置中14个取得最佳结果,优化阶段token消耗减少约75%。

Comments 26 pages, 4 figures, 10 tables, 42 references

2. 工具调用 5 篇

2606.20529 2026-06-19 cs.AI cs.CL 新提交 专题 90

LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

LedgerAgent: 策略遵从工具调用代理的结构化状态

Md Nayem Uddin, Amir Saeidi, Eduardo Blanco, Chitta Baral

专题命中 工具调用 :提出策略遵从工具调用代理的结构化状态方法

AI总结 针对客服领域策略遵从工具调用代理,提出LedgerAgent方法,通过独立账本维护任务状态并渲染到提示中,在执行工具调用前检查状态依赖策略约束,提升多轮一致性。

Comments Work in Progress

2606.19992 2026-06-19 cs.SE cs.AI 新提交 专题 90

Beyond Static Endpoints: Tool Programs as an Interface for Flexible Agentic Web Services

超越静态端点:工具程序作为灵活智能体网络服务的接口

Mugeng Liu, Shuoqi Li, Yixuan Zhang, Yun Ma

专题命中 工具调用 :提出工具程序接口,优化智能体网络服务

AI总结 提出ToolPro,将工具意图表示为可执行程序,通过约束引导构建、效应感知重放和策略决策,在MCP服务上实现最高53.4%的延迟降低和96.1%的流量减少。

Comments Accepted by ICML 2026

2605.29483 2026-06-19 cs.AI 版本更新 专题 90

VitalAgent: A Tool-Augmented Agent for Reactive and Proactive Physiological Monitoring over Wearable Health Data

VitalAgent: 一种工具增强型代理,用于对可穿戴健康数据进行反应性和主动式生理监测

Di Zhu, Yu Yvonne Wu, Hong Jia, Aaqib Saeed, Vassilis Kostakos, Ting Dang

专题命中 工具调用 :工具增强推理和主动监测的智能体框架

AI总结 提出VitalAgent框架,通过工具增强推理和纵向生理记忆,实现对ECG/PPG信号的反应性问答与主动监测,在VitalBench基准上相比基线提升超30%。

Comments Minor revisions; results unchanged

2606.20515 2026-06-19 cs.CV 新提交 专题 85

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

S-Agent:空间工具使用激发空间智能推理

Yalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu

专题命中 工具调用 :提出空间工具使用智能体范式,层次化工具集

AI总结 提出S-Agent空间工具使用智能体范式,通过时空证据积累和层次化工具集,将VLM作为语义规划器,实现连续多视图图像和视频的空间推理,在无训练下提升开源和闭源VLM性能,并基于S-300K轨迹微调得到紧凑空间智能体S-Agent-8B。

Comments Project Page : https://Ropedia.github.io/S-Agent

2606.20401 2026-06-19 eess.SY cs.SY 新提交 专题 85

PowerAgentBench-Dyn: A Benchmark for Agentic AI in Power System Dynamic Studies

PowerAgentBench-Dyn:电力系统动态研究中智能体AI的基准测试

Qian Zhang, Andrea Pomarico, Costas Mylonas, Magda Foti, Alberto Berizzi, Le Xie

专题命中 工具调用 :LLM智能体基准测试,评估电力系统动态分析中的工具使用和推理

AI总结 提出PowerAgentBench-Dyn基准,用于评估基于LLM的智能体在电力系统动态分析任务中的能力,涵盖模型质量审查和安全风险筛选两个任务。

3. 工作流自动化 5 篇

2606.20373 2026-06-19 cs.SE cs.AI 新提交 专题 90

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

AutoPass:基于证据的LLM智能体用于编译器性能调优

Zepeng Li, Jie Ren, Zhanyong Tang, Jie Zheng, Zheng Wang

专题命中 工作流自动化 :多智能体框架自动优化编译器性能

AI总结 提出AutoPass多智能体框架,通过查询编译器内部状态和中间表示,利用运行时反馈迭代优化编译选项,无需训练即可提升性能,在x86-64和ARM64上分别实现1.043倍和1.117倍加速。

2606.20318 2026-06-19 cs.DB 新提交 专题 90

AgenticDB: Agentic Performance Reconfiguration for Database Workloads

AgenticDB: 面向数据库工作负载的代理式性能重配置

Xinyue Yang, Chaozheng Wang, Chen Zheng, Heng Zhang, Yanjun Wu

专题命中 工作流自动化 :智能体框架自动重配置数据库性能

AI总结 提出AgenticDB框架,通过运行时交互实现数据库系统级和操作系统级重配置,诊断瓶颈并积累经验,在MySQL和PostgreSQL上平均性能提升118.1%。

2606.19790 2026-06-19 cs.CE 新提交 专题 90

The Orchestration Gap: Why Process Automation Stalls in Operationally Complex Industries

编排鸿沟:为何流程自动化在操作复杂行业中停滞不前

Jiechao Gao, Yuandong Pan. Yuangang Li, Jie Wang, Kincho Law, Michael Lepech

专题命中 工作流自动化 :分析多智能体系统在复杂行业自动化中的编排鸿沟。

AI总结 本文提出“编排鸿沟”概念,分析为何多智能体系统在物流、医疗等复杂行业自动化中失败,并给出基于约束执行和可解释性的分阶段自动化路径。

2606.19382 2026-06-19 cs.SE cs.AI 新提交 专题 90

DynAMO:Dynamic Asset Management Orchestration via Topological Multi-Agent Scheduling

DynAMO:基于拓扑多智能体调度的动态资产管理编排

Kanishk Kushwaha, Vikrant Vinod Bansode, Harsh Vardhan, Dhaval C. Patel

专题命中 工作流自动化 :提出多智能体编排引擎,生成工作流图。

AI总结 提出DynAMO引擎,采用先规划后执行架构生成可验证工作流图,支持顺序与并行执行,通过动态识别独立任务提升效率,在工业基准上实现1.6倍延迟降低,并保持正确性与安全性。

Comments 11 pages, 2 figures, 7 tables, 4 algorithms. Evaluated on the AssetOpsBench industrial benchmark. Code: https://github.com/kushwaha001/DynAMO

2604.23938 2026-06-19 cs.CL 版本更新 专题 90

TSAssistant: A Human-in-the-Loop Agentic Framework for Automated Target Safety Assessment

TSAssistant: 一种人在回路中的自动化靶点安全性评估智能体框架

Xiaochen Zheng, Zhiwen Jiang, David Tokar, Yexiang Cheng, Alvaro Serra, Melanie Guerard, Klas Hatje, Tatyana Doktorova

专题命中 工作流自动化 :多智能体框架自动化靶点安全性评估报告生成

AI总结 提出TSAssistant多智能体框架,通过分层指令架构和交互式优化循环,将靶点安全性评估报告生成分解为专业子任务,实现高可重复性和证据溯源。

Comments Updated with quantitative and expert evaluations

4. 软件智能体 5 篇

2606.20363 2026-06-19 cs.AI 新提交 专题 90

Automating SKILL.md Generation for Computer-Using Agents via Interaction Trajectory Mining

为计算机使用智能体自动生成SKILL.md:基于交互轨迹挖掘

Yuexing Hao, Xiaomin Li

专题命中 软件智能体 :从GUI轨迹挖掘技能库用于计算机使用智能体

AI总结 提出三阶段流水线从GUI轨迹中挖掘可读技能库,但发现可读性不保证下游策略提升,GRPO仅带来微小改进,揭示当前方法的局限性。

2606.19388 2026-06-19 cs.SE cs.CL cs.HC 新提交 专题 90

Beyond the GUI Paradigm: Do Mobile Agents Need the Phone Screen?

超越GUI范式:移动代理是否需要手机屏幕?

Li Gu, Zihuan Jiang, Linqiang Guo, Zhixiang Chi, Ziqiang Wang, Huan Liu, Yuanhao Yu, Tse-Hsun Chen, Yang Wang

专题命中 软件智能体 :研究移动代理,比较GUI和CLI范式。

AI总结 本文挑战移动代理的GUI主导范式,提出CLI应同等重要,通过实验证明CLI代理在AndroidWorld和MobileWorld上超越GUI基线,并引入CLI-Advantage任务套件展示其优势。

2606.20512 2026-06-19 cs.SE cs.LG 新提交 专题 85

Probe-and-Refine Tuning of Repository Guidance for Coding Agents

代码代理的仓库指导的探测与精炼调优

Asa Shepard, Jeannie Albrecht

专题命中 软件智能体 :聚焦编码代理的仓库指导优化

AI总结 提出探测与精炼调优方法,通过合成bug修复探测迭代诊断和修补仓库指导文件,在SWE-bench Verified上以Qwen3.5-35B-A3B模型达到33.0%解决率,优于静态知识库的28.3%和无指导基线的25.5%。

2606.20487 2026-06-19 cs.CL 新提交 专题 85

Beyond Global Replanning: Hierarchical Recovery for Cross-Device Agent Systems

超越全局重规划:跨设备智能体系统的分层恢复

Shu Yao, Yuhua Luo, Qian Long, Jingru Fan, Zhuoyuan Yu, Yuheng Wang, Lin Wu, Yufan Dang, Huatao Li, Chen Qian

专题命中 软件智能体 :跨设备智能体系统的分层恢复框架

AI总结 提出分层重规划框架H-RePlan,通过统一API-CLI-GUI执行和跨层失败抽象,区分设备本地策略恢复与全局重规划,在HeraBench基准上显著提升跨设备任务完成率和指令遵循度。

2606.20158 2026-06-19 cs.SE 新提交 专题 85

N-Version Programming with Coding Agents

使用编码代理的N版本编程

Javier Ron, Benoit Baudry, Martin Monperrus

专题命中 软件智能体 :编码代理作为智能体进行N版本编程。

AI总结 本文在当代AI编码代理背景下重新审视N版本编程,通过Knight-Leveson实验评估代理系统、模型和实现语言的多样性对故障模式的影响,发现常见模式故障,但多数投票三版本单元显著降低故障数,证明该策略的工程实用性。

5. 多智能体 5 篇

2606.20058 2026-06-19 cs.AI 新提交 专题 90

Autonomous Event-Driven Multi-Agent Orchestration for Enterprise AI at Scale

面向企业级AI规模的自驱动事件驱动多智能体编排

Harsh Rao Dhanyamraju, Leonidas Raghav, Aaron Lee

专题命中 多智能体 :提出多智能体编排框架,处理企业级事件驱动任务。

AI总结 针对企业级AI中多智能体系统在规模扩展时性能下降的问题,提出任务管理器通过优先级推理、事件合并和抢占机制,在200个生产场景中验证其降低高优先级延迟14-75%,提升相关事件正确率超20个百分点。

2606.19782 2026-06-19 cs.AI cs.CL 新提交 专题 90

AgentFinVQA: A Deployable Multi-Agent Pipeline for Auditable Financial Chart QA

AgentFinVQA:一种可部署的多智能体管道用于可审计的金融图表问答

Aravind Narayanan, Shaina Raza

专题命中 多智能体 :多智能体管道用于金融图表问答,强调可审计性。

AI总结 提出多智能体管道AgentFinVQA,通过分解查询步骤并记录可追溯的模型评估包,在金融图表问答中实现可审计性与本地部署,在FinMME上提升准确率7.68个百分点。

2606.19758 2026-06-19 cs.MA 新提交 专题 90

SIGMA: Skill-Incidence Graphs for Compositional Multi-Agent Design

SIGMA: 用于组合式多智能体设计的技能-关联图

Kun Zeng, Yu Huo, Siyu Zhang, Yuecheng Zhuo, Yuquan Lu, Haoyue Liu, Siyue Chen, Xiaoying Tang

专题命中 多智能体 :通过技能-关联图进行组合式多智能体设计。

AI总结 提出SIGMA框架,通过技能-智能体关联图将智能体构建为可复用技能的任务条件组合,并解码通信拓扑,在六个基准测试中优于基线方法,并展现出对未见技能库的鲁棒性。

Comments EMNLP2026

2606.18325 2026-06-19 cs.CR cs.AI 新提交 专题 90

Agentra: A Supervisable Multi-Agent Framework for Enterprise Intrusion Response

Agentra: 一种可监督的多智能体企业入侵响应框架

Raj Patel, Shaswata Mitra, Michele Guida, Stefano Iannucci, Sudip Mittal, Shahram Rahimi

专题命中 多智能体 :提出可监督多智能体入侵响应框架

AI总结 提出可监督的多智能体入侵响应框架Agentra,通过角色划分、规划-验证循环、安全网关和风险评分机制,将警报转化为结构化响应计划,在120事件语料上F1从0.61提升至0.84,有害动作率降至0.0%。

2606.06971 2026-06-19 cs.MA cs.SI 版本更新 专题 90

Modeling U.S. Attitudes Toward China via an Event-Steered Multi-Agent Simulator

通过事件驱动的多智能体模拟器建模美国对华态度

Chenxu Zhu, Hantao Yao, Wu Liu, Junbo Guo, Yongdong Zhang

专题命中 多智能体 :事件驱动多智能体模拟器建模舆论演化

AI总结 提出事件驱动多智能体模拟器(ES-MAS),利用CURE数据集和双流数据集成引擎(DSDIE)及新闻驱动动态交互模块(NDDI),模拟美国对华舆论的动态演化,实验表明优于现有模型。

6. 规划决策 5 篇

2606.19787 2026-06-19 cs.AI 新提交 专题 90

ORAgentBench: Can LLM Agents Solve Challenging Operations Research Tasks End to End?

ORAgentBench: LLM代理能否解决具有挑战性的端到端运筹学任务?

Jiajun Li, Mingshu Cai, Yixuan Li, Yu Ding, Ran Hou, Guanyu Nie, Xiongwei Han, Wanyuan Wang

专题命中 规划决策 :评估LLM代理在运筹学任务中的端到端表现。

AI总结 提出ORAgentBench基准,评估LLM代理在端到端运筹学任务中的表现,发现当前代理通过率仅35.51%,主要受策略性弱点限制。

Comments 31 pages, preprint, v1

2606.15862 2026-06-19 cs.AI 新提交 专题 90

RetailBench: Benchmarking long horizon reasoning and coherent decision making of LLM agents in realistic retail environments

RetailBench: 在真实零售环境中评估LLM代理的长期推理与连贯决策能力

Linghua Zhang, Jun Wang, Jingtong Wu, Zhisong Zhang

专题命中 规划决策 :评估LLM代理在零售环境中的长期决策

AI总结 提出RetailBench基准,模拟单店超市运营,评估LLM代理在长期决策中的表现,发现多数模型无法持续生存,与最优策略差距显著。

Comments This paper is my paper's second version [see arXiv:2603.16453v2]

2606.20376 2026-06-19 cs.LG cs.AI 新提交 专题 85

CRAX: Fast Safe Reinforcement Learning Benchmarking

CRAX:快速安全强化学习基准测试

Tristan Tomilin, Mourad Boustani, Mickey Beurskens, Thiago D. Simão

专题命中 规划决策 :安全RL基准,评估智能体在约束下的规划决策

AI总结 提出基于JAX加速的安全RL基准CRAX,利用MJX物理引擎实现高达100倍加速,包含6个环境套件和3个智能体任务,评估6种方法揭示性能与安全权衡。

2606.20142 2026-06-19 cs.AI cs.MA 新提交 专题 85

RACL: Reasoning-Agent Control Layers for Continuous Metaheuristic Learning

RACL:用于连续元启发式学习的推理代理控制层

Antón Asla Manzárraga

专题命中 规划决策 :推理代理控制层优化元启发式算法。

AI总结 提出RACL方法,在元启发式优化器之上添加推理代理,通过观察、推理和干预控制搜索行为,在车辆路径问题上平均成本降低0.641%-8.337%。

Comments 10 pages, 5 tables

2606.20122 2026-06-19 cs.AI cs.MA 新提交 专题 85

ScaffoldAgent: Utility-Guided Dynamic Outline Optimization for Open-Ended Deep Research

ScaffoldAgent: 面向开放式深度研究的效用引导动态大纲优化

Zhibang Yang, Xinke Jiang, Yuzhen Xiao, Ruizhe Zhang, Yue Fang, XinFei Wan, Zhengxing Song, Yuxuan Liu, Yuheng Huang, Xu Chu, Junfeng Zhao, Yasha Wang

专题命中 规划决策 :智能体框架优化深度研究大纲。

AI总结 提出ScaffoldAgent框架,通过效用引导的动态大纲优化(扩展、收缩、修订操作)解决开放式深度研究中大纲漂移问题,在DeepResearch Bench和Gym上提升长报告生成与事实准确性。

Comments 9 pages, 6 figures