arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

AI Agent

智能体、工具调用、规划、工作流、多智能体和自主任务执行。

今日/当前日期收录 15 信号源:cs.AI, cs.CL, cs.LG, cs.SE

1. 多智能体 4 篇

2606.06971 2026-06-19 cs.MA cs.SI 版本更新 专题 90

Modeling U.S. Attitudes Toward China via an Event-Steered Multi-Agent Simulator

通过事件驱动的多智能体模拟器建模美国对华态度

Chenxu Zhu, Hantao Yao, Wu Liu, Junbo Guo, Yongdong Zhang

专题命中 多智能体 :事件驱动多智能体模拟器建模舆论演化

AI总结 提出事件驱动多智能体模拟器(ES-MAS),利用CURE数据集和双流数据集成引擎(DSDIE)及新闻驱动动态交互模块(NDDI),模拟美国对华舆论的动态演化,实验表明优于现有模型。

2605.27864 2026-06-19 cs.AI 版本更新 专题 85

FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research

FundaPod: 一个具有知识图谱记忆的多角色智能体平台,用于AI辅助的基础投资研究

Di Zhu, Lei Nico Zheng, Zihan Chen

专题命中 多智能体 :多角色智能体平台,支持独立研究和知识图谱记忆

AI总结 提出FundaPod平台,通过多角色独立研究、知识图谱记忆和事后裁决机制,支持人类投资经理进行透明、可验证的基础投资决策。

Comments 32 pages; 12 figures

2511.17625 2026-06-19 cs.MA cs.GT 版本更新 专题 85

Iterative Negotiation and Oversight: A Case Study in Decentralized Air Traffic Management

迭代协商与监督:去中心化空中交通管理案例研究

Jaehan Im, John-Paul Clarke, Ufuk Topcu, David Fridovich-Keil

专题命中 多智能体 :提出去中心化协商框架用于空中交通管理。

AI总结 提出一种受监管的去中心化协商框架,通过交易拍卖实现共识,并引入税收式监督机制引导系统效率和公平性,理论保证有限时间终止,案例验证了框架在去中心化空中交通管理中的有效性。

2502.19193 2026-06-19 cs.SI cs.AI cs.NE 版本更新 专题 70

Simulation of Language Evolution under Regulated Social Media Platforms: A Synergistic Approach of Large Language Models and Genetic Algorithms

受监管社交媒体平台下的语言演化模拟:大语言模型与遗传算法的协同方法

Jinyu Cai, Yusei Ishimizu, Mingyue Zhang, Munan Li, Jialong Li, Kenji Tei

专题命中 多智能体 :多智能体框架模拟用户语言策略演化

AI总结 提出基于大语言模型的多智能体框架,结合遗传算法模拟用户语言策略在监管下的迭代演化,实验表明对话轮次增加可提升信息传递准确性和对话持续性。

Comments The manuscript has been accepted to IEEE Transactions on Computational Social Systems

2. 工具调用 1 篇

2605.29483 2026-06-19 cs.AI 版本更新 专题 90

VitalAgent: A Tool-Augmented Agent for Reactive and Proactive Physiological Monitoring over Wearable Health Data

VitalAgent: 一种工具增强型代理,用于对可穿戴健康数据进行反应性和主动式生理监测

Di Zhu, Yu Yvonne Wu, Hong Jia, Aaqib Saeed, Vassilis Kostakos, Ting Dang

专题命中 工具调用 :工具增强推理和主动监测的智能体框架

AI总结 提出VitalAgent框架,通过工具增强推理和纵向生理记忆,实现对ECG/PPG信号的反应性问答与主动监测,在VitalBench基准上相比基线提升超30%。

Comments Minor revisions; results unchanged

3. 工作流自动化 3 篇

2604.23938 2026-06-19 cs.CL 版本更新 专题 90

TSAssistant: A Human-in-the-Loop Agentic Framework for Automated Target Safety Assessment

TSAssistant: 一种人在回路中的自动化靶点安全性评估智能体框架

Xiaochen Zheng, Zhiwen Jiang, David Tokar, Yexiang Cheng, Alvaro Serra, Melanie Guerard, Klas Hatje, Tatyana Doktorova

专题命中 工作流自动化 :多智能体框架自动化靶点安全性评估报告生成

AI总结 提出TSAssistant多智能体框架,通过分层指令架构和交互式优化循环,将靶点安全性评估报告生成分解为专业子任务,实现高可重复性和证据溯源。

Comments Updated with quantitative and expert evaluations

2604.08552 2026-06-19 cs.DB cs.AI 版本更新 专题 85

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

使用本体约束的LLM代理自动化标准化遗留生物医学元数据

Josef Hardi, Martin J. O'Connor, Marcos Martinez-Romero, Jean G. Rosario, Stephen A. Fisher, Mark A. Musen

专题命中 工作流自动化 :LLM代理自动化标准化生物医学元数据

AI总结 提出基于LLM的元数据标准化系统,通过实时查询标准指南和本体服务,在839条HuBMAP记录上验证,相比纯LLM方法显著提升预测准确性。

2602.15707 2026-06-19 cs.MM cs.CL cs.LG 版本更新 专题 80

Proactive Conversational Assistant for a Procedural Manual Task based on Audio and IMU

基于音频和IMU的主动式程序性任务对话助手

Rehana Mahfuz, Yinyi Guo, Erik Visser, Phanidhar Chinchili

专题命中 工作流自动化 :实时对话助手提供程序性任务指导,主动交互

AI总结 提出首个仅使用音频和IMU模态的实时对话助手,通过微调语言模型减少不必要对话并提升问答准确性,在边缘设备上实现无云依赖。

Comments 5 figures. 5 more in appendix

4. 其他Agent 4 篇

2605.13438 2026-06-19 cs.AI cs.CL 版本更新 专题 85

CogniFold: Always-On Proactive Memory via Cognitive Folding

CogniFold: 通过认知折叠实现始终在线的主动记忆

Suli Wang, Yiqun Duan, Yu Deng, Rundong Zhao, Dai Shi, Minghua Deng, Chen Chen, Xinliang Zhou

专题命中 其他Agent :主动记忆系统,持续认知结构涌现

AI总结 提出CogniFold,一种受大脑启发的主动记忆系统,通过将互补学习系统扩展为三层(海马体、新皮层、前额叶意图层)并利用图拓扑自组织,实现事件流的持续认知结构涌现,在认知评估和常规记忆基准上均表现优异。

Comments Code is available at https://github.com/OpenNorve/CogniFold

2604.21804 2026-06-19 physics.ins-det hep-ex hep-ph 版本更新 专题 80

Agentic-AI Detector Co-design and Optimization in Vertically-Integrated Differentiable Full Simulations

Agentic-AI探测器协同设计与优化在垂直集成可微分全模拟中

Wonyong Chung, Qibin Liu, Liangyu Wu, Julia Gonski

专题命中 其他Agent :AI智能体集成到探测器设计优化

AI总结 提出双层级优化框架,将AI智能体集成到高能物理探测器设计中,通过可微分全模拟联合优化几何、前端数字化和重建算法参数,在竞争性能指标下找到最优设计点。

Comments 7 pages, 3 figures

2603.22922 2026-06-19 cs.CL 版本更新 专题 75

Quality Over Clicks: Iterative Reinforcement Learning for Early-Stage E-Commerce Query Suggestion

质量优于点击:面向早期电商查询建议的迭代强化学习

Qi Sun, Kejun Xiao, Huaipeng Zhao, Tao Luo, Xiaoyi Zeng

专题命中 其他Agent :电商查询建议的迭代强化学习框架

AI总结 针对早期部署场景点击反馈稀疏的问题,提出质量优先的迭代强化学习框架QualEQS,从可回答性、事实性和信息增益三个维度优化查询建议质量,通过候选建议的组级分歧识别模糊上下文并挖掘难例进行迭代改进,在真实电商系统中ChatPV提升6.81%。

2501.18038 2026-06-19 cs.CY 版本更新 专题 60

Acceleration AI Ethics and the Telus GenAI Conversational Agent

加速AI伦理与Telus生成式AI对话代理

James Brusseau

专题命中 其他Agent :涉及生成式AI对话代理的伦理应用

AI总结 本文阐述加速伦理学的理论框架,并通过Telus公司的生成式AI语言工具案例,展示加速AI伦理如何在创新与安全之间平衡,以最大化社会责任。

Journal ref Law Ethics Technol. 2026(2):0006

5. 软件智能体 2 篇

2508.04266 2026-06-19 cs.CL 版本更新 专题 85

ShoppingBench: A Real-World Intent-Grounded Shopping Benchmark for LLM-based Agents

ShoppingBench:面向LLM智能体的真实世界意图导向购物基准

Jiangyuan Wang, Kejun Xiao, Qi Sun, Huaipeng Zhao, Tao Luo, Jian Dong Zhang, Xiaoyi Zeng

专题命中 软件智能体 :提出购物基准测试LLM智能体,属于软件智能体

AI总结 提出ShoppingBench基准,包含多层级真实购物意图任务,通过模拟环境和250万商品评估LLM智能体,发现GPT-4.1成功率低于50%,并提出轨迹蒸馏策略提升小模型性能。

Comments Accepted for oral presentation at AAAI 2026

2605.25160 2026-06-19 cs.AI 版本更新 专题 80

ScaleWoB: Guiding GUI Agents with Coding Agents via Large-Scale Environmental Synthesis

SimuWoB: 模拟真实世界移动应用以实现快速且保真的GUI智能体基准测试

Guohong Liu, Jialei Ye, Pengzhi Gao, Wei Liu, Jian Luan, Yunxin Liu, Yuanchun Li

专题命中 软件智能体 :GUI智能体基准测试环境合成

AI总结 针对现有移动GUI智能体基准测试与现实应用之间的差距,提出全合成基准SimuWoB,通过鲁棒的虚拟环境生成框架合成高保真任务和环境,自动提供有效奖励,实现对复杂长程交互的高效可重复评估。

6. 规划决策 1 篇

2603.16865 2026-06-19 math.OC cs.SY eess.SY 版本更新 专题 80

Prescribed-Time Distributed Generalized Nash Equilibrium Seeking

预设时间分布式广义纳什均衡求解

Liraz Mudrik, Isaac Kaminer, Sean Kragelund, Abram H. Clark

专题命中 规划决策 :多智能体分布式纳什均衡求解

AI总结 针对安全关键多智能体系统,提出首个全分布式算法,在用户预设时间T内求解带共享耦合约束的广义纳什均衡问题,采用多速率增益调度解耦观测器、优化与对偶一致性三层耦合。

Comments 12 pages, 5 figures