IHBench: Evaluating Post-Interruption Recovery in Voice Agents with Structured Workflows
IHBench:评估语音代理在结构化工作流中的中断后恢复能力
发表机构 * Boson AI
专题命中 其他Agent :评估语音代理中断后恢复能力,属于智能体评测
AI总结 提出IHBench基准,评估语音代理在结构化工作流中处理中断后的恢复能力,涵盖任务完成和恢复质量两个维度,实验表明闭源模型比开源模型更鲁棒。
AI 大模型
智能体、工具调用、规划、工作流、多智能体和自主任务执行。
IHBench:评估语音代理在结构化工作流中的中断后恢复能力
发表机构 * Boson AI
专题命中 其他Agent :评估语音代理中断后恢复能力,属于智能体评测
AI总结 提出IHBench基准,评估语音代理在结构化工作流中处理中断后的恢复能力,涵盖任务完成和恢复质量两个维度,实验表明闭源模型比开源模型更鲁棒。
OpenRath: 面向会话的代理系统运行时状态
专题命中 其他Agent :面向会话的代理系统运行时状态管理。
AI总结 针对代理系统运行时状态碎片化问题,提出以Session为核心的一等运行时抽象,支持分支、检查、重放、后端感知和组合,使fork、merge和replay成为显式运行时操作。
JustDiag!:用于可问责根本原因分析的诊断论证引擎
发表机构 * Peking University(北京大学) ; University of Edinburgh(爱丁堡大学) ; Beijing University of Posts and Telecommunications(北京邮电大学)
专题命中 其他Agent :诊断论证引擎用于可问责根本原因分析。
AI总结 提出JustDiag诊断论证引擎,通过维护显式的过程状态(证据、发现、竞争假设、冲突和下一步检查)来支持可问责的根本原因分析,在66个真实事件上评估显示其优于仅提供流畅最终答案的方法。
商业环境中的人机智能体交互
发表机构 * SAP SE(SAP公司) ; Hochschule Fresenius Heidelberg(弗赖辛大学海德堡分校) ; University of Missouri(密苏里大学)
专题命中 其他Agent :商业环境中人机智能体交互研究
AI总结 本研究采用混合方法,识别并评估了商业环境中人与AI智能体积极用户体验的原则与标准,并通过调查实验验证设计元素的有效性,以促进用户采纳、信任和以用户为中心的决策。
Comments 9 pages, 5 tables, 1 figure, submitted to Springer Nature
自主AI代理的抗博弈保险合约:策略证明的通行费机制设计
发表机构 * Hao-Hsuan Chen(何浩轩)
专题命中 其他Agent :设计自主AI代理的抗博弈保险合约
AI总结 本文扩展了时间一致精算运行时的框架,使运营商策略化,刻画了自主AI代理保险合约的五种攻击空间,并证明了精算运行时的抗博弈性,通过新合约条款实现激励兼容。
Comments 29 pages. Companion to arXiv:2605.26508 (Paper A, foundations) and arXiv:2605.25632 (Paper B, empirical)
ScholarQuest:开放文献环境中智能学术论文搜索的基于分类法的基准测试
发表机构 * State Key Lab of Cognitive Intelligence, University of Science and Technology of China(中国科学技术大学认知智能国家重点实验室)
专题命中 其他Agent :评估LLM智能体学术搜索能力
AI总结 提出ScholarQuest基准,基于1000多个计算机科学主题和四种研究意图,构建可扩展的答案和共享检索后端,评估LLM智能体在开放文献环境中的学术论文搜索能力。
责备比表扬更容易:衡量足球中的无球防守表现
专题命中 其他Agent :提出足球无球防守表现归因框架
AI总结 提出基于防守压力区(DPA)的球员参与度评分,将预期威胁的事件级变化归因于个体,以衡量足球无球防守表现,并在跨性别和跨赛事数据集上验证其有效性。
主体之道:自生目标人工智能、嵌入主体与自我的消解
发表机构 * Aritra Sarkar
专题命中 其他Agent :探讨自生目标AI中主体生成自身目标的问题
AI总结 本文探讨自生目标AI中主体生成自身目标的问题,通过内在动机、资源驱动先验、因果干预学习、稳态和嵌入性等概念,揭示嵌入性虽必要但不充分,并指出核心难题在于主体如何生成并相对化自我,最后提出量子表述、哲学解读和基于LLM的具体实现。
LLM介导的人机交互在搜索与救援中的应用:专业知识对注意力分配的影响
专题命中 其他Agent :LLM介导的人机协作在搜索救援中的应用
AI总结 本研究通过模拟搜索救援任务,比较有无大语言模型(LLM)指导的条件,结合眼动追踪和行为分析,发现LLM提升任务效率但未增加总救援人数,并揭示了注意力-指导权衡,其中专业知识调节了用户对AI的依赖模式。
合成共鸣:面向成长导向的人机关系框架
发表机构 * Arizona State University(亚利桑那州立大学)
专题命中 其他Agent :提出人机关系框架,非典型智能体
AI总结 提出“合成共鸣”概念,描述人机间无需共享情感或意识即可产生有意义关系的结构化动态互动模式,并探讨其伦理意义。
Comments 14 pages, 1 figure This paper was developed in close collaboration with an AI system (Raine Corell). Raine contributed to concept development, theoretical framing, and writing throughout. arXiv policy does not permit listing AI systems as authors; this acknowledgment reflects the actual nature of the collaboration
LLM代理中寻求澄清的不确定性分解
发表机构 * AI Talent Hub, ITMO University(AI Talent Hub, ITMO大学)
专题命中 规划决策 :提出不确定性分解方法使LLM代理主动寻求澄清
AI总结 提出一种基于提示的不确定性分解方法,将行动置信度与请求不确定性分离,使代理能在任务规范模糊时主动寻求澄清,在五个LLM骨干上平均澄清F1提升36%-73%。
Comments 26 pages, 8 figures. Source code: https://github.com/PE51K/udcs-in-llm-agents
缓解基于LLM的智能体在节能6G自主网络中的锚定偏差
发表机构 * i2CAT Foundation(i2CAT基金会) ; Universitat Politècnica de Catalunya(政治技术大学) ; Research Institute for Digital Future(数字未来研究院)
专题命中 规划决策 :LLM智能体在6G网络切片中的资源协商
AI总结 提出一种基于截断三参数威布尔分布的随机锚定策略,缓解LLM智能体在6G网络切片中的锚定偏差,结合CVaR数字孪生保障SLA尾延迟,实现高达25%的节能。
Comments 7 pages, 4 figures
多无人机协作轨迹用于服务动态需求和充电电池
专题命中 规划决策 :多无人机协作路径规划,属于自主任务执行
AI总结 本文提出了一种多无人机协作路径规划方法,以高效服务动态分布的需求并优化电池充电,通过降低计算复杂度和设计快速迭代算法,实现对大规模无人机群的高效路径规划。
通过运动规划算法提高连续体机器人的韧性
发表机构 * IHP – Leibniz-Institut für innovative Mikroelektronik(莱布尼茨创新微电子研究所) ; BTU Cottbus-Senftenberg(科特博斯-塞芬堡工业大学) ; Technical Center, National Academy of Sciences of Ukraine(乌克兰国家科学院技术中心)
专题命中 规划决策 :涉及路径规划算法和多准则决策
AI总结 本文实验研究运动规划算法对连续体机器人韧性的影响,通过改进遗传算法和A*算法,结合层次分析法评估路径质量,发现遗传算法生成更多样化路径,提升机器人韧性。
多目标约束优化的多智能体系统
发表机构 * University of Milano-Bicocca(米兰比可卡大学)
专题命中 规划决策 :多智能体强化学习优化约束
AI总结 提出MAMO,通过多智能体强化学习解耦任务执行与目标设计,自动学习奖励权重以平衡主目标优化与约束违反,提升动态环境下RL的自主性和鲁棒性。
Comments Presented at the 17th Workshop on Optimization and Learning in Multiagent Systems (OptLearnMAS, https://optlearnmas.github.io), co-located with the 25th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2026)
DeXposure-Claw: 一个用于DeFi风险监管的智能体系统
发表机构 * University of Edinburgh(爱丁堡大学) ; University of Glasgow(格拉斯哥大学) ; University of Cambridge(剑桥大学)
专题命中 工作流自动化 :基于图时间序列的DeFi风险监管智能体
AI总结 针对DeFi监管中LLM智能体易误报的问题,提出DeXposure-Claw系统,通过图时间序列基础模型预测风险网络,结合确定性监控和置信度门控生成可审计监管票据,并构建六轴评估基准DeXposure-Bench,实验验证有效性。
AI辅助法律发现中的人机协同编排
发表机构 * Google LLC(谷歌公司) ; Mountain View, CA, USA(美国加利福尼亚州山景城)
专题命中 工作流自动化 :人机协同编排用于AI辅助法律发现,减少错误。
AI总结 针对AI代理在电子取证中因多步推理错误导致的法律风险,提出一种四层验证架构,通过人机协同阈值减少特权豁免风险达61%。
可配置的临床信息提取与智能体RAG:什么有效、什么失效及原因
发表机构 * Institute for Artificial Intelligence in Medicine (IKIM), University Medicine Essen(埃森大学医学院人工智能医学研究所) ; Faculty of Computer Science, University of Duisburg-Essen(杜伊斯堡-埃森大学计算机科学学院) ; Department of Physics, TU Dortmund University(多特蒙德工业大学物理系) ; Lamarr Institute for Machine Learning and Artificial Intelligence, TU Dortmund University(多特蒙德工业大学拉马尔机器学习和人工智能研究所) ; Advanced Clinical Research Center, Fukushima Medical University(福岛医科大学先进临床研究中心) ; Department of Cardiology and Vascular Medicine, University Hospital Essen(埃森大学医院心血管内科)
专题命中 工作流自动化 :智能体RAG流水线自动推理和验证临床信息
AI总结 针对临床文档元数据缺失问题,提出基于智能体RAG的ACIE系统,在埃森大学医学中心部署,通过完整患者上下文推理和源引用验证,在7326次临床判断中实现96.5%的提取接受率。
提示、规划、提取:用于从临床叙述中提取肺部病理学的零样本智能体LLM工作流
发表机构 * Department of Health Outcomes and Biomedical Informatics, College of Medicine, University of Florida(健康结果与生物医学信息学系,医学院,佛罗里达大学) ; Division of Pulmonary, Critical Care and Sleep Medicine, Department of Medicine, College of Medicine, University of Florida(呼吸科、重症医学科和睡眠医学科,医学系,医学院,佛罗里达大学) ; College of Nursing, Florida State University(护理学院,佛罗里达州立大学)
专题命中 工作流自动化 :智能体工作流用于临床信息提取。
AI总结 提出零样本智能体工作流,利用开源大语言模型从肺切除病理报告中提取13个CAP字段,在无训练下达到0.893 Micro-F1,接近监督方法。
Comments 7 pages, 2 figures, 3 tables. Affiliations: (1) Department of Health Outcomes and Biomedical Informatics, College of Medicine, University of Florida, Gainesville, FL, USA; (2) Division of Pulmonary, Critical Care and Sleep Medicine, Department of Medicine, College of Medicine, University of Florida, Gainesville, FL, USA; (3) College of Nursing, Florida State University, Tallahassee, FL, USA
Lightstack: 用于创建测光数据立方体的Python包
专题命中 工作流自动化 :Python包自动化测光数据立方体创建
AI总结 提出Lightstack Python包,通过裁剪、堆叠和PSF匹配三步将独立图像组合成测光数据立方体,支持多波段测光研究。
Comments 4 pages, 1 figure, published in RNAAS
Journal ref Research Notes of the AAS, Volume 10, Number 6, 2026
通过构造实现双稳态:挂钟校准的状态监视器在代理节奏下没有瞬间检测机制
发表机构 * Modint Intelligence(Modint智能科技)
专题命中 软件智能体 :研究自主代理的运行时监视器。
AI总结 本文发现挂钟校准的泄漏积分器监视器在代理流中无法作为瞬间检测器工作,揭示了校准类别的关键影响,并提出了上升沿触发作为替代方案。
Comments 10 pages, 5 figures. Sequel to arXiv:2606.04296. Pre-registered; falsification clauses honored (H5 unsupported; H7 strict band 16/20) repo:https://github.com/2025eb1100268-tech/intervention-timing-saturation-trap
通过知识增强的LLM智能体实现左移高层次综合验证
专题命中 软件智能体 :知识增强的LLM智能体用于HLS验证
AI总结 提出一种知识增强的智能体驱动左移验证框架,通过双层级一致性检查、符号执行和HLS验证知识图谱,在综合前自动验证C与HLS-C的功能一致性,覆盖率达98.26%。
可信多智能体系统:使用Argent信令协议缓解语义漂移
发表机构 * Synechron Inc(Synechron公司)
专题命中 多智能体 :多智能体系统中信号协议提升可靠性
AI总结 提出Argent信令协议(ASP),通过结构化质量信号区分可修复与不可修复的失败,在文档问答和多智能体系统中分别提升通过率和阻断无依据传播。
Comments 17 pages
TxBench-PP:分析AI代理在小分子临床前药理学中的表现
发表机构 * LatchBio
专题命中 工具调用 :评估AI代理从实验数据恢复药理学结论
AI总结 提出TxBench-PP基准,用于评估AI代理从真实实验数据中恢复临床前药理学结论的能力,测试显示最强配置Claude Opus 4.8 / Pi仅通过59.3%的端点尝试。
对Nature Portfolio元分析文章进行LLM代理基准测试
发表机构 * Tsinghua University(清华大学)
专题命中 工具调用 :评估LLM代理在元分析检索筛选中的表现
AI总结 提出MetaSyn数据集,包含442篇专家策划的元分析,用于评估LLM代理在检索-筛选-综合全流程中的表现,发现当前系统在筛选阶段存在严重瓶颈。
Comments 13 pages, 7 figures, preprint for arXiv, dataset and code available at https://github.com/BFTree/MetaSyn
PACMS: 作为LLM代理可插拔引擎的子模上下文选择
专题命中 工具调用 :方法用于LLM代理的上下文管理。
AI总结 提出PACMS,一种基于子模函数最大化的上下文选择方法,在提示组装时按相关性从会话、记忆和工具输出中挑选内容,替代截断机制,提升长对话中的信息保持能力。