AI Agent - arXivDaily 专题

2606.19787 2026-06-19 cs.AI 新提交专题 90

ORAgentBench: Can LLM Agents Solve Challenging Operations Research Tasks End to End?

ORAgentBench: LLM代理能否解决具有挑战性的端到端运筹学任务？

Jiajun Li, Mingshu Cai, Yixuan Li, Yu Ding, Ran Hou, Guanyu Nie, Xiongwei Han, Wanyuan Wang

专题命中规划决策：评估LLM代理在运筹学任务中的端到端表现。

AI总结提出ORAgentBench基准，评估LLM代理在端到端运筹学任务中的表现，发现当前代理通过率仅35.51%，主要受策略性弱点限制。

Comments 31 pages, preprint, v1

URL PDF HTML

2606.15862 2026-06-19 cs.AI 新提交专题 90

RetailBench: Benchmarking long horizon reasoning and coherent decision making of LLM agents in realistic retail environments

RetailBench: 在真实零售环境中评估LLM代理的长期推理与连贯决策能力

Linghua Zhang, Jun Wang, Jingtong Wu, Zhisong Zhang

专题命中规划决策：评估LLM代理在零售环境中的长期决策

AI总结提出RetailBench基准，模拟单店超市运营，评估LLM代理在长期决策中的表现，发现多数模型无法持续生存，与最优策略差距显著。

Comments This paper is my paper's second version [see arXiv:2603.16453v2]

URL PDF HTML

2606.20376 2026-06-19 cs.LG cs.AI 新提交专题 85

CRAX: Fast Safe Reinforcement Learning Benchmarking

CRAX：快速安全强化学习基准测试

Tristan Tomilin, Mourad Boustani, Mickey Beurskens, Thiago D. Simão

专题命中规划决策：安全RL基准，评估智能体在约束下的规划决策

AI总结提出基于JAX加速的安全RL基准CRAX，利用MJX物理引擎实现高达100倍加速，包含6个环境套件和3个智能体任务，评估6种方法揭示性能与安全权衡。

URL PDF HTML

2606.20142 2026-06-19 cs.AI cs.MA 新提交专题 85

RACL: Reasoning-Agent Control Layers for Continuous Metaheuristic Learning

RACL：用于连续元启发式学习的推理代理控制层

Antón Asla Manzárraga

专题命中规划决策：推理代理控制层优化元启发式算法。

AI总结提出RACL方法，在元启发式优化器之上添加推理代理，通过观察、推理和干预控制搜索行为，在车辆路径问题上平均成本降低0.641%-8.337%。

Comments 10 pages, 5 tables

URL PDF HTML

2606.20122 2026-06-19 cs.AI cs.MA 新提交专题 85

ScaffoldAgent: Utility-Guided Dynamic Outline Optimization for Open-Ended Deep Research

ScaffoldAgent: 面向开放式深度研究的效用引导动态大纲优化

Zhibang Yang, Xinke Jiang, Yuzhen Xiao, Ruizhe Zhang, Yue Fang, XinFei Wan, Zhengxing Song, Yuxuan Liu, Yuheng Huang, Xu Chu, Junfeng Zhao, Yasha Wang

专题命中规划决策：智能体框架优化深度研究大纲。

AI总结提出ScaffoldAgent框架，通过效用引导的动态大纲优化（扩展、收缩、修订操作）解决开放式深度研究中大纲漂移问题，在DeepResearch Bench和Gym上提升长报告生成与事实准确性。

Comments 9 pages, 6 figures

URL PDF HTML

2606.20014 2026-06-19 cs.LG cs.AI 新提交专题 85

Hierarchical Control in Multi-Agent Games: LLM-based Planning and RL Execution

多智能体博弈中的层次化控制：基于LLM的规划与RL执行

Jannik Hösch, Alessandro Sestini, Florian Fuchs, Amir Baghi, Joakim Bergdahl, Konrad Tollmar, Jean-Philippe Barrette-LaPierre, Linus Gisslén

专题命中规划决策：LLM作为规划器选择RL技能策略。

AI总结提出LLM作为中央策略控制器选择RL技能策略的层次化架构，在2v2对抗环境中达到与手工BT相当的胜率，且被感知为最类人。

Comments 12 pages, 9 figures

URL PDF HTML

2606.19729 2026-06-19 cs.RO cs.AI 新提交专题 85

VOiLA: Vectorized Online Planning with Learned Diffusion Model for POMDP Agents

VOiLA: 基于学习扩散模型的向量化在线规划用于POMDP智能体

Marcus Hoerger, Rishikesh Joshi, Rahul Shome, Ian Manchester, Hanna Kurniawati

专题命中规划决策：在线规划智能体，处理部分可观测环境。

AI总结提出VOiLA框架，利用条件扩散模型学习POMDP模型，通过蒸馏加速采样并与向量化在线规划器集成，在三个基准任务和实物机器人上实现高效在线规划。

Comments Submitted to the 2026 International Symposium of Robotics Research (ISRR)

URL PDF HTML

2606.15197 2026-06-19 cs.LG cs.AI 新提交专题 85

StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling

StarOR: 协同树搜索与测试时强化学习用于优化建模

Jiajun Li, Yu Ding, Shisi Guan, Ran Hou, Wanyuan Wang

专题命中规划决策：树搜索与强化学习用于优化建模

AI总结提出StarOR框架，结合蒙特卡洛树搜索与测试时强化学习，通过四阶段分解和GRPO更新LoRA适配器，实现无监督细粒度奖励的中间决策优化，在5个基准上以4B模型达到最优性能。

Comments 41pages, V1, preprint

URL PDF HTML

2606.10616 2026-06-19 cs.AI 新提交专题 85

Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents

学习记住什么：通过约束优化实现长时域语言代理的观测安全记忆保留

Qingcan Kang, Liu Mingyang, Shixiong Kai, Kaichao Liang, Tao Zhong, Mingxuan Yuan

专题命中规划决策：长时域语言代理的记忆保留优化问题

AI总结针对长时域语言代理的有限上下文窗口，提出OSL-MR框架，将记忆保留建模为约束随机优化问题，通过在线可观测特征与离线监督的严格分离学习查询条件化的证据价值，实验表明在严格预算下优于现有方法。

URL PDF HTML

2606.19659 2026-06-19 cs.CL 新提交专题 80

SAGE-OPD: Selective Agent-Guided Intervention for Multi-Turn On-Policy Distillation

SAGE-OPD：面向多轮在策略蒸馏的选择性智能体引导干预

Yuhang Zhou, Lizhu Zhang, Yifan Wu, Mingyi Wang, Bo Peng, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao

专题命中规划决策：多轮在策略蒸馏框架，选择性干预学生响应

AI总结提出SAGE-OPD框架，通过环境反馈和教师判断选择性干预学生响应，结合置信度加权和损失归一化，解决多轮在策略蒸馏中的错误累积问题，在ALFWorld任务中取得13.3%的相对提升。

Comments 21 pages, 3 figures

URL PDF HTML

2606.19559 2026-06-19 cs.AI cs.CL 新提交专题 80

Uncertainty Decomposition for Clarification Seeking in LLM Agents

LLM代理中寻求澄清的不确定性分解

Gregory Matsnev

专题命中规划决策：提出不确定性分解方法使LLM代理主动寻求澄清

AI总结提出一种基于提示的不确定性分解方法，将行动置信度与请求不确定性分离，使代理能在任务规范模糊时主动寻求澄清，在五个LLM骨干上平均澄清F1提升36%-73%。

Comments 26 pages, 8 figures. Source code: https://github.com/PE51K/udcs-in-llm-agents

URL PDF HTML

2606.18272 2026-06-19 cs.NI cs.AI cs.SY eess.SY 新提交专题 80

Mitigating Anchoring Bias in LLM-Based Agents for Energy-Efficient 6G Autonomous Networks

缓解基于LLM的智能体在节能6G自主网络中的锚定偏差

Hatim Chergui, Claudia Carballo González, Farhad Rezazadeh, Merouane Debbah

专题命中规划决策：LLM智能体在6G网络切片中的资源协商

AI总结提出一种基于截断三参数威布尔分布的随机锚定策略，缓解LLM智能体在6G网络切片中的锚定偏差，结合CVaR数字孪生保障SLA尾延迟，实现高达25%的节能。

Comments 7 pages, 4 figures

URL PDF HTML

2603.16865 2026-06-19 math.OC cs.SY eess.SY 版本更新专题 80

Prescribed-Time Distributed Generalized Nash Equilibrium Seeking

预设时间分布式广义纳什均衡求解

Liraz Mudrik, Isaac Kaminer, Sean Kragelund, Abram H. Clark

专题命中规划决策：多智能体分布式纳什均衡求解

AI总结针对安全关键多智能体系统，提出首个全分布式算法，在用户预设时间T内求解带共享耦合约束的广义纳什均衡问题，采用多速率增益调度解耦观测器、优化与对偶一致性三层耦合。

Comments 12 pages, 5 figures

URL PDF HTML

1805.08357 2026-06-19 cs.NI 专题 80

Multi-UAV Cooperative Trajectory for Servicing Dynamic Demands and Charging Battery

多无人机协作轨迹用于服务动态需求和充电电池

Kai Wang, Xiao Zhang, Lingjie Duan, Jun Tie

专题命中规划决策：多无人机协作路径规划，属于自主任务执行

AI总结本文提出了一种多无人机协作路径规划方法，以高效服务动态分布的需求并优化电池充电，通过降低计算复杂度和设计快速迭代算法，实现对大规模无人机群的高效路径规划。

URL PDF HTML

2606.20495 2026-06-19 cs.RO 新提交专题 70

Increasing Resilience of Continuum Robots via Motion Planning Algorithms

通过运动规划算法提高连续体机器人的韧性

Oxana Shamilyan, Ievgen Kabin, Zoya Dyka, Oleksandr Sudakov, Peter Langendoerfer

专题命中规划决策：涉及路径规划算法和多准则决策

AI总结本文实验研究运动规划算法对连续体机器人韧性的影响，通过改进遗传算法和A*算法，结合层次分析法评估路径质量，发现遗传算法生成更多样化路径，提升机器人韧性。

URL PDF HTML

2606.20236 2026-06-19 cs.AI cs.LG cs.MA 新提交专题 70

A Multi-Agent system for Multi-Objective constrained optimization

多目标约束优化的多智能体系统

Federica Filippini

专题命中规划决策：多智能体强化学习优化约束

AI总结提出MAMO，通过多智能体强化学习解耦任务执行与目标设计，自动学习奖励权重以平衡主目标优化与约束违反，提升动态环境下RL的自主性和鲁棒性。

Comments Presented at the 17th Workshop on Optimization and Learning in Multiagent Systems (OptLearnMAS, https://optlearnmas.github.io), co-located with the 25th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2026)

URL PDF HTML