arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2604.13986 2026-05-14 cs.LG

PRiMeFlow: Capturing Complex Expression Heterogeneity in Perturbation Response Modelling

Zichao Yan, Yan Wu, Mica Xu Ji, Chaitra Agrahar, Esther Wershof, Marcel Nassar, Mehrshad Sadria, Ridvan Eksi, Vladimir Trifonov, Ignacio Ibarra, Telmo Felgueira, Błażej Osiński, Rory Stark

AI总结 PRiMeFlow 是一种基于流匹配的端到端方法，旨在直接建模基因和小分子扰动对基因表达空间的影响，以应对单细胞基因表达异质性和潜在基因依赖关系带来的建模挑战。该方法通过分布拟合准确逼近单细胞基因表达的实证分布，并在 PerturBench 平台上进行了广泛基准测试，验证了其有效性。研究还通过消融实验验证了关键设计选择，并在多个数据集上展示了其在人类胚胎干细胞扰动预测任务中的卓越性能。

2604.11581 2026-05-14 cs.CL

Hidden Measurement Error in LLM Pipelines Distorts Annotation, Evaluation, and Benchmarking

Solomon Messing

AI总结大型语言模型（LLM）的评估结果对模型部署、安全标准、研究结论和人工智能对劳动力市场的影响预测具有重要影响。然而，现有评估方法通常忽略判断模型选择、模型温度和提示语表达等因素带来的不确定性，导致置信区间覆盖不足，且随着数据量增加问题更加严重。本文分析了LLM评估流程中的不确定性来源，区分了数据量增加可减少的方差与研究者设计选择带来的敏感性，并通过设计研究预测来降低总体评估误差，显著提升了评估结果的准确性和可靠性。

2604.10755 2026-05-14 cs.CV

MMRareBench: A Rare-Disease Multimodal and Multi-Image Medical Benchmark

Junzhi Ning, Jiashi Lin, Yingying Fang, Wei Li, Jiyao Liu, Cheng Tang, Chenglong Ma, Wenhao Tang, Tianbin Li, Ziyan Huang, Guang Yang, Junjun He

AI总结该论文提出了MMRareBench，首个针对罕见病的多模态和多图像医学评估基准，旨在评估模型在诊断、治疗规划、跨图像证据对齐和检查建议等四个临床流程中的综合能力。该基准包含1,756个问答对和7,958张医学图像，采用基于Orphanet的本体对齐和严格的评估协议，系统揭示了现有大型语言模型在罕见病场景下处理多图像信息时能力不足的问题，尤其在治疗规划方面表现较差。研究结果表明，尽管医学领域模型在诊断任务上表现较好，但在多图像任务中仍显著落后于通用模型。

2604.10720 2026-05-14 cs.AI cs.CL cs.CY

Teaching Language Models How to Code Like Learners: Conversational Serialization for Student Simulation

Charles Koutcheme, Juho Leinonen, Arto Hellas

AI总结本文提出了一种训练开放权重的编程学习模拟模型的新框架，通过将真实学生的学习过程数据转化为对话形式，模拟学生与自动评估系统之间的交互过程。该方法结合了监督微调和偏好优化，使模型能够更贴近真实学生的调试行为。实验表明，该方法在功能对齐和代码相似性方面优于传统仅基于代码的模型和提示生成的大语言模型。

Comments 8 pages, 2 figures, 2 tables. Accepted to Educational Data Mining 2026

2604.10634 2026-05-14 cs.CV

NTIRE 2026 The Second Challenge on Day and Night Raindrop Removal for Dual-Focused Images: Methods and Results

Xin Li, Yeying Jin, Suhang Yao, Beibei Lin, Zhaoxin Fan, Wending Yan, Xin Jin, Zongwei Wu, Bingchen Li, Peishu Shi, Yufei Wang, Yu Li, Zhibo Chen, Bihan Wen, Robby T. Tan, Radu Timofte, Runzhe Li, Kui Jiang, Zhaocheng Yu, Yiang Chen, Junjun Jiang, Xianming Liu, Hongde Gu, Zeliang Li, Mache You, Jiangxin Dong, Jinshan Pan, Qiyu Rong, Bowen Shao, Hongyuan Jing, Mengmeng Zhang, Bo Ding, Hui Zhang, Yi Ren, Mohab Kishawy, Jun Chen, Anh-Kiet Duong, Petra Gomez-Kramer, Jean-Michel Carozza, Wangzhi Xing, Xin Lu, Enxuan Gu, Jingxi Zhang, Diqi Chen, Qiaosi Yi, Bingcai Wei, Wenjie Li, Bowen Tie, Heng Guo, Zhanyu Ma, Jiachen Tu, Guoyi Xu, Yaoxin Jiang, Cici Liu, Yaokun Shi, Paula Garrido Mellado, Daniel Feijoo, Alvaro Garcia Lara, Marcos V. Conde, Zhidong Zhu, Bangshu Xiong, Qiaofeng Ou, Zhibo Rao, Wei Li, Zida Zhang, Hui Geng, Qisheng Xu, Xuyao Deng, Changjian Wang, Kele Xu, Guanglu Dong, Qiyao Zhao, Tianheng Zheng, Chunlei Li, Lichao Mou, Chao Ren, Chang-De Peng, Chieh-Yu Tsai, Guan-Cheng Liu, Li-Wei Kang, Abhishek Rajak, Milan Kumar Singh, Ankit Kumar, Dimple Sonone, Kishor Upla, Kiran Raja, Huilin Zhao, Xing Xu, Chuan Chen, Yeming Lao, Wenjing Xun, Li Yang, Bilel Benjdira, Anas M. Ali, Wadii Boulila, Hao Yang, Ruikun Zhang, Liyuan Pan

AI总结本文介绍了NTIRE 2026第二届昼夜雨滴去除双焦点图像挑战赛的整体情况。该挑战基于真实场景下的Raindrop Clarity数据集，旨在建立一个在不同光照和对焦条件下具有良好实用性的雨滴去除基准。本次挑战吸引了168支队伍参与，其中17支队伍提交了最终方案，并在测试集上取得了较好的性能，展示了该领域技术的持续进步。

Comments Accepted by CVPR2026 Workshop; NTIRE 2026 Challenge Report

2604.10547 2026-05-14 cs.AI

Agent^2 RL-Bench: Can LLM Agents Engineer Agentic RL Post-Training?

Wanyi Chen, Xiao Yang, Xu Yang, Tianming Sha, Qizheng Li, Zhuo Wang, Bowen Xian, Fang Kong, Weiqing Liu, Jiang Bian

AI总结本文提出了一种名为 Agent² RL-Bench 的紧凑型诊断基准，用于评估大型语言模型（LLM）代理在强化学习（RL）后训练中的自主设计与优化能力。该基准要求代理在有限预算下自主完成模型训练、调试和评估，涵盖从静态规则训练到闭环在线 RL 的多种任务。实验表明，尽管部分代理能有效提升模型性能，但整体上在固定预算下实现稳定、自主的 RL 后训练仍具有挑战性，该基准为未来研究提供了有效的评估框架。

Comments 37 pages, 7 figures, 20 tables

详情

英文摘要

We introduce Agent2 RL-Bench, a compact diagnostic benchmark for evaluating agentic RL post-training, which tests whether LLM agents can autonomously design, implement, debug, and execute post-training pipelines that improve foundation models. RL post-training increasingly drives model alignment and specialization, yet existing benchmarks are largely static, rewarding supervised fine-tuning or script generation without assessing an agent's ability to close an interactive RL loop. Agent2 RL-Bench provides a unified agent-facing interface: each run starts from an isolated workspace containing a base model, task data, instructions, and a grading API, and agents must iterate within a fixed budget by training models and submitting artifacts for evaluation. The benchmark spans six tasks across three levels, from static rule-based training to judge-based optimization and closed-loop online RL with trajectory collection. Two diagnostic skills, namely runtime recording and post-hoc summarization, enable structured analysis of agent behavior, facilitating smooth and effective iteration of the benchmark's evaluation framework. Across five agent systems and six driver LLMs, agents show intelligent behavior but clear limitations: one RL-oriented run improves ALFWorld from 4.85 to 93.28 via SFT warm-up and GRPO with online rollouts, yet DeepSearchQA remains difficult, most successful routes rely on supervised pipelines, and interactive outcomes show large single-run differences across agent stacks. Overall, Agent2 RL-Bench shows that current agents can sometimes engineer online RL, but stable agent-driven RL post-training remains rare under fixed budgets. It also demonstrates that our benchmark provides a strong and effective evaluation framework for future research in this direction. Code is available at https://github.com/microsoft/RD-Agent/blob/main/rdagent/scenarios/rl/autorl_bench/README.md

URL PDF HTML ☆

赞 0 踩 0

2604.09543 2026-05-14 cs.LG

ANTIC: Adaptive Neural Temporal In-situ Compressor

Sandeep S. Cranganore, Andrei Bodnar, Gianluca Galletti, Fabian Paischer, Johannes Brandstetter

AI总结本文提出了一种名为ANTIC的自适应神经时序原位压缩方法，用于解决由高维偏微分方程驱动的高分辨率时空场在长期存储中产生的海量数据问题。该方法结合了自适应时间选择器和基于持续微调的神经空间压缩模块，能够在模拟过程中实时筛选关键帧并学习相邻快照之间的残差更新，从而在单次流式处理中实现时空联合压缩，大幅减少存储需求而不显著影响物理模拟的准确性。实验表明，该方法可实现多个数量级的存储压缩。

Comments 31 pages, 19 figures, 9 Tables; Accepted at ICML 2026; First authors contributed equally

2604.07969 2026-05-14 cs.CL

Kathleen: Oscillator-Based Byte-Level Text Classification Without Tokenization or Attention

George Fountzoulas

AI总结本文提出了一种名为 Kathleen 的文本分类架构，该架构直接在原始 UTF-8 字节上进行操作，无需分词器或注意力机制，参数量少于 470K。其核心方法包括基于振荡器的序列处理、FFT 变换编码、相位谐波非线性以及内容相关的混响机制等创新组件。实验表明，Kathleen 在多个基准数据集上取得了与预训练模型相当甚至更优的性能，同时大幅减少了参数量。

Comments 15 pages, 10 tables. v2: Added V9 architecture with Positional Decay Modulation. Pretraining eliminated. SST-2 improved from 83.3% to 85.8%

2604.02753 2026-05-14 cs.CV

DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection

Siheng Wang, Yanshu Li, Bohan Hu, Zhengdao Li, Haibo Zhan, Linshan Li, Weiming Liu, Ruizhi Qian, Guangxin Wu, Hao Zhang, Jifeng Shen, Piotr Koniusz, Zhengtao Yao, Junhao Dong, Qiang Sun

AI总结本文提出了一种名为DeCo-DETR的解耦认知DETR框架，旨在解决开放词汇目标检测（OVOD）在实际应用中的效率与性能问题。该方法通过构建基于预训练多模态模型的层次化语义原型空间，避免了推理时对文本编码器的依赖，从而提升了检测效率。同时，通过解耦语义推理与定位任务的训练策略，实现了检测精度与开放世界泛化的有效平衡，实验表明其在多个基准上表现出优异的零样本检测性能。

Comments Accepted at ICLR 2026

2604.01938 2026-05-14 cs.CL cond-mat.stat-mech physics.soc-ph

How to measure the optimality of word or gesture order with respect to the principle of swap distance minimization

Ramon Ferrer-i-Cancho

AI总结本文研究如何从交换距离最小化的角度衡量语言中词序或跨语言手势顺序的最优性。作者提出了一种数学框架，用于评估词序在排列图（permutohedron）中的最优程度，并发现跨语言手势的顺序至少有77%达到最优，表明这种最优性并非偶然。研究还引入二次分配问题（QAP）作为语言学中多种优化问题的统一框架，提出了一个能够整合包括交换距离最小化在内的多种语言学原则的通用最优分配原理。

Comments Many corrections in Appendix C, specially in the proofs

2603.29475 2026-05-14 cs.LG

Survival In-Context: Amortized Bayesian Survival Analysis via Prior-Fitted Networks

Dmitrii Seletkov, Paul Hager, Georgios Kaissis, Rickmer Braren, Daniel Rueckert, Raphael Rehms

AI总结该论文提出了一种名为Survival In-Context（SIC）的先验拟合生存分析模型，旨在解决医疗等领域中生存数据分析面临的数据量小、存在截尾现象以及协变量异质性等问题。该方法通过构建一个可控的生存先验生成框架，结合基于合成数据的预训练，实现了无需任务特定训练或超参数调整的个体化生存预测。实验表明，SIC在多个真实生存数据集上表现优异，尤其在小到中等规模数据集上优于传统和深度生存模型，展示了先验拟合范式在生存分析中的潜力。

2603.27910 2026-05-14 cs.AI cs.IR cs.MA

GAAMA: Graph Augmented Associative Memory for Agents

Swarna Kamal Paul, Shubhendu Sharma, Nitin Sareen

AI总结 GAAMA 是一种用于智能体的图增强关联记忆系统，旨在解决多会话交互中长期记忆保持的问题。该方法通过构建一个由事件、事实、反思和概念节点组成的结构化知识图谱，结合基于余弦相似度的检索与边类型感知的个性化PageRank算法，有效避免了传统方法中的结构关系丢失和中心节点效应问题。实验表明，GAAMA 在多个任务中均优于现有方法，尤其在长对话场景下表现更为突出。

详情

英文摘要

AI agents that interact with users across multiple sessions require persistent long-term memory to maintain coherent, personalized behavior. Current approaches either rely on flat retrieval-augmented generation (RAG), which loses structural relationships among memories, or use entity-centric knowledge graphs that suffer from mega-hub effects in conversational data, diluting graph-based relevance propagation. We propose GAAMA, a graph-augmented associative memory for agents that constructs a concept-mediated knowledge graph through a three-step pipeline: (1)verbatim episode preservation, (2)LLM-based extraction of atomic facts and topic-level concept nodes, and (3)synthesis of higher-order reflections. The resulting graph uses four node types (episode, fact, reflection, concept) connected by five structural edge types, with concept nodes providing cross-cutting traversal paths that avoid the mega-hub problem of entity-centric designs. Retrieval combines cosine-similarity-based k-nearest neighbor search with edge-type-aware Personalized PageRank (PPR) through an additive scoring function. We further introduce GRAFT (Graph Repair by Augmenting Facts & Topology), a post-retrieval corrective layer that diagnoses retrieval failures and surgically repairs the knowledge graph. On LoCoMo-10 (1,540 questions, 10 multi-session conversations), GAAMA achieves 79.1% mean reward, a +4.2~pp improvement over a tuned RAG baseline, the strongest comparator. On MemoryArena, GAAMA outperforms full-context baselines across three tasks - Group Travel (+0.4~pp), Web Shopping (+3.4~pp), and Progressive Search (+0.7~pp) - with advantages growing monotonically with dialogue length. Notably, GAAMA delivers consistent performance across all categories, matching the best competing method in each, whereas every competitor degrades in at least one category.

URL PDF HTML ☆

赞 0 踩 0

2603.24649 2026-05-14 cs.CV

MedOpenClaw and MedFlowBench: Auditing Medical Agents in Full-Study Workflows

Weixiang Shen, Chengzhi Shen, Yanzhu Hu, Che Liu, Junde Wu, Jiayuan Zhu, Xiao Han, Zongyue Li, Jingpei Wu, Min Xu, Daguang Xu, Yueming Jin, Benedikt Wiestler, Daniel Rueckert, Jiazhen Pan

AI总结该研究指出当前医学影像评估基准过于关注预选的2D图像，未能反映真实临床工作流程中的复杂任务。为此，研究者提出了MedFlowBench和MedOpenClaw，前者是一个完整的医学影像研究评估基准，后者是一个可控的医学影像软件运行环境，用于评估视觉语言模型在完整研究中的表现。实验表明，仅凭最终答案的评分会高估模型性能，而真实任务中模型还需生成可审计的证据，才能正确完成复杂流程。

Comments 33 pages

2603.24002 2026-05-14 cs.LG

Stochastic Dimension-Free Zeroth-Order Estimator for High-Dimensional and High-Order PINNs

Zhangyong Liang, Huanhuan Gao

AI总结该论文针对高维高阶物理信息神经网络（PINNs）训练中面临的计算复杂度和内存消耗过高的问题，提出了一种无维度依赖的零阶优化估计器SDZE。该方法通过引入共同随机数同步技术，有效消除了零阶优化中的方差爆炸问题，并结合隐式无矩阵子空间投影技术，显著降低了参数探索的方差和内存占用。实验表明，SDZE能够在单块GPU上高效训练千万维的PINNs，大幅提升了计算速度和内存效率。

Comments arXiv admin note: text overlap with arXiv:2412.00088, arXiv:2410.08989, arXiv:2307.12306 by other authors

2603.23777 2026-05-14 cs.RO cs.AI cs.SY eess.SY

Human-in-the-Loop Pareto Optimization: Trade-off Characterization for Assist-as-Needed Training and Performance Evaluation

Harun Tolasa, Volkan Patoglu

AI总结在人类运动技能训练和康复过程中，任务难度与用户表现之间存在内在权衡关系，准确刻画这一权衡对评估表现、设计按需辅助（AAN）方案至关重要。本文提出了一种基于人机闭环的帕累托优化方法，结合定量性能指标和定性挑战度指标，系统高效地刻画任务表现与感知挑战水平之间的权衡关系。通过用户实验和三个应用场景验证，该方法不仅可用于设计和评估AAN训练方案，还能在不同辅助水平下公平评估个体训练进展和用户间表现差异。

Comments Under review for publication in IEEE Transactions on Haptics

详情

DOI: 10.1109/TOH.2026.3679965

英文摘要

During human motor skill training and physical rehabilitation, there is an inherent trade-off between task difficulty and user performance. Characterizing this trade-off is crucial for evaluating user performance, designing assist-as-needed (AAN) protocols, and assessing the efficacy of training protocols. In this study, we propose a novel human-in-the-loop (HiL) Pareto optimization approach to characterize the trade-off between task performance and the perceived challenge level of motor learning or rehabilitation tasks. We adapt Bayesian multi-criteria optimization to systematically and efficiently perform HiL Pareto characterizations. Our HiL optimization employs a hybrid model that measures performance with a quantitative metric, while the perceived challenge level is captured with a qualitative metric. We demonstrate the feasibility of the proposed HiL Pareto characterization through a user study. Furthermore, we present the utility of the framework through three use cases in the context of a manual skill training task with haptic feedback. First, we demonstrate how the characterized trade-off can be used to design a sample AAN training protocol for a motor learning task and to evaluate the group-level efficacy of the proposed AAN protocol relative to a baseline adaptive assistance protocol. Second, we demonstrate that individual-level comparisons of the trade-offs characterized before and after the training session enable fair evaluation of training progress under different assistance levels. This evaluation method is more general than standard performance evaluations, as it can provide insights even when users cannot perform the task without assistance. Third, we show that the characterized trade-offs also enable fair performance comparisons among different users, as they capture the best possible performance of each user under all feasible assistance levels.

URL PDF HTML ☆

赞 0 踩 0

2603.22273 2026-05-14 cs.LG

Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration

Zakaria Mhammedi, James Cohan

AI总结本文提出了一种将探索与策略优化解耦的新方法，旨在解决强化学习中困难探索问题。该方法采用基于不确定性的树搜索策略，无需依赖传统强化学习框架，从而显著提高了探索效率。实验表明，该方法在多个硬探索任务中表现优异，并能通过监督学习将探索轨迹转化为高性能策略，且无需领域知识或专家示范。

2603.22267 2026-05-14 cs.CL cs.AI eess.AS

TiCo: Time-Controllable Spoken Dialogue Model

Kai-Wei Chang, Wei-Chih Chen, En-Pei Hu, Hung-yi Lee, James Glass

AI总结本文提出 TiCo，一种可控制时间的语音对话模型，能够根据时间约束指令（如“生成约15秒的回应”）生成时长可控的语音响应。为解决现有模型缺乏时间感知能力的问题，研究引入了 TiCo-Bench 作为首个评估时间可控性的基准，并通过语音时间标记（STM）帮助模型在生成过程中估计已用时间并调整内容以满足目标时长。实验表明，TiCo 在不依赖问答对数据的情况下，通过自生成和可验证奖励的强化学习进行高效微调，显著提升了时长控制精度，同时保持了响应质量。

2603.19185 2026-05-14 cs.LG

MIDST Challenge at SaTML 2025: Membership Inference over Diffusion-models-based Synthetic Tabular data

Masoumeh Shafieinejad, Xi He, Mahshid Alinoori, John Jewell, Sana Ayromlou, Wei Pang, Veronica Chatrath, Gauri Sharma, Deval Pandya

AI总结本文研究了基于扩散模型生成的合成表格数据在隐私保护方面的性能，特别是其对成员推理攻击（MIA）的抵抗能力。针对表格数据的异质性和复杂性，研究探索了多种目标模型用于成员推理攻击，并提出了专门针对这些扩散模型的黑盒和白盒攻击方法，为评估其隐私效果提供了全面的实验基础。该研究为理解生成模型在隐私安全方面的潜力与局限提供了重要参考。

Comments 4 page, 1 table

2603.05093 2026-05-14 cs.LG cs.AI cs.CV

From Baselines to Transport Geodesics: Axiomatic Attribution via Optimal Generative Flows

Cenwei Zhang, Lin Zhu, Manxi Lin, Lei You

AI总结该论文研究了特征归因中的路径选择问题，提出了一种基于最优生成流的归因方法。不同于传统的手工设计路径或模型敏感性几何，作者通过最小化运输过程中的动能作用，从数据生成过程中自动选择归因路径，从而获得更稳定和结构化的解释。研究证明了Aumann-Shapley积分在固定路径下的唯一性，并通过Rectified Flow等方法实现了该理论的近似，实验表明新方法在保持删除忠实度的同时提升了归因的稳定性。

Comments 10 figures, 31 pages

2602.22847 2026-05-14 cs.LG cs.AI stat.ML

Decentralized Ranking Aggregation via Gossip: Convergence and Robustness

Kerrian Le Caillec, Anna Van Elst, Igor Colin, Stephan Clémençon

AI总结本文研究了在去中心化网络环境中实现可靠且鲁棒的排名共识的问题，提出了一种基于随机闲聊（gossip）通信机制的方法，使各节点仅通过局部交互即可计算全局排名共识，无需中心协调。该方法在保证收敛性的同时，增强了对恶意节点的鲁棒性，并降低了通信成本，为分布式偏好分析提供了新的解决方案。

Comments 33 pages, 5 figures

2602.22251 2026-05-14 cs.LG cond-mat.mtrl-sci cs.AI

Zatom-1: Towards a Multimodal Foundation Model for 3D Molecules and Materials

Alex Morehead, Miruna Cretu, Antonia Panescu, Rishabh Anand, Maurice Weiler, Tynan Perez, Samuel Blau, Steven Farrell, Wahid Bhimji, Anubhav Jain, Hrushikesh Sahasrabuddhe, Pietro Lio, Tommi Jaakkola, Rafael Gomez-Bombarelli, Rex Ying, N. Benjamin Erichson, Michael W. Mahoney

AI总结该研究提出了一种名为 Zatom-1 的通用基础模型，旨在统一3D分子和材料的生成与预测任务。该模型基于简化版的Transformer架构，通过多模态流匹配目标联合建模离散原子类型和连续3D结构，实现了跨领域、多任务的学习能力。实验表明，Zatom-1 在生成和预测性能上均优于现有专门模型，并显著提升了生成推理速度，同时展示了从材料生成预训练中向分子属性预测的正向迁移效果。

Comments 38 pages, 10 figures, 15 tables. ICLR 2026 FM4Science. Code, data, and model weights are available at https://github.com/Zatom-AI/zatom

2602.17555 2026-05-14 cs.CV

GraphThinker: Reinforcing Temporally Grounded Video Reasoning with Event Graph Thinking

Zixu Cheng, Da Li, Jian Hu, Yuhang Zang, Ziquan Liu, Shaogang Gong, Wei Li

AI总结视频推理需要对视频中对象和事件之间的时序依赖和事件级关系进行细粒度理解。当前多模态大语言模型在视频推理中容易产生严重的时序幻觉，其根本原因在于视觉-时序对齐较弱且缺乏对事件关系的显式结构建模。为此，本文提出GraphThinker，一种通过强化微调构建结构化事件表示并加强视觉对齐的视频推理方法，有效减少了推理过程中的幻觉问题。实验表明，该方法在多个基准数据集上均取得了显著的性能提升。

Comments Under review

2602.16246 2026-05-14 cs.AI

Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents

Yun-Shiuan Chuang, Chaitanya Kulkarni, Alec Chiu, Avinash Thangali, Zijie Pan, Shivani Shekhar, Yirou Ge, Yixi Li, Uma Kona, Linsey Pang, Prakhar Mehrotra

AI总结该研究提出了一种基于代理状态的评估方法，用于评估多轮工具调用的大型语言模型代理系统。该方法通过LLM模拟器生成结构化的代理状态，无需依赖确定性后端，从而降低了构建和迭代成本。实验表明，该框架能够稳定区分不同模型，并在不同推理条件下保持评估一致性，同时支持对用户角色的敏感性分析，具有较高的自动化评估可靠性。

2602.07458 2026-05-14 cs.CV

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang

AI总结在线强化学习（RL）为复杂图像编辑提供了前景，但目前受限于可靠且细粒度奖励信号的缺乏。本文提出 SpatialReward，一种通过显式空间推理增强评估准确性的奖励模型，有效解决了现有评估器在跨图像比较和细粒度细节捕捉上的“注意力坍塌”问题。该模型基于预测的编辑区域进行像素级验证，显著提升了评估效果，并在多个基准测试中取得领先性能，同时作为在线RL的强效信号，显著提升了图像生成模型的表现。

Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)

2602.07342 2026-05-14 cs.AI

SupChain-Bench: Benchmarking Large Language Models for Real-World Supply Chain Management

Shengyue Guan, Yihao Liu, Lang Cao

AI总结本文提出SupChain-Bench，一个用于评估大语言模型在真实供应链管理场景中表现的统一基准，重点考察模型在领域知识和基于标准操作流程的长期多步骤任务执行能力。研究发现当前模型在执行可靠性方面存在较大差距，并提出了一种无需依赖标准操作流程的SupChain-ReAct框架，能够自主生成可执行的工具调用流程，取得了最稳定和出色的性能。该工作为研究真实场景下的长期任务协调提供了系统评估基准，并指出了当前供应链智能代理的改进空间。

2602.04804 2026-05-14 cs.CL

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang

AI总结 OmniSIFT 是一种针对多模态大语言模型（Omni-LLMs）设计的模态非对称token压缩框架，旨在解决其在处理多模态序列时计算开销大的问题。该方法采用两阶段压缩策略，分别对视频和音频模态进行精细化压缩，通过端到端优化提升效率。实验表明，OmniSIFT 在多个基准测试中表现优异，仅引入少量参数即可显著降低推理延迟，且在部分任务上甚至超越了完整token模型的性能。

Comments [ICML 2026] Code Link: https://github.com/dingyue772/OmniSIFT

2602.03429 2026-05-14 cs.AI cs.CL cs.HC cs.LG

DiscoverLLM: From Executing Intents to Discovering Them

Tae Soo Kim, Yoonjoo Lee, Jaesang Yu, John Joon Young Chung, Juho Kim

AI总结为了处理模糊和开放式的用户请求，研究提出DiscoverLLM框架，训练大语言模型帮助用户形成和发现其尚未明确的意图。该方法引入了一个新型用户模拟器，通过分层意图建模用户的认知状态，并利用意图的具体化程度作为奖励信号进行模型训练，使模型能够在意图不明确时主动探索，意图明确时快速收敛。实验表明，DiscoverLLM在多个交互任务中显著提升了任务完成效率，并减少了对话长度，同时在用户研究中也表现出更高的满意度和效率。

Comments Accepted at ICML 2026

2602.02560 2026-05-14 cs.LG cs.AI cs.CV

Auditing Sybil: Explaining Deep Lung Cancer Risk Prediction Through Generative Interventional Attributions

Bartlomiej Sobieski, Jakub Grzywaczewski, Karol Dobiczek, Mateusz Wójcik, Tomasz Bartczak, Patryk Szatkowski, Przemysław Bombiński, Matthew Tivnan, Przemyslaw Biecek

AI总结该研究针对深度学习模型Sybil在肺部癌症风险预测中的决策机制进行因果验证，提出了一个模型无关的审计框架S(H)NAP。该方法通过生成干预性归因，结合专家放射科医生的验证，系统分析模型对风险评分的因果贡献。研究发现，尽管Sybil在很多情况下表现类似专家，但其仍存在对临床无关伪影过度敏感和径向偏差等关键失效模式。

Comments ICML 2026

2602.01629 2026-05-14 cs.LG cs.RO cs.SY eess.SY

AdaptNC: Adaptive Nonconformity Scores for Conformal Prediction under Distribution Shift

Renukanandan Tumu, Aditya Singh, Rahul Mangharam

AI总结本文研究了在分布偏移环境下如何提升共形预测（Conformal Prediction）的不确定性量化能力。传统共形预测依赖于数据交换性假设，但在实际机器人系统中这一假设常被违反，导致预测区域过于保守。为此，作者提出AdaptNC框架，同时在线调整非一致性得分函数参数和共形阈值，通过自适应加权和回放缓冲机制提升预测效率与稳定性。实验表明，AdaptNC在多个机器人基准任务中显著减少了预测区域体积，同时保持目标覆盖率。

2601.22868 2026-05-14 cs.CV cs.LG

Conditional Compatibility Learning for Context-Dependent Anomaly Detection

Shashank Mishra, Didier Stricker, Jason Rambach

AI总结该论文研究了上下文相关的异常检测问题，即同一对象在不同场景下可能表现出正常或异常的差异。传统方法通常假设异常是对象本身的属性，而本文指出这种假设在现实场景中并不成立。为此，作者提出了条件兼容性学习（Conditional Compatibility Learning）方法，通过分离对象和上下文的表示，并利用文本条件注意力机制进行融合，构建了CC-CLIP模型，在多个现实场景的异常检测任务中取得了显著优于现有方法的性能。

Comments Preprint. 9 pages main text, plus appendix