arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.11189 2026-05-13 cs.LG q-bio.BM

Deep Learning for Protein Complex Prediction and Design

Ziwei Xie

AI总结本文研究如何利用深度学习准确建模和设计蛋白质复合物结构，这是计算结构生物学中的核心问题，对理解细胞功能和开发药物具有重要意义。研究提出了专门针对蛋白质结构层次特性的深度学习架构，并设计了高效的搜索算法，以在庞大的序列空间中寻找相互作用的同源蛋白，从而提升复合物结构预测和蛋白质序列设计的准确性。

Comments PhD thesis

2605.11186 2026-05-13 cs.LG cs.AI

CATS: Cascaded Adaptive Tree Speculation for Memory-Limited LLM Inference Acceleration

Yuning Han, Yangchenchen Jin, Dylan Zhao, Jingwei Sun

AI总结在内存受限的设备上进行大语言模型推理时，自回归解码过程受到内存带宽的限制，现有基于推测解码的方法通常假设设备内存足够容纳目标模型和辅助模型，这在边缘设备上并不适用。本文提出了一种名为CATS的级联自适应树推测框架，通过基于内存预算和参数卸载模式进行级联验证与修正，在不增加峰值内存占用的前提下，显著提升了推理速度。实验表明，CATS在多个真实边缘设备上实现了最高达5.08倍的加速，且生成质量无下降，优于现有最优方法1.45倍。

2605.11181 2026-05-13 cs.LG cs.AI cs.NA math.NA math.OC stat.ML

Muon is Not That Special: Random or Inverted Spectra Work Just as Well

Zakhar Shumaylov, Nathaël Da Costa, Peter Zaika, Bálint Mucsányi, Alex Massucco, Yoav Gelberg, Carola-Bibiane Schönlieb, Yarin Gal, Philipp Hennig

AI总结本文挑战了Muon优化器在非欧几里得优化中依赖几何结构的主流观点，提出精确的几何结构并非影响优化性能的关键因素。研究引入了基于Schatten（准）范数的Freon优化器，其性能在GPT-2等任务中优于Muon，并揭示了最佳参数位于准范数区域，无法用传统LMO理论解释。进一步提出Kaon优化器，通过用随机噪声替代奇异值仍能匹配Muon性能，证明严格的几何结构并非必要。研究指出，优化性能主要由对齐度和下降潜力等局部量决定，而非全局几何结构。

Comments 45 pages

2605.11178 2026-05-13 cs.LG cs.AI math.RT

Oversmoothing as Representation Degeneracy in Neural Sheaf Diffusion

Arif Dönmez, Axel Mosig, Ellen Fritsche, Katharina Koch

AI总结本文研究了神经束扩散（NSD）模型中的过平滑问题，将其解释为表示几何退化现象。通过将图上的细胞束与关联的入射图表示建立联系，作者揭示了NSD在扩散极限下所达到的调和空间的代数结构，并指出学习到的束几何可能退化为低复杂度的表示，导致判别信息丢失。文章进一步引入基于矩映射的正则化方法，以引导束限制映射趋向于更平衡的几何结构，并分析了等维结构中的稳定性障碍，提出了非均匀维数设计的有效性。实验表明，打破束维对称性有助于提升模型性能。

Comments 15 pages, Comments welcome

详情

英文摘要

Neural Sheaf Diffusion (NSD) generalizes diffusion-based Graph Neural Networks by replacing scalar graph Laplacians with sheaf Laplacians whose learned restriction maps define a task-adapted geometry. While the diffusion limit of NSD is known to be the space of global sections, the representation-theoretic structure of this harmonic space remains largely implicit. We develop a quiver-theoretic interpretation of NSD by identifying cellular sheaves on graphs with representations of the associated incidence quiver. Under this correspondence, learned sheaf geometries become points in a finite-dimensional representation space. We show that direct-sum decompositions of the underlying incidence-quiver representation induce decompositions of the harmonic space reached in the diffusion limit. This gives an algebraic interpretation of oversmoothing as representation degeneration: learned sheaves may collapse toward low-complexity summands whose global sections fail to preserve discriminative information. Building on this viewpoint, we connect sheaf diffusion to stability and moment-map principles from Geometric Invariant Theory. We introduce moment-map-inspired regularizers that bias restriction maps toward balanced representation geometries, and identify a structural obstruction in equal-stalk architectures: when $d_v = d_e$, admissibility for learnable stability parameters forces the trivial all-object summand onto a stability wall. Non-uniform stalk dimensions remove this obstruction, making adaptive stability meaningful. Experiments on heterophilic benchmarks are consistent with this mechanism: breaking stalk symmetry can reduce variance or improve validation behavior, and adaptive stability becomes more effective in selected rectangular settings. Overall, our framework reframes oversmoothing as a degeneration phenomenon in the representation geometry underlying learned sheaf diffusion.

URL PDF HTML ☆

赞 0 踩 0

2605.11172 2026-05-13 cs.LG

Optimistic Dual Averaging Unifies Modern Optimizers

Thomas Pethick, Wanyun Xie, Roman Machacek, Volkan Cevher

AI总结本文提出了一种名为SODA的优化框架，它是乐观对偶平均法的推广，能够统一当前先进的优化器如Muon、Lion、AdEMAMix和NAdam。通过该框架，研究者提出了一种实用的SODA包装器，能够通过理论支持的$1/k$衰减计划自动消除权重衰减调参的需求。实验表明，SODA在不同规模和训练周期下均能提升性能，且无需额外调整超参数。

2605.11169 2026-05-13 cs.AI

OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents

Sheldon Yu, Junda Wu, Xintong Li, Nikki Lijing Kuang, Sizhe Zhou, Tong Yu, Jiawei Han, Jingbo Shang, Julian McAuley

AI总结本文提出OLIVIA，一种针对ReAct风格大语言模型代理的在线动作适配框架，用于提升其在部署时的决策性能。OLIVIA将代理的动作选择层建模为一个基于上下文的线性置信域上界（UCB）多臂老虎机问题，利用冻结的隐藏状态作为决策上下文，从而在保持原始推理过程的同时，实现对动作选择的直接调整和不确定性估计。实验表明，OLIVIA在多个基准任务中显著优于静态ReAct和基于提示的适配方法，展示了其在部署阶段进行高效、细粒度和不确定性感知的在线优化的有效性。

2605.11167 2026-05-13 cs.CL cs.AI cs.LG

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

Cedric Flamant, Udaya Ghai, Kanna Shimizu

AI总结本文提出了一种名为“双室模型”的新方法，通过可训练的神经接口在两个预训练语言模型的中间隐藏状态之间建立双向耦合，使它们能够通过连续的并发通道进行协调，而非传统的文本生成方式。该模型在每一步生成过程中同步运行，主模型负责任务执行，辅助模型则处理工具调用、约束求解或代码执行，并通过翻译网络和学习抑制门实现相互条件控制。实验表明，该方法在算术、逻辑网格谜题和数学推理任务中显著提升了性能，展示了其在多模型协作中的有效性。

Comments 9 pages main text, 5 figures, 24 pages appendix

2605.11166 2026-05-13 cs.CV

Unpacking the Eye of the Beholder: Social Location, Identity, and the Moving Target of Political Perspectives

Elena Sirotkina

AI总结本文研究了政治和社会身份如何影响人们对政治信息的评价，并指出传统计算工具往往忽略这种差异。为此，作者提出了一个名为Perspectivist Visual Political Sentiment（PVPS）的分类器，通过大量美国成年人的评价数据，预测不同政治和社会身份群体对同一图像的评价差异。该方法保留了群体间的系统性分歧，揭示了政治图像意义的动态性，强调理解图像传达的内容必须考虑受众的身份背景。

2605.11161 2026-05-13 cs.LG cs.AI

Interpretability Can Be Actionable

Hadas Orgad, Fazl Barez, Tal Haklay, Isabelle Lee, Marius Mosbach, Anja Reusch, Naomi Saphra, Byron Wallace, Sarah Wiegreffe, Eric Wong, Ian Tenney, Mor Geva

AI总结本文探讨了深度神经网络可解释性研究的实践价值问题，指出当前研究缺乏将可解释性转化为实际决策和干预能力的评估标准。作者提出应以“行动性”作为可解释性的核心评价标准，从具体性和验证性两个维度定义可操作的可解释性，并分析了阻碍其实际应用的障碍。文章进一步识别了五个可解释性具有独特优势的领域，提出了与实际效果对齐的评估框架，旨在推动可解释性研究从理论探索向实际应用转化。

Comments Accepted to ICML 2026

2605.11159 2026-05-13 cs.LG

CORE: Cyclic Orthotope Relation Embedding for Knowledge Graph Completion

Yingqi Zeng, Luying Wang, Huiling Zhu

AI总结知识图谱补全旨在通过将实体和关系映射到连续表示空间，自动推理多关系数据中的缺失事实。为了解决现有基于区域的嵌入模型在优化过程中受到绝对边界约束或区域无限制扩张的问题，本文提出了一种新的模型 CORE，将实体和关系嵌入到无边界的环面流形上，利用循环正交体表示关系，使区域能够无缝绕过空间边界，保证梯度传导的平滑性，并引入自适应宽度正则化防止区域无条件扩张。理论分析表明，CORE 能够捕捉包括子集和交集在内的复杂关系模式，实验结果也显示其在多个基准数据集上表现优异，尤其在密集语义环境下显著提升了链接预测精度。

2605.11153 2026-05-13 cs.CL cs.LG cs.NE

Decomposing Evolutionary Mixture-of-LoRA Architectures: The Routing Lever, the Lifecycle Penalty, and a Substrate-Conditional Boundary

Ramchand Kumaresan

AI总结本文研究了进化混合LoRA架构在特定基础模型上的性能分解问题，提出了三个关键因素：路由重写机制、领域评估范围和生命周期策略。通过实验分析，发现路由重写对模型性能提升具有显著贡献，而生命周期策略则带来一定负面影响。研究还揭示了进化搜索在路由通道中的有效性依赖于适配器的预对齐程度，为LoRA架构的优化提供了新的理论依据和实践指导。

2605.11144 2026-05-13 cs.RO

Forecast-aware Gaussian Splatting for Predictive 3D Representation in Language-Guided Pick-and-Place Manipulation

Kaixin Jia, Jiacheng Xu

AI总结本文提出了一种名为Forecast-aware Gaussian Splatting（Forecast-GS）的预测性三维表示框架，用于语言引导的机器人抓取与放置操作。该方法通过显式建模任务完成状态，提升了机器人在部分观测条件下对动作可行性的评估能力。实验表明，Forecast-GS在多个真实场景任务中取得了优于现有方法的性能，显示出其在语言理解、三维感知与机器人规划之间建立可解释桥梁的有效性。

2605.11143 2026-05-13 cs.CL cs.AI cs.IR

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

Alex Stinard

AI总结本文提出 ClinicalBench，一个用于评估跨病历临床问答中基于断言感知检索性能的基准测试，重点考察检索真实电子健康记录时因否定、时间性及患者与家庭成员归属等因素导致的答案偏差。研究通过构建包含断言标签和时间标签的患者知识图谱（EpiKG），结合意图感知的检索增强生成（KG-RAG）方法，显著提升了检索准确性。实验表明，该方法在多个大语言模型上均取得性能提升，并揭示了当前自动生成参考答案的局限性，强调了临床问答评估中医生裁定的重要性。

Comments 46 pages including appendices (two-column preprint format). Under review at JAMIA. Code, frozen evaluator, and benchmark released at https://huggingface.co/datasets/alexstinard/epikg-clinicalbench. ClinicalBench v2 is a 400-question MIMIC-IV stress test for assertion-aware retrieval

详情

英文摘要

Reasoning benchmarks measure clinical performance on clean inputs. We evaluate the step before reasoning: retrieval over real EHR notes, where negation, temporality, and family-versus-patient attribution can flip a correct answer to a wrong one. EpiKG carries an assertion label and a temporality tag with every fact in a patient knowledge graph, then routes retrieval by question intent. ClinicalBench is a 400-question test over 43 MIMIC-IV patients across 9 assertion-sensitive categories. A 7-condition ablation tests each piece of EpiKG across six LLMs (Claude Opus 4.6, GPT-OSS 20B, MedGemma 27B, Gemma 4 31B, MedGemma 1.5 4B, Qwen 3.5 35B). Three physicians blindly adjudicated 100 paired items. The author-blind primary endpoint, leave-author-out paired exact McNemar on 50 unanimous-strict items rated by two external physicians, yields +22.0 percentage points (95 percent Newcombe CI [+5.1, +31.5], p=0.0192). The architectural novelty, intent-aware KG-RAG over a Contriever dense-RAG baseline (C2b to C4g_kw on the change-excluded n=362 endpoint), is +8.84 percentage points (paired McNemar p=1.79e-3); +12.43 percentage points under oracle intent. Sensitivities agree directionally: three-rater physician majority +24.0 percentage points (subject to single-author circularity); deterministic keyword reproducibility proxy +39.5 percentage points. Across the six models, the gain shrinks as the LLM-alone baseline rises (beta=-1.123, r=-0.921, p=0.009). With n=6 this looks more like regression to the mean than encoding substituting for model size. Physician adjudication identified 56 percent of auto-generated reference answers as defective, a methodological finding indicating that NLP-pipeline clinical-QA benchmarks require physician adjudication to be usable. ClinicalBench, the frozen evaluator, three-rater adjudication data, and the EpiKG output stack are publicly released.

URL PDF HTML ☆

赞 0 踩 0

2605.11142 2026-05-13 cs.LG

Rank Is Not Capacity: Spectral Occupancy for Latent Graph Models

Nikolaos Nakis, Panagiotis Promponas, Konstantinos Tsirkas, Katerina Mamali, Eftychia Makri, Leandros Tassiulas, Nicholas A. Christakis

AI总结本文研究了图表示学习中潜空间维度这一传统超参数的设定问题，指出其与模型行为的实际控制量不一致。为此，作者提出了一种基于谱分析的新方法Spectra，通过学习正定核的谱分布来替代传统的秩作为分析单位，并利用归一化特征值构建可控的训练坐标，从而在训练过程中动态调节模型容量。该方法在多个网络数据集上展示了预测性能与模型容量之间的权衡关系，为过参数化场景下的模型容量控制提供了理论依据和实用工具。

Comments Preprint

2605.11136 2026-05-13 cs.AI

EVOCHAMBER: Test-Time Co-evolution of Multi-Agent System at Individual, Team, and Population Scales

Yaolun Zhang, Tianyi Xu, Shengyu Dai, Zhenwen Shao, Qingyun Wu, Huazheng Wang

AI总结本文提出EVOCHAMBER，一种无需训练的框架，用于在个体、团队和种群三个层面实现多智能体系统的测试时协同进化。其核心方法CODREAM通过团队失败或分歧后协作反思与知识异步传递，实现跨智能体的非对称知识转移，保留专业化分工的同时填补知识空白。实验表明，该方法在数学、编程和多领域推理任务中均取得显著提升，并观察到多个稳定的专业化智能体自发形成，展现了多智能体进化的结构特征。

2605.11133 2026-05-13 cs.LG math.DG

Steerable Neural ODEs on Homogeneous Spaces

Emma Andersdotter, Daniel Persson, Fredrik Ohlsson

AI总结本文提出了一种在齐性空间 $M=G/H$ 上的可操控神经常微分方程（Steerable Neural ODEs），将特征向量在局部对称群 $H$ 作用下的变换纳入模型设计。通过将特征解释为齐性空间上的向量丛截面，并将其演化视为平行移动，模型形成了一组耦合的微分方程，包括空间流方程和特征操控方程。该方法在满足特定对称性条件时具有 $G$-等变性，为学习齐性空间上一般向量值特征的连续时间等变动力学提供了几何基础。

Comments 39 pages, 3 figures

2605.11131 2026-05-13 cs.CV

USEMA: a Scalable Efficient Mamba Like Attention for Medical Image Segmentation

Elisha Dayag, Nhat Thanh Tran, Jack Xin

AI总结本文提出了一种可扩展且高效的类似Mamba的注意力机制USEMA，用于医学图像分割，旨在解决传统视觉Transformer因二次计算复杂度带来的效率问题。USEMA结合了局部窗口注意力和理论一致的算术平均，以兼顾局部特征提取与全局信息捕捉，并与卷积神经网络融合构建混合UNet架构。实验表明，USEMA在多种模态和图像尺寸下均表现出优于纯卷积模型和基于Mamba模型的分割性能和计算效率。

2605.11128 2026-05-13 cs.CL

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Amin Banayeeanzade, Qingchuan Yang, Dhruv Tarsadiya, Fatemeh Bahrani, Leonardo Blas, Alfy Samuel, Robin Jia, Meisam Razaviyayn, Sai Praneeth Karimireddy

AI总结该研究探讨了大型语言模型（LLMs）在生成过程中多样性下降的问题，指出其根源在于推理时概率分布的校准不足。研究提出了一个有效性-多样性框架，将多样性崩溃归因于模型在解码过程中对有效和无效续写分配概率质量的方式，并将其分解为两种形式的校准错误：顺序校准和形状校准。实验表明，这种校准问题在多个规模和类型的语言模型中普遍存在，而非单纯由采样策略导致。

2605.11119 2026-05-13 cs.RO

ASIP-Planner: Adaptive Planning for UAV Surface Inspection in Partially Known Indoor Environments

Hanyu Jin, Zhefan Xu, Haoyu Shen, Xinming Han, Kanlong Ye, Kenji Shimada

AI总结本文提出了一种适用于部分已知室内环境的无人机表面检测规划框架ASIP-Planner，旨在解决因临时障碍物导致的视野遮挡和检测质量下降问题。该方法结合基于区域划分的全局覆盖规划器和面向检测的局部视角自适应模块，能够在保证轨迹结构的前提下，生成避障轨迹并实时调整视角以减少遮挡影响。实验表明，该框架在仿真和实际飞行测试中均能实现较高的检测覆盖率和轨迹效率，提升了无人机在部分已知结构化室内环境中的检测性能和适应能力。

详情

英文摘要

Indoor infrastructure inspection, such as tunnels and industrial facilities, requires systematic surface coverage to ensure that all inspection targets are properly observed. Unmanned Aerial Vehicles (UAVs) offer an alternative to manual inspection by conducting map-guided surface inspection using prior structural models. However, in practice, indoor inspection often relies on floorplan-derived reference maps that may not reflect unforeseen obstacles, such as temporary structures or equipment, leading to occluded viewpoints and degraded inspection quality. Existing coverage planning methods typically assume a fully known inspection environment and perform deterministic global viewpoint optimization based on accurate prior maps, making them vulnerable to environmental discrepancies during execution. This work presents an adaptive UAV inspection framework for partially known structured indoor environments. The proposed method integrates a segment-based global coverage planner with an inspection-oriented local view-angle adaptation module. The global planner organizes planar inspection targets into surface-aligned clusters to generate compact viewpoint sequences with improved orientation consistency. The local planner generates collision-free trajectories and adjusts the viewing direction online to mitigate occlusion-induced coverage loss while preserving the planned trajectory structure. The simulation results across randomized scene configurations demonstrate that the proposed global planner achieves near-complete coverage while reducing trajectory length compared to representative baselines. Real-world flight experiments further validate that the framework produces usable inspection data for downstream analysis. These results indicate that the proposed framework improves inspection efficiency and adaptability in partially known structured indoor environments.

URL PDF HTML ☆

赞 0 踩 0

2605.11117 2026-05-13 cs.LG cs.MA math.PR

GRAFT-ATHENA: Self-Improving Agentic Teams for Autonomous Discovery and Evolutionary Numerical Algorithms

Juan Diego Toscano, Zhaojie Chai, George Em Karniadakis

AI总结 GRAFT-ATHENA 是一种自我改进的智能代理团队框架，旨在实现自主科学发现和演化数值算法。该框架通过将组合决策空间映射为因子概率树，显著降低了参数规模，并能够跨不同领域积累和共享方法经验。研究展示了 GRAFT-ATHENA 在多个物理信息机器学习基准和实际工程问题中的优越性能，包括自主提出正则化约束和发现新的数值方法，为自主实验室的发展提供了基础。

2605.11115 2026-05-13 cs.CV cs.GR cs.LG

LatentHDR: Decoupling Exposure from Diffusion via Conditional Latent-to-Latent Mapping for Text/Image-to-Panoramic HDR

Pedram Fekri, WenChen Li, William Chen, Peter Altamirano

AI总结本文提出了一种名为LatentHDR的新型框架，用于生成高质量的高动态范围（HDR）图像。该方法通过在潜在空间中将场景生成与曝光建模解耦，利用预训练的扩散模型生成一致的场景表示，并通过一个轻量的条件潜在到潜在映射模块，将其确定性地映射到特定曝光的表示，从而在单次生成过程中实现结构一致的多曝光堆栈。该方法显著降低了计算成本，提升了生成效率，并在多个基准测试中取得了领先的动态范围和感知质量。

2605.11114 2026-05-13 cs.RO cs.AI

SEVO: Semantic-Enhanced Virtual Observation for Robust VLA Manipulation via Active Illumination and Data-Centric Collection

Tianchonghui Fang, Yuan Zhuang, Fei Miao

AI总结该研究提出了一种名为SEVO的语义增强虚拟观测方法，旨在提升低成本机器人在不同环境下的视觉-语言-动作（VLA）操作鲁棒性。SEVO通过固定摄像头覆盖操作区域、主动红光照明标准化物体外观以及实时语义分割提供背景不变的提示，结合多样化数据采集策略，显著提升了模型的泛化能力。实验表明，在相同政策架构下，SEVO使机器人在训练和新环境中的抓取成功率大幅提升，验证了观测设计和数据多样性对低成本机器人可靠操作的重要性。

2605.11107 2026-05-13 cs.CV cs.AI

Birds of a Feather Flock Together: Background-Invariant Representations via Linear Structure in VLMs

Youssef Zaazou, Mark Thomas

AI总结该研究针对视觉语言模型（VLMs）在处理图像分类任务时易受背景干扰的问题，提出了一种基于嵌入空间线性可加性的方法，将场景表示分解为前景和背景成分，从而构建背景不变的表示。通过利用合成数据进行预训练，该方法在存在完美虚假关联的Waterbirds数据集上实现了首个超过90%的最差群体准确率，且无需依赖真实去偏数据，具有良好的模拟到现实迁移能力，适用于实际部署。

Comments 36 pages, 7 figures

2605.11102 2026-05-13 cs.LG cs.AI cs.SY eess.SY

Newton's Lantern: A Reinforcement Learning Framework for Finetuning AC Power Flow Warm Start Models

Shourya Bose, Helgi Hilmarsson, Dhruv Suri

AI总结该研究提出了一种名为“牛顿灯”的强化学习框架，用于优化交流潮流问题的暖启动模型。通过分析牛顿-拉夫森迭代次数的下界，研究揭示了现有监督方法在接近电压崩溃的重载场景下泛化能力不足的原因，并基于此设计了一种结合群体相对策略优化和学习奖励模型的微调方法，以迭代次数作为监督信号进行训练。实验表明，该方法在多个标准测试案例中均能稳定收敛，并实现了最小的平均迭代次数。

2605.11098 2026-05-13 cs.SD

AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling

Jiacheng Shi, Hongfei Du, Xinyuan Song, Y. Alicia Hong, Yanfu Zhang, Ye Gao

AI总结 AffectCodec 是一种用于情感表达语音建模的情绪感知神经语音编解码器，旨在在量化过程中保留语音中的情感信息。该方法通过结合情感语义引导的潜在调制、关系保持的情感语义蒸馏和情感加权语义对齐，实现了在压缩过程中保持语义保真度和韵律自然性的同时保留情感关键线索。实验表明，AffectCodec 在语音重建、情感识别和下游文本到语音生成任务中均表现出更优的情感一致性和感知质量。

Comments Accepted to ACL Findings 2026

2605.11093 2026-05-13 cs.LG cs.AI cs.PF cs.SE cs.SY eess.SY

Enabling Performant and Flexible Model-Internal Observability for LLM Inference

Nengneng Yu, Sixian Xiong, Yibo Zhao, Wei Wang, Zaoxing Liu

AI总结当前大语言模型推理任务越来越依赖对模型内部状态的实时访问。本文提出 DMI-Lib，一种高性能的深度模型检测工具，通过异步观测子系统、基于 Ring² 的 GPU-CPU 内存抽象以及策略控制的主机后端，将内部可观测性作为系统级核心原语，实现与推理主路径的解耦。实验表明，DMI-Lib 在保持服务优化和严格 GPU 内存限制的同时，显著降低了观测开销，相比现有方法在延迟上减少了 2 到 15 倍。

2605.11091 2026-05-13 cs.LG cs.AI

ASD-Bench: A Four-Axis Comprehensive Benchmark of AI Models for Autism Spectrum Disorder

Shubhankit Singh, Hassan Shaikh, Kuldeep Raghuwanshi, Keshav Bulia

AI总结本文提出ASD-Bench，一个针对自闭症谱系障碍（ASD）的四维综合基准，用于评估AI模型在不同年龄段群体中的表现。该基准涵盖预测性能、校准、可解释性和对抗鲁棒性四个维度，基于4,068份AQ-10问卷数据，测试了多种传统机器学习和深度学习模型。研究发现不同年龄段的特征重要性存在显著差异，并指出单一性能指标不足以评估临床AI系统的可靠性。

Comments 20 pages, 12 figures, 8 tables

2605.11061 2026-05-13 cs.CV cs.MM

HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer

Qi Cai, Jingwen Chen, Chengmin Gao, Zijian Gong, Yehao Li, Yingwei Pan, Yi Peng, Zhaofan Qiu, Kai Yu, Yiheng Zhang, Hao Ai, Siying Bai, Yang Chen, Zhihui Chen, Fengbin Gao, Ying Guo, Dong Li, Zhen Shen, Leilei Shi, Jing Wang, Siyu Wang, Yimeng Wang, Rui Zheng, Ting Yao, Tao Mei

AI总结该论文提出了一种名为HiDream-O1-Image的原生统一图像生成基础模型，通过像素级扩散变换器架构，实现了从模块化结构向端到端视觉生成引擎的范式转变。该模型将原始图像像素、文本标记和任务条件映射到统一的共享标记空间，无需依赖独立的VAE或预训练文本编码器，从而在统一变换器（UiT）架构下实现了多模态输入的结构统一。实验表明，HiDream-O1-Image在多种生成任务中表现出色，并且在仅有80亿参数时性能可与更大参数量的模型媲美，其2000亿参数版本更实现了生成能力的显著提升，确立了新的性能基准。

Comments Source codes and models are available at Github: https://github.com/HiDream-ai/HiDream-O1-Image and Huggingface: https://huggingface.co/HiDream-ai/HiDream-O1-Image

2605.11055 2026-05-13 cs.CV cs.LG

The first global agricultural field boundary map at 10m resolution

Caleb Robinson, Gedeon Muhawenayo, Subash Khanal, Zhanpei Fang, Isaac Corley, Ana M. Tárano, Lyndon Estes, Jennifer Marcus, Nathan Jacobs, Hannah Kerner, Inbal Becker-Reshef, Juan M. Lavista Ferres

AI总结本文提出了首个全球10米分辨率的农业地块边界地图，覆盖2024和2025年共241个国家和地区，包含31.7亿个遥感地块多边形。研究采用基于“Fields of The World”数据集训练的U-Net分割模型，对Sentinel-2无云影像进行处理生成地图，并通过多国实地数据验证其准确性。该数据集以三种形式公开发布，为全球农作物监测、粮食安全及相关农业研究提供了首个一致的地块级分析单元。

2605.11048 2026-05-13 cs.RO cs.AI

ForceFlow: Learning to Feel and Act via Contact-Driven Flow Matching

Shuoheng Zhang, Yifu Yuan, Hongyao Tang, Yan Zheng, Qiaojun Yu, Pengyi Li, Guowei Huang, Helong Huang, Xingyue Quan, Jianye Hao

AI总结本文提出了一种名为ForceFlow的力感知反应框架，旨在解决机器人在复杂接触场景下的操作任务。该方法基于流匹配技术，通过融合力信号与多模态感知信息，实现了对接触力和运动的深度耦合，并采用视觉主导与触觉主导分阶段的策略，提升了任务执行的鲁棒性和泛化能力。实验表明，ForceFlow在六个实际接触密集任务中表现出更高的成功率和更低的成本，展示了其在接触力自调节和跨分布泛化方面的优越性能。