arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.09771 2026-05-12 cs.AI

Marrying Generative Model of Healthcare Events with Digital Twin of Social Determinants of Health for Disease Reasoning

Ziquan Wei, Tingting Dan, Guorong Wu

AI总结该研究旨在提升疾病预测与推理的个性化能力，通过将生成模型与社会健康决定因素（SDoH）的数字孪生相结合，弥补现有模型对社会因素建模不足的问题。研究提出了一种基于ICD编码代理的条件潜扩散框架，能够同时建模多器官传感器数据与医疗事件的时序演化，特别是引入了用于刻画复杂数据（如脑网络）的几何扩散模型。实验表明，该方法在UK Biobank数据集上显著优于现有疾病生成模型和影像特征生成基线。

Comments 21 pages, 8 figures, ICML 2026

2605.09765 2026-05-12 cs.LG cs.AI

WISTERIA: Learning Clinical Representations from Noisy Supervision via Multi-View Consistency in Electronic Health Records

Ruan Dong, Yuanyun Zhang, Shi Li

AI总结本文提出了一种名为WISTERIA的弱监督表征学习框架，用于从电子健康记录（EHR）中学习临床表征。该方法将临床标签视为潜在临床状态的随机观测，通过构建多个弱监督操作符并强制其标签分布的一致性，实现对噪声标签的鲁棒学习。此外，该方法引入了基于本体的正则化以增强标签空间的语义结构，实验表明WISTERIA在多个EHR基准任务中表现出更优的预测性能、更强的噪声鲁棒性以及更好的跨机构泛化能力。

2605.09760 2026-05-12 cs.CL

ConFit v3: Improving Resume-Job Matching with LLM-based Re-Ranking

Xiao Yu, Ruize Xu, Chengyuan Xue, Junyu Chen, Matthew So, Shijun Ma, Bo Liu, Xiangye Liang, Zhou Yu

AI总结本文提出 ConFit v3，一种基于大语言模型（LLM）的重排序方法，旨在提升简历与职位的匹配效果。研究分析了 LLM 重排序器在人岗匹配任务中的训练流程，并提出多项优化策略，如多轮重排序、列表级强化学习、去噪处理和从更强 LLM 进行知识蒸馏。基于这些改进，ConFit v3 在真实招聘数据上训练，显著优于现有最佳系统及主流大模型。

2605.09757 2026-05-12 cs.LG stat.ML

On Uniform Error Bounds for Kernel Regression under Non-Gaussian Noise

Johannes Teutsch, Oleksii Molodchyk, Marion Leibold, Timm Faulwasser, Armin Lederer

AI总结本文研究了在非高斯噪声环境下基于核回归的函数估计的非保守不确定性量化问题，提出了新的非渐近概率统一误差界。与以往仅适用于次高斯噪声的界不同，本文的界适用于更广泛的非高斯噪声分布，包括次高斯、有界、次指数以及方差/矩有界噪声，并且适用于相关和不相关噪声。通过与现有结果在不确定性区域和安全控制性能上的对比，验证了所提出误差界的紧致性。

Comments This paper has been accepted at the 43rd International Conference on Machine Learning (ICML) 2026

2605.09751 2026-05-12 cs.CL

Language Models Without a Trainable Input Embedding Table: Learning from Fixed Minimal Binary Token Codes

A. Bochkov

AI总结本文研究了语言模型中是否必须使用可训练的输入嵌入表。作者提出使用固定最小二进制编码替代传统嵌入矩阵，仅通过零参数变换扩展模型宽度。实验表明，在保持相近验证困惑度的前提下，该方法可减少大量可训练参数，证明可训练输入嵌入表并非语言建模所必需。

2605.09750 2026-05-12 cs.CV

Fetal Brain Imaging: A Composite Neural Network Approach for Keyframe Detection in Ultrasound Videos

Aleksander Zamojski, Kacper Jarczak, Radoslaw Roszczyk

AI总结本文提出了一种用于胎儿脑部超声视频中关键帧检测的新方法，旨在提高胎儿脑部影像分析的效率和准确性。该方法采用一种融合卷积神经网络（CNN）和循环神经网络（RNN）的复合神经网络架构，其中CNN用于提取视频帧的局部空间特征，RNN则用于捕捉视频序列中帧与帧之间的时序依赖关系。该模型有助于更早地检测和诊断特定胎儿脑部疾病，从而支持更及时的治疗规划。

2605.09749 2026-05-12 cs.AI

Primal-Dual Guided Decoding for Constrained Discrete Diffusion

Federico Tomasi, Dmitrii Moor, Alice Wang, Mounia Lalmas

AI总结离散扩散模型通过逐步去掩码生成结构化序列，但在生成过程中满足全局属性约束仍是一个挑战。本文提出了一种原-对偶引导解码方法，在推理阶段将约束生成建模为KL正则化优化问题，并通过自适应拉格朗日乘子在线求解。该方法通过约束相关的偏置调整token的logits，保证生成分布尽可能接近无约束分布的同时满足约束条件，无需额外训练或模型评估，支持多约束同时处理，并提供了约束违反的理论界。实验表明，该方法在主题文本生成、分子设计和音乐歌单生成等任务中有效提升了约束满足度，同时保持了领域相关的质量指标。

2605.09746 2026-05-12 cs.LG cs.AI

Sequential Feature Selection for Efficient Landslide Segmentation from Multi-Spectral Data

Arsalaan Ahmad, Oktay Karakus, Paul L. Rosin

AI总结该研究旨在解决从多光谱卫星数据中高效分割滑坡区域时输入特征冗余的问题。研究提出了一种基于顺序前向浮动选择（SFFS）的可解释特征选择框架，结合Sentinel-2多光谱数据和ALOS PALSAR地形数据，通过迭代构建和精简特征集，识别出仅需8个通道即可达到与使用30个通道相当的分割性能。该方法不仅提升了模型效率，还揭示了滑坡模型真正依赖的光谱和地形特征，为地球观测中的输入设计提供了原理性指导。

Comments In Process of Submission to Frontiers in Remote Sensing. Keywords: landslide segmentation, multispectral remote sensing, feature selection, explainability, Landslide4Sense

2605.09745 2026-05-12 cs.LG cs.AI cs.IT math.IT

Entropy-informed Decoding: Adaptive Information-Driven Branching

Benjamin Patrick Evans, Sumitra Ganesh, Leo Ardon

AI总结本文提出了一种名为EDEN的熵驱动解码框架，旨在提升大语言模型生成质量。该方法根据模型输出的不确定性（熵）动态调整分支因子，在高熵区域生成更多候选，在低熵区域采用更贪婪的策略，从而提高计算效率。实验表明，EDEN在数学推理、代码生成等复杂任务中优于传统解码方法，实现了更优的精度与扩展开销的权衡。

Comments Accepted at ICML 2026

2605.09742 2026-05-12 cs.LG cs.AI

TIDES: Implicit Time-Awareness in Selective State Space Models

Taylan Soydan, Miguel A. Bessa, Dirk Mohr, Rui Barreira

AI总结本文提出了一种名为TIDES的选择性状态空间模型，旨在解决现有模型在处理不规则时间序列时的局限性。与传统模型不同，TIDES通过将输入依赖性从时间步长转移到状态矩阵的对角线上，使时间步长$\TildeΔ$保留其物理意义，从而在保持高表达能力的同时支持不规则时间戳的处理。实验表明，TIDES在多个基准测试中表现优异，特别是在时间序列分类和回归任务中取得了新的最先进成果。

Comments Preprint submitted for peer-review

2605.09739 2026-05-12 cs.CL cs.AI

The Silent Vote: Improving Zero-Shot LLM Reliability by Aggregating Semantic Neighborhoods

Sanket Badhe, Priyanka Tiwari, Deep Shah

AI总结本文研究了大语言模型在零样本分类任务中因受限解码导致的“归一化偏差”问题，提出了一种名为语义softmax的新方法，通过聚合目标标签的语义邻域信息来恢复丢失的概率质量，从而提升模型的校准性和分类性能。实验表明，该方法在多个数据集上有效降低了预期校准误差和Brier分数，同时提升了AUROC和Macro-F1等指标，为零样本分类提供了更准确和可靠的解决方案。

Comments Accepted at GEM Workshop @ ACL 2026

2605.09737 2026-05-12 cs.LG

CALYREX: Cross-Attention LaYeR EXtended Transformers for System Prompt Anchoring

Li Lixing

AI总结现代大语言模型依赖系统提示来设定行为约束和安全规则，但传统因果自注意力机制对特权指令和用户内容一视同仁，导致模型在长上下文中易受提示注入和指令侵蚀的影响。本文提出 CALYREX，一种通过输入与系统提示之间的交叉注意力机制来结构化隔离和锚定规则的扩展型 Transformer 模型。实验表明，CALYREX 在指令遵循和多轮指令一致性方面均有显著提升，并有效降低了提示攻击的成功率，其优势随着模型规模的增大而进一步增强。

Comments Preprint. 25 pages, 4 figures, 9 tables

2605.09727 2026-05-12 cs.LG cs.AI

One for All: A Non-Linear Transformer can Enable Cross-Domain Generalization for In-Context Reinforcement Learning

Bowen He, Juncheng Dong, Lin Lin, Xiang Cheng

AI总结本文研究了如何通过非线性变换器实现跨领域强化学习中的上下文学习泛化问题。作者从核方法的角度出发，建立了非线性变换器与基于核的时差学习之间的联系，提出变换器可以视为在再生核希尔伯特空间中进行回归，从而允许不同领域的价值函数共享权重。实验表明，该方法在多个MetaWorld任务中有效实现了时差目标的收敛，为强化学习中的跨任务泛化提供了新的理论视角和方法支持。

2605.09724 2026-05-12 cs.LG

Model Capacity Determines Grokking through Competing Memorisation and Generalisation Speeds

Yiding Song, Hanming Ye

AI总结该研究探讨了模型容量如何影响“理解”（grokking）现象，即模型在训练集上过拟合后突然泛化的能力。研究指出，模型容量并非直接决定理解的出现，而是通过记忆速度和泛化速度之间的竞争关系来影响这一过程。通过信息论框架和模运算任务的实验证明，理解发生在模型参数规模使得记忆与泛化时间尺度相交的临界点附近，揭示了模型容量、数据复杂度与学习动态之间的深层联系。

Comments 23 pages, 10 figures, 12 tables

2605.09722 2026-05-12 cs.LG

Benchmarking Transformer and xLSTM for Time-Series Forecasting of Heat Consumption

Marja Wahl, Daniel R. Bayer, Sven Rausch, Marco Pruckner

AI总结本文研究了在短期热需求预测任务中Transformer和xLSTM模型的性能，针对德国25栋建筑的小时级热消耗数据，评估了它们在3小时和24小时预测场景下的表现。研究发现，xLSTM在RMSE指标上表现最佳，而Temporal Fusion Transformer在MAE指标上最优，但这些模型参数量大、训练耗时，其可持续性受到质疑。论文进一步分析了预测精度与计算资源消耗之间的权衡，指出传统全连接网络等低参数模型也能取得较好的预测效果，表明新型模型在精度上的小幅提升可能带来较大的资源开销。

Comments Submitted version of the paper submitted to IEEE SusTech, 2026

2605.09719 2026-05-12 cs.CV cs.AI

Distilling 3D Spatial Reasoning into a Lightweight Vision-Language Model with CoT

Alaa Asfour, Christopher Indris, Leihan Chen, Tejas Vyas, Guanghui Wang

AI总结该研究提出了一种知识蒸馏框架，将大型3D视觉语言模型中的空间推理能力转移到更轻量的模型中，从而显著降低计算成本。通过引入可学习的隐式推理标记（Hidden CoT）和多任务蒸馏策略，该方法在保持教师模型72%以上性能的同时，将模型大小减少了3倍，推理延迟降低了8.7倍。该工作首次在蒸馏的3D视觉语言模型中应用隐式推理机制，实现了高效的3D场景问答任务。

2605.09716 2026-05-12 cs.AI

Medical Model Synthesis Architectures: A Case Study

Katherine M. Collins, Marlene Berke, Ilia Sucholutsky, Ayman Ali, Adrian Weller, Timothy J. O'Donnell, Tyler Brooke-Wilson, Lionel Wong, Joshua B. Tenenbaum

AI总结本文研究了如何构建能够在不确定性下进行透明、可验证临床推理的AI系统，以辅助医生进行临床决策。作者提出了一种名为MedMSA的框架，结合语言模型检索相关医学知识，并构建形式化的概率模型以支持校准的不确定性推理。该方法在初步实验中用于生成带不确定性权重的鉴别诊断列表，展示了其在临床应用中的潜力，并为未来安全的医患协作提供了方向。

Comments Working paper

2605.09708 2026-05-12 cs.LG cs.AI cs.DC

Metal-Sci: A Scientific Compute Benchmark for Evolutionary LLM Kernel Search on Apple Silicon

Víctor Gallego

AI总结本文提出 Metal-Sci，一个用于在苹果芯片上评估进化型大语言模型（LLM）内核搜索性能的科学计算基准，涵盖六个优化场景的十项任务。该基准结合了轻量级框架，能够自动编译候选内核并评估其性能，同时通过结构化诊断反馈给固定LLM，驱动进化搜索过程。研究显示，使用 Claude、Gemini 和 GPT 等模型在 M1 Pro 上进行内核搜索，可实现最高达 10.7 倍的性能提升，并提出了一种基于保留测试集的评分函数，用于检测模型在未知场景下的性能退化问题。

Comments Preprint

2605.09707 2026-05-12 cs.LG cs.AI

Adaptive Data Harvesting for Efficient Neural Network Learning with Universal Constraints

Siteng Kang, Xinhua Zhang

AI总结本文研究了在连续域上训练满足通用约束的神经网络所面临的问题，如李雅普诺夫神经网络和物理信息神经网络，这类问题通常缺乏解析解或约束过于严格。为解决这一问题，作者提出了一种基于强化学习的自适应数据采集方法，通过从数据和经验中学习动态调整样本，以提升模型训练的效率和约束满足能力。该方法在多种任务中验证有效，展示了其在需要自适应输入选择的训练场景中的广泛适用性。

Comments Preprint

2605.09703 2026-05-12 cs.CV

MOTOR-Bench: A Real-world Dataset and Multi-agent Framework for Zero-shot Human Mental State Understanding

Xiaoyu Yuan, Niklas Heikkala, Tiina Törmänen, Hanna Järvenoja, Guoying Zhao, Haoyu Chen

AI总结本文提出MOTOR-Bench，一个用于零样本人类心理状态理解的现实场景数据集与多智能体框架。该数据集包含1,440个协作学习场景的多模态视频片段，每个样本由教育专家基于自我调节学习理论标注，旨在支持对复杂人际互动的结构化分析。为解决现有方法在从可观测行为推理深层心理状态方面的不足，研究提出了MOTOR-MAS多智能体框架，通过结构化协调机制提升对行为、认知和情绪三类标签的预测性能，实验表明其在多项指标上显著优于现有方法。

Comments Accepted by CVPR 2026 workshop AI4RWC

2605.09701 2026-05-12 cs.CV

DriveFuture: Future-Aware Latent World Models for Autonomous Driving

Yufeng Hong, Xiaotian Zhou, Yingyan Li, Xiangpo Zhou, Lin Liu, Yadan Luo, Shaoqing Xu, Lei Yang, Ziying Song

AI总结 DriveFuture 是一种面向自动驾驶的未来感知潜在世界模型，其核心在于将未来世界状态作为当前潜在状态建模的条件，从而显式学习面向路径规划的前瞻性能力。该方法在训练过程中通过预测和优化未来潜在状态，为基于扩散模型的轨迹规划器提供显式条件，在多个公开基准测试中取得了领先的性能表现。实验结果表明，将未来状态作为当前决策的条件，比单纯预测未来状态更能提升自动驾驶系统的智能化水平。

Comments 24pages, 7 figures

详情

英文摘要

Existing latent world models for autonomous driving have opened a promising path toward future-aware driving intelligence. However, they typically treat future latent states as prediction targets or auxiliary signals, rather than directly conditioning trajectory planning. This can entangle current and future features in latent space. In this work, we propose DriveFuture, a future-aware latent world modeling framework for autonomous driving that explicitly learns planning-oriented foresight by conditioning the current latent state modeling process on future world states. Specifically, during training, the model first predicts future latent world states from the current latent state and ego action, and then refines the prediction against the ground-truth future latent state via cross-attention. The resulting future-aware latent serves as an explicit condition for a diffusion-based trajectory planner. During inference, DriveFuture conditions on the predicted future latent state instead of the ground-truth future state. DriveFuture achieves SOTA performance on the public NAVSIM benchmarks, reaching \textbf{55.5} EPDMS on NAVSIM-v2 {\textcolor{blue}{\textit{navhard}}}, \textbf{89.9} EPDMS on NAVSIM-v2 {\textcolor{blue}{\textit{navtest}}}, and \textbf{90.7} PDMS on NAVSIM-v1 {\textcolor{blue}{\textit{navtest}}}, respectively. These results suggest that the key to latent world modeling lies not merely in simulating future states, but more importantly in conditioning current decision-making on future states. Notably, as of April 2026, DriveFuture ranks \textbf{1st} on the \href{https://huggingface.co/spaces/AGC2025/e2e-driving-navhard}{NAVSIM-v2 {\textcolor{blue}{\textit{navhard}}}} leaderboard and achieves SOTA performance on \href{https://huggingface.co/spaces/AGC2024-P/e2e-driving-navtest}{NAVSIM-v1 {\textcolor{blue}{\textit{navtest}}}}.

URL PDF HTML ☆

赞 0 踩 0

2605.09698 2026-05-12 cs.AI

Ambig-DS: A Benchmark for Task-Framing Ambiguity in Data-Science Agents

Josefa Lia Stoisser, Marc Boubnovski Martell, Sidsel Boldsen, Kaspar Märtens, Robert Kitchen

AI总结随着数据科学代理从辅助工具向自主系统转变，任务框架的隐性错误成为关键失效模式。本文提出 Ambig-DS 基准，用于评估数据科学代理在任务目标和评估目标模糊情况下的表现，包含两个诊断套件，分别基于 DSBench 和 MLE-bench 构建。研究发现，代理常在未明确任务的情况下提交错误答案，而并非执行错误，并且在允许提问时性能显著提升，但代理难以判断何时需要提问，反映出当前评估体系对任务框架识别能力的忽视。

详情

英文摘要

As data-science agents shift from co-pilots to auto-pilots, silent misframing becomes a critical failure mode. Agents quietly commit to plausible but unintended task framings, producing clean, executable artifacts that hide their incorrect assessment of the task. Existing benchmarks score whether the pipeline runs, ignoring whether the agent recognized the task was underspecified. We introduce Ambig-DS, two diagnostic suites: one for prediction-target ambiguity (Ambig-DS-Target, 51 tasks built on DSBench, a tabular modeling benchmark) and one for evaluation-objective ambiguity (Ambig-DS-Objective, 61 tasks built on MLE-bench, a Kaggle-style ML competition benchmark), constructed so that scoring uses each source benchmark's original evaluator. For every task we pair the original, fully specified version with an ambiguous variant produced by controlled edits; a human-and-LLM verification pipeline confirms each variant admits multiple plausible interpretations with decision-relevant consequences. The suites are analyzed independently and ambiguity lowers performance in both. Across five agents spanning efficient to frontier-class models, we find in our controlled diagnostic setting: (i) failures are silent commitments: wrong-target submissions on Target, wrong-metric or non-committal baseline submissions on Objective, rather than execution errors; (ii) allowing the agent to ask one clarifying question recovers much of the loss under idealized conditions, suggesting missing framing information drives a substantial part of the observed degradation; but (iii) agents cannot reliably tell when to use it: permissive prompts induce over-asking on clear tasks, while conservative prompts induce silent defaulting on ambiguous ones. Recognizing target and objective underspecification, not pipeline execution, is the bottleneck missing from standard DS-agent evaluations.

URL PDF HTML ☆

赞 0 踩 0

2605.09696 2026-05-12 cs.LG cs.NE cs.SC

Discovery of Nonlinear Dynamics with Automated Basis Function Generation

Mohammad Amin Basiri, Charles Nicholson

AI总结从观测数据中发现支配方程是科学建模中的一个基本挑战，尤其当系统背后的数学结构未知时。本文提出了一种名为AutoSINDy的混合框架，结合符号回归的探索能力和SINDy的稀疏性促进能力，通过分阶段的自动基函数生成与筛选，有效提升了模型发现的准确性与鲁棒性。实验表明，该方法在高噪声环境下仍能高效恢复真实方程，显著优于传统方法。

Comments 53 pages, 17 figures. Code available at https://github.com/mabasiri95/AutoSINDy

2605.09693 2026-05-12 cs.CV cs.AI cs.LG

Do multimodal models imagine electric sheep?

Santhosh Kumar Ramakrishnan, Carl Vondrick, Raja Giryes, Philipp Krähenbühl, Vladlen Koltun

AI总结该研究探讨了多模态模型在解决空间谜题时是否会产生心理意象，并发现大型多模态模型在解决如拼图、积木等任务时确实会形成类似“想象”的过程，甚至在解决与羊相关的谜题时会“想象”出羊的形象。研究通过微调Qwen3.5视觉语言模型，使其能够完成多种视觉推理任务，并发现模型在执行操作过程中会自发形成对中间状态的视觉表征。基于这一发现，研究提出了两种方法来增强和利用模型的内部视觉表征，显著提升了任务解决的准确率。

2605.09691 2026-05-12 cs.LG

Quantum Circuit Simulation of Compartmental Drug Dynamics: Leveraging Variational Algorithms for Nonlinear Mixed-Effects Population Pharmacokinetics

Isshaan Singh, Nandan Patel

AI总结本文将传统的药物动力学（PK/PD）模型转化为开放量子系统，并利用量子电路进行模拟，以提升群体药代动力学建模的统计性能。研究通过十二个量子比特编码四个药理学腔室，并使用受控量子操作模拟腔室间的随机转移过程。实验表明，该量子方法在对数似然值上优于经典方法，同时保持参数估计一致，验证了模型的统计拟合能力和数值稳定性，为生物医学领域提供了新的量子-经典混合建模方法。

2605.09688 2026-05-12 cs.CV

ConFixGS: Learning to Fix Feedforward 3D Gaussian Splatting with Confidence-Aware Diffusion Priors in Driving Scenes

Rui Song, Tianhui Cai, Markus Gross, Xingcheng Zhou, Zewei Zhou, Zhiyu Huang, Olaf Wysocki, Jiaqi Ma

AI总结本文提出了一种名为 ConFixGS 的方法，用于修复基于前馈的3D高斯泼溅（3DGS）在驾驶场景中的重建问题。该方法利用置信度感知的扩散先验，通过生成局部伪目标并结合支持视图的重投影校验，提升重建的细节可靠性并抑制不一致信息。实验表明，ConFixGS 在多个数据集上显著提升了新视角合成效果，PSNR 提升最高达3.68 dB，FID 减少近一半，展示了其在驾驶场景中鲁棒重建的有效性。

Comments 28 pages, 12 figures

2605.09687 2026-05-12 cs.CV

Spatial-Frequency Gated Swin Transformer for Remote Sensing Single-Image Super-Resolution

Md Aminur Hossain, Parekh Valkesh, Ayush V. Patel, Yogesh Jethani, Sanjay K. Singh, Biplab Banerjee

AI总结本文研究了遥感单图像超分辨率问题，旨在从低分辨率观测中重建高分辨率图像并保留精细的空间结构。为了解决现有Swin Transformer模型在细节重建上的不足，作者提出了一种空间-频率门控Swin Transformer（SFG-SwinSR），通过在前馈网络中引入空间-频率门控模块，分离低频结构内容与高频残差细节，从而提升重建质量。实验表明，该方法在多个遥感数据集上取得了更好的PSNR和SSIM指标，有效增强了高分辨率图像的细节表现。

Comments 15 pages

2605.09685 2026-05-12 cs.LG cs.AI

Learning Unified Representations of Normalcy for Time Series Anomaly Detection

Prithul Sarker, Sushmita Sarker, Nicholas G. Murray, Alireza Tavakkoli

AI总结本文研究了无监督时间序列异常检测中的核心问题——在缺乏异常特征先验知识的情况下，如何学习区分正常数据分布的鲁棒表示。为此，作者提出了一种新的统一无监督异常检测框架 $\text{U}^2\text{AD}$，该方法基于分数生成模型学习正常数据的潜在分布，并引入了时间依赖的分数网络和统一的训练目标，以同时捕捉局部和全局时间上下文信息。实验表明，该方法在检测准确率和异常早期识别能力方面均优于现有先进方法。

2605.09681 2026-05-12 cs.CV

Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models

Yicheng Ji, Zhizhou Zhong, Jun Zhang, Qin Yang, XiTai Jin, Ying Qin, Wenhan Luo, Shuiyang Mao, Wei Liu, Huan Li

AI总结本文针对自回归视频扩散模型中因冗余键值（KV）缓存导致的注意力复杂度高和内存开销大的问题，提出了一种混合KV缓存压缩方法Forcing-KV。通过分析主流模型中注意力头的功能特性，将头分为关注帧内细节和块间过渡的静态头，以及控制帧间运动和一致性的动态头，并分别采用结构化剪枝和基于片段相似度的动态剪枝策略。该方法在保持生成质量的同时，显著提升了生成速度并减少了内存占用，实现在单块NVIDIA H200 GPU上每秒生成29帧以上。

Comments 10 pages

2605.09679 2026-05-12 cs.CV cs.AI

DeepTumorVQA: A Hierarchical 3D CT Benchmark for Stage-Wise Evaluation of Medical VLMs and Tool-Augmented Agents

Yixiong Chen, Wenjie Xiao, Pedro R. A. S. Bassi, Boyan Wang, Liang He, Xinze Zhou, Sezgin Er, Ibrahim Ethem Hamamci, Zongwei Zhou, Alan Yuille

AI总结 DeepTumorVQA 是一个面向医学影像的层次化3D CT基准，旨在对医疗视觉语言模型（VLMs）和工具增强代理进行分阶段评估。该基准将肿瘤诊断中的推理过程分解为识别、测量、视觉推理和医学推理四个阶段，使模型在不同层次上的表现能够被独立评估。研究还引入了工具交互环境，允许模型调用分割、测量和医学知识等外部工具，从而更贴近实际医疗场景。实验表明，工具增强显著提升了模型在复杂医学推理任务中的表现。