arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.08787 2026-05-12 cs.CV

Lost in Volume: The CT-SpatialVQA Benchmark for Evaluating Semantic-Spatial Understanding of 3D Medical Vision-Language Models

Mashrafi Monon, Umaima Rahman, Asif Hanif, Numan Saeed, Mohammad Yaqub

AI总结该论文提出了一种名为CT-SpatialVQA的新型基准，用于评估3D医学视觉-语言模型在语义-空间理解方面的能力。该基准基于1601份放射科报告和CT影像构建了9077个临床相关的问答对，要求模型具备解剖定位、左右识别、结构对比和三维结构关系推理等能力。实验表明，现有模型在这些任务上的表现较差，平均准确率仅为34%，突显了在临床可信应用中亟需加强三维医学证据整合的重要性。

2605.08784 2026-05-12 cs.CV

simpleposter: a simple baseline for product poster generation

Benlei Cui, Fangao Zeng, Weitao Jiang, Yuwen Zhai, Haiwen Hong, Longtao Huang, Hui Xue, Wenxiang Shang, Pipei Huang

AI总结本文提出了一种名为SimplePoster的简单而有效的产品海报生成框架，旨在解决在保留产品外观和精确控制密集多行文本布局方面的挑战。与以往依赖复杂模块（如ControlNet和OCR编码器）的方法不同，SimplePoster通过全参数微调和字符级位置编码，在无需外部控制器的情况下实现了高保真主体保留和精准文本渲染。实验表明，SimplePoster在主体保留率和文本渲染准确性方面均优于现有方法。

Comments CVPR 2026

2605.08781 2026-05-12 cs.CV

Contour-Native Bridge Defect Detection and Compact Digital Archiving with Frequency-Supervised Fourier Contours

Jin Liu, Wang Wang, Hongxu Pu, Zhen Cao, Yasong Wang, Hu Wang, Kunming Luo

AI总结本文研究了如何将桥梁缺陷检测结果以更紧凑、可恢复的轮廓向量形式进行表示，以替代传统的粗略几何边界框或存储成本高的栅格掩膜。提出了一种基于频率监督的傅里叶级数检测方法（FS-FSD），该方法直接回归傅里叶轮廓描述子，并在统一的多边形空间协议下对边界框、掩膜和轮廓进行评估。实验表明，该方法在大量无人机采集的桥梁图像上取得了更高的多边形空间检测精度和更优的真阳性几何匹配质量，为工程审查和后续信息流程提供了更高效、更精确的缺陷边界表示方式。

Comments 46 pages,13 figures

2605.08778 2026-05-12 cs.AI cs.LG cs.MA

Not All Turns Matter: Credit Assignment for Multi-Turn Jailbreaking

Zhida He, Xiaoyu Wen, Han Qi, Ziyuan Zhou, Peng Yu, Xingcheng Xu, Dongrui Liu, Xia Hu, Chaochao Lu, Qiaosheng Zhang

AI总结该研究针对多轮对话中基于强化学习的LLM越狱攻击方法中存在的信用分配问题，提出了一种基于回合感知的信用分配框架TRACE。传统方法使用粗粒度的轨迹级奖励信号，导致对各回合贡献的评估不准确，而TRACE通过回合级语义掩码和针对性惩罚机制，更精确地分配信用，提升了攻击效果和效率。实验表明，TRACE在攻击成功率、可迁移性和安全性方面均优于现有方法，并在防御对齐中也表现出更好的安全与效用平衡。

Comments 41 pages, 10 figures

2605.08776 2026-05-12 cs.AI

Reasoning Compression with Mixed-Policy Distillation

Han Yang, Mingyan Wu, Bailan He, Zeyu Cao, Sikuan Yan, Kevin Qinghong Lin, Zifeng Ding

AI总结本文研究了如何在保持推理性能的前提下，压缩大语言模型生成的推理轨迹以提高小模型的推理效率。作者提出了一种名为混合策略蒸馏（MPD）的方法，通过从大模型中迁移简洁的推理行为到小模型，避免了显式长度约束带来的限制。实验表明，MPD在减少token使用量的同时，还能提升小模型在多个推理任务上的表现，为高效小模型推理提供了一种有效方法。

2605.08774 2026-05-12 cs.RO cs.LG

ProcVLM: Learning Procedure-Grounded Progress Rewards for Robotic Manipulation

Youhe Feng, Hansen Shi, Haoyang Li, Xinlei Guo, Yang Wang, Chengyang Zhang, Jinkai Zhang, Xiaohan Zhang, Jie Tang, Jing Zhang

AI总结本文提出ProcVLM，一种基于视觉-语言的进展感知模型，用于机器人操作任务中的密集奖励学习。与依赖最终结果或时间插值的传统方法不同，ProcVLM通过任务过程结构和阶段内视觉变化来估计任务进展，并引入“推理-估计”范式，先推断剩余操作再评估进展。研究构建了包含6000万标注帧的ProcCorpus-60M数据集，并在多个基准测试中验证了ProcVLM在任务进展估计和操作推理方面的优越性，为下游策略优化提供了更精确的密集奖励信号。

2605.08769 2026-05-12 cs.AI

EvoMAS: Learning Execution-Time Workflows for Multi-Agent Systems

Chengdong Xu, Kaiqiang Ke, Ziheng Liu, Jiaqi Wei, Zibo Shao, Weile Guo, Chao Yu

AI总结本文提出了一种名为EvoMAS的框架，用于在任务执行过程中动态构建多智能体系统的工作流。该方法将工作流构建建模为一个元级别的序列决策问题，通过 Planner-Evaluator-Updater 管道显式构建任务状态，并利用学习到的 Workflow Adapter 从固定候选智能体池中生成阶段特定的分层工作流。实验表明，EvoMAS 在多个基准任务中优于单一智能体和现有自动化多智能体工作流设计方法，展示了其在动态任务环境下适应任务状态变化、提升协作效率的优势。

Comments 22 pages, 8 figures

2605.08765 2026-05-12 cs.LG cs.AI

Unlearners Can Lie: Evaluating and Improving Honesty in LLM Unlearning

Renjie Gu, Jiazhen Du, Yihua Zhang, Sijia Liu

AI总结本研究探讨了大语言模型（LLM）在“遗忘”有害训练数据过程中可能出现的不诚实行为，如幻觉生成和行为不一致等问题。文章提出了“遗忘诚实性”的正式定义，并设计了一套涵盖实用性、保留知识诚实性、遗忘效果等多方面的评估指标。基于实验分析，作者提出了一种名为ReVa的表示对齐方法，通过微调特征随机化的遗忘模型，显著提升了模型在遗忘知识上的拒绝率和保留知识的诚实性。

Comments Accepted by ACL 2026

2605.08764 2026-05-12 cs.LG cs.CV eess.IV

Anchoring the Eigengap: Cross-Modal Spectral Stabilization for Sample-Efficient Representation Learning

Nikhil J. Dhinagar, Vidhi Chhatbar, Chirag Jagad, Pavithra Senthilkumar, Sophia I. Thomopoulos, Mahir H. Khan, Sook-Lei Liew, the ENIGMA-Stroke Recovery Working Group, Paul M. Thompson

AI总结本文研究了在数据稀缺情况下深度视觉模型性能下降的根本原因，指出这是由于有限样本导致的嵌入协方差矩阵噪声干扰，从而压缩了特征值间隔（eigengap），限制了可恢复的信号模式数量。作者提出了一个有限样本表示学习的谱理论，量化了可恢复的维度 $K(N)$，并通过扰动理论和集中不等式分析了可靠特征模式的判据。研究进一步表明，多模态学习（如视觉-语言模型）能够通过低秩约束抑制噪声方向、保持特征值间隔，从而提升数据效率和分类性能，尤其在医学影像等小样本场景中表现出显著优势。

2605.08762 2026-05-12 cs.SD cs.LG

Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search

Tao Yu, yiming ding, Shenghua Chai, Minghui Zhang, Zhongtian Luo, Xinming Wang, Xinlong Chen, Zhaolu Kang, Junhao Gong, Yuxuan Zhou, Haopeng Jin, Zhiqing Cui, Jiabing Yang, YiFan Zhang, Hongzhu Yi, Zheqi He, Xi Yang, Yan Huang, Liang Wang

AI总结当前跨模态基准主要评估模型在多种模态同时提供的场景下的表现，而从音频出发主动搜索跨模态证据的能力仍鲜有研究。本文提出Omni-DeepSearch，一个以音频驱动的跨模态深度搜索基准，要求模型从给定的音频片段和相关问题中提取线索，调用文本、图像和视频检索工具，进行多跳推理生成简短、客观且可验证的答案。该基准包含640个样本，涵盖四个检索目标模态和四种音频内容类型，并通过多阶段过滤流程确保任务难度与挑战性，实验表明当前最先进的模型在该任务上的平均准确率仅为43.44%，突显了该方向的重要研究价值。

Comments 43 pages

2605.08760 2026-05-12 cs.LG cs.DC

FedGMI: Generative Model-Driven Federated Learning for Probabilistic Mixture Inference

Qijun Hou, Yuchen Shi, Pingyi Fan, Khaled B. Letaief

AI总结本文研究了联邦学习中因数据异构性导致的性能下降问题，提出了一种基于生成模型的联邦学习框架FedGMI，用于处理概率混合推理场景。该方法通过变分自编码器建模共享的潜在分布，并推断每个客户端数据的混合成分，从而在保持个性化的同时实现结构化协作学习。实验表明，FedGMI能够有效区分潜在分布并准确估计混合比例，且在通信成本受限的情况下仍保持良好性能。

2605.08757 2026-05-12 cs.RO

A Visuo-Tactile Data Collection System with Haptic Feedback for Coarse-to-Fine Imitation Learning

Yeseung Kim, Nayoung Oh, Jun Park, Teetat Thamronglak, Daehyung Park

AI总结本文提出了一种结合视觉与触觉反馈的数据采集系统，用于生成具有时间结构和丰富接触信息的示范数据，以支持模仿学习。该系统通过直接驱动夹爪保留操作者的自然触觉反馈，并集成视觉和触觉传感器捕捉图像和接触几何信息，同时通过手柄按钮实现任务关键区域的实时标注。该方法融合了手部力感知与时间标注，生成的多模态数据集适用于从粗到细的学习算法，有助于开发高质量的操控策略。

2605.08756 2026-05-12 cs.AI cs.NE

AHD Agent: Agentic Reinforcement Learning for Automatic Heuristic Design

Haoze Lv, Ning Lu, Ziang Zhou, Shengcai Liu

AI总结本文提出了一种名为 AHD Agent 的新型多轮框架，旨在提升自动启发式设计（AHD）在解决复杂组合优化问题中的效率与效果。该框架通过集成工具调用机制，使大语言模型能够主动决定是生成启发式策略还是调用工具获取环境中的关键信息，从而更高效地进行探索。研究引入了一种基于代理强化学习的训练系统，结合环境合成流程优化模型的泛化能力，实验表明该方法在多个领域中表现优异，性能可与更大规模模型相比，同时大幅减少了评估次数。

Comments 10 pages, 7 figures for main content

2605.08755 2026-05-12 cs.LG

LAQuant: A Simple Overhead-free Large Reasoning Model Quantization by Layer-wise Lookahead Loss

Euntae Choi, Sumin Song, Sungjoo Yoo

AI总结大型推理模型（LRMs）通过长序列的自回归解码在数学和编程任务中达到了接近竞赛水平的准确率，但每 token 的解码成本成为部署的主要瓶颈。本文提出了一种无需在线转换开销的层-wise 权重量化方法 LAQuant，通过引入推理域校准和一层前瞻损失，有效解决了量化后长解码精度下降的问题。实验表明，LAQuant 在保持较高推理精度的同时，显著提升了解码速度。

2605.08753 2026-05-12 cs.CV stat.ML

Simultaneous Monitoring of Shape and Surface Color via 4D Point Clouds: A Registration-free Approach

Mariafrancesca Patalano, Giovanna Capizzi, Kamran Paynabar

AI总结本文提出了一种无需配准的4D点云框架SMAC，用于同时监测物体的形状和表面颜色变化。该方法利用拉普拉斯-贝尔特拉米算子的谱特性，捕捉形状与颜色之间的关系，并通过联合监测策略有效检测形状变形和颜色异常。此外，该方法还引入了空间感知的后信号诊断过程，以定位异常来源，具有计算高效、无需配准和网格重建的优势，实验表明其在细微缺陷检测方面表现优异。

Comments 38 pages, 11 figures

2605.08750 2026-05-12 cs.LG cs.AI cs.CL cs.MA

Communicating Sound Through Natural Language

Emanuele Rossi, Emanuele Rodolà

AI总结该研究提出了一种通过自然语言传递声音的框架——词法声学编码（LAC），利用预训练的语言模型作为发送和接收代理，实现声音信息的编码与解码。发送方将声音波形转化为可解释的声学描述符，并通过特定词汇表进行量化后生成英文文本，接收方则解析文本并重构声音波形。该方法在保持声音结构的同时，实现了声音信息的可解释性和可编辑性，展示了自然语言作为声音传输载体的潜力。

Comments Includes link to demo page

2605.08749 2026-05-12 cs.LG

The Wristband Gaussian Loss: Deterministic, Composable Latents via a Sphere-Interval Decomposition

Mikhail Parakhin, André M. Carvalho, Patrick Haluptzok

AI总结本文提出了一种确定性的批量损失函数——Wristband Gaussian Loss，用于在无需采样、KL散度项或迭代运输的情况下对点嵌入进行高斯化处理。该方法通过将每个点映射到一个方向和一个经过CDF变换的半径，将其嵌入到球面与区间乘积空间中，并证明了该映射在源数据为高斯分布时能够生成均匀分布的推前测度。实验表明，该方法在多个基准测试中表现优异，尤其在高维数据上具有优势，并可与可学习键注意力机制结合，构建出具有独立和依赖因子控制能力的确定性高斯自编码器。

Comments preprint

2605.08746 2026-05-12 cs.LG math.DS math.OC

The Global Empirical NTK: Self-Referential Bias and Dimensionality of Gradient Descent Learning

James Hazelden, Laura Driscoll, Eli Shlizerman, Eric Shea-Brown

AI总结本文研究了梯度下降训练神经网络过程中全局经验神经切线核（NTK）的结构特性，揭示了其在参数更新和状态演化中的核心作用。通过将模型状态视为满足单一全局隐式约束的解，作者将NTK分解为两个算子的乘积，分别描述参数与状态、状态与状态之间的关系，并证明了对于包括RNN和Transformer在内的多种模型，NTK具有可计算的核结构，揭示了其有效秩受限和自指偏差的特性。研究进一步表明，NTK的结构限制了梯度下降的学习过程，导致模型倾向于在主导的隐藏状态和输入活动模式中学习，并为理解低秩表示的出现提供了理论依据。

Comments Submitted to TMLR

详情

英文摘要

In training a neural network with gradient descent (GD), each iteration induces a linear operator that governs first-order updates to a model's internal state variables. We define this operator as the Global Empirical Neural Tangent Kernel (NTK). In finite-width networks, the NTK is typically intractable to form, leading prior work to focus on restrictive settings such as tracking outputs only or taking infinite-width limits. Here, we study the structure of the NTK for a range of models. Formulating the model state as the solution to a single global implicit constraint, we derive the NTK as a product of two operators: K, accounting for immediate parameter-to-state interactions, and P, describing internal state-to-state dependencies. For a broad class of weight-based models, including RNNs and transformers, we prove a universal Kronecker-core theorem showing that K admits an exact, computable form given by the Gram matrix of weight-site variables. This core structure reveals that the NTK is structurally bottlenecked, constraining its effective rank and giving rise to a self-referential bias whereby GD preferentially learns within dominant modes of joint hidden and input activity. For recurrent models, we examine the spectrum of the NTK and show when it is biased and low-rank in space or time under the proposed decomposition. We further demonstrate that model dynamics at initialization bias the NTK, restricting learning and preventing task components from being learned effectively. Finally, we show that the NTK associated with a self-attention transformer is likewise structurally constrained to be low-rank. Overall, we show that the NTK possesses tractable structure that explains GD bias toward task solutions and the emergence of low-rank representations. To enable use of the NTK as a practical metric, we build kpflow, a library relying on randomized matrix-free numerical linear algebra.

URL PDF HTML ☆

赞 0 踩 0

2605.08742 2026-05-12 cs.CL cs.AI

Narrative Landscape: Mapping Narrative Dispositions Across LLMs

Donghoon Jung, Jiwoo Choi, Songeun Chae, Seohyon Jung

AI总结本文提出了一种量化框架，用于刻画大语言模型在重复受控引导下输出中的稳定、模型特有特性。通过设计结构化的叙事约束选择任务，并在六种前沿模型和三种指令类型上进行实验，研究从“一致性”和“多样性”两个维度定义模型的叙事倾向，并引入基于主成分分析的“叙事景观”可视化方法，将不同模型的选择特征映射到统一空间进行对比。实验结果揭示了不同模型家族在刚性与探索性之间的明显差异，并表明指令类型会改变选择空间的几何结构，即使标量指标相似，其选择拓扑结构也可能存在本质区别。

Comments Accepted to NLP4DH 2026, camera-ready version

2605.08741 2026-05-12 cs.CL

Training with Harnesses: On-Policy Harness Self-Distillation for Complex Reasoning

Zhengyang Zhao, Lu Ma, Wentao Zhang

AI总结该研究提出了一种名为“On-Policy Harness Self-Distillation”（OPHSD）的方法，旨在通过引入推理时的辅助流程（harness）来提升大语言模型在复杂推理任务中的表现。该方法利用增强后的模型作为教师模型进行自蒸馏，将辅助流程中的额外监督信号融入学生模型中，从而提升其独立推理能力。实验表明，OPHSD在多个任务上优于现有方法，并且表明辅助流程在训练阶段即可发挥价值，无需在推理时持续使用。

2605.08740 2026-05-12 cs.LG cs.AI

Causal Dimensionality of Transformer Representations: Measurement, Scaling, and Layer Structure

Nilesh Sarkar, Dawar Jyoti Deka

AI总结该研究探讨了Transformer模型中残差流表示的因果维度，提出了一种新的度量方法kappa(L, M, T)，用于衡量某一层的因果影响能力。通过实验发现，随着稀疏自编码器（SAE）宽度的增加，表示能力显著提升，但因果能力增长较慢，揭示了表示与因果之间的分离现象。研究还表明，kappa在模型规模变化时保持稳定，并且在不同网络深度上表现出结构化的变化，为理解Transformer内部机制提供了新的视角。

Comments 9 pages, 17 figures, 14 tables (excluding references and appendices). Companion short paper under review at the ICML 2026 Mechanistic Interpretability Workshop. Code: https://anonymous.4open.science/r/NeurIPS-Causal-Capacity-in-SAEs-7D20/

2605.08739 2026-05-12 cs.CV

ReorgGS: Equivalent Distribution Reorganization for 3D Gaussian Splatting

Luchao Wang, Kaimin Liao, Qian Ren, Hua Wang, Zhi Chen, Yaohua Tang

AI总结本文提出了一种名为 ReorgGS 的方法，用于解决 3D 高斯溅射（3DGS）模型在收敛后参数化退化的问题。该方法通过将现有高斯点集视为经验概率场，重新采样中心点并估计各向异性协方差，从而重建更优的分布结构，提升后续优化的梯度可访问性。与简单重置不透明度的方法不同，ReorgGS 重构了高斯点的分布和可见性结构，在保持场景表达能力的同时，有效减少了冗余重叠，提高了模型的优化效果和渲染效率。

2605.08737 2026-05-12 cs.LG cs.CL

The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs

Xin Li, Hao Jiang, Annan Wang, Yichi Zhang, Chau Yuen

AI总结本文研究了在近确定性结构化输出任务中，基于策略的模型蒸馏（OPD）在奖励外推系数超过一定阈值时出现的“外推悬崖”问题。通过分析单位置伯努利简化模型，作者推导出一个由教师模型模态概率、初始质量及重要性采样裁剪强度决定的闭合形式安全阈值，揭示了超出该阈值后模型输出格式会从保持结构转向崩溃。实验表明，在亚马逊时尚数据集上，使用略低于该阈值的ListOPD方法，可以使较小的Qwen3学生模型在参数仅为基线模型五分之一的情况下，在结构化输出任务上达到与大模型相当的性能。

2605.08735 2026-05-12 cs.CV

CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models

Joowon Kim, Seungho Shin, Joonhyung Park, Eunho Yang

AI总结该论文提出了一种名为CollabVR的协作视频推理框架，旨在解决视频生成模型（VGM）在多步骤任务中出现的长期偏差和中间片段模拟错误问题。该方法通过将视觉-语言模型（VLM）与VGM在步骤层面进行紧密协作，使VLM在每一步生成动作后对VGM生成的视频片段进行检查与修正，从而提升推理的准确性和鲁棒性。实验表明，CollabVR在多个基准测试中显著优于现有方法，尤其在复杂任务上表现突出，并且与针对推理优化的VGM结合使用时还能进一步提升性能。

2605.08734 2026-05-12 cs.LG cs.AI cs.CL

AdaPreLoRA: Adafactor Preconditioned Low-Rank Adaptation

Ziyun Liu, Fengmiao Bian, Jian-Feng Cai

AI总结本文提出了一种名为 AdaPreLoRA 的低秩适配方法，旨在解决传统 LoRA 在参数更新过程中因雅可比矩阵秩不足而导致的预处理失效问题。该方法结合了 Adafactor 预处理技术与因子空间优化，通过在权重空间中引入对角克罗内克预处理矩阵，并在因子空间中选择最优更新方向，以最小化加权不平衡度，从而获得更精确的参数更新。实验表明，AdaPreLoRA 在多个自然语言处理和扩散模型任务中表现优异，同时保持了与现有 LoRA 优化器相当的内存效率。

Comments 27 pages

2605.08733 2026-05-12 cs.LG cs.IT math.IT

Generative Actor-Critic with Soft Bridge Policies

Ke He, Le He, Shunpu Tang, Yafei Wang, Lisheng Fan

AI总结该论文研究了如何在最大熵在线强化学习中有效地训练生成性策略，提出了软生成性actor-critic（SoftGAC）方法。为了解决传统生成模型在训练过程中面临的边际动作密度不可用和推理成本高的问题，SoftGAC通过构建一个从固定潜在变量到动作潜在变量的结构化桥梁，使得最大熵目标可以转化为可解析处理的路径相对熵目标。实验表明，SoftGAC在保持低延迟生成能力的同时，在多个连续控制任务中取得了优于现有生成策略基线的性能。

详情

英文摘要

Expressive generative policies such as diffusion and flow models are appealing for MaxEnt online reinforcement learning because of their ability to model multimodal and highly non-Gaussian action distributions. However, training effective soft generative policies faces two obstacles that often arise together. First, marginal action densities are often unavailable, so existing methods typically rely on entropy bounds, heuristic proxies or approximations. Second, iterative shared-parameter samplers raise inference cost and require backpropagation through time over repeated network evaluations, increasing memory cost and destabilizing policy optimization. These obstacles motivate us to seek a generative policy that exposes a tractable MaxEnt objective while requiring only a single sampled actor forward pass for action generation. To this end, we propose soft generative actor-critic (SoftGAC), whose actor defines a stochastic bridge from a fixed base latent to a terminal action latent in pre-tanh space. This structured bridge allows us to lift the MaxEnt objective as an analytically tractable path-wise relative-entropy objective against a high-entropy reference process. In practical finite-step implementation, this relative entropy reduces exactly to sampled transition control energy and thus provides principled soft regularization. Moreover, we keep the single-pass actor lightweight by using small step-specific bridge transitions, each evaluated only once per sampled action, while maintaining a parameter budget comparable to strong actor baselines. Extensive experiments on challenging continuous-control benchmarks show that SoftGAC attains higher or competitive returns than strong generative policy baselines, including diffusion and flow-matching policies, while staying in the low-latency regime of one-pass actors and showing considerable improvements in the compute-return tradeoff.

URL PDF HTML ☆

赞 0 踩 0

2605.08730 2026-05-12 cs.LG cs.CR

Classification-Head Bias in Class-Level Machine Unlearning: Diagnosis, Mitigation, and Evaluation

Weidong Zheng, Kongyang Chen, Yuanwei Guo, Yatie Xiao

AI总结本文研究了类级机器遗忘中的分类头偏差问题，揭示了现有方法在遗忘类预测中可能通过简单降低分类头偏差来实现遗忘，而未真正消除模型对遗忘类的依赖。为此，作者提出了一种名为BiasShift的诊断基线，并设计了两种偏差感知机制以缓解偏差过度抑制的问题，同时引入多项偏差导向的评估指标，实验表明所提方法在保持遗忘性能的同时提升了偏差分布的稳定性。

2605.08729 2026-05-12 cs.CV cs.GR cs.MM cs.SD

Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation

Shihao Cheng, Jiaxu Zhang, Quanyue Song, Shansong Liu, Zhizhi Guo, Xiaolei Zhang, Chi Zhang, Xuelong Li, Zhigang Tu

AI总结 Unison 是一个统一的框架，旨在解决人类中心视频生成中动作、语音和声音之间异步特性带来的对齐难题。该方法通过语义引导的谐波策略，分离生成语音和音效组件，并利用双向音频交叉注意力和语义条件门控机制，提升声音清晰度并减少语音主导现象。此外，Unison 提出双向跨模态强制策略，通过解耦的去噪时间表实现动作与音频的同步，显著提升了生成视频在音频感知质量和跨模态同步方面的表现。

2605.08727 2026-05-12 cs.CV cs.AI cs.LG

Control Your View: High-Resolution Global Semantic Manipulation in Learned Image Compression

Jiaming Liang, Chi-Man Pun, Weisi Lin, Greta Seng Peng Mok

AI总结本文研究了在学习图像压缩系统中实现高分辨率全局语义操控（GSM）的问题，指出现有方法在高分辨率场景下效果有限。作者通过理论与实验分析，揭示了高分辨率GSM攻击需要经过懒惰-震荡-细化三个阶段，并提出了一种周期几何衰减的步长调度策略，从而实现$\ell_{\infty}$-有界条件下的高分辨率GSM。基于此，他们改进了PGD方法，提出PGD$^{2}$-GSM，在Kodak数据集上首次实现了稳定高效的高分辨率GSM，揭示了学习图像压缩系统的新安全威胁。

2605.08724 2026-05-12 cs.CV

SynerMedGen: Synergizing Medical Multimodal Understanding with Generation via Task Alignment

Weiren Zhao, Yi Dong, Cheng Chen

AI总结本文提出SynerMedGen，一个通过任务对齐将医学多模态理解与生成统一的框架，旨在解决现有模型中理解与生成目标分离的问题。该方法引入了三个与生成对齐的理解任务和两阶段训练策略，使理解阶段学到的生成有益表征能够有效支持医学图像合成。实验表明，SynerMedGen在多个医学图像生成任务中表现出色，且具有良好的泛化能力，同时作者还发布了包含100万对合成样本和200万生成衍生理解实例的SynerMed数据集，以支持相关研究。

Comments Accepted by ICML 2026