Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models
在Blender中思考:基于视觉语言模型的分阶段可执行逆向图形
发表机构 * Cornell University(康奈尔大学)
AI总结 提出分阶段可执行逆向图形(SEIG)框架,利用预训练视觉语言模型直接从单张图像重建可编辑的Blender程序,无需专用基础模型或可微渲染,通过逐步细化几何、材质、组合和光照提升重建保真度。
在Blender中思考:基于视觉语言模型的分阶段可执行逆向图形
发表机构 * Cornell University(康奈尔大学)
AI总结 提出分阶段可执行逆向图形(SEIG)框架,利用预训练视觉语言模型直接从单张图像重建可编辑的Blender程序,无需专用基础模型或可微渲染,通过逐步细化几何、材质、组合和光照提升重建保真度。
通过感知扰动和奖励建模减轻多模态大语言模型作为评判者中的感知判断偏差
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; KAIST(韩国科学技术院)
AI总结 本文通过构建感知扰动数据集和结合GRPO奖励与批排序目标的统一训练框架,解决了多模态大语言模型作为评判者时因视觉证据与文本线索冲突而产生的感知判断偏差问题,显著提升了感知忠实度和与人类评价的一致性。
Comments ICML 2026
RoboDream: 用于可扩展机器人数据合成的组合世界模型
发表机构 * USC Physical Superintelligence (PSI) Lab(USC物理超智能实验室) ; Toyota Research Institute(丰田研究院)
AI总结 提出一种以具身为中心的组合世界模型,通过将轨迹执行与环境合成解耦,实现从新视角、新场景和新物体中合成逼真演示数据,并展示其在数据扩展和减少真实数据需求方面的有效性。
Comments Project page: https://junjieye.com/RoboDream/
从零到英雄:世界模型中的免训练自定义概念生成
发表机构 * Virginia Tech(弗吉尼亚理工学院)
AI总结 提出SPAWN方法,利用图像到视频骨干网络的结构特性,通过交换参考帧锚点与外部概念潜变量,实现无需训练即可在世界模型中生成用户指定的视觉概念。
HumanNOVA: 从单张图像实现逼真、通用且快速的3D人体化身建模
发表机构 * University of Texas at Austin(德克萨斯大学奥斯汀分校) ; National University of Singapore(新加坡国立大学) ; Texas A&M University(德克萨斯农工大学)
AI总结 提出HumanNOVA模型,通过可扩展数据生成流水线和前馈令牌条件化架构,从单张RGB图像快速生成逼真3D人体化身,无需测试时优化。
Comments CVPR 2026 Highlight
VISReg: 用于JEPA训练的方差-不变性-素描正则化
发表机构 * Altos Labs(Altos实验室) ; Brown University(布朗大学)
AI总结 提出VISReg正则化方法,用基于切片Wasserstein距离的素描目标替代协方差,以增强分布形状约束,在防止嵌入坍塌的同时提升鲁棒性和性能。
AdaCodec: 面向视频多模态大语言模型的预测性视觉编码
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai Innovation Institute(上海创新研究院) ; JD.com(京东公司)
AI总结 针对视频帧间冗余问题,提出预测性视觉编码AdaCodec,通过条件预测代价决定是否发送完整参考帧或紧凑P-令牌,在匹配视觉令牌预算下提升性能,并大幅降低首令牌延迟。
Comments 23 pages
基于策略的中央凹成像与感知
发表机构 * Stanford University USA(斯坦福大学)
AI总结 提出一种实时、预测且任务感知的中央凹成像系统,通过强化学习策略动态分配像素带宽到任务相关区域,在严格像素预算下实现高任务性能。
Comments Project website at https://howardxiao.ca/foveated/
VLMs 是视频推理的好老师:通过自适应测试时优化
发表机构 * City University of Hong Kong(香港城市大学) ; Kling Team, Kuaishou Technology(快手科技 Kling 团队)
AI总结 提出将视觉语言模型(VLM)作为“教师”,通过提取任务规则并设计可微分奖励,指导视频生成模型(VGM)在测试时在线优化轻量级 LoRA 模块,从而提升视频推理的泛化能力。
Comments Project Page: https://VLM-as-Teacher.github.io/
LongLive-RAG: 一种用于长视频生成的通用检索增强框架
发表机构 * NVIDIA ; USC(美国大学) ; MIT(麻省理工学院)
AI总结 提出LongLive-RAG框架,通过将自回归视频生成中的历史潜变量作为可检索记忆,利用查询嵌入检索相关历史潜变量并引入窗口时间增量损失,以减轻滑动窗口注意力导致的误差累积,提升长视频生成质量。
Comments 20 pages, 7 figures, 4 tables
建模深度歧义:一种用于无飞点深度估计的混合密度表示
发表机构 * University of Michigan(密歇根大学) ; NVIDIA(英伟达)
AI总结 提出混合密度表示MDA,通过预测每个像素的多个深度假设及其概率,解决深度估计中边界处的飞点伪影问题,显著改善边界重建并消除飞点。
AFUN:迈向用于功能理解的可供性基础模型
发表机构 * University of Michigan(密歇根大学) ; University of California, San Diego(加州大学圣地亚哥分校) ; NVIDIA(英伟达)
AI总结 提出AFUN模型,从单张RGB-D图像和语言任务描述中预测任务条件功能掩码和3D接触后运动曲线,通过大规模标准化数据流水线实现开放世界泛化,在多项基准测试中显著优于现有方法。
LL-Bench: 在大规模生成模型时代重新思考低级视觉评估
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 提出LL-Bench基准,包含大量真实退化图像和人工偏好标注,系统评估大规模生成模型在低级视觉任务中的性能,并引入LL-Score评估器以更好对齐人类偏好。
通过掩码条件潜在扩散增强改善TEM缺陷的联合检测与分类
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校) ; University of Michigan-Ann Arbor(密歇根大学安娜堡分校)
AI总结 提出一种基于掩码条件潜在扩散模型(LDM)的生成式数据增强方法,用于合成可控、自动标注的多类缺陷掩码的TEM图像,以提升小样本下Mask R-CNN模型的缺陷检测与分类性能。
为什么不采用超参数友好的优化?一种用于长尾识别的单调自适应范数缩放方法
发表机构 * University of Oxford(牛津大学)
AI总结 提出一种无需参数正则化的自适应单调归一化方法(SAMN),通过保序回归直接对类别权重范数施加单调性约束,实现超参数友好的长尾识别。
FigSIM:用于自杀迷因的细粒度自杀严重程度和比喻语言数据集
发表机构 * School of Computing and Information Systems, University of Melbourne, Australia(墨尔本大学计算与信息学院) ; Orygen, The National Centre of Excellence in Youth Mental Health, Australia(奥里根青少年心理健康国家研究中心) ; Centre for Youth Mental Health, University of Melbourne, Australia(墨尔本大学青少年心理健康中心) ; O’Donnell School of Public Health, UT Southwestern Medical Center, United States(奥唐奈公共卫生学院,西南医学中心)
AI总结 本文提出FigSIM数据集,包含1049个自杀迷因,标注了细粒度自杀严重程度、比喻现象和自杀相关内容,并评估了16个单模态和多模态模型在比喻语言、自杀严重程度和自杀相关内容检测任务上的表现,揭示了建模和内容审核的独特挑战。
Comments Content warning: contains suicide-related content. Accepted to Findings of the Association for Computational Linguistics: ACL 2026
Moment-Video: 诊断视频多模态大语言模型在瞬时视觉事件上的时间保真度
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shandong University(山东大学) ; Southeast University(东南大学) ; Tencent Youtu Lab(腾讯优图实验室)
AI总结 提出 Moment-Video 基准,通过瞬时视觉事件理解任务诊断视频 MLLMs 的时间保真度,发现最佳模型准确率仅 39.6%,多数开源模型低于 25%。
Comments 28 pages, 10 figures, 11 tables
ToolFG:面向良好基础的细粒度图像分类
发表机构 * Lancaster University(兰卡斯特大学) ; Peking University(北京大学)
AI总结 提出ToolFG框架,通过MCTS引导的工具使用知识蒸馏和模型-工具协同进化机制,使MLLM自主调用外部工具获取可靠视觉线索,实现细粒度图像分类。
并非所有点都同等重要:不确定性感知的4D LiDAR场景合成
发表机构 * NUAA(南京航空航天大学) ; NUS(新加坡国立大学) ; FDU(福建工程学院) ; Duke(杜克大学) ; NTU(国立新加坡大学) ; NJUPT(南京理工大学泰州学院) ; SKL-TI(特种信息处理实验室)
AI总结 提出U4D框架,利用空间不确定性引导LiDAR场景生成,通过熵图识别高不确定性区域并优先合成,再补全其余区域,实现高保真4D场景。
Comments CVPR 2026 E2E3D Workshop; GitHub at https://github.com/worldbench/U4D
GloResNet:一种用于早产儿脑损伤预测的轻量级3D CNN与全局拓扑特征
发表机构 * Image Computing Laboratory, Shaanxi University of Science and Technology(陕西科技大学图像计算实验室) ; Department of Neonatology, Shenzhen University of Advanced Technology General Hospital(深圳先进技术医院新生儿科) ; Department of Neurosurgery, The First Affiliated Hospital of Xi’an Jiaotong University(西安交通大学第一附属医院神经外科) ; CSIRO Technology(澳大利亚CSIRO技术)
AI总结 提出基于ResNet-10的轻量级3D CNN GloResNet,结合全局流形映射和预处理策略,在dHCP数据集上实现早产儿脑损伤预测,平均准确率75.18%。
MORPHOS: 基于时间结构化潜变量的自回归4D生成
发表机构 * KAIST AI(韩国国立科学技术院人工智能实验室)
AI总结 提出MORPHOS框架,利用时间结构化潜变量(T-SLAT)统一表示4D动态资产,通过自回归因果注意力生成,解决多表示兼容、拓扑变化和长时间一致性问题。
Comments Project page: https://cvlab-kaist.github.io/MORPHOS/
野外场景:一个用于生态有效视觉研究的大规模高分辨率RAW照片数据集
AI总结 本文提出了一个包含67,574张高分辨率RAW照片的数据集,通过360度视角采样覆盖260个场景类别,支持视角依赖识别、真实场景理解及自然场景统计研究。
Comments 19 pages, 3 tables, 4 figures
检索缺失内容:面向一致长视频生成的覆盖最大化检索
发表机构 * Korea University(韩国大学) ; KAIST(韩国科学技术院)
AI总结 提出基于深度的覆盖最大化检索增强生成框架COVRAG,利用预训练3D先验构建轻量级覆盖图作为记忆证据,通过迭代检索最大化残差覆盖来提升长视频生成的几何一致性。
Comments 19 pages, 10 figures, 5 tables
MASER: 面向具身3D空间智能的模态自适应专家路由
发表机构 * Boston University(波士顿大学)
AI总结 提出MASER框架,通过训练共享VLM骨干的五个模态适配器并学习基于问题选择最佳适配器的神经路由策略,解决具身代理在3D环境中多模态推理时忽略问题语义的问题。
Comments Accepted to CVPR 2026 Foundation Models Meet Embodied Agents Workshop
像鸽子一样主动探索:通过智能视觉语言模型强化空间推理
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出一种受鸽子认知地图启发的智能视觉语言模型管道,通过动态认知地图和空间断言代码提供密集奖励信号,在MindCube基准上实现80.5%的总体准确率,在Rotation子集上相对提升53.2%。
Comments Accepted by ICML 2026
初始化即半程:从引导势后验生成多样图像
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; University of Tokyo(东京大学)
AI总结 针对生成模型模式崩溃问题,提出从引导势后验中采样初始噪声的DivIn方法,利用朗之万动力学引导初始化远离崩溃区域,提升多样性且兼容扩散与流匹配模型。
Comments Accepted by ICML 2026 Spotlight
HLL:智能体能否跨越人类最后一道验证防线?
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shandong University(山东大学) ; Tongji University(同济大学)
AI总结 提出HLL基准,通过交互式CAPTCHA验证评估多模态智能体在受保护工作流中替代人类的能力,发现当前智能体在定位、动作校准、状态跟踪和过程一致性方面存在脆弱性。
Comments 27 pages, 14 figures
PaSBench-Video: 面向主动安全预警的流式视频基准
发表机构 * The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; Tsinghua University(清华大学)
AI总结 提出PaSBench-Video基准,包含740个视频,评估多模态大模型在危险发生前及时发出预警的能力,发现现有模型在时序精度和低误报率上表现不佳。
空间-时间解耦参考条件用于身份保持的文本到视频生成
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; University of Electronic Science and Technology of China(电子科技大学) ; Zhejiang University(浙江大学)
AI总结 提出ST-DRC框架,通过空间-时间解耦参考条件、TASS-RoPE机制和身份目标,实现高保真身份保持视频生成。
几何感知隐式记忆用于视频世界模型
发表机构 * School of Intelligence Science and Technology, Nanjing University(南京大学智能科学与技术学院) ; Kling Team, Kuaishou Technology(快手技术 Kling 团队) ; Tsinghua University(清华大学)
AI总结 提出GIM-World框架,通过轻量级Transformer编码器将可变长度历史压缩为固定大小的记忆令牌,并利用相机可查询的几何头在训练期间从冻结的基础模型中蒸馏3D场景结构,从而在长时程视频生成中保持几何和视觉一致性。
Comments Project page: https://gim-world.github.io/
GC-MoE: 基因组引导的细胞类型特异性专家混合模型用于基于组织学的单细胞空间转录组学
发表机构 * Kyushu University(九州大学) ; German Research Center for Artificial Intelligence (DFKI GmbH)(德国人工智能研究中心) ; RPTU University Kaiserslautern-Landau(科布伦茨-劳恩堡大学) ; The University of Osaka(大阪大学) ; IntelligentX GmbH ; Osaka Metropolitan University(大阪 Metropolitan 大学)
AI总结 提出GC-MoE模型,通过路由网络估计细胞类型概率并软组合细胞类型特异性专家,结合细胞类型特异性共表达感知预测器和细胞间交互注意力模块,从组织学图像和细胞位置预测单细胞基因表达,在公共数据集上优于现有方法。
基于Transformer的屋顶线框重建边预测
发表机构 * Centre for Mathematical Sciences, Lund University(卢德大学数学科学中心)
AI总结 提出一种端到端Transformer编码器-解码器架构,利用稀疏SfM点云和语义分割图重建3D屋顶线框,在HoHo 22k数据集上取得0.6476的混合结构分数,位列挑战赛第二名。
Comments Presented at the 3rd Urban Scene Modeling (USM3D) Workshop at CVPR 2026
未修剪长视频中被操纵片段的可解释取证
发表机构 * MoE Key Laboratory of Brain-Machine Intelligence Technology, College of Artificial Intelligence, Nanjing University of Aeronautics(脑机智能技术关键实验室、人工智能学院、南京航空航天大学) ; Dalian University of Technology(大连理工大学) ; Nanjing University(南京大学) ; National University of Singapore(新加坡国立大学)
AI总结 针对长视频中AI生成片段的定位与解释任务,提出TASLE基准数据集和MSLoc粗到细取证方法,实现时序定位、真实性检测与可解释分析。
Comments Accepted to ICML 2026
亲爱的,我把凯旋门缩小了!
发表机构 * Cornell University(康奈尔大学) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 针对单目度量几何估计中的“尺度坍缩”现象,通过构建新数据集MetricScenes并采用两阶段泊松补全方法提升深度图质量,微调MoGe-2模型显著缓解了尺度低估问题。
Comments Project page: https://metricscenes.github.io/
PRIMA: 利用生物先验和测试时自适应提升动物网格恢复
发表机构 * École Polytechnique Fédérale de Lausanne(洛桑联邦理工学院)
AI总结 提出PRIMA框架,通过生物先验(BioCLIP嵌入)和测试时自适应策略,解决严重物种和姿态不平衡下的3D四足动物网格恢复问题,实现高泛化性能并构建大规模伪3D数据集Quadruped3D。
多模态智能体真的从工具使用中受益吗?能力增益的系统性研究
AI总结 通过对比工具增强与无工具的多模态智能体在多项任务上的表现,发现工具使用并未带来一致的性能提升,智能体更多是学会了工具调用模式而非真正利用工具扩展能力。
多模态视频表示对齐用于鲁棒的自监督驾驶员分心检测
发表机构 * Fraunhofer IOSB(弗劳恩霍夫智能系统研究所) ; Karlsruhe Institute of Technology (KIT)(卡尔斯鲁厄理工学院)
AI总结 提出一种多模态全局对齐框架,通过软目标和加权机制处理错误负样本和不可靠正样本,在Drive&Act数据集上优于现有方法,实现鲁棒的驾驶员分心检测。
Comments Accepted at the IEEE ITSC 2026
TROPHIES:从多视角视频中重建场所、人和相机的时间序列
发表机构 * National University of Singapore(新加坡国立大学)
AI总结 提出TROPHIES框架,通过联合估计动态人体、静态场景和相机姿态,实现多视角视频中全局一致的四维重建。
VEDAL: 用于3D高斯泼溅剪枝的变分误差驱动异步学习
发表机构 * Guangdong University of Technology(广东工业大学) ; Huizhou Boluo Power Supply Bureau, Guangdong Power Grid Co., Ltd.(惠州市博罗供电局,广东电网有限责任公司) ; Shenzhen Polytechnic University(深圳职业技术大学) ; School of Computer Science and Engineering, Huizhou University(惠州市大学计算机科学与工程学院)
AI总结 提出VEDAL框架,通过变分自由能最小化、预测误差门控机制和变分不确定性头实现3D高斯泼溅的高效剪枝,在5.2倍压缩下仅损失0.31 dB PSNR。
Comments 12 pages, 5 figures. Accepted by CGI 2026
从视频中检测笔在空中状态:迈向互补手写分析的概念验证
发表机构 * IMT Mines Ales(IMT矿山阿勒大学) ; Occitanie Region, France(法国奥克西塔尼大区)
AI总结 提出一种基于YOLO的笔尖跟踪与运动特征提取及机器学习分类的可解释混合流程,通过俯视视频检测笔接触状态,作为数字化平板的低成本非侵入性补充,在试点数据集上实现了高达0.805的F2分数。
Comments accepted for 12th International Conference on Computer Technology Applications (ICCTA 2026)
无模型坍塌的熵最小化:减轻医学影像中的预测偏差
发表机构 * School of Computation, Information and Technology, Technical University of Munich, Germany(慕尼黑技术大学计算、信息与技术学院) ; Institute of Machine Learning in Biomedical Imaging, Helmholtz Munich, Germany(生物医学成像中的机器学习研究所,海德堡慕尼黑德国) ; School of Biomedical Engineering and Imaging Sciences, King’s College London, UK(伦敦国王学院生物医学工程与成像科学学院) ; Munich Center for Machine Learning (MCML)(慕尼黑机器学习中心(MCML)) ; relAI – Konrad Zuse School of Excellence in Reliable AI(relAI——Konrad Zuse可靠性人工智能卓越学院) ; TUM University Hospital Rechts der Isar(慕尼黑技术大学医院Rechts der Isar)
AI总结 针对测试时适应中熵最小化导致的模型坍塌问题,提出分布偏移偏差减少(DSBR)方法,通过均衡各预测类对无监督熵最小化损失的贡献来纠正预测偏差,在四个医学影像数据集和ImageNet-C上验证了其稳定性和有效性。
基于鲁棒先验更新的幻觉感知扩散采样用于逆问题
发表机构 * Center for Advanced Medical Computing and Analysis, Massachusetts General Hospital and Harvard Medical School(先进医学计算与分析中心,麻省总医院和哈佛医学院) ; Department of Industrial Engineering, University of Pittsburgh(工业工程系,匹兹堡大学)
AI总结 提出鲁棒先验更新模块,通过探测扩散先验更新的局部稳定性并重新锚定位移,减少逆问题求解中的测量条件幻觉,提升实例保真度。
基于视觉表示引导的视频-大语言模型推理的无训练组合视频检索
发表机构 * School of Computer Science and Technology, University of Chinese Academy of Sciences(中国科学院大学计算机科学与技术学院) ; State Key Laboratory of AI Safety, Institute of Computing Technology, Chinese Academy of Sciences(中国科学院人工智能安全国家重点实验室) ; Beijing Academy of Artificial Intelligence(北京人工智能研究院) ; Institute of Information Engineering, Chinese Academy of Sciences(中国科学院信息工程研究所) ; School of Cyber Security, University of Chinese Academy of Sciences(中国科学院大学网络安全学院)
AI总结 提出无训练框架,先利用冻结DINOv3模型筛选视觉相关候选,再通过大视觉语言模型评估指令匹配,最后推理精化,在CVPR 2026挑战赛中取得48.78 Recall@1和51.48 Recall@5。
Comments CVPR 2026, VidLLMs workshop
深度学习用于遥感以改进洪水淹没制图
发表机构 * University of Colorado Boulder(科罗拉多大学博尔德分校)
AI总结 提出基于去噪扩散概率模型和掩码扩散Transformer的云去除框架,用于洪水影像,以生成无云图像并保持水文一致性,提升洪水监测的可靠性。
Comments This paper has been selected as the top 10 student finalists in IGRASS 2026 paper competition
可信生成式逆问题的测量几何与设计
发表机构 * Center for Advanced Medical Computing and Analysis, Massachusetts General Hospital and Harvard Medical School(先进医学计算与分析中心,麻省总医院和哈佛医学院) ; School of Engineering and Applied Sciences, Harvard University(工程与应用科学学院,哈佛大学)
AI总结 提出局部测量-流形兼容性度量,证明其控制重建误差的稳定部分,并基于体积保持设计固定和自适应测量策略,在多个成像任务中预测失败模式、减少幻觉并指导采样。
跨域航拍图像死树检测:基于知识蒸馏的方法
发表机构 * CSC – IT Center for Science Ltd.(CSC信息科技研究中心有限公司) ; Department of Forest Sciences, University of Helsinki(赫尔辛基大学森林科学系) ; KOKO Forest Ltd.(KOKO森林有限公司) ; School of Forest Sciences, University of Eastern Finland(东芬兰大学森林科学学院)
AI总结 针对航拍图像中死树检测的域差异和标注数据稀缺问题,提出基于知识蒸馏的TreeMort-1T-UNet模型,通过特征级蒸馏在多个目标域上实现鲁棒性能,并验证其在低数据场景下的优越性。
Comments 14 pages, 6 figures, journal
定量运动测试:从单部智能手机视频测量患者运动
发表机构 * Nuffield Department of Clinical Neurosciences, University of Oxford(临床神经科学系,Nuffield大学,牛津大学) ; Max Planck Institute of Biological Cybernetics(生物信息学研究所) ; Oxford Gait Laboratory, University of Oxford(牛津大学步态实验室) ; Harvard Medical School(哈佛医学院) ; Massachusetts General Hospital(麻省总医院) ; Institute of Biomedical Engineering, University of Oxford(生物医学工程研究所,牛津大学) ; Mayo Clinic(梅奥诊所)
AI总结 提出基于计算机视觉的定量运动测试(QMT)方法,利用深度学习3D姿态估计从单目智能手机视频提取运动生物标志物,在实验室验证中与光学运动捕捉高度一致(r>0.85),并在纤维肌痛和慢性坐骨神经痛患者中展示了可靠性和纵向监测能力。
次表面散射的神经获取与表示
发表机构 * University of Tübingen(图宾根大学)
AI总结 提出一种通过U-Net CNN学习物体表面每个点的像素足迹响应来获取和估计高细节层次次表面散射特性的方法,实现任意高分辨率投影图案的重光照。
Comments 8 pages
临床视觉-语言模型中的跨模态链接风险
发表机构 * Lab for AI in Medicine(医学人工智能实验室) ; RWTH Aachen University(亚琛工业大学) ; Department of Diagnostic and Interventional Radiology(诊断与介入放射学部门)
AI总结 研究临床视觉-语言模型(VLM)在图像与报告分离场景下通过余弦相似度实现跨模态重链接的风险,并采用仅对投影头进行差分隐私微调的方法在保持图像效用同时显著降低重链接率。
用于驾驶员监控系统的视觉语言模型:一个驾驶员活动描述数据集
发表机构 * Fraunhofer IOSB(弗劳恩霍夫智能系统研究所) ; Technische Hochschule Ingolstadt(图林根工业大学) ; Karlsruhe Institute of Technology (KIT)(卡尔斯鲁厄理工学院)
AI总结 本文通过创建Drive&Act数据集的详细自然语言版本,评估并微调视觉语言模型,以提升对驾驶员细微动作的识别能力,微调后的模型在跨数据集评估中表现更优。
Comments Accepted at IEEE ITSC 2026
从外在到内在:面向3D几何数据的测地线引导表示学习
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出PRISM预训练范式,通过恢复内在表面测地线度量学习等距嵌入,解决3D表示学习中外在空间与内在拓扑的脱节问题,在测地距离预测及下游任务中表现优异。
噪声与双边滤波的组合在CNN中实现超线性且可扩展的对抗鲁棒性
发表机构 * Institute of Neuroinformatics ETH Zürich, University of Zürich(神经信息学研究所,苏黎世联邦理工学院,苏黎世大学)
AI总结 本文提出结合高斯噪声和双边滤波的预处理方法,通过互补机制实现超线性对抗鲁棒性提升,并验证其与对抗训练结合后能以更低计算成本达到与最先进防御相当的性能。
Comments Main: 8 pages, 3 figures, 2 Tables. Supplement: 10 pages, 7 figures, 6 Tables
Ego-METAS:面向自我中心的在线多模态节能时间动作分割基准
发表机构 * University of Zaragoza - I3A(萨拉戈塔大学 - I3A) ; Department of Mathematics and Computer Science, University of Catania(卡塔尼亚大学数学与计算机科学系)
AI总结 为解决资源受限设备上的能耗感知问题,提出了首个自我中心在线多模态节能时间动作分割基准Ego-METAS,包含超过100小时未裁剪视频和5种模态,要求模型动态选择传感器并遵守能量预算,评估显示最优路由高度依赖场景,现有方法难以适应连续环境。
Comments Project Page: https://maria-sanvil.github.io/Ego-METAS-website/
解决基于图像和基于文本的行人重识别之间的优化冲突
发表机构 * Tevian, Russia(俄罗斯Tevian) ; Lomonosov Moscow State University, Russia(俄罗斯罗蒙诺索夫莫斯科国立大学)
AI总结 针对图像与文本行人重识别任务因模态差异和目标冲突导致共享表示次优的问题,提出解耦两阶段训练流程,使用单一视觉编码器避免跨任务干扰,实验表明图像预训练和文本监督能提升双任务性能。
贝叶斯元学习用于阿尔茨海默病进展建模
发表机构 * Scientific Computing Center, Karlsruhe Institute of Technology, Germany(卡尔斯鲁厄理工学院科学计算中心,德国) ; Alzheimer’s Disease Neuroimaging Initiative(阿尔茨海默病神经影像计划)
AI总结 提出贝叶斯元学习方法,利用个体历史MRI体积和疾病轨迹预测疾病评分分布,无需重新训练即可动态预测,并减少长期预测的过度自信。
CORE-MTL: 通过因果正交表示重新思考梯度平衡
发表机构 * Tsinghua University(清华大学)
AI总结 提出CORE-MTL框架,通过因果正交表示将共享表示分解为语义流和残差流,以分离任务相关结构与虚假上下文,从而减少负迁移并提升泛化能力。
Comments Accepted by ICML 2026
对称感知的9D姿态估计:Sim(3)一致特征与球形Inception卷积
发表机构 * National Engineering Research Center for Robot Visual Perception and Control, School of Robotics and Artificial Intelligence, Hunan University(机器人视觉感知与控制国家工程研究中心,机器人与人工智能学院,湖南大学) ; Beijing Spacecrafts, China Academy of Space Technology(北京航天器,中国航天科技研究院) ; School of Computing and Information Systems, The University of Melbourne(计算与信息学院,墨尔本大学)
AI总结 提出一种类别级物体姿态估计方法,通过语义引导的对称感知模块和球形大核Inception卷积融合特征,实现无形状先验的精确平移/尺寸估计和鲁棒旋转估计,在基准和真实场景中达到最优性能。
Comments 12 pages, 7 figures
混沌中的秩序:捕捉AI操纵图像伪造定位的内在能量异常
发表机构 * Zhejiang University(浙江大学)
AI总结 本文提出FLAME框架,利用扩散过程抑制局部高频方差产生的统计能量间隙,结合LAD图和SAM适配器实现像素级伪造定位,并引入EditStream流水线持续合成训练数据,在AI生成伪造数据集上达到最先进性能。
Comments Accepted by ICML 2026
缩小联邦原型学习中的对齐-成熟度差距
发表机构 * CITIC, Universidade da Coruña(CITIC,科鲁纳大学)
AI总结 针对联邦学习中原型对齐压力抑制局部判别结构的问题,提出FedSAP框架,通过确定性对齐课程和几何驱动代理分离损失稳定表征学习,在多种异质性条件下提升分类性能。
InsightVQA: 高维情感认知视觉问答基准
发表机构 * East China Normal University(东华师范大学)
AI总结 为解决现有基准仅关注情感识别而缺乏深层认知推理的问题,提出大规模层次化视觉问答数据集InsightVQA,包含725K问答对,并构建评估基准InsightVQA-Bench和基线模型InsightNet。
Comments 16 pages, 22 figures
基于解耦的等变学习用于组合式VQA
发表机构 * IEEE Publication Technology Group(IEEE出版技术组) ; School of Computing and Artificial Intelligence, Southwest Jiaotong University(计算机与人工智能学院,西南交通大学) ; Engineering Research Center of Sustainable Urban Intelligence Transportation, Ministry of Education, China(可持续智慧城市交通工程研究中心,中华人民共和国教育部) ; State Key Laboratory of Multimodal Artificial Intelligence Systems (MAIS), Institute of Automation, Chinese Academy of Sciences(多模态人工智能系统(MAIS)国家重点实验室,自动化研究所,中国科学院) ; School of Artificial Intelligence, University of Chinese Academy of Sciences(人工智能学院,中国科学院大学)
AI总结 提出DEAL框架,通过因果干预解耦视觉和文本概念,并利用等变约束增强组合推理能力,在CLEVR-CoGenT和GQA-SGL上超越现有方法。
Comments Accepted by IEEE Transactions on Multimedia
视觉丰富文档类型分类的多模态方法:一项比较分析
AI总结 针对视觉丰富文档类型分类中多模态建模策略难以系统比较的问题,本文在统一实验框架下对基于Transformer和LLM的四种代表性模型进行受控对比,发现专用多模态Transformer优于LLM方法,且图像信息贡献最大。
InfoMerge: 信息感知的令牌压缩用于高效视频大语言模型
发表机构 * State Key Laboratory of Novel Software Technology(新型软件技术国家重点实验室)
AI总结 提出InfoMerge,一种无需训练的视觉令牌压缩方法,通过鲁棒冗余估计和内容感知预算分配,在减少85%视觉令牌的同时保持98.8%性能,实现4.24倍预填充加速。
Comments 15 pages, 8 figures
基于术前肠道血供映射预测结直肠吻合口漏风险
发表机构 * Computer Science Department, Københavns Universitet (KU)(哥本哈根大学计算机科学系) ; University of Southern Denmark(南部丹麦大学) ; Odense University Hospital(奥登塞大学医院) ; OpenSourceResearch Collaboration(开源研究协作)
AI总结 提出一种基于术前CT影像的AI驱动系统,通过分析血管和组织特征量化吻合口漏风险,并结合内容检索支持临床决策。
超扩散姿态估计器:基于扩散的从稀疏惯性传感器和测距传感器间距离的人体运动跟踪
发表机构 * Department of Computer Science, ETH Zurich(苏黎世联邦理工学院计算机科学系)
AI总结 提出Ultra Diffusion Poser扩散模型,通过显式建模UWB测距的几何约束(空间布局模块解析重建传感器位置)和引入UWB扩散引导,在扩散采样中强制预测姿态与实测距离对齐,将关节位置误差降低22%。
Comments CVPR 2026 - Computer Vision and Pattern Recognition
重新思考基于IBP的认证训练中的评估范式
发表机构 * University of Freiburg(弗赖堡大学) ; ETH Zurich(苏黎世联邦理工学院)
AI总结 针对认证训练中自然精度与认证精度的权衡问题,提出基于Pareto前沿的多目标超参数优化方法,实现公平的方法间比较,并发现先前配置的欠调优现象,建立新的最优性能。
Comments Accepted to ICML 2026
均衡扩散:面向均衡图像定制的频率感知文本嵌入
发表机构 * Westlake University(西湖大学) ; Zhejiang University(浙江大学)
AI总结 提出均衡扩散方法,通过频率空间分解概念特征并独立优化嵌入,实现风格与主体解耦,提升定制图像的保真度和文本对齐。
理解增强的模型协作用于长尾自我中心错误检测
发表机构 * State Key Laboratory of AI Safety, Institute of Computing Technology, CAS(人工智能安全国家重点实验室,计算技术研究所,中国科学院) ; School of Computer Science and Tech., University of Chinese Academy of Sciences(中国科学院大学计算机科学与技术学院) ; Beijing Academy of Artificial Intelligence(北京人工智能研究院) ; Institute of Information Engineering, CAS(信息工程研究所,中国科学院) ; School of Cyber Security, University of Chinese Academy of Sciences(中国科学院大学网络安全学院)
AI总结 提出理解增强的模型协作方法(UE-MCM),结合粗粒度视频理解与细粒度动作推理,通过双分支模型和自适应融合门检测自我中心视频中的错误,并优化长尾分布。
使用多片段视频破解多模态大语言模型
发表机构 * Department of Applied Artificial Intelligence, Sungkyunkwan University(应用人工智能系,成均馆大学) ; Department of Human-Artificial Intelligence Interaction, Sungkyunkwan University(人机交互系,成均馆大学)
AI总结 提出MCV SafetyBench数据集,通过多片段视频评估多模态大语言模型的安全漏洞,发现视频模态比图像更脆弱,动态和多样化上下文增加攻击成功率,并基于图像模态的鲁棒性提出防御策略。
Comments 27 pages, 20 figures, Accepted to the Main Conference of ACL 2026
多模态动作扩散用于鲁棒的端到端自动驾驶
发表机构 * Computer Vision Center (CVC)(计算机视觉中心) ; Universitat Autònoma de Barcelona (UAB)(巴塞罗那自治大学)
AI总结 提出动作扩散变换器(ADT),通过多模态动作建模和最近邻匹配,在闭环Bench2Drive基准上超越先前最优方法,同时延迟降低十倍。
Comments Preprint. June 1st, 2026. Corresponding author: Jorge Daniel Rodríguez-Vidal
WebSpline:面向单目视频实时三维高斯的结构化样条
发表机构 * KAIST(韩国科学技术院)
AI总结 提出WebSpline框架,利用结构信息样条(SIS)表示和结构代理图(SPG),实现从单目视频中实时、高保真、结构连贯的动态三维高斯重建。
Comments The first two authors contributed equally to this work (equal contribution). Please visit our project page at https://kaist-viclab.github.io/webspline-site/
LALE:用于土地覆盖估计的轻量级Transformer架构
发表机构 * Middle East Technical University(中亚技术大学)
AI总结 提出LALE架构,通过分辨率分支编码器(轻量级ConvMixer处理高分辨率局部特征,Transformer处理低分辨率全局上下文)和全MLP多尺度解码器,在遥感图像分割中实现高效性能与计算成本的平衡。
Agentic-J:用于生物显微镜图像分析的AI智能体
AI总结 提出基于容器的多智能体AI助手Agentic-J,通过自然语言接口集成ImageJ/Fiji工具,实现从细胞分割到多条件量化的可追溯、可复现生物图像分析工作流。
Comments Presented at Cell Biology at Scale 2026 (Poster). The Agentic-J project is available at https://mmv-lab.github.io/Agentic-J/
FACT:一种简单高效的主动微调框架
发表机构 * Zhejiang (No. 2024C01020)(浙江(No. 2024C01020)) ; National Natural Science Foundation of China (No. 62302031)(中国国家自然科学基金委员会(No. 62302031)) ; Zhejiang Provincial Natural Science Foundation of China (Nos. LQ23F020024 and LZJMZ24D050009)(中国浙江省自然科学基金委员会(Nos. LQ23F020024 and LZJMZ24D050009))
AI总结 针对主动微调中全量微调导致预训练特征失真和过拟合的问题,提出FACT三层分层微调框架,通过冻结特征增强和参数高效微调,在多种数据集和架构上显著提升性能,尤其在低采样率下实现超过20%的增益。
Comments ACCEPTED for publication as a REGULAR paper in the IEEE Transactions on Image Processing (T-IP)
基于可微多平面图像的快速轻量级新视角合成
发表机构 * Universiti Malaya(马来大学) ; Wuhan University(武汉大学)
AI总结 针对现有方法在速度、模型大小和稀疏视角下的不足,提出基于可微多平面图像(MPI)的快速轻量级新视角合成方法,利用点图进行几何初始化并引入一步扩散处理空洞和伪影。
TIDES:基于可变形重建的时间导数事件模拟
发表机构 * University of Surrey(萨里大学)
AI总结 提出TIDES,一种基于动态高斯泼溅的连续时间事件模拟器,通过显式3D场景表示推导逐像素强度动态,实现精确的阈值交叉预测,并利用遮挡引导自适应时间步长,达到最先进的事件流保真度。
动态酪蛋白凝胶化显微图像拓扑纹理分析及其与流变学性质的关系
发表机构 * Department of Computer Science, University of Copenhagen, Denmark(哥本哈根大学计算机科学系) ; Department of Green Technology, University of Southern Denmark, Denmark(南丹麦大学绿色技术系) ; Department of Food Science, University of Copenhagen, Denmark(哥本哈根大学食品科学系)
AI总结 提出结合拓扑数据分析、差分盒计数、多重分形分割和局部二值模式的工具箱,分析STED显微图像中酪蛋白凝胶化的拓扑与纹理特征,揭示与流变学性质相关的微观结构转变。
通过正交LoRA库保持正态性的持续工业异常检测
发表机构 * Yisu University(Yorkshire University)
AI总结 提出基于历史冻结正交LoRA库和分层新颖性自适应库增长模块的框架,解决扩散模型在持续工业异常检测中的历史正态先验漂移和灾难性遗忘问题。
Comments 33 pages,6 figures,Submitted to Advanced Engineering Informatics
排名 vs. 分配:多视角目标关联中的度量不匹配
发表机构 * Tevian Moscow(莫斯科Tevian) ; Lomonosov Moscow State University(莫斯科国立罗蒙诺索夫大学)
AI总结 本文揭示了多视角目标关联中常用的排名度量(如AP、FPR-95)与分配目标之间的根本性不匹配,并提出了基于Sinkhorn归一化的后处理方法以缓解该问题。
PerBite: 一种用于咬合感知食物体积估计的精选诊断工作流
发表机构 * University of Barcelona(巴塞罗那大学) ; LogMeal ; Universitat Pompeu Fabra(庞培法布拉大学)
AI总结 提出PerBite工作流,通过分割、三维重建、尺度校准和网格后处理等步骤,从餐前餐后状态估计食物体积,在MetaFood挑战中排名第一。
面向盲图像质量评估的统计与视觉-语言特征的失真感知融合
发表机构 * Northwestern Polytechnical University(西北工业大学)
AI总结 提出一种失真感知融合框架,通过乘法门控机制动态加权NSS统计特征与VLM嵌入,在三个基准上取得最优或竞争性能,并揭示NSS对不同失真的贡献差异。
迈向3D感知视频扩散模型:基于网格标记化的无渲染人体运动控制
发表机构 * DAMO Academy, Alibaba Group(阿里巴巴集团大模型实验室) ; Hupan Lab(虎盘实验室) ; Zhejiang University(浙江大学) ; INSAIT
AI总结 提出一种无渲染框架,通过压缩的3D人体网格标记直接条件化视频生成,实现精确的人体运动控制,减少2D引导伪影并提升3D结构建模能力。
Comments Project page: https://jingyunliang.github.io/MeshToken/
文本引导异常检测的结构化基准:当语言停止条件化决策时
发表机构 * Politecnico di Milano, AIRLab(米兰理工学院,AIRLab) ; S&H – Software & Hardware(S&H – 软件与硬件)
AI总结 提出结构化基准TGAD,通过三个场景逐步增加语言功能角色,评估多模态异常检测系统的文本引导能力,发现当前系统仅表面受语言条件化,标准基准高估了其能力。
MT-EditFlow:基于流匹配的多轮图像编辑强化学习
发表机构 * Apple(苹果公司) ; University of California, Los Angeles(加州大学洛杉矶分校) ; University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Lambda, Inc(Lambda公司)
AI总结 提出MT-EditFlow框架,通过流匹配强化学习优化多轮图像编辑的奖励信号,解决单轮编辑模型在多轮交互中的失败和误差传播问题,显著提升多轮编辑性能。
车辆再识别中的泛化极限
AI总结 针对车辆再识别任务中模型对未见车辆类型泛化能力差的问题,提出了一种新的评估方法,并通过视角分割分析揭示了现有方法在视角鲁棒性和细节关注上的局限性。
开放集测试时自适应中分布内与分布外准确率的深入分析
发表机构 * University of British Columbia and Vector Institute(不列颠哥伦比亚大学和向量研究所)
AI总结 本文通过基准测试和提出新基线,揭示了当前开放集测试时自适应方法在平衡分布内准确率和分布外检测能力上的不足。
Comments TMLR 2026
WALL-WM:在事件关节处雕刻世界动作建模
发表机构 * X Square Robot Team(X Square机器人团队)
AI总结 提出WALL-WM世界动作模型,通过事件级视觉-语言-动作预训练解决固定长度动作块与语言、视觉、动作之间的粒度不匹配问题,实现跨语言、场景和任务的泛化,在大规模真实世界评估中达到最先进性能。
面向刚性物体的学习动作条件与对象中心高斯溅射世界模型
发表机构 * Intelligent Perception in Technical Systems Group(技术系统智能感知组)
AI总结 提出MRO-GWM模型,通过对象中心高斯表示和时空变换器架构,学习刚性物体在3D中的动作条件动力学,支持多物体场景和部分观测下的未来运动预测。
大型预训练模型在实例分割任务中的参数高效微调
发表机构 * University of Freiburg(弗赖堡大学)
AI总结 本研究针对实例分割任务,探索了适配器和低秩适应(LoRA)两种参数高效微调方法,在仅微调约1-6%参数的情况下取得竞争性能,并发现每个Transformer块使用2-3个适配器可达到性能与效率的最佳平衡。
Comments Published by the Machine Learning and Knowledge Extraction Journal
超越低秩:通过脉冲神经网络和提示分解实现低秩稀疏提示
发表机构 * Information Materials and Intelligent Sensing Laboratory of Anhui Province(安徽省信息材料与智能感知实验室) ; Anhui Provincial Key Laboratory of Multimodal Cognitive Computation(安徽省多模态认知计算重点实验室) ; School of Computer Science and Technology, Anhui University(安徽大学计算机科学与技术学院)
AI总结 提出LoRSP框架,利用脉冲神经元的稀疏发放机制和低秩分解,生成实例特定的稀疏视觉提示,实现高效且鲁棒的视觉提示学习。
SCAPO: 从单次3D观测中自监督学习类别级关节物体姿态估计
发表机构 * Department of Computer Science, National University of Singapore(新加坡国立大学计算机科学系)
AI总结 提出SCAPO框架,通过自监督方式从单张RGB-D图像中估计关节物体的规范几何、刚性部件分割和关节参数,无需真实标签或类别特定模型。
SAVMap: 基于结构辅助的全景视频大规模2.5D曼哈顿线框视觉映射
发表机构 * Nokia Bell Labs(诺基亚贝尔实验室) ; NYU(纽约大学)
AI总结 提出SAVMap方法,利用全景视频和语义分割网络,结合曼哈顿网格几何约束,从仓库场景生成语义线框地图,实现高精度大规模3D重建。
Comments IEEE ICRA 2026
CVPR 2026 CASTLE挑战赛第三名:基于层次化知识图谱检索的智能多视角长视频理解
发表机构 * TAHAKOM(塔哈科姆)
AI总结 提出一种免训练的智能框架,通过视频知识图谱和层次化检索索引,解决大规模多视角视频中的复杂时空推理问题,在CASTLE挑战赛中获得第三名。
Pool-Select-Refine: 基于软标签引导潜在精化的分配感知生成式数据集蒸馏
发表机构 * Graduate School of Engineering, University of Fukui(福井大学工学研究科) ; College of Computer Science and Artificial Intelligence, Southwest Minzu University(西南民族大学计算机科学与人工智能学院)
AI总结 提出Pool-Select-Refine两阶段框架,通过过完备候选池选择与软标签引导潜在精化解耦生成、选择和精化,提升扩散模型数据集蒸馏的预算利用效率。
多模态大语言模型空间推理中空间词汇偏差的机制诊断
发表机构 * Kyoto University(京都大学) ; NII LLMC(日本国立信息与通信技术研究所语言模型中心) ; RIKEN AIP(日本理化学研究所先进理工研究所) ; Case Western Reserve University(凯斯西储大学) ; The Hong Kong Polytechnic University(香港理工大学) ; The University of Osaka(大阪大学) ; University of Tokyo(东京大学)
AI总结 本文发现多模态大语言模型存在空间词汇偏差,即添加空间关系词会吸引模型选择该选项,并通过机制可解释性工具揭示偏差主要源于语言侧而非视觉侧,最后提出轻量级LLM-only DPO更新可有效缓解偏差。
残差解码器适配器:用于自回归文本渲染的身份保持分词器适配
发表机构 * Central South University(中南大学) ; University of Oxford(牛津大学) ; Microsoft Research(微软研究院)
AI总结 提出残差解码器适配器(RDA),通过引入配对码本和平行分支学习像素空间残差,在不重新训练分词器和自回归模型的情况下显著提升文本渲染性能。
Comments CVPR 2026 poster
基于语义驱动的单线图生成
发表机构 * ETH Zurich(苏黎世联邦理工学院)
AI总结 提出一种基于语义驱动的方法,通过文本提示或输入图像自动生成矢量格式的单线图,利用分数蒸馏采样优化均匀有理B样条曲线参数,并引入额外损失项控制艺术风格,生成结果优于现有方法且支持下游制造。
Comments 18 pages, published in Computer Graphics Forum 2026
具有差分隐私的私有且稳定的测试时自适应
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出将多种测试时自适应方法转化为差分隐私形式,通过逐样本梯度裁剪和高斯噪声保护测试数据隐私,在ImageNet-C上实现隐私与精度的平衡,并发现裁剪机制能提升连续自适应的准确性和稳定性。
Comments ICML 2026
图像重建游戏:通过迭代多模态对话建立共同基础
发表机构 * Computational Linguistics, Department of Linguistics University of Potsdam(波恩大学语言学系计算语言学部) ; German Research Center for Artificial Intelligence (DFKI), Berlin(德国人工智能研究中心(DFKI)柏林)
AI总结 提出图像重建游戏基准,通过多轮迭代中视觉语言模型向图像生成器发出纠正指令,使累积的共同基础直接可视化为重建图像,发现描述器是重建质量的主导因素,而生成器决定迭代改进的效果。
训练、测试、重新评估:用于手部检测的生成数据的调度敏感评估
发表机构 * Federal Institute for Occupational Safety and Health(联邦职业安全与卫生研究所)
AI总结 本研究通过多阶段训练调度实验,评估生成性图像修补数据对安全关键场景下手部检测性能的影响,发现适当的训练流程能显著提升真实部署效果。
Comments 16 pages, 4 figures
LEO星座中基于多卫星视角的协作空间目标检测
发表机构 * Government of Canada(加拿大政府) ; Natural Sciences and Engineering Research Council of Canada(加拿大自然科学和工程研究理事会)
AI总结 针对LEO星座中空间目标检测的挑战,提出基于深度学习框架的多视角观测融合方法,使用YOLO检测器处理多视角数据,实验表明多视角融合显著提升检测精度。
通过深度特征扰动对机器人定位系统的对抗攻击
发表机构 * Shandong Academy of Sciences(山东科学院) ; Fuzhou University(福州大学)
AI总结 提出一种基于轻量级乘积量化网络(LPQN)的对抗攻击框架,通过扰动查询特征编码来误导视觉定位系统中的检索过程,从而暴露深度学习定位管道的脆弱性。
Comments 11page
分而治之:用于深度伪造检测的可靠多视图证据学习
发表机构 * School of Computer Science, Wuhan University, Wuhan, China(武汉大学计算机学院) ; School of Integrated Circuits, Peking University, Beijing, China(北京大学集成电路学院) ; School of Information, Huazhong Agricultural University, Wuhan, China(华中农业大学信息学院) ; College of Cyber Security, Tarim University, Alaer, China(塔里木大学网络安全学院) ; School of Cyber Science and Engineering, Wuhan University, Wuhan, China(武汉大学网络安全与工程学院)
AI总结 提出分治多视图证据学习框架(DiCoME),通过几何视图净化解耦语义与伪影特征,并利用不确定性感知证据学习融合视图,提升深度伪造检测的泛化性和可靠性。
Comments Accepted to ICML 2026
超越单纯形:用于评分器无关的开放集识别的平衡原型几何
发表机构 * Indian Institute of Technology Jodhpur(印度理工学院乔浦尔)
AI总结 本文提出平衡等范数原型几何理论,统一分析不同嵌入维度下的开放集识别,证明评分器性能依赖于评分规则而非单纯形结构。
Comments 20 pages, 2 figures, 6 tables
深度学习从前列腺活检H&E图像生成计算PIN-4免疫组织化学染色
发表机构 * Biomedical Engineering University of California, Irvine Irvine, CA, USA(生物医学工程 卡罗来纳大学伊文城分校 伊文城,加州,美国) ; Laboratory Medicine Biomedical Engineering Electrical Engineering(实验室医学 生物医学工程 电气工程) ; Computer Science University of California, Irvine Irvine, CA, USA(计算机科学 卡罗来纳大学伊文城分校 伊文城,加州,美国)
AI总结 本研究使用条件生成对抗网络(cGAN)从H&E图像合成PIN-4 IHC染色,实现了直接的空间对应,并在病理评估中取得了良好效果。
Polaris: 将指令引导的图像生成扩展到数百万个性化风格需求
发表机构 * Tsinghua University(清华大学)
AI总结 提出Polaris智能检索框架,通过索引和检索超过6500个检查点和75000个适配器,自动选择和集成最相关的模型组件,实现无需额外训练的可扩展、可控且对齐的指令驱动图像生成。
RescueBench: 具身智能体能否在野外拯救生命?
发表机构 * Beihang University(北京航空航天大学) ; Beijing Normal University(北京师范大学) ; Peking University(北京大学) ; City University of Macau(澳门城市大学) ; ATEC2025 Challenge Committee(ATEC2025挑战委员会)
AI总结 本文提出 RescueBench,一个四阶段流水线的逼真诊断基准,用于评估具身智能体在搜索与救援任务中的探索、记忆和交互能力,并揭示探索和记忆失败如何传播。
抑制伪造特定捷径以实现可泛化的深度伪造检测
发表机构 * Hefei University of Technology(合肥工业大学) ; National University of Singapore(国立新加坡大学)
AI总结 提出Shortcut Subspace Suppression (S^3)框架,通过子空间建模显式表征并抑制方法特定捷径,以提升深度伪造检测的跨方法泛化能力。
轻量级TCN中的物理引导注意力用于高效基于WiFi CSI的人体活动识别
发表机构 * Signal Processing, Artificial Intelligence and Vision Technologies (SAIVT) Research Group, School of Electrical Engineering and Robotics, Queensland University of Technology (QUT)(信号处理、人工智能与视觉技术(SAIVT)研究组,电气工程与机器人学院,昆士兰科技大学(QUT))
AI总结 提出一种紧凑的TCN框架,通过多普勒能量引导的时间注意力和方差驱动的通道注意力机制,显式引入运动感知归纳偏置,在减少参数和计算成本的同时实现优于深度基线模型的性能。
ROGLE: 基于自动区域监督的鲁棒全局-局部对齐用于文本行人搜索
发表机构 * Zhejiang University(浙江大学)
AI总结 提出ROGLE框架,通过自动区域-句子匹配策略和多重粒度学习,解决文本行人搜索中细粒度对齐不足的问题,并在新基准P-VLG上取得最优性能。
Comments 12 pages, 5 figures
Hist2Style: 基于双边网格的直方图引导风格化
发表机构 * Adobe Nextcam ; University of California, Berkeley(加州大学伯克利分校)
AI总结 提出Hist2Style,利用双边网格实现快速、边缘感知的逼真风格迁移,通过蒸馏大模型为轻量网络,并基于直方图嵌入提供可解释的用户控制。
Comments 10 pages, 8 figures. Extended results are at https://www.dekelgalor.com/hist2style
无监督协作域自适应用于驾驶场景解析
发表机构 * College of Electronic and Information Engineering, Tongji University(同济大学电子与信息学院) ; Department of Control Science and Engineering, Harbin Institute of Technology(控制科学与工程系,哈尔滨工业大学) ; Department of Vehicle Control System and Software Development, NIO(车辆控制系统与软件开发部,蔚来汽车) ; School of Computer Science and Technology, Tongji University(计算机科学与技术学院,同济大学) ; Key Laboratory of Embedded System and Service Computing (Ministry of Education), Tongji University(嵌入式系统与服务计算重点实验室(教育部),同济大学)
AI总结 提出无监督协作域自适应框架UCDA,通过多源模型协作优化和知识蒸馏,在无源数据条件下提升目标域驾驶场景解析的鲁棒性和泛化能力。
基于电影MRI的个性化三维心肌梗死几何重建用于心脏数字孪生
发表机构 * Department of Biomedical Engineering, National University of Singapore(新加坡国立大学生物医学工程系) ; Department of Medicine, National University of Singapore(新加坡国立大学医学系) ; Department of Cardiology, National University Heart Centre Singapore(新加坡国立心脏中心心内科部)
AI总结 提出一种显式几何-运动嵌入模型,从多视角电影MRI中全自动重建个性化、可仿真的三维心肌梗死几何结构,采用双分支自适应融合和AHA-17引导的多尺度监督,实现无对比剂梗死表征。
Comments 14 pages
STaR-KV: 面向GUI视觉语言模型的时空自适应KV缓存压缩重加权方法
发表机构 * EPIC Lab, SJTU(上海交通大学EPIC实验室) ; HKUST (GZ)(香港科技大学(广州)) ; The University of Sydney(悉尼大学) ; UESTC(电子科技大学) ; ZJU(浙江大学)
AI总结 提出STaR-KV,一种无需训练的KV缓存压缩框架,通过子空间感知评分、时间稳定性折扣和熵驱动温度三个维度自适应校准令牌重要性,在GUI任务中实现高精度和近40%的峰值GPU内存节省。
PlatonicNav: 在导航中揭示柏拉图式拓扑地图的语义对应
发表机构 * USYD(新南威尔士大学) ; Maincode ; UNSW(新南威尔士大学) ; La Trobe(拉特罗布大学)
AI总结 提出PlatonicNav框架,通过自监督视觉编码器构建柏拉图式拓扑地图,无需跨模态训练即可统一视觉目标导航、跨模态目标导航和视觉语言导航任务。
PillarDETR:基于YOLO骨干和RT-DETR头的实时3D目标检测
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出PillarDETR架构,结合YOLOv8的CSP骨干和RT-DETR解码器,实现无需NMS的端到端实时3D目标检测,在KITTI和nuScenes上取得精度与速度的良好平衡。
Comments 6 pages, 1 figures, 8 tables
EvoCut:面向高效大型视觉语言模型的多层演化感知视觉标记压缩
发表机构 * Harbin Institute of Technology(哈尔滨工业大学) ; Xiaohongshu(小红书) ; Fudan University(复旦大学)
AI总结 提出一种无需训练和注意力的视觉标记压缩方法EvoCut,通过分析多层演化偏差估计标记重要性,在LLaVA-1.5-7B上仅保留11.1%的视觉标记即可保持94.4%的平均性能。
Comments Preprint. 12 pages, 6 figures, 7 tables
质量引导的半监督学习用于医学图像分割
发表机构 * School of Computing Science, Simon Fraser University, Canada(Simon Fraser大学计算机科学学院)
AI总结 提出一种质量引导的半监督学习框架,通过专用网络估计分割质量,并利用质量感知正则化和伪标签重加权提升医学图像分割性能。
Comments Early Accept at MICCAI 2026, 13 pages, 2 figures
敏感性是一把双刃剑:判别性与对抗鲁棒性之间的权衡
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文发现全连接分类器的高敏感性带来判别性但也导致脆弱性,而ℓ2距离分类器的不敏感性带来鲁棒性但限制性能,为此提出基于混合原型混合框架的ℓ2重分类器,通过融合稳定原型和动态原型实现判别性与鲁棒性的平衡,并设计混合替代攻击评估协议。
Comments 13 pages including reference, 4 figures
FlatVPR: 用于基础模型特征流形几何校正的即插即用地线性残差适配器
发表机构 * Fundamental Engineering for Knowledge-Based Society, Graduate School of Engineering, University of Fukui(知识社会基础工程,工程研究生院,福井大学)
AI总结 提出FlatVPR范式,通过可学习残差适配器和Pullback Flatness Loss抑制特征流形曲率,实现稀疏锚点下的线性插值重建,在NCLT数据集上显著提升视觉位置识别精度。
Comments 5 pages, 1 figure, technical report
零样本VLM中虚假相关性的密度感知转换
发表机构 * School of Computing and Information Systems, The University of Melbourne, Victoria, Australia(计算与信息系统学院,墨尔本大学,维多利亚,澳大利亚)
AI总结 提出密度感知转换(DAT)方法,利用局部几何密度项修正图像-文本相似度,以缓解CLIP等视觉语言模型在零样本分类中因虚假相关性导致的性能下降。
Comments ICML 2026
JenBridge: 跨场景转换的自适应长视频配乐
发表机构 * Jen Music AI
AI总结 提出JenBridge框架,通过基于Transformer的生成模型、双文本-视觉条件对齐和LLM代理驱动的自适应过渡机制,实现长视频配乐的高保真生成与场景转换自然连贯。
时空相关性引导的几何划分用于多功能视频编码
发表机构 * Institute of Digital Media, Department of Electronics Engineering and Computer Science, Peking University(数字媒体研究所,电子工程与计算机科学系,北京大学) ; Information Technology R&D Innovation Center of Peking University(北京大学信息科技研发创新中心) ; Peng Cheng Laboratory(鹏城实验室) ; School of Computer Science and Technology, University of Chinese Academy of Sciences(中国科学院大学计算机科学与技术学院)
AI总结 针对VVC中几何划分开销大的问题,提出时空相关性引导的几何划分(STGEO)方案,通过模式预测和运动候选选择减少边信息比特,提升编码效率。
MixerSENet: 一种用于高效高光谱图像分类的轻量级框架
发表机构 * College of Engineering and IT, University of Dubai(迪拜大学工程与信息技术学院) ; Department of Computer Science and Engineering, Alipurduar Government Engineering and Management College(阿利普杜尔政府工程与管理学院计算机科学与工程系) ; Department of Geography, Simon Fraser University(西蒙·弗雷泽大学地理系)
AI总结 提出轻量级框架MixerSENet,通过解耦空间与通道维度混合并引入挤压激励模块,在保持低参数量的同时实现高光谱图像分类的高精度与高效率。
Comments Accepted and Published in IEEE Geoscience and Remote Sensing Letters (GRSL)
通过半监督超图概念瓶颈模型实现标签高效的医学图像可解释诊断
发表机构 * HKUST(GZ)(香港科技大学(广州)) ; Joy Future Academy(未来正义学院) ; MBZUAI(穆罕默德·本·拉希德智能研究院) ; Tsinghua University(清华大学) ; Sichuan University(四川大学) ; PolyU
AI总结 提出一种半监督超图概念瓶颈模型,利用双层超图学习建模高阶概念依赖并生成领域自适应伪标签,在胎盘植入谱系等医学图像诊断中实现高可解释性和性能。
通过场景级一致性理解热视频中的身份连续性
发表机构 * Department of Electrical and Computer Engineering, Information Processing Lab, University of Washington, USA(电气与计算机工程系,信息处理实验室,华盛顿大学,美国)
AI总结 针对热行人多目标跟踪中身份碎片化问题,提出轻量级后处理方法,通过在线短间隙重映射和离线轨迹重链接恢复身份连续性,在PBVS热行人MOT基准上提升IDF1。
Comments Accepted to CVPR 2026 Workshop on SVC. Published in CVPR Workshops proceedings
RPCASSM: 基于鲁棒主成分分析的状态空间模型用于红外小目标检测
发表机构 * College of Computer Science and Technology, Jilin University(吉林大学计算机科学与技术学院) ; Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University(教育部符号计算与知识工程重点实验室) ; College of Software, Jilin University(吉林大学软件学院) ; School of Geosciences, Yangtze University(长江大学地球科学学院) ; College of Communication Engineering, Jilin University(吉林大学通信工程学院)
AI总结 针对红外小目标检测中主流状态空间模型难以准确建模目标边缘的问题,提出基于鲁棒主成分分析(RPCA)的RPCASSM网络,通过设计背景状态空间模块(BSSM)和目标状态空间模块(TSSM)分别利用空间异质信号显著性和目标稀疏局部高亮特性进行状态空间建模,有效解决了边缘建模难题。
Comments 12 pages, 8 figures, under review
物理感知线性化ADMM及其展开
发表机构 * Japan Society for the Promotion of Science (JST), CRONOS(日本学术振兴会(JST)、CRONOS)
AI总结 针对基于PDE测量过程的逆问题,提出物理感知线性化ADMM算法,通过子问题线性化实现高效更新,并利用深度展开训练内部参数,在光纤通信压缩感知和噪声各向异性扩散图像恢复中验证有效性。
Comments 5 pages, 3 figures
通过几何对齐恢复文本到图像蒸馏中的初始噪声敏感性
发表机构 * Huazhong University of Science and Technology(华中科技大学)
AI总结 提出几何感知蒸馏(GAD)框架,通过匹配雅可比-向量积来对齐教师和学生模型的局部功能行为,从而恢复文本到图像蒸馏中丢失的初始噪声敏感性,提升下游噪声驱动控制任务的性能。
Comments ICML 2026
手语生成中的条件坍塌:诊断与缩放论证
发表机构 * George Mason University(乔治·马歇尔大学)
AI总结 本文通过提出三个独立评估层级(初始姿态条件、输出多样性、目标忠实度)并利用冻结运动自编码器的潜在表示计算成对距离比,诊断手语生成模型中的条件坍塌问题,并论证句子级配对数据集规模是瓶颈。
面向多功能视频编码的边缘导向几何划分
AI总结 针对VVC标准,提出基于时空边缘信息构建最可能模式列表的几何划分模式预测策略,以降低索引开销并提升编码效率,平均BD-rate增益0.58%-1.00%。
Comments This paper has been published in IEEE ICME
CanonCGT:基于参考的颜色分级通过规范枢轴表示
发表机构 * Korea University(韩国大学) ; The Catholic University of Korea(韩国天主教大学)
AI总结 提出一种基于规范枢轴的两阶段框架CanonCGT,通过去除内在色调偏差并匹配参考风格,实现稳定、真实的颜色分级。
Comments CVPR 2026 accepted
Pave-GRPO:通过原则性平均速度分解超越瞬时引导
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Shanghai Jiao Tong University(上海交通大学) ; Fudan University(复旦大学) ; Harbin Institute of Technology(哈尔滨工业大学) ; Beihang University(北京航空航天大学) ; Shanghai AI Laboratory(上海人工智能实验室)
AI总结 提出Pave-GRPO方法,通过原则性平均速度分解将粗粒度过渡分解为细粒度子轨迹,在不增加生成成本的情况下将奖励反馈传播到更多中间步骤,实现更全面的偏好对齐。
Comments 8 pages,5 figures
基于参考引导深度压缩VAE的流式说话人肖像视频实时生成
发表机构 * Microsoft Research(微软研究院) ; Microsoft AI(微软人工智能)
AI总结 提出一种结合因果视频VAE和自回归潜在去噪模型的流式说话人肖像视频生成框架,通过参考图像引导实现实时高质量生成。
Comments CVPR 2026 (Highlight) Camera ready
图灵模式用于多媒体:反应-扩散多模态融合用于语言引导的视频时刻检索
发表机构 * Nanyang Technological University(南洋理工大学) ; National University of Singapore(新加坡国立大学)
AI总结 提出基于反应-扩散过程的多模态融合框架RDMF,通过模拟生物模式形成机制实现视频与文本的动态对齐,用于视频时刻检索与高亮检测。
Comments Published in ACM MM 2025. Address some typos
LVLMs中的自改进小目标定位
发表机构 * University of Georgia(佐治亚大学)
AI总结 利用LVLMs内部注意力模式,通过轻量级IoU回归器或无需训练的注意力熵选择器,从多个候选框中选出最佳框,实现小目标定位的自改进。
Comments 29 Pages, 15 Figures
利用语义和像素表示进行超低比特率图像压缩
发表机构 * National Key Laboratory of Human-Machine Hybrid Augmented Intelligence, Institute of Artificial Intelligence and Robotics, Xi’an Jiaotong University(人机混合增强智能国家重点实验室,人工智能与机器人研究院,西安交通大学) ; School of Information and Telecommunication, Xi’an Jiaotong University(信息与电信学院,西安交通大学) ; Department of Computer Science and Software Engineering, The University of Western Australia(计算机科学与软件工程系,西澳大学)
AI总结 提出SPRDiff扩散压缩方法,通过三重编码器架构和失真感知重建模块,在超低比特率下同时保持语义一致性和像素级保真度,实现率-失真-感知权衡最优。
使用PDE模型为点云视频表示学习铺平道路
发表机构 * Department of Computer Science, Aberystwyth University(阿伯里斯يث大学计算机科学系) ; Department of Automation, Beijing National Research Center for Information Science and Technology, Tsinghua University(自动化系、北京信息科学与技术国家研究中心、清华大学) ; Department of Electrical Engineering, Surrey University(Surrey大学电子工程系)
AI总结 提出MotionPDE方法,通过将时空相关性学习建模为可解的偏微分方程(PDE),并利用对比学习结构优化,作为即插即用模块提升点云视频表示学习性能。
Comments Accepted by IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI) in 2026
EIVE: 面向检测Transformer的端到端实例特定视觉解释
发表机构 * Institute of Intelligent Information Processing, Shenzhen University(智能信息处理研究院,深圳大学) ; Guangdong Provincial Key Laboratory of Intelligent Information Processing, Shenzhen University(广东省智能信息处理重点实验室,深圳大学) ; Shenzhen Key Laboratory of Modern Communications and Information Processing, Shenzhen University(深圳现代通信与信息处理重点实验室,深圳大学)
AI总结 提出EIVE框架,通过重新公式化解码器交叉注意力为实例级特征归因路径,直接生成实例级显著性图,无需梯度计算或输入扰动,高效解释DETR类检测器。
Comments 17 pages, 11 figures
RoboTrustBench:机器人操作视频世界模型的可信度基准测试
发表机构 * Singapore Management University(新加坡国立管理学院) ; Fudan University(复旦大学) ; Princeton University(普林斯顿大学)
AI总结 针对视频世界模型在机器人操作中的可信度问题,提出RoboTrustBench基准,包含正常、约束敏感、反事实和对抗四种场景,通过专家验证的指令-图像对和六维评估协议,发现当前模型在约束推理、反事实基础、物理交互和不安全指令抑制方面存在不足。
Comments Project: https://huiqiongli.github.io/RoboTrustBench/
TLG: 通过源标注重建和类别目标推理实现视频问答的时间逻辑基础
发表机构 * The Ohio State University(俄亥俄州立大学)
AI总结 提出TLG三阶段系统,通过重建动作时间线、解析问题为时间逻辑程序并确定性执行,结合强视觉语言模型和前沿推理模型,将视频问答准确率从46.9%提升至71.37%。
面向街景新视角合成的有效多传感器条件控制
发表机构 * Stanford Univerity(斯坦福大学) ; NVIDIA
AI总结 提出StreetNVS视频扩散框架,通过参考增强相机注意力模块和相对射线级位置编码联合利用LiDAR、环视图像和相机位姿,实现稀疏LiDAR条件下的高质量街景新视角合成。
FLAME:物理引导的神经算子用于高光谱图像中星载甲烷检测
发表机构 * KAIST(韩国科学技术院)
AI总结 提出FLAME,一种将甲烷吸收物理直接嵌入架构的物理引导神经算子,在星载甲烷检测中实现最高精度,像素级假阳性率降低近3倍,参数最少且满足星载硬件延迟预算。
可变形维纳滤波器用于未来视频编码
发表机构 * National Engineering Research Center of Visual Technology, School of Computer Science, Peking University(视觉技术国家工程研究中心,北京大学计算机科学学院) ; Core Media Technology, Disney Streaming(核心媒体技术,迪士尼流媒体) ; Wangxuan Institute of Computer Technology, Peking University(王萱计算机技术研究所,北京大学) ; Information Technology R&D Innovation Center of Peking University(北京大学信息技术研发创新中心) ; Peng Cheng Laboratory, Shenzhen(鹏城实验室,深圳)
AI总结 提出一种结合局部与非局部特征的可变形维纳滤波器(DWF),通过监督训练和自适应融合实现高效环路滤波,在VVC标准上平均节省1.16%~2.67%的码率。
Comments This paper has been published in IEEE Transactions on Image Processing
PINNOCHIO: 用于正颌手术中耦合超弹性界面-体积模拟的物理信息神经网络
发表机构 * Department of Biomedical Engineering and Center for Biotechnology and Interdisciplinary Studies, Rensselaer Polytechnic Institute(生物医学工程系和生物技术与跨学科研究中心,伦塞拉尔理工学院) ; Department of Oral and Maxillofacial Surgery, Houston Methodist Research Institute(口腔颌面外科系,休斯顿方法主义研究学院) ; Department of Neurosurgery, Baylor College of Medicine(神经外科系,贝勒医学院)
AI总结 提出PINNOCHIO框架,通过混合顺序分解解耦不连续骨-软组织界面运动与连续体积超弹性变形,实现稳定训练和物理启发的模拟到真实适应策略,在40名患者队列中优于现有基线,解决了精度-效率权衡问题。
Comments This work has been submitted to MICCAI 2026
层级语义增强导航:面向视觉语言导航的最优传输与图驱动推理
发表机构 * School of Software Engineering, Huazhong University of Science and Technology(华中科技大学软件学院) ; Interdisciplinary Graduate Programme, Nanyang Technological University, Singapore(新加坡南洋理工大学交叉学科研究生项目) ; University College London(伦敦大学学院)
AI总结 提出层级语义增强导航框架,通过动态层级语义场景图、基于最优传输的拓扑规划器与图感知强化学习策略,解决连续环境中的视觉语言导航难题,实现最优性能。
Comments Published in NeurIPS 2025, address some typos
注意力引导的多模态大语言模型微调提升思维链推理能力
发表机构 * University of Virginia(弗吉尼亚大学)
AI总结 针对多模态大语言模型中思维链推理效果不佳的问题,提出注意力引导的微调目标Attentive-CoT,通过延迟答案承诺和维持视觉令牌访问来提升推理性能。
ForestMamba: 基于几何引导查询的稀疏Mamba用于3D森林点云分割
发表机构 * Nagoya University(名古屋大学) ; RIKEN Seika(日本理化学研究所Seika研究中心) ; University of California, Los Angeles(加州大学洛杉矶分校) ; University of Twente(埃因霍温理工大学) ; Ritsumeikan University(立命馆大学)
AI总结 提出ForestMamba方法,通过稀疏编码器、几何引导查询初始化和Mamba查询解码器,实现高效且结构感知的森林点云分割,在七个森林区域上优于现有方法,推理速度提升3倍,GPU内存降低2.3倍。
PathAR: 结构优先的多模态病理图像自回归合成
发表机构 * Key Laboratory of New Generation Artificial Intelligence Technology and Its Interdisciplinary Applications (Southeast University), Ministry of Education(新一代人工智能技术及其交叉应用重点实验室(东南大学),教育部) ; Centre for Innovation and Precision Eye Health, Yong Loo Lin School of Medicine, National University of Singapore(创新与精准眼健康中心,新加坡国立大学 Yong Loo Lin 医学院) ; Department of Ophthalmology, Yong Loo Lin School of Medicine, National University of Singapore(眼科学系,新加坡国立大学 Yong Loo Lin 医学院) ; Department of Biostatistics, Center for Global Health, School of Public Health, Nanjing Medical University(生物统计学系,全球健康中心,南京医科大学) ; Institute of High-Performance Computing, Agency for Science, Technology and Research(高性能计算研究所,科技研究局)
AI总结 提出PathAR,一种结构优先的自回归合成框架,通过显式分解结构与外观并使用交错自回归Transformer,实现模态标签条件下的病理图像生成,改善结构一致性和模态保真度。
Comments 12 pages, 7 figures
MotionDreamer: 面向3D绑定形状的通用骨骼运动生成
发表机构 * City University of Hong Kong(香港城市大学)
AI总结 提出基于扩散的框架MotionDreamer,通过结构-语义注入机制从2D视频生成类别无关的骨骼动画,并构建大规模动态数据集,实现跨形态的高保真运动合成。
Comments 18 pages, 7 figures
论高效统一视觉语言训练中令牌缩减的极限
发表机构 * University of Michigan(密歇根大学) ; Sony AI(索尼人工智能)
AI总结 本文通过分析层注意力分配,发现视觉理解与视觉生成在令牌冗余上存在不对称性,设计任务特定加速器,但统一训练中任务特定令牌丢弃导致协同损失,表明高效统一建模需保留共享跨任务结构。
Splatshot: 从单张非约束照片生成3D人脸头像
发表机构 * Rice University(里士大学) ; Samsung Research America(三星美国研究院)
AI总结 提出SplatShot,一种无需训练的方法,通过将3D高斯泼溅与扩散模型去噪过程耦合,从单张照片生成多视图一致的逼真3D人脸头像。
Comments 28 pages, 15 figures
感知优先:具有自一致性的前沿原生视频模型用于隐式视频问答
发表机构 * The Ohio State University(俄亥俄州立大学)
AI总结 本文通过系统实验发现隐式视频问答基准是感知受限而非推理受限,并指出提升基础模型感知能力和轻量级测试时去噪是唯一可靠手段。
SafeGen-Bench: 图像条件文本到视频生成中的安全性基准测试
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校) ; Tsinghua University(清华大学) ; Johns Hopkins University(约翰霍普金斯大学)
AI总结 针对图像条件文本到视频生成中安全文本和图像组合仍可能产生有害内容的问题,提出SafeGen-Bench基准,定义10个恶意类别并评估现有模型,发现当前模型难以避免生成恶意内容,且单模态护栏防御不足。
Comments 8 pages, 7 figures, 2 tables
UR-JEPA:均匀可整流性作为联合嵌入预测架构的正则化器
发表机构 * Spatiolyx LLC(Spatiolyx公司)
AI总结 提出UR-JEPA,通过高斯核平滑的Carleson型平方函数实现均匀n-可整流测度正则化,防止表示坍塌,在多个数据集上达到与LeJEPA相当的峰值精度但具有更低的种子方差。
DENSER:面向足球新视角合成的深度引导集成与分阶段EFA-GS重建
发表机构 * GameChanger by Dick’s Sporting Goods(Dick’s Sporting Goods 游戏变革)
AI总结 提出DENSER方法,通过深度引导集成和分阶段EFA-GS重建,结合相机高度损失加权、单目深度监督和三模型像素平均集成,提升足球场景新视角合成质量。
Comments CVPR 2026 SoccerNet Novel View Synthesis Challenge, Rank 1
Agent技能应超越文本:视觉技能的必要性
发表机构 * Peking University(北京大学) ; University of Wisconsin(威斯康星大学) ; MIT-IBM Watson AI Lab(麻省理工-IBM沃森人工智能实验室)
AI总结 针对现有技能学习方法仅存储文本经验导致视觉任务瓶颈的问题,提出多模态技能范式,结合文本逻辑与视觉支持,通过自动系统将经验转化为可复用的视觉技能,在GUI等视觉任务中显著优于纯文本技能。
PAI-Studio: 具有相机感知运动的电影级视频背景替换
发表机构 * Utopai Studios(Utopai工作室) ; Nanyang Technological University(南洋理工大学) ; University of California, Irvine(加州大学尔湾分校) ; Show Lab, National University of Singapore(新加坡国立大学Show实验室)
AI总结 提出PAI-Studio,一种基于扩散变换器的视频合成任务,通过双向注意力机制统一处理前景动态与背景参考,实现运动一致的背景生成、高保真前景重光照和身份保持。
Dr. DocBench:专家级与困难文档解析的综合基准
发表机构 * Stanford University(斯坦福大学) ; MIT(麻省理工学院) ; Carnegie Mellon University(卡内基梅隆大学) ; University of Southern California(南加州大学) ; Harvard University(哈佛大学) ; IBM Research(IBM研究院) ; University of Arizona(亚利桑那大学) ; Duke University(杜克大学) ; UC Berkeley(加州大学伯克利分校) ; LMU Munich(慕尼黑路德维希-马克西米利安大学)
AI总结 提出Dr. DocBench基准,通过基于解析器失败的采样从多语言书籍语料库中选取挑战性文档,包含52个BISAC主题领域和65k高质量标注,用于评估专家级文档解析能力。
Comments 27 pages, 13 figures, 14 tables
无需训练的一步扩散模型图像反演
发表机构 * CVC, University of Alabama in Birmingham(CVC,阿拉巴马大学伯明翰分校) ; Machine Intelligence Institute, Masdar Institute of Science and Technology(机器智能研究所,马斯达尔科技 institute) ; Jilin University(吉林大学) ; City University of Hong Kong, Department of Geography(香港城市大学地理系)
AI总结 提出一种无需训练的反演框架TFinv,通过迭代噪声对齐和后缀学习解决一步扩散模型中真实图像反演与编辑的关键挑战,实现高效编辑。
Comments Accepted to Pattern Recognition
BRo-JEPA:在潜空间中学习模算术
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; NYU Langone Health(纽约大学Langone医疗中心)
AI总结 本文提出BRo-JEPA模型,通过在潜空间中施加模10算术的循环结构,实现零样本泛化,解决了标准模型无法外推未见操作的问题。
Comments 10 pages, 14 figures
ActMVS:基于单目多视图立体的主动场景重建
发表机构 * Wangxuan Institute of Computer Technology, Peking University(北京大学王轩计算机技术研究所)
AI总结 提出ActMVS框架,通过视图因子图构建和全局深度优化,实现单目相机在线生成高质量、全局一致的密集深度图,支持机器人/UAV的主动场景重建与安全轨迹规划。
Comments ICRA 2026
AlbedoEdit: 基于反照率引导的统一实例级视频编辑
发表机构 * Max Planck Institute for Informatics(马克斯·普朗克信息研究所) ; University of California Santa Barbara(加州大学圣巴巴拉分校) ; NVIDIA Research(NVIDIA研究) ; Texas A & M University(德克萨斯A&M大学)
AI总结 提出 AlbedoEdit,一个统一框架,利用反照率图实现对象插入、移除和纹理编辑,通过微调视频基础模型,在合成数据集上训练,实现编辑内容的和谐融合与复杂视觉效果模拟。
天空中的钻石:云中的空想性动物
发表机构 * Reichman University, Israel(里奇曼大学,以色列)
AI总结 提出基于扩散模型的方法,预测人们可能在云中感知到的空想性动物,并通过生成相似形状的动物图像和变形视频辅助识别。
FreqLite:一种轻量级频率分解线性模型,具有自适应可逆归一化,用于稳健的长期时间序列预测
发表机构 * Hamdard University(哈姆达德大学)
AI总结 提出FreqLite,一种超轻量级、通道独立的频率分解线性预测器,通过可学习的无损谱滤波器进行频带分解和线性预测,并引入自适应可逆实例归一化(A-RevIN)处理非平稳性,在长期预测基准上以更少参数和计算资源超越PatchTST等模型。
Comments 26 pages, 5 figures
HOLA: 面向开放集3D识别的全息多模态对齐
发表机构 * Technion – Israel Institute of Technology(技术ion-以色列理工学院)
AI总结 提出HOLA方法,通过解耦多正例对比损失和对齐点云与多视图图像及文本描述,实现开放集3D识别中的全息多模态对齐,在长尾基准上取得最先进零样本性能。
DeblurNVS:基于几何潜在扩散的稀疏运动模糊图像新视角合成
发表机构 * School of AI for Science, Peking University Shenzhen Graduate School(人工智能科学学院,北京大学深圳研究生院) ; School of Electronic and Computer Engineering, Peking University Shenzhen Graduate School(电子与计算机工程学院,北京大学深圳研究生院)
AI总结 提出DeblurNVS框架,利用几何潜在扩散从稀疏运动模糊图像中直接合成高保真新视角,无需逐场景优化。
ResNet-34与轻量级解码器用于胎儿脑部MRI的准确高效分割
发表机构 * Department of Biomedical Physics and Technology, University of Dhaka(达卡大学生物医学物理与技术系) ; Department of Electrical Engineering, College of Engineering, Qatar University(卡塔尔大学工程学院电气工程系) ; Department of Biomedical Engineering, Jashore University of Science and Technology(贾沙尔大学科学与技术学院生物医学工程系)
AI总结 提出一种结合ResNet-34编码器和基于MLP的轻量级解码器的深度学习模型,以解决胎儿脑MRI分割中的运动伪影和强度不均匀问题,在FeTA 2021数据集上达到97.37%准确率和90.33%平均DSC。
超越视觉记忆:潜在视觉推理的机制诊断
发表机构 * Amap, Alibaba Group(阿里集团亚马通) ; Shanghai Innovation Institute(上海创新研究院)
AI总结 通过分解潜在令牌为三个可测试组件,发现边界标记和格式而非潜在槽贡献了主要性能提升,揭示了潜在视觉推理的真正机制。
知识密集型视频生成
发表机构 * Fudan University(复旦大学) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 针对文本到视频生成在事实性和实用性方面的不足,提出知识密集型视频生成(KIVI)任务,构建KIVI-Bench基准和自动评估指标,实验表明现有模型在视觉属性、操作过程和信息呈现上落后于人类。
KG-FairDiff: 知识图谱引导的提示词精炼用于人口统计公平的文本到图像生成
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Sharif University of Technology(谢赫·伊斯兰大学) ; Iran University of Science and Technology(伊朗科学技术大学)
AI总结 提出KG-FairDiff框架,通过知识图谱引导的提示词精炼,在推理时优化公平性损失,减少文本到图像生成中的性别、种族、年龄等人口统计偏差,同时保持语义保真度。
太空中的事件视觉:应用、趋势与未来方向
发表机构 * Interdisciplinary Transformation University of Austria(交叉学科转型奥地利大学) ; ETH Zurich(苏黎世联邦理工学院)
AI总结 本文综述了事件视觉传感器在太空领域的应用,通过分类四个主要领域(大气与高速观测、环境监测与变化检测、操作支持与星上处理、地理空间建模与预测分析),指出神经形态工程是解决现代遥感与可持续太空探索关键瓶颈的范式转变。
Comments Accepted at the XXIV Annual Conference on Sensors and Microsystems (AISEM) 2026
DeepIPCv3: 面向突发行人穿越避让的事件感知多模态传感器融合
发表机构 * Department of Computer Science and Electronics, Universitas Gadjah Mada(计算机科学与电子系,加雅马达大学) ; Department of Computer Science and Engineering, Toyohashi University of Technology(计算机科学与工程系,东福士大学)
AI总结 提出DeepIPCv3框架,通过Transformer交叉模态注意力融合LiDAR点云与DVS事件流,实现突发行人穿越场景下的高反应性避让,在自定义多模态数据集上达到最优轨迹与控制精度。
利用传感器内计算实现节能地球观测
发表机构 * Interdisciplinary Transformation University of Austria(跨学科转型奥地利大学) ; ETH Zurich(苏黎世联邦理工学院) ; University of Verona(威尼斯大学)
AI总结 针对卫星数据下行带宽瓶颈,提出基于TinyML和索尼IMX500传感器的传感器内计算框架,在8MB约束下达到96.68%精度和42.26 GMAC/J能效。
Comments Accepted at the XXIV Annual Conference on Sensors and Microsystems (AISEM) 2026
看向哪里:基础模型能否通过主动探索达到目标视角?
发表机构 * Zhejiang University(浙江大学)
AI总结 提出目标视角复现(TVR)任务及TVRBench基准,通过分析现有模型瓶颈并构建统一后训练框架,将9B开源模型成功率提升至50%以上。
Comments Project page: https://github.com/aim-uofa/TVRBench
GRPO-TTA:基于GRPO驱动的强化学习进行视觉语言模型的测试时视觉调优
发表机构 * School of Artificial Intelligence, Optics and Electronics (iOPEN), Northwestern Polytechnical University(人工智能、光学与电子学院(iOPEN),西北工业大学)
AI总结 提出GRPO-TTA方法,将GRPO应用于测试时适应,通过将类特定提示预测重构为组策略优化问题,并设计对齐奖励和分散奖励,在多种基准上优于现有方法。
休闲与生产力在GDP中的不同作用——基于机器学习的德国与美国比较分析
发表机构 * Achintya Ranjan(阿金蒂亚·兰詹) ; Uma Ranjan(乌玛·兰詹)
AI总结 本研究通过随机森林模型分析工作时间和全要素生产率对GDP的影响,并利用Gini重要性、SHAP图和部分依赖图揭示德国与美国社会结构差异在GDP贡献中的体现。
Comments International Conference on Emerging Techniques in Computational Intelligence 2025
幼儿自闭症谱系障碍中的种族差异分析
发表机构 * Sri Ramachandra Institute of Higher Education and Research(Sri Rajachandra高等教育部与研究机构)
AI总结 通过逻辑回归分析,研究种族、行为评分、性别和新生儿黄疸对幼儿自闭症谱系障碍(ASD)的影响,发现白种人ASD风险比亚洲人高81%,中东人低79%,并确认新生儿黄疸和男性为显著风险因素。
Comments Third International Conference Biomedical Engineering Science and technology
将神经符号程序蒸馏到3D多模态大语言模型中
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出APEIRIA,通过三阶段课程学习将符号推理模式蒸馏到3D多模态大语言模型中,实现透明推理与开放词汇空间推理的统一。
Comments To appear in ICML 2026
TECCI:收集与策划图像的棘手编辑
发表机构 * Google Research(谷歌研究) ; Google DeepMind(谷歌深Mind)
AI总结 提出TECCI基准,包含7550对图像与编辑指令,通过人工与自动评估揭示现有图像编辑模型在指令遵循、最小编辑和视觉质量方面的不足。
特征对齐决定融合策略:多模态学习中交叉注意力与拼接的比较研究
发表机构 * Hunan Chemical Industry Vocational and Technical College(湖南化学工业职业技术学院)
AI总结 通过实验和理论分析,证明特征对齐质量而非数据规模是决定多模态融合策略优劣的关键因素,当特征预对齐时拼接优于交叉注意力。
Comments 8 pages,6 figures,4 tables
PairedGTA:用于受控光度偏移分析的驾驶数据集生成
发表机构 * Scuola Superiore Sant’Anna(圣安娜高等学院) ; Department of Excellence in Robotics & AI(机器人与人工智能卓越部门) ; University of Pisa(比萨大学)
AI总结 提出基于高保真游戏引擎的PairedGTA框架,通过生成完美配对的图像,实现独立于几何和语义变化的光度偏移分析,并用于评估语义分割模型在恶劣条件下的性能退化。
Comments Under review
复用融合时频谱可靠性用于RGB-红外目标检测的自适应融合与专家路由
发表机构 * Tsinghua University(清华大学)
AI总结 提出一种无参数的7维频谱可靠性描述符,通过频谱可靠性融合和可靠性条件专家路由,提升RGB-红外目标检测在退化条件下的性能。
迈向交互式视频世界建模:前沿、挑战、基准与未来趋势
发表机构 * Department of Engineering, University of Cambridge, U.K.(剑桥大学工程系) ; Peking University(北京大学) ; University of Twente(埃因霍温理工大学) ; Mechanical Systems Control Laboratory, University of California, Berkeley, USA(加州大学伯克利分校机械系统控制实验室) ; ETH Zurich(苏黎世联邦理工学院) ; Microsoft(微软公司) ; University of Oxford(牛津大学)
AI总结 本文系统综述了交互式世界建模的研究趋势、技术挑战、评估基准,并提出了未来方向,重点在于动作条件可控性、长程交互与记忆以及实时响应性。
Comments Under review. The GitHub repository is publicly available at: https://github.com/liujiuming123/Awesome-Interactive-World-Model
HiTokSR: 一种用于高保真真实世界图像超分辨率的具有层次化码本的从粗到细分词器
AI总结 提出HiTokSR层次化标记预测框架,通过将潜在空间沿通道维度划分为频率感知组并独立量化,解耦全局结构与细节,结合视觉基础模型先验和索引级扰动策略,实现真实世界图像超分辨率的最优感知质量和重建保真度。
CoSTL:面向时刻检索与高亮检测的综合时空表征学习
发表机构 * Shenzhen International Graduate School, Tsinghua University(清华大学深圳国际研究生院) ; Pengcheng Laboratory(鹏城实验室)
AI总结 提出综合时空表征学习框架CoSTL,通过文本驱动的渐进细粒度图像编码器和多尺度时间感知模块,联合学习空间细节与时间动态,在时刻检索和高亮检测任务上达到最优性能。
Comments 14 pages, 3 figures
HakushoBench:来自政府白皮书的日语图表VQA基准
发表机构 * Institute of Science Tokyo(东京科学研究所) ; NII(日本学术振兴会) ; NII LLMC(日本学术振兴会LLMC)
AI总结 利用政府白皮书构建日语图表VQA基准HakushoBench,包含2053张图像和人工标注问答对,评估视觉语言模型对图表的深度理解。
Comments 16 pages, 17 figures
STARFISH: 从内部状态修复中实现剪枝网络的快速精度恢复
发表机构 * Weizmann Institute of Science(魏茨曼科学研究所)
AI总结 提出STARFISH方法,通过少量无标签校准集优化剪枝网络与原始网络内部状态对齐,高效恢复精度,在ViT网络上优于现有方法。
面向无人机影像中运动鲁棒作物分割的秩感知分位数激活
发表机构 * Senior Member, IEEE(IEEE高级会员)
AI总结 针对高速无人机影像中的运动模糊导致语义分割退化的问题,提出秩感知的双分位数激活(QAct)模块,通过实例级秩归一化替代幅度门控,在零样本和模糊监督两种设置下均显著提升mIoU,尤其在稀有纹理依赖类上表现突出,且与模糊域训练互补。
基于结构化视觉证据的时间证据路由用于TimeLogicQA
发表机构 * Southeast University(东南大学) ; National University of Singapore(新加坡国立大学) ; Independent Researcher(独立研究员) ; Opus AI Research(Opus AI研究院) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出视觉证据路由流水线,分离感知与符号时间推理,通过结构化视觉证据和确定性时间规则在TimeLogicQA上达到81.8 AvgAcc。
自适应密集证据精炼用于视频关系推理:VRR-QA挑战
发表机构 * Southeast University(东南大学) ; National University of Singapore(国立新加坡大学) ; Independent Researcher(独立研究员) ; Opus AI Research(Opus AI研究) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出一种自适应测试时计算系统,通过轻量视图识别不稳定问题并路由到高预算密集证据模块,在VRR-QA测试集上达到90.07%平均准确率。
双路Top-K检索与1v1 VLM重排序用于CoVR-R
发表机构 * Southeast University(东南大学) ; National University of Singapore(新加坡国立大学) ; Independent Researcher(独立研究者) ; Opus AI Research(Opus AI研究) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出双路Top-K检索与1v1 VLM重排序方法,通过解耦召回与选择,在CoVR-R挑战中达到95.28% R@1。
Chameleon: 面向跨域对象合成的风格-内容解耦框架
发表机构 * CMLab, Chung-Ang University(Chung-Ang大学CMLab) ; Adobe Research(Adobe研究)
AI总结 提出基于大规模数据集ChameleonDataset的两阶段训练框架Chameleon,通过联合硬对比学习和时空注意力门控实现跨域对象合成的风格-内容解耦与自适应风格化。
Comments The last two authors are co-corresponding authors. Please visit our project page at https://cmlab-korea.github.io/Chameleon/
基于监督对比学习的多尺度网络用于实时面部情感识别
发表机构 * Indian Statistical Institute(印度统计研究所) ; Department of Biological Sciences, Bose Institute(生物科学系, Bose 院) ; Ramakrishna Mission Vivekananda Centenary College(拉马克里希纳使命 Vivekananda 百年学院) ; Maheshtala College(Maheshtala 学院) ; West Bengal State University(西孟加拉州大学)
AI总结 提出一种结合监督对比学习的多尺度深度学习网络,用于实时视频中面部表情变化的情感识别,在标准数据集上取得满意效果。
Comments 13 pages
3DCodeBench:通过代码进行智能体程序化3D建模的基准测试
发表机构 * Google DeepMind(谷歌DeepMind) ; University of Southern California(南加州大学) ; Google Research(谷歌研究)
AI总结 提出3DCodeBench基准,评估12种视觉语言模型将文本和图像参考转换为程序化3D建模代码的能力,并构建基于人类偏好的3DCodeArena排名平台。
Comments Project Page: https://www.3dcodebench.com/; 11 pages (main), with appendix
TextFake: 对富含文本图像中AI生成图像检测的基准测试
发表机构 * School of Cyber Science and Technology, University of Science and Technology of China(中国科学技术大学网络科学与技术学院) ; Anhui Province Key Laboratory of Digital Security(安徽省数字安全重点实验室) ; Individual Researcher(独立研究者)
AI总结 针对AI生成图像检测在富含文本图像上的空白,构建包含28种语言、2万图像的TextFake基准,评估14种检测器和3种VLM API,发现系统性能差距并诊断三种失败模式。
解耦残差去噪扩散模型用于统一且数据高效的图像到图像翻译
发表机构 * The University of Hong Kong(香港大学) ; Shenyang Institute of Automation, Chinese Academy of Sciences(中国科学院沈阳自动化研究所) ; The Chinese University of Hong Kong(香港中文大学) ; University of California, Santa Cruz(加州大学圣克鲁兹分校)
AI总结 提出解耦残差去噪扩散模型(DRDD),通过将扩散过程解耦为随机噪声扩散和确定性残差扩散两个独立阶段,实现统一且数据高效的图像到图像翻译。
Comments CVPR 2026
Ask4VG: 用于减少医学VQA中先验驱动答案的风险感知问题选择
发表机构 * School of Microelectronics, Tianjin University, Tianjin 300072, China(天津大学电子工程学院,天津 300072,中国) ; DISI, University of Trento, Trento, Italy(特伦托大学DISI研究所,意大利特伦托) ; School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China(天津大学电气与信息工程学院,天津 300072,中国)
AI总结 提出Ask4VG框架,通过反事实视觉探测估计问题引发的幻觉风险,并重排问题改写以选择更依赖图像证据的问题,从而减少医学VQA中的先验驱动答案。
音频驱动说话头生成的时序对齐评估
发表机构 * School of Business, University of New South Wales (UNSW)(新南威尔士大学商学院) ; School of Engineering and Built Environment, Griffith University(格里菲斯大学工程与环境学院) ; Data61/CSIRO(Data61/澳大利亚国家科学委员会)
AI总结 针对现有帧级评估指标对时序偏差敏感的问题,提出基于软动态时间规整的序列级对齐评估框架,提升评估鲁棒性并揭示不同建模范式间的系统权衡。
Comments Research report
ProductWebGen: 多模态产品网页生成基准测试
发表机构 * School of Computer Science & Zhiyuan College(计算机科学学院及智远学院) ; Shanghai Jiao Tong University(上海交通大学) ; Kuaishou Technology(快手科技)
AI总结 提出ProductWebGen基准,用于评估多模态生成模型从产品图像和指令生成一致产品展示网页的能力,并比较了基于编辑和基于统一模型两种工作流。
Comments Accepted by KDD 2026
学习神经变形表示用于4D动态形状生成
发表机构 * Korea Advanced Institute of Science and Technology(韩国科学技术院)
AI总结 提出一种新的神经变形表示,结合条件神经符号距离场,设计解耦运动与形状潜在空间的4D表示架构,通过扩散模型生成高质量、高时间一致性的4D动态形状。
Comments ECCV 2024
基于文本的三维人体运动编辑中的跨轴特征融合与关节运动差异预测
发表机构 * School of Electrical Engineering, KAIST(韩国科学技术院电子工程学院)
AI总结 提出一种跨轴特征融合架构和辅助任务,通过联合锚定变换器预测关节运动差异,实现文本驱动的三维人体运动编辑,在MotionFix数据集上达到最优性能。
Comments CVPR 2026
自动红细胞检测与追踪用于红细胞介导血管造影中的视网膜血流定量
发表机构 * Department of Bioengineering, University of Maryland, College Park, MD 20742, USA(生物工程系,马里兰大学,学院公园,MD 20742,美国) ; Department of Ophthalmology and Visual Sciences, University of Maryland School of Medicine, Baltimore, MD 21201, USA(眼科学与视觉科学系,马里兰大学医学院,巴尔的摩,MD 21201,美国) ; Department of Electrical and Computer Engineering, University of Maryland, College Park, MD 20742, USA(电气与计算机工程系,马里兰大学,学院公园,MD 20742,美国)
AI总结 提出EMTrack框架,通过流上下文模块和拓扑感知追踪策略实现红细胞自动检测与追踪,用于视网膜血流定量,并在新数据集RBF-EMA上优于基线方法。
SWARD:基于随机窗口注意力的关系蒸馏用于跨架构语义分割
发表机构 * Department of Computer Science University of Alabama at Birmingham(计算机科学系阿拉巴马大学伯明翰分校)
AI总结 提出SWARD框架,通过多尺度窗口注意力蒸馏和原型判别正则化,弥合Transformer教师与CNN学生之间的表征差距,实现跨架构语义分割的知识蒸馏。
多时相指代分割的开源基准与基线
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Institute of Artificial Intelligence (TeleAI)(人工智能研究所) ; China Telecom(中国电信) ; School of Artificial Intelligence, Optics and Electronics (iOPEN)(人工智能、光学与电子学院) ; Northwestern Polytechnical University(西北工业大学)
AI总结 提出多时相指代分割任务,通过自动化数据构建管道CRAFT-Agent生成首个基准MTRefSeg-21K,并设计两阶段训练的变化感知LVLM框架MTRefSeg-R1,实现优于现有基线的性能。
Reasmory: 3D重建作为VLMs空间推理的显式记忆
发表机构 * Cornell Tech, Cornell University(康奈尔科技学院、康奈尔大学) ; NVIDIA(英伟达) ; illoca AI(illoca人工智能) ; The University of California, Merced(加州大学梅尔塞德斯分校)
AI总结 提出Reasmory框架,通过结构化程序执行重建的3D显式记忆,并引入轻量级领域特定语言约束VLM查询和操作,在空间推理任务上提升6-18%。
面向大规模文生视频扩散Transformer的边界保护W8A8 HiFloat8量化
发表机构 * Yiming Zhao(赵毅铭)
AI总结 针对Wan2.1-T2V-14B模型,提出一种边界保护策略的W8A8 HiF8后训练量化方法,通过保留首尾边界块为BF16而量化中间块,在VBench五个维度上匹配或略优于BF16基线。
Comments 6 pages, 5 figures. Accepted to ICME 2026 Grand Challenge
COLLAR: 级联对象级潜在精化用于高保真条件生成
发表机构 * College of Computer Science, Zhejiang University(浙江大学计算机科学学院)
AI总结 提出COLLAR框架,通过视场扩展和级联对象级潜在精化,在扩散Transformer中实现无训练的高保真对象级控制,优于现有方法。
一个通道统治一切:重新思考视觉地点识别的输入表示
发表机构 * School of Computer Science and Electronic Engineering, University of Essex(埃塞克斯大学计算机科学与电子工程学院)
AI总结 通过实验证明灰度图像在视觉地点识别中与RGB性能相当甚至更优,尤其在严重外观变化下,灰度更具鲁棒性,且能减少参数和资源消耗。
Comments 8 pages
CV-Arena: 面向教学计算机视觉问题求解的开放基准与人类-AI协作偏好
发表机构 * Texas A&M University(德克萨斯A&M大学) ; Worcester Polytechnic Institute(沃斯特理工大学) ; Tohoku University(东北大学) ; Georgia Institute of Technology(佐治亚理工学院) ; NVIDIA(英伟达) ; UCSB(加州大学圣塔芭芭拉分校) ; UC Merced(加州大学默塞德分校)
AI总结 提出CV-Arena基准,包含12K高分辨率真实图像指令对,覆盖16种任务类型,并采用Active Elo协议结合人类与AI偏好评估21个系统,揭示指令遵循、物理推理等方面的差距,同时开发CV-Agent代理模型展示闭环推理的潜力。
Comments 26 pages, 7 figures, 11 tables
基于基础模型跨模态蒸馏的单通道组织分割
发表机构 * Department of Engineering Technology(工程技术系) ; Department of Electrical and Computer Engineering(电气与计算机工程系) ; Department of Mechanical Engineering(机械工程系)
AI总结 提出跨模态知识蒸馏框架,将多通道输入的基础模型教师知识迁移到仅使用核通道的轻量级学生网络,实现单通道组织分割性能大幅提升。
Comments 6 pages, 3 figures
桥接拓扑与深度表示学习:用于四类脑肿瘤分类的TDA-ViT融合模型
发表机构 * Department of Data Science and Mathematics(数据科学与数学系)
AI总结 提出一种将拓扑数据分析(TDA)特征与预训练Vision Transformer(ViT)表示相融合的框架,用于四类脑肿瘤分类,在BRISC2025数据集上达到99.10%的准确率。
Comments 21 pages, 4 figures
推理、检索、重排序:一种用于组合视频检索的零样本推理感知框架
发表机构 * The Ohio State University(俄亥俄州立大学)
AI总结 提出R3-CoVR零样本管道,通过多模态大模型推理编辑后状态、对比编码检索和约束感知重排序,在CVPR 2026 VidLLMs挑战赛上达到91.9% R@1和98.2% R@10。
hZACH-ViT:用于低数据医学成像中紧凑视觉Transformer的曲率潜在几何
发表机构 * BioML Lab, Research Institute CODE, UniBw, Munich, Germany(BioML实验室,CODE研究机构,UniBw,慕尼黑,德国) ; Department of Epidemiology and Data Science, Amsterdam UMC, Amsterdam, Netherlands(流行病学与数据科学系,阿姆斯特丹大学医学中心,阿姆斯特丹,荷兰)
AI总结 提出hZACH-ViT,通过扩展ZACH-ViT的潜在空间为双曲或球形几何,在低数据医学成像中提升紧凑视觉Transformer的性能,并在MedMNIST数据集上平均提升+0.021。
Comments 17 pages, 2 figures, 4 tables. Code, execution notebooks, and aggregated result summaries will be released at https://github.com/Bluesman79/hZACH-ViT upon publication
MMDG-Bench:多模态领域泛化基准
发表机构 * University of Manchester(曼彻斯特大学) ; Jiyue AI(极越AI) ; Samsung AI Centre Cambridge(三星AI中心剑桥) ; University of Surrey(萨里大学)
AI总结 提出MMDG-Bench基准,通过D2M和M2D两种框架统一多模态学习与领域泛化,在动作识别和活体检测等任务上验证了结构化组合优于现有方法,并给出关键设计指南。
超声视频的队列级神经图谱
发表机构 * Department of Mechanical Engineering, MIT(麻省理工学院机械工程系) ; Institute for Medical Engineering and Science, MIT(麻省理工学院医学工程与科学研究所) ; MIT.nano Immersion Lab, MIT(麻省理工学院MIT.nano沉浸实验室)
AI总结 提出一种基于DINOv3特征空间、联合训练数千帧的队列级神经图谱方法,通过每视频生成潜在优化嵌入实现准确注释迁移,在五个心脏和肌肉骨骼数据集上达到与强基线相当的精度。
GABI: 用于航天器分割的几何感知边界集成
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 提出一种轻量级边界感知多任务分割架构GABI,通过辅助距离场预测头增强卷积骨干网络,在保持低模型复杂度的同时提升航天器分割精度,在SPARK基准上平均精度提升5%,跨域泛化提升50%。
Comments Accepted to AI4Space at CVPR 2026
图像作为表格:利用TabPFN进行上下文学习以实现低数据量下AI生成图像的检测
发表机构 * Jan Philip Walter ; Shashank Agnihotri ; Margret Keuper
AI总结 提出将图像转换为表格形式,使用冻结的DINOv3骨干网络提取特征,并通过TabPFN进行上下文学习,在低数据量下有效检测AI生成图像,优于现有方法。
Comments Accepted as a Spotlight Oral at the ICML 2026 Workshop Foundation Models for Structured Data. *Equal Contribution
城市感知中的视觉语言模型基准应具备可靠性意识且可协商
发表机构 * Rashid Mushkani
AI总结 本文提出,用于城市感知的视觉语言模型基准应将分歧和弃权视为测量结果,报告标注者间信度,并将标签空间和评分策略视为可协商的产物。
Comments To appear in the Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)
RefDiffNet: 在检测前学习暴露细微PCB缺陷
发表机构 * Department of Computer Science and Engineering Indian Institute of Technology Kanpur(计算机科学与工程系印度理工学院坎浦尔) ; Department of Materials Science and Engineering Indian Institute of Technology Kanpur(材料科学与工程系印度理工学院坎浦尔)
AI总结 提出RefDiffNet,一种轻量级即插即用的输入增强模块,通过引入无缺陷参考图像来突出缺陷区域,从而提升下游检测器在PCB缺陷检测中的性能。
MoEIoU:将边界框回归重新思考为混合专家模型
发表机构 * Indian Institute of Technology Kanpur(印度理工学院坎普尔分校)
AI总结 提出MoEIoU损失函数,通过混合专家模型联合优化重叠、中心对齐和长宽比,并采用课程学习权重调度,在多个数据集和YOLO架构上超越现有IoU损失。
正确的推理策略即是一切:面向EgoCross挑战的近乎无需训练的领域感知推理
发表机构 * HKUST(GZ)(香港科技大学(广州)) ; HKUST(香港科技大学) ; Knowin
AI总结 针对EgoCross挑战中源受限场景下多模态大模型在领域偏移严重的自我中心视频问答任务上表现不佳的问题,提出一种领域感知推理策略,通过为四个目标领域分别设计不同的输入、提示和答案映射流程,在不进行额外训练的情况下显著提升基线模型性能。
RoboStressBench: 在具身场景中基准测试VLM对物理视觉压力的鲁棒性
发表机构 * HKUST(GZ)(香港科技大学(广州))
AI总结 本文提出RoboStressBench,从逆图形学角度将视觉压力分解为材质、视角、光照和几何四个物理维度,系统评估VLM在真实物理压力下的鲁棒性,并引入压力感知求解器提升高压力场景下的性能。
SuperMemory-VQA:面向长期记忆的自我中心视觉问答基准
发表机构 * The Ohio State University(俄亥俄州立大学) ; Meta Project(Meta项目)
AI总结 提出SuperMemory-VQA数据集,包含52.9小时AI眼镜录制的日常活动及4853个多选问答对,用于评估AI助手在长期记忆任务上的表现,发现现有系统可靠性不足。
Comments 34 pages, 21 figures, 5 tables
定向距离场:用于高斯泼溅的恒定时间射线查询
发表机构 * School of Computer Sciences, National Institute of Science Education and Research (NISER)(计算机科学学院,国家科学教育与研究研究所(NISER))
AI总结 提出定向距离函数(DDF),将训练好的3D高斯泼溅场景转化为射线预言机,实现恒定时间的射线查询,用于全局光照等二次射线追踪。
用于暗宇宙三维映射的生成扩散先验
发表机构 * Department of Computing and Mathematical Sciences, California Institute of Technology(加州理工学院计算与数学科学系) ; Jet Propulsion Laboratory, California Institute of Technology(加州理工学院喷气推进实验室) ; Department of Physics, Duke University(杜克大学物理系) ; Cahill Center for Astronomy and Astrophysics, California Institute of Technology(加州理工学院卡希尔天文与天体物理中心)
AI总结 利用扩散模型学习宇宙模拟中的先验分布,结合物理正向模型解决弱引力透镜三维暗物质反问题,显著提升重建精度并生成统计一致的后验样本。
Comments Accepted to CVPR 2026 (Highlight)
DASH: 用于引导校准紧凑扩散模型的双分支分数蒸馏
发表机构 * Khulna University of Engineering & Technology(Khulna 工程与技术大学) ; University Clermont Auvergne(克莱蒙特-奥弗涅大学)
AI总结 针对类条件扩散模型参数压缩中无监督无条件分数分支导致引导失效的问题,提出双分支蒸馏框架DASH,通过独立监督两个分支并引入锚点正则化和课程迁移,在5.9倍压缩下保持与教师模型相近的FID和引导保真度。
Comments 14 pages, 7 figures, 4 tables; appendix with additional ablations and qualitative results
DINO-GFSA:基于语义门控融合和Mamba序列聚合的地理定位
发表机构 * School of Aeronautics and Astronautics, Sun Yat-sen University, Shenzhen, China(中山大学航空航天学院,深圳,中国)
AI总结 提出DINO-GFSA框架,通过LoRA适配的DINOv3骨干网络、语义门控残差融合模块和Mamba序列聚合头,在无人机跨视角地理定位中实现最先进性能。
FlowOVD: 学习生成式潜在流用于零样本开放词汇检测
发表机构 * Queen Mary University of London(伦敦女王学院) ; EPFL(瑞士联邦理工学院)
AI总结 提出FlowOVD,基于修正流的文本条件查询生成框架,通过连续潜在查询动态实现开放词汇检测,在COCO和LVIS上分别达到49.5 AP和31.5 AP,优于GroundingDINO。
GIRL-DETR: 梯度隔离强化学习用于视频时刻检索
发表机构 * College of Electronics and Information Engineering, Sichuan University(四川大学电子信息工程学院) ; School of Intelligence Science and Technology, Nanjing University(南京大学智能科学与技术学院)
AI总结 针对视频时刻检索中连续代理损失与非可微指标不匹配导致的优化停滞问题,提出梯度隔离强化学习框架GIRL-DETR,通过冻结骨干网络并采用三阶段渐进强化学习策略直接优化tIoU指标,在轻量级模型中实现定位精度提升。
Comments 13 pages, 6 figures. Submitted to IEEE Transactions on Image Processing (TIP). Code is available at: https://github.com/Z-Shihang/GIRL-DETR
基于FiLM调制的头部姿态感知视觉语音识别
发表机构 * Department of Artificial Intelligence, Kyushu Institute of Technology(人工智能系,九州工业大学)
AI总结 提出HP-VSR-ResFiLM框架,通过姿态条件残差FiLM模块显式融入头部姿态信息,在LRS2和LRS3上分别达到25.0%和33.2%的词错误率,有效提升非正面视角下视觉语音识别的鲁棒性。
Comments 27 pages, 4 figures
将并行序列模型扩展到基础规模的视觉编码器
发表机构 * NVIDIA ; The Chinese University of Hong Kong(香港中文大学) ; The University of Hong Kong(香港大学) ; University of California, San Diego(加州大学圣地亚哥分校)
AI总结 提出C-GSPN,一种基于2D空间传播的基础规模视觉编码器,通过快速CUDA内核、压缩潜在空间传播块和两阶段交叉算子蒸馏,在减少参数的同时提升性能并实现高效推理。
SORA:快速对抗训练中的自由二阶攻击
发表机构 * Department of Computer Engineering, Sharif University of Technology, Tehran, Iran(谢赫大学计算机工程系)
AI总结 针对快速对抗训练中的灾难性过拟合问题,提出通过扰动变异性和梯度对齐指标PertAlign来预测并防止过拟合,并设计自适应步长方法SORA,实现最优鲁棒性和干净准确率。
Comments Accepted at ICML 2026
CASTLE2026 团队 WDL 技术报告
发表机构 * Key Laboratory of Intelligent Perception and Image Understanding(智能感知与图像理解重点实验室)
AI总结 提出基于 Qwen 的证据感知多模态推理流程,通过提示路由和置信度加权投票解决长视频问答,在 CASTLE 挑战赛中排名第一。
Comments 4 pages
VICR: 面向真实图像超分辨率的视觉上下文恢复
发表机构 * Faculty of Science and Technology, University of Macau(澳门大学科技学院) ; Nullmax ; Hefei University of Technology(合肥工业大学) ; Shandong Normal University(山东师范大学)
AI总结 提出基于扩散变换器的视觉上下文恢复框架,通过解耦的视觉先验注入机制将真实图像超分辨率建模为图像补全,实现结构保真与细节合成的平衡。
Comments 28 pages, 11 figures, 9 tables
FROST-STA: 用于Ego4D短期物体交互预测的冻结密集特征
发表机构 * Beihang University(北航大学)
AI总结 提出FROST-STA模型,利用冻结的密集图像-视频特征和对象中心解码,在Ego4D短期物体交互预测挑战中取得第二名。
小波融合扩散模型用于多模态脑MRI合成,具有模态和元数据条件
发表机构 * Department of Psychology & Neuroscience, Auckland University of Technology(心理学与神经科学系,奥克兰技术大学) ; Department of Psychiatry, University of Melbourne(精神病学系,墨尔本大学)
AI总结 提出一种小波融合扩散模型(WFDM),结合小波融合变分自编码器(WF-VAE)和条件3D U-Net扩散模型,通过显式模态和元数据条件实现多模态脑MRI合成,解决了数据集模态覆盖不均和异质性问题,在分布对齐上优于现有方法。
Comments 51 pages, 7 figures, including supplementary material. Submitted to Imaging Neuroscience
基于形状先验的点云补全用于单阶段全稀疏3D目标检测
发表机构 * School of Computer Science and Engineering, Nanjing University of Science and Technology(南京理工大学计算机科学与工程学院)
AI总结 针对单阶段全稀疏3D检测器中点云稀疏和不完整的问题,提出一种基于形状先验的点云补全方法,通过实例选择和对齐补全模块显著提升检测性能。
基于EuroCrops驱动的Sentinel-2作物分割的建模与评估框架
发表机构 * Transilvania University of Braşov(布拉索夫瓦拉米亚大学)
AI总结 提出一个可配置的流水线,利用EuroCrops标注和Sentinel-2影像生成语义分割数据集,并训练U-Net模型评估其在域内和域外数据集上的性能。
T-CLIP:面向对比语言-图像预训练的热感知
发表机构 * Indian Institute of Technology Delhi, India(印度理工学院德里分校) ; NVIDIA AI Technology Center, India(NVIDIA AI技术中心) ; Jawaharlal Nehru University, India(贾瓦哈拉尔·尼赫鲁大学)
AI总结 针对CLIP无法对齐热图像与文本描述的问题,提出物理感知的热描述数据集IR-Cap和解耦双LoRA框架T-CLIP,实现场景级和对象级热理解,在跨模态检索任务上超越所有基线。
Comments 34pages (including references and appendix), 13 figures
SKIP: 用于高效具身世界模型的稀疏关键帧插值范式
发表机构 * UCAS(中国科学院自动化研究所) ; CASIA(中国科学院自动化研究所) ; NJU(南京大学) ; GigaAI ; THU(清华大学) ; FiveAges
AI总结 提出稀疏关键帧插值范式(SKIP),通过识别任务相关关键帧并仅生成这些帧,再基于机器人动作插值缺失帧,实现高效视频生成,在LIBERO上速度提升4.16倍,FVD降低89%,且生成视频作为训练数据时策略性能下降极小。
Comments 25 pages, 10 figures
TAP-JEPA:冻结的未来潜在探测与两阶段分数融合用于EPIC-KITCHENS-100动作预测
发表机构 * Beihang University(北航大学)
AI总结 提出TAP-JEPA方法,利用冻结的V-JEPA 2.1特征和两阶段分数融合,在EPIC-KITCHENS-100动作预测挑战中获得第二名。
Comments The runner-up solution for the Action Anticipation Challenge, EPIC-KITCHENS-100 at the CVPR EgoVis Workshop 2026
Wan2.2双专家视频扩散模型的协同少步蒸馏与低位量化
发表机构 * IEEE ICME 2026 ; GCC Low-Bit-width Large Model Quantization Challenge(GCC 低精度大模型量化挑战)
AI总结 针对Wan2.2-T2V-A14B视频扩散模型,提出结合少步分布匹配蒸馏与低位量化的部署压缩流程,通过双专家去噪分支校准、敏感层保护及HiF4低位表示,在保持质量的同时降低计算开销。
基于属性的视频复杂度度量
发表机构 * UMIACS-University of Maryland College Park(马里兰大学College Park分校UMIACS) ; University of California San Diego(加州大学圣地亚哥分校) ; Yale University(耶鲁大学) ; Meta AI
AI总结 提出VideoABC框架,通过属性空间量化估计视频-问题对在视频大语言模型上的失败概率,实现非参数复杂度度量。
脑肿瘤手术中术中超声到MR合成的系统基准测试
发表机构 * Department of Neurosurgery, Neurovascular Unit Río Hortega University Hospital(里奥霍尔特ega大学医院神经外科部门,神经血管单元) ; Specialized Group in Biomedical Imaging and Computational Analysis (GEIBAC)(生物医学成像与计算分析专项组(GEIBAC)) ; Instituto de Investigación Biosanitaria de Valladolid (IBioVALL)(瓦尔拉多利德生物医学研究 institute(IBioVALL))
AI总结 针对脑肿瘤手术中术中超声(ioUS)到MR图像合成问题,本研究在公共ReMIND数据集上系统比较了6种生成器、4种推理模式和2种目标,结合图像保真度指标和下游分割评估,发现感知质量(LPIPS)与下游效用最相关,而SSIM与效用负相关,SynDiff-2.5D在下游分割中表现最佳。
MM-Snowball:多模态多轮对话中的幻觉雪崩评估与缓解
发表机构 * College of Intelligent Robotics and Advanced Manufacturing, Fudan University(复旦大学智能机器人与先进制造学院) ; Southern University of Science and Technology(南方科技大学) ; TMLR Group, Hong Kong Baptist University(香港 Baptist 大学 TMLR 团体) ; MM Lab, CUHK(CUHK 多模态实验室) ; RAMS Lab, Huawei Technologies Co., Ltd.(华为技术有限公司 RAMS 实验室)
AI总结 针对多模态大模型在多轮对话中因初始错误累积导致幻觉雪崩的问题,提出首个细粒度诊断基准MM-Snowball,并设计无训练的冲突感知视觉校正方法CAVR,通过表示级刷新视觉锚定和logit级修正输出分布来缓解雪崩效应。
Comments Accepted by The International Conference on Machine Learning (ICML 2026)
FlowNar: 面向长视频的可扩展流式叙述
发表机构 * Karlsruhe Institute of Technology (KIT)(卡尔斯鲁厄理工学院) ; Lamarr Institute for Machine Learning(拉马尔机器学习研究所) ; University of Bonn(波恩大学)
AI总结 提出FlowNar框架,通过动态上下文管理和CLAM模块实现有界视觉记忆与计算复杂度,在流式视频叙述中兼顾高质量与高效率。
Comments Accepted to ICML 2026
FiSeR:用于跨域AI图像检测的细粒度源表示
发表机构 * Shan Zhang, Yongxin He, Mingming Zhang, Huiwen Tian, Lei Ma(作者团队)
AI总结 针对合成图像检测器在域迁移下泛化能力差的问题,提出层次对比学习框架FiSeR,通过粗粒度和细粒度对比目标联合优化,在跨域评估中平均AUROC提升+10.22。
ASAP: 基于解剖感知语义自适应预训练的医学体素表示学习
发表机构 * School of Biomedical Engineering, Division of Life Sciences and Medicine, University of Science and Technology of China(生物医学工程学院,生命科学与医学系,中国科学技术大学) ; Medical Imaging, Robotics, Analytic Computing & Learning (MIRACLE) Lab, YRD-RIGHT, USTC Suzhou Institute for Advanced Research(医学影像、机器人、分析计算与学习(MIRACLE)实验室,YRD-RIGHT,中国科学技术大学苏州研究院) ; Jiangsu Provincial Key Laboratory of Multimodal Digital Twin Technology(江苏省多模态数字孪生技术重点实验室) ; Biomedical Basic Research Center (BBRC) of Jiangsu Province(江苏省生物医学基础研究中心) ; Department of Radiology, The First Affiliated Hospital of USTC, Division of Life Sciences and Medicine, USTC(放射科,中国科学技术大学第一附属医院,生命科学与医学系,中国科学技术大学) ; Anhui IFLYTEK CO., Ltd(安徽科大讯飞股份有限公司) ; School of Medicine, Stanford University(医学院,斯坦福大学) ; State Key Laboratory of Precision and Intelligent Chemistry, Hefei, Anhui, China(安徽省精密与智能化学重点实验室,合肥,安徽,中国)
AI总结 提出ASAP框架,通过解剖感知知识注入、语义自适应对齐与融合,从胸部CT扫描和放射学报告中学习可迁移且可解释的体素表示,在15个数据集和22个下游任务上取得最先进性能。
Comments MICCAI2025 extention
通过PRISM:原则感知、可解释和多尺度的视觉设计评估
发表机构 * Ohio State University(俄亥俄州立大学) ; Adobe Research(Adobe研究院)
AI总结 提出PRISM基准和一种多尺度评估框架,通过原则扰动和分层分析实现可解释的设计质量评估。
利用GRPO改进视觉表示对齐生成
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Hanyang University(翰阳大学)
AI总结 提出VRPO方法,通过强化学习将静态对齐损失替换为生成式表示策略优化目标,动态平衡表示一致性与生成质量,在扩散Transformer中实现更快的收敛和更高的图像保真度。
沙盒化编码智能体是竞争性的全模态任务求解器
发表机构 * University of Maryland(马里兰大学) ; MBZUAI
AI总结 本文提出沙盒化编码智能体,仅通过文本+图像访问和工具使用,即可在全模态任务中匹配甚至超越原生全模态模型,并通过技能注入和训练配方Code-X进一步提升性能。
Comments Paper under review
学习用于训练数据选择的元网络的困难性
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 针对元学习训练数据选择(MTS)在实践中表现不佳的问题,本文通过数学分析揭示了梯度信噪比低和缺乏信息特征两大障碍,并提出增大批大小和利用信息特征作为解决方案。
面向视觉-语言推理的分解式在策略蒸馏:引导梯度实现视觉定位
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 通过将视觉-语言模型蒸馏损失分解为语言先验和视觉定位两个正交分量,提出视觉梯度引导(VGS)方法动态调整更新方向以优先优化视觉子空间,从而提升小模型在复杂多模态任务中的定位能力。
Comments ICML 2026 Spotlight
DeepLatent: 通过并行潜在视觉推理用图像思考
发表机构 * Baidu Inc.(百度公司) ; Peking University(北京大学)
AI总结 提出DeepLatent框架,通过LatentFormer并行生成潜在视觉状态,并结合连续空间强化学习优化潜在表示,在多个基准上达到最先进性能。
通过聚类引导精炼和模型集成投票改进遥感中的视觉定位
发表机构 * Indian Institute of Technology Bombay(印度理工学院班加罗尔)
AI总结 提出两种视觉定位流程(SGR和CGR),结合遥感专用模型RemoteSAM和通用分割模型SAM3,并通过多模型集成投票提升定位精度。
Comments Accepted at CVPR 2026 Workshop MORSE
CAFOSat:用于基于高分辨率影像的基础设施感知型CAFO制图的高质量标注数据集
发表机构 * University of Virginia(弗吉尼亚大学) ; Biocomplexity Institute, University of Virginia(弗吉尼亚大学生物复杂性研究所)
AI总结 针对集中式动物饲养操作(CAFO)大规模制图困难,提出CAFOSat数据集,集成高分辨率NAIP影像与多源CAFO清单,通过人机协同标注、GradCAM定位和几何聚类优化弱定位记录,并引入合成增强管道,实现基础设施级标注和鲁棒分类。
Comments Accepted at CVPR Workshop-2026. First two authors has equal contribution
ETC: 通过任务感知的视觉信息蒸馏实现视觉语言模型中的极端令牌压缩
发表机构 * School of Remote Sensing and Information Engineering, Wuhan University(武汉大学遥感与信息工程学院)
AI总结 提出ETC框架,基于变分信息蒸馏原理,在减少输入令牌数量时最小化任务损失,通过文本-图像交叉注意力加权视觉特征并引入变分信息蒸馏,实现单令牌压缩下仍保持强任务性能。
在重建空间中生成,在语义空间中匹配:一步生成的传输几何
发表机构 * Genentech(基因泰克)
AI总结 本文研究自监督表示学习(SSL)特征在一步生成模型中的作用,提出在语义特征空间中使用Sinkhorn散度进行分布匹配,显著降低ImageNet FID,并揭示了评估指标与训练特征之间的潜在冲突。
Comments 26 pages, 4 figures
显著性感知模型合并
发表机构 * Yonsei University, Seoul, South Korea(首尔大学) ; Ewha Womans University, Seoul, South Korea(成均馆女子大学)
AI总结 提出SA-Merging方法,利用结构剪枝中的连通性显著性(如SynFlow)进行数据无关模型合并,通过任务向量显著性评分和合并感知调制减少任务干扰,并在视觉和语言任务上验证有效性。
Comments ICML 2026 Camera-ready
复杂介质中偏振形状恢复的结构感知一致性先验
发表机构 * The School of Mechanical Engineering and Automation, Fuzhou University, Fuzhou, China(福州大学机械工程与自动化学院) ; Research Institute of Highway, Ministry of Transport, Beijing, China(交通部公路科学研究院)
AI总结 针对复杂介质(以冰为例)中偏振观测与表面法线间的非线性映射问题,提出基于自相关函数的结构感知偏振先验,并设计双分支网络IceSfP通过跨模态注意力和多尺度特征融合实现精确法线估计,在首个真实冰SfP数据集上达到16.01°的平均角度误差。
V-LynX: 视频+X 大语言模型的令牌接口对齐
发表机构 * Yonsei University, Seoul, South Korea(延世大学,首尔,韩国) ; Ewha Womans University, Seoul, South Korea(成均馆大学,首尔,韩国)
AI总结 本文发现视频大语言模型中存在令牌接口连续流形,并提出V-LynX框架,通过轻量辅助路径对齐注意力响应和统计分布,无需配对监督即可集成新模态,在音视频问答、3D推理等任务上达到最优效率。
Comments ICML 2026 Camera-ready
OptiWorld: 物理约束下的视频世界生成最优控制
发表机构 * Purdue University(普渡大学) ; University of Oxford(牛津大学) ; SixteenMiles Labs(SixteenMiles 实验室)
AI总结 提出OptiWorld框架,在推理时结合经典最优控制与视频生成,通过提取紧凑世界状态、规划最优轨迹并生成条件视频,实现符合物理约束的动态优化。
Comments Porject Page: https://yuyuanspace.com/OptiWorld/
文本编辑能否泛化到视觉生成?统一多模态模型中的跨模态知识编辑基准
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学) ; University of Toronto(多伦多大学) ; University of Washington(华盛顿大学)
AI总结 提出跨模态知识编辑基准UniKE,发现文本编辑在图像生成中效果显著下降(VQA准确率仅18.5%),并提出推理增强参数编辑方法提升跨模态迁移效果。
Comments Published at ICML 2026; Code and data available at https://github.com/gxx27/UniKE
CodeCytos: 通过代码增强的智能体动作空间实现AI辅助空间分子成像分析
发表机构 * University of Houston, Department of Electrical and Computer Engineering(德克萨斯大学休斯顿分校电子与计算机工程系) ; Houston Methodist Hospital, Department of Systems Medicine and Biomedical Engineering(休斯顿 Methodist 医院系统医学与生物医学工程系)
AI总结 提出CodeCytos框架,通过代码驱动的推理智能体实现空间分子成像数据的动态可编程分析,提升自动化与定制化能力,并在多种组织类型数据集上验证其优于基线方法。
MUSCLE-NET:面向行人轨迹预测的预测多尺度感知网络
发表机构 * Guangdong Provincial Key Laboratory of Fully Actuated System Control Theory and Technology, School of Automation and Intelligent Manufacturing, Southern University of Science and Technology (SUSTech), Shenzhen(广东省全主动系统控制理论与技术重点实验室,自动化与智能制造学院,南方科技大学(SUSTech),深圳) ; Department of Mechanical Engineering, City University of Hong Kong, Hong Kong SAR, China(香港城市大学机械工程系,香港特别行政区,中国)
AI总结 提出MUSCLE-NET,通过多尺度多模态特征提取和尺度自适应预测机制,解决现有方法对观测信息利用不足及忽视未来运动尺度依赖的问题,在JAAD和PIE数据集上取得竞争性能。
Comments This manuscript has been accepted to the IEEE Transactions on Intelligent Transportation Systems as a regular paper
一种可解释的基于层次自注意力的时域震颤检测方法
发表机构 * Department of Biomedical Informatics, School of Medicine, Emory University(埃默里大学生物医学信息学系) ; Jean and Paul Amos Parkinson’s Disease and Movement Disorders Program, Department of Neurology, School of Medicine, Emory University(埃默里大学帕金森病和运动障碍计划,神经学系) ; Wallace H. Coulter Department of Biomedical Engineering, Georgia Institute of Technology(佐治亚理工学院沃尔什·H·库勒生物医学工程系)
AI总结 提出一种可解释的两阶段层次框架,直接从3D运动学时间序列数据学习震颤模式,实现时域震颤检测,并利用注意力权重和Grad-CAM提供后验可解释性。
Comments Submitted to PLOS Digital Health
超越静态高斯:动态3D场景重建架构范式的实证研究
发表机构 * University of Waterloo(滑铁卢大学)
AI总结 本文通过实证比较结构引导与高斯中心两种动态3D高斯溅射范式,揭示重建质量/紧凑性与渲染速度之间的根本权衡。
Comments Accepted in Journal of Computational Vision and Imaging Systems (JCVIS)
通过点云上采样优化3D高斯泼溅
发表机构 * Vision and Image Processing Group, Systems Design Engineering, University of Waterloo(滑铁卢大学视觉与图像处理组,系统设计工程)
AI总结 提出多种点云上采样方法及深度引导点提升技术,改善3D高斯泼溅的初始化质量,实验表明不同场景适用不同策略。
Comments Accepted in Journal of Computational Vision and Imaging Systems (JCVIS)
GeoSAM-3D: 用于从单目视频进行开放词汇3D场景分割的测地线提示传播
发表机构 * University of Minnesota, Twin Cities(明尼苏达大学,双城分校)
AI总结 提出GeoSAM-3D方法,利用冻结的视觉基础模型和单目3D高斯泼溅重建,通过可微分的图-测地线传播核在场景图上传播用户提示,实现从单目视频的开放词汇3D场景分割。
DarkVesselNet: 用于暗船检测的多模态遥感和轨迹推理
发表机构 * University of Minnesota, Twin Cities(明尼苏达大学,双城分校)
AI总结 提出DarkVesselNet,融合Sentinel-1 SAR、Sentinel-2光学影像、地理空间基础模型、AIS轨迹推理、TGARD间隙检测和Pi-DPM异常头,实现多模态遥感暗船检测。
基于动态网格-高斯重建的实时物理仿真
发表机构 * University of Waterloo(滑铁卢大学)
AI总结 针对动态重建与物理仿真拓扑不兼容的问题,提出固定拓扑网格与高斯泼溅的双表示框架,实现实时物理仿真,并揭示高质量重建与物理兼容拓扑存在本质冲突。
基于物理可控世界模型的物理对象理解
发表机构 * Stanford University(斯坦福大学) ; OpenAI(开放人工智能公司) ; Noetik Inc.(Noetik公司) ; Google(谷歌)
AI总结 提出一类概率世界模型,通过自回归序列建模高效训练,从视频中推断对象及其物理交互,实现对象发现、3D操控和物理关系计算。
Comments CVPR 2026 Highlight. Project page at: https://neuroailab.github.io/psi-website/blog.html
4D雷达与激光雷达和相机的结合:恶劣天气下的协同感知
发表机构 * FZI Research Center for Information Technology(FZI信息技术研究所以) ; Karlsruhe Institute of Technology(卡尔斯鲁厄大学)
AI总结 针对恶劣天气下相机和激光雷达性能下降的问题,提出集成4D成像雷达作为鲁棒模态,并引入多普勒引导的空间注意力机制进行多智能体融合,显著提升雾雨环境下的协同感知鲁棒性。
Comments Accepted by CVPR - DriveX Workshop
重新思考高分辨率地形高程数据的摊销神经表示
发表机构 * University of Maryland, College Park(马里兰大学学院公园分校)
AI总结 针对地形高程数据,提出HUVR+SIREN超网络方法,通过替换坐标解码器为平滑可微版本,在统一基准上实现最佳高度和导数保真度,且支持后训练量化压缩。
Comments 12 pages, 7 figures, 10 tables
AutoIQ:前列腺扩散加权成像中几何畸变自动评估的集成框架
发表机构 * Biomedical Imaging Research Institute, Cedars-Sinai Medical Center(生物医学成像研究 institute, Cedars-Sinai 医疗中心) ; Department of Bioengineering, University of California(生物工程系,加州大学) ; Siemens Medical Solutions USA Inc.(西门子医疗解决方案美国公司) ; Siemens Healthineers AG(西门子健康影像股份有限公司) ; Department of Imaging, Cedars-Sinai Medical Center(成像部,Cedars-Sinai 医疗中心) ; Department of Nuclear Medicine, Cedars-Sinai Medical Center(核医学部,Cedars-Sinai 医疗中心) ; Department of Urology, Cedars-Sinai Medical Center(泌尿科,Cedars-Sinai 医疗中心)
AI总结 提出AutoIQ集成机器学习框架,结合分割和配准方法量化DWI几何畸变,用于自动分类畸变严重程度,在独立测试集上达到0.95准确率。
Comments Original research; 11 pages, 7 figures, 1 table
Zamba2-VL 技术报告
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; University of Cambridge(剑桥大学) ; University of Washington(华盛顿大学) ; University of Toronto(多伦多大学)
AI总结 提出基于混合架构Zamba2的视觉语言模型Zamba2-VL,在图像理解等基准上媲美Transformer模型,且首次令牌延迟降低约一个数量级。
Comments 16 pages, 2 figures
αDepth: 学习用于立体转换的单次软边界分解
发表机构 * ETH Zürich(苏黎世联邦理工学院) ; DisneyResearch|Studios(迪士尼研究|工作室)
AI总结 提出αDepth表示,通过圆形Alpha表示(CAR)将软边界分解为局部层次,实现高保真立体转换,无需用户干预。
SUPREME: 一个用于可复现图像遗忘方法评估的多GPU框架
发表机构 * Department of Computer Science, School of Science, Loughborough University(计算机科学系,科学学院,洛斯伯勒大学) ; School of Mathematics, Statistics and Physics, Newcastle University(数学、统计与物理学院,新卡克大学)
AI总结 提出SUPREME框架,通过多GPU分布式架构加速图像分类遗忘方法的评估,支持新方法注册和多精度模式。
Comments 17 pages. Code available at https://github.com/pedroandreou/supreme-unlearning
非学习低光立体视觉
发表机构 * Department of Computer Sciences, Purdue University(普渡大学计算机科学系) ; Elmore Family School of Electrical and Computer Engineering, Purdue University(普渡大学埃尔莫夫家庭电气与计算机工程学院)
AI总结 提出一种非学习立体框架,利用Field of Junctions (FoJ)提取粗视觉特征,结合边界感知半全局匹配(SGM)从严重噪声图像中估计视差,在基准数据集上获得比近期立体算法更准确的稀疏视差图。
Comments Accepted to ICIP 2026. Code and data available at https://github.com/guo-research-group/nonlearning-lowlight-stereo
扩散模型中减少幻觉的分数控制
发表机构 * University at Buffalo(布法罗大学)
AI总结 针对扩散模型中的幻觉问题,提出基于方差引导的分数调制策略,通过控制分数雅可比矩阵减少幻觉,在保持高保真度和多样性的同时将幻觉降低约25%。
LFA:用于自动驾驶中2D目标检测器运行时自省的分层特征注意力
发表机构 * Automated Driving Report GitHub Issue(自动驾驶报告GitHub问题)
AI总结 提出LFA方法,通过注意力机制聚合骨干网络多层特征,以提升自动驾驶中2D目标检测器的错误预测性能和可解释性。
HiGS:一种用于实时三维高斯泼溅的分层渲染架构
发表机构 * NVIDIA
AI总结 针对3D高斯泼溅中空间分区与光栅化对瓦片尺寸需求矛盾的问题,提出分层瓦片高斯泼溅(HiGS),通过粗粒度宏瓦片分区和细粒度渲染瓦片光栅化实现加速,在保持精确alpha合成的同时实现最高15.8倍加速。
Comments Project Page: https://research.nvidia.com/labs/sil/projects/higs/
持久机器人地图中基础模型证据与几何感知之间的信念一致性
发表机构 * Department of Computer Science, University of Colorado, Boulder(科罗拉多大学博尔德分校计算机科学系) ; Computer Science and Artificial Intelligence Lab, Massachusetts Institute of Technology(麻省理工学院计算机科学与人工智能实验室)
AI总结 提出一种更新算子,通过每类校准提交门和每事件冲突丢弃窗口,解决基础模型语义通道与几何感知通道在持久地图中的矛盾,显著提升地图精度。
何处精炼,何时停止:通过潜在差异重新思考高效视觉自回归生成中的冗余
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Tsinghua University(清华大学)
AI总结 提出基于潜在差异(Latent Discrepancy)的无训练剪枝框架LD-Pruning,通过解码无关区域选择和自适应无条件分支跳过,在视觉自回归模型中实现高达2.35倍加速并保持生成质量。
Real2SAM2Real: 生成式3D缓存作为视频扩散的互补上下文
发表机构 * University of Maryland(马里兰大学)
AI总结 提出Real2SAM2Real框架,通过3D提升模型提取可编辑的3D缓存作为几何支架,结合软空间对齐注入和微调策略,实现视频扩散模型对相机轨迹和多实体运动的精确解耦控制。
超几何与证据优先专家用于大型视觉-语言模型
发表机构 * China University of Petroleum (Beijing)(中国石油大学(北京)) ; Hainan Institute of China University of Petroleum (Beijing)(中国石油大学(北京)海南学院) ; South China Normal University(华南师范大学)
AI总结 针对大型视觉-语言模型中视觉与语言模态的不对称性,提出AsyMoE架构,通过超几何跨模态专家和证据优先语言专家分别建模层级关系与保持上下文基础,在减少参数的同时提升性能。
StressDream: 引导视频世界模型实现鲁棒的策略评估与改进
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; NVIDIA Research(NVIDIA研究) ; University of Washington(华盛顿大学) ; Stanford University(斯坦福大学)
AI总结 提出StressDream方法,通过优化扩散视频世界模型的初始噪声,在推理时引导生成高影响且合理的未来场景,以支持鲁棒的策略评估与改进。
Comments Project page: https://junwon.me/StressDream/
残酷真相:基于大规模远程信息处理、街道网络和谷歌街景的米兰激烈驾驶事件路段级分析
发表机构 * Massachusetts Institute of Technology(麻省理工学院)
AI总结 本研究结合大规模远程信息处理、交通指标、街道网络属性和谷歌街景视觉特征,通过非参数检验和机器学习回归分析米兰城市道路网络中激烈驾驶事件的路段级特征,发现更宽的车道、交叉口和公交站以及更开阔的视野与更高激烈事件强度相关,而密集建筑正面与较低强度相关,并针对自行车基础设施案例揭示了不同设施类型间的强度梯度。
APE: 用于图像生成与编辑的智能提示增强器
发表机构 * NVIDIA ; University of Michigan(密歇根大学)
AI总结 提出APE框架,通过后训练小型语言模型作为提示增强代理,以单代理或多代理方式改进文本到图像生成与编辑中的提示质量,无需修改下游视觉模型。
Comments Project Page: https://research.nvidia.com/labs/sil/projects/ape/
Safe2Drive: 评估端到端自动驾驶模型的安全驾驶行为
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Birla Institute of Technology and Science Pilani(比拉理工学院和科学帕利尼)
AI总结 针对端到端自动驾驶模型在常见安全关键场景中表现脆弱的问题,提出Safe2Drive测试集和安全驾驶评分(SDS),评估发现领先模型在安全场景中驾驶得分大幅下降且SDS较低。
MyoSem: 将肌电图与自然语言动作语义对齐以实现手部动作理解
发表机构 * South China University of Technology(华南理工大学)
AI总结 提出MyoSem框架,通过多视角动作语义构建、激活感知EMG编码和语义查询对齐,实现EMG信号与文本描述的双向检索,在多个数据集上优于基线方法并展现良好泛化性。
Comments 16 pages, 9 figures. Preprint
UF-AMA: 通过自适应多模态对齐的跨域情感识别统一框架
发表机构 * Institute of Advanced Technology, University of Science and Technology of China(中国科学技术大学先进技术研究院) ; Department of Electronic Engineering and Information Science, University of Science and Technology of China(中国科学技术大学电子工程与信息科学系) ; Institute of Artificial Intelligence, Hefei Comprehensive National Science Center(合肥综合国家科学中心人工智能研究院)
AI总结 提出一种统一框架UF-AMA,利用自适应多模态对齐和置信度感知筛选机制,解决跨主体和跨会话的生理信号情感识别中的分布偏移问题,在SEED和SEED-IV数据集上达到最优性能。
将机器人数据集构建建模为基于工件的构建过程
发表机构 * Institute for Autonomous Driving, University of the Bundeswehr Munich(自主驾驶研究所,联邦国防军 Munich 大学)
AI总结 本文提出将机器人数据集构建建模为基于工件的构建过程,并实现开源工具Bagzel,通过依赖图管理和增量构建显著降低数据集更新延迟,实验表明在迭代工作流中速度提升高达386倍。
Comments Accepted 2026 IEEE 22nd International Conference on Automation Science and Engineering (CASE 2026), 6 pages, 6 figures, 2 tables
针对空中飞行器检测的对抗性补丁的数字到物理迁移
发表机构 * School of Information Technology, Incheon National University(信息科技学院,Incheon国立大学)
AI总结 本文通过数字优化和物理部署,评估了针对YOLOv3空中飞行器检测器的物理对抗性补丁攻击,发现ON补丁在物理环境中鲁棒性更强。
Comments 18 pages, 5 figures, 3 tables, preprint
面向人类与机器的可扩展图像编码的无训练连续码率控制
发表机构 * University of Tokyo(东京大学)
AI总结 提出一种无训练的变码率可扩展图像编码框架,通过基于预测尺度值调整量化步长实现连续码率控制,同时保留机器层和增强层的高尺度信息。
DiffCrossGait:基于潜在扩散的2D-3D跨模态步态识别轨迹级对齐
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对2D-3D跨模态步态识别中的域差异问题,提出DiffCrossGait,通过潜在扩散空间中的轨迹级对齐实现连续模态对齐,并引入三阶段对齐策略确保身份锚定、动态一致性和跨模态结构可恢复性,在SUSTech1K和FreeGait基准上达到最优性能。
Comments Accepted by ICML2026
StemBind: 当多模态大语言模型在抽象视觉推理中迷失于规则与实例之间
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出 StemBind 诊断基准,通过共享主干的三对齐问题(感知、规则、完整)定位 MLLM 在抽象视觉推理中的失败环节,发现规则到实例的绑定是主要瓶颈。
Comments Project page: https://hexixiang.github.io/StemBind
多对比度MRI运动校正:基于参数信息解缠与自适应专家网络
发表机构 * ShanghaiTech University(上海科技大学)
AI总结 提出一种结合参数信息对比度解缠与严重度感知自适应校正的统一框架,通过ScanCLIP提取对比度嵌入以分离解剖内容,利用视觉Transformer估计运动严重度并路由至专家混合网络,实现跨对比度与严重度的运动伪影校正,在IXI和HCP基准上优于现有方法。
具有统一切线约束先验和曲率正则化的测地线
发表机构 * Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences)(山东省人工智能研究院,齐鲁工业大学(山东省科学院)) ; Yuanshen Rehabilitation Institute, Shanghai Jiao Tong University School of Medicine(元身康复研究院,上海交通大学医学院) ; School of Control Science and Engineering, Shandong University(控制科学与工程学院,山东大学) ; Department of Radiation Oncology, Shandong Cancer Hospital and Institute, Shandong First Medical University, Shandong Academy of Medical Sciences(放疗科,山东省肿瘤医院及研究院,山东第一医科大学,山东省医学科学院) ; CEREMADE, Université Paris Dauphine, Université-PSL, CNRS, UMR 7534(CEREMADE,巴黎大学Dauphine,Université-PSL,CNRS,UMR 7534)
AI总结 提出一种在方向提升空间中融合切线约束先验与曲率惩罚的测地线框架,通过快速行进法高效求解HJB PDE,增强复杂形状图像分割的鲁棒性。
神经3D网格纹理化进展:综述
发表机构 * Simon Fraser University(西蒙弗雷泽大学)
AI总结 本文综述了神经3D网格纹理化的最新进展,涵盖纹理合成、迁移和补全方法,并提出了统一的分类体系。
Comments Eurographics STAR (Computer Graphics Forum), 2026. Project Page: https://sairajk.github.io/neural-mesh-texturing/
位置编码锚定视觉Transformer中的空间结构:基于几何视角的鲁棒性研究
发表机构 * ESSTHS
AI总结 本文通过引入空间相似性距离相关性(SSDC)度量,研究不同位置编码对视觉Transformer内部空间表示几何结构的影响,发现位置编码通过建立索引锚定的空间组织来提升模型在内容破坏性分布偏移下的鲁棒性。
Comments 16 pages (9 main text, 7 appendix). 5 figures (3 main text, 2 appendix) with 8 graphics total. 5 tables (1 main text, 4 appendix). Submitted to NeurIPS 2026 main conference and the ICML 2026 mechanistic interpretability workshop
CardioLens: 通过多序列心脏MRI评估揭示MLLMs的临床现实差距
发表机构 * Beijing Academy of Artificial Intelligence(北京人工智能研究院) ; Beijing Anzhen Hospital(北京安贞医院) ; Beihang University(北航) ; King Abdullah University of Science and Technology(国王 Abdullah 科学与技术大学)
AI总结 提出CardioLens测试平台,通过多序列心脏磁共振成像评估24个多模态大语言模型,发现其在临床工作流中表现不佳,存在类别崩溃失败模式,且输入选择和推理提示改进效果有限。
基于语义和结构引导的大脑活动图像重建通用框架
发表机构 * State Key Laboratory of Brain Cognition and Brain-inspired Intelligence Technology(脑认知与脑启发智能技术国家重点实验室) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; School of Future Technology, University of Chinese Academy of Sciences(中国科学院大学未来技术学院) ; School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院)
AI总结 提出MindDiffuser两阶段框架,结合CLIP文本嵌入和视觉特征,通过Stable Diffusion生成语义图像并迭代优化结构信息,在fMRI、EEG、MEG三种模态上显著提升图像重建性能。
来自视频的物理:最小轨迹条件下时不变二阶ODE的可辨识性
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 研究从原始像素中辨识连续时间物理定律的结构可辨识性,证明在最小轨迹条件下,编码器-仅管道可唯一恢复二阶线性ODE参数,并引入方差底正则化器稳定无解码器目标。
Comments Accepted at ICML 2026
递归视觉Transformer与动态深度和宽度调整用于资源高效图像语义通信
发表机构 * Beijing Laboratory of Advanced Information Network(北京先进信息网络实验室) ; Beijing Key Laboratory of Network System Architecture and Convergence(北京网络系统架构与融合重点实验室) ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出一种递归视觉Transformer图像语义通信系统,通过动态深度和宽度调整策略降低参数和计算复杂度,在资源受限设备上实现高效通信。
进化到视觉语言模型的美学
发表机构 * SensiLab, Monash University Melbourne, Australia(传感实验室,墨尔本莫纳什大学,澳大利亚)
AI总结 本研究探索使用视觉语言模型(VLM)通过CLIP-IQA评分或成对比较结合Glicko评级系统来评估进化设计的美学,并与艺术家排名对比分析两种方法的优劣。
Comments Paper presented at ICCC26, June 29 - July 3, 2026, Coimbra, Portugal
ChWDTA:用于学习图像压缩的通道级小波域变换器注意力和熵建模
发表机构 * Electrical and Computer Engineering Department, The University of British Columbia(英属哥伦比亚大学电气与计算机工程系) ; School of Engineering Science, Simon Fraser University(西蒙弗雷泽大学工程科学学院) ; School of Electronic Science and Technology, Eastern Institute of Technology(电子科学与技术学院,东部技术学院) ; Google LLC(谷歌公司)
AI总结 提出通道级小波域变换器注意力(ChWDTA)和通道级小波包分解,在混合CNN-Transformer图像压缩框架中提升率失真性能,在多个测试集上实现显著BD-rate降低。
Comments 13 pages, 8 figures, 6 tables
广义协变动作建模:通过时空解耦构建广义流形
发表机构 * National University of Singapore(新加坡国立大学)
AI总结 提出广义动作流形框架,通过时间不变性和几何不变性解耦实现广义协变,提升从稀疏演示中泛化的鲁棒性。
VDSB-GWSyn: 用于冠状动脉造影中可控且解剖学可行的导丝合成的扩散薛定谔桥
发表机构 * Tianjin University(天津大学)
AI总结 提出基于扩散薛定谔桥的VDSB-GWSyn框架,通过形状先验和血管分割约束生成可控、高保真导丝样本,显著提升下游导丝端点定位精度。
Comments Early accept to MICCAI 2026
视觉噪声引导的上下文蒸馏用于多模态大语言模型遗忘
发表机构 * Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; School of Advanced Interdisciplinary Sciences, UCAS(北京大学交叉学科研究院)
AI总结 提出视觉噪声引导的上下文蒸馏(VGID)框架,通过双模态干预构建教师分布进行蒸馏,实现多模态大语言模型参数级遗忘,平衡遗忘效果与模型效用。
CoCoVideo: 基于商业模型的高质量对比基准用于AI生成视频检测
发表机构 * School of Informatics, Xiamen University(厦门大学信息学院) ; China Academy of Information and Communications Technology(中国信息通信技术研究院) ; AI Transcend Pte. Ltd.(AI Transcend有限公司)
AI总结 针对现有数据集依赖低质量开源模型且商业样本带水印的问题,提出包含13个商业生成器的CoCoVideo-26K对比数据集,并设计结合对比学习与置信门控多模态大语言模型的CoCoDetect检测框架,实现高保真AI生成视频的鲁棒检测。
Comments Accepected by CVPR 2026
CoilDrop-MRI:基于线圈丢弃的自监督物理引导MRI重建
发表机构 * School of Biomedical Engineering, Tsinghua Medicine, Tsinghua University(清华大学生物医学工程系) ; Oxford Centre for Integrative Neuroimaging, FMRIB, Nuffield Department of Clinical Neurosciences, University of Oxford(牛津大学整合神经影像中心) ; Department of Radiology & Biomedical Imaging, University of California San Francisco(加州大学旧金山分校放射科与生物医学成像系)
AI总结 提出CoilDrop-MRI方法,通过在线圈维度进行丢弃并作为自监督训练目标,结合图像域和k空间域展开架构,实现无需全采样数据的并行MRI重建,在多站点、多场强、多模态数据集上性能优于现有自监督方法。
分割引导的空间索引用于可泛化和可解释的深度伪造检测
发表机构 * University of Central Florida(佛罗里达大学)
AI总结 提出分割引导的空间索引方法,通过冻结的FaRL解析器为DINOv3 ViT-L/16的patch token分配语义标签,仅选择语义相关的区域进行分类,实现可泛化且可解释的深度伪造检测。
弥合2D-3D鸿沟:面向视觉语言导航的分层语义几何地图
发表机构 * School of Computer Science and Technology, East China Normal University(东华大学计算机科学与技术学院) ; Bosch Corporate Research(博世企业研究) ; King Abdullah University of Science and Technology(卡布斯大学)
AI总结 提出分层语义几何地图(HSGM),将3D几何信息转化为VLM可理解的结构化表示,结合VLM高层语义规划与经典路径规划,实现零样本视觉语言导航,在R2R-CE和RxR-CE基准上达到最先进性能。
对齐细胞层与分类器注意力以实现可解释的弱监督病理定位
发表机构 * Turocrates AI Private Limited(Turocrates AI私有有限公司)
AI总结 针对弱监督全切片图像分类中注意力图定位不准确的问题,提出结合细胞层与注意力机制的一致性训练方法,在Camelyon16上实现补丁级AUC 0.940,并提升注意力AUC从0.717至0.953。
结构化视觉证据分解用于阻塞性睡眠呼吸暂停低通气综合征的证据驱动多模态筛查
发表机构 * School of Electronic and Electrical Engineering, Shanghai University of Engineering Science(上海工程技术大学电子与电气工程学院) ; Tencent Youtu Lab(腾讯云视频实验室) ; ENT Institute and Department of Otorhinolaryngology, Eye & ENT Hospital of Fudan University(复旦大学耳鼻喉科医院耳鼻喉科研究所) ; National University of Singapore(新加坡国立大学)
AI总结 提出EviOSAHS框架,通过将面部图像分解为七个解剖查询并生成结构化证据卡,结合临床信息进行高灵敏度OSAHS筛查。
Planktonzilla: 用于理解浮游生态系统的多模态数据集与模型
发表机构 * Inria Chile Research Center(Inria智利研究中心)
AI总结 为解决浮游生物分类模型泛化性差的问题,提出统一数据集Planktonzilla-17M(含1740万张图像,涵盖602个分类类群),并对比监督学习与CLIP风格训练,发现基于分类谱系的监督学习优于CLIP,且现有生物基础模型在海洋成像领域表现不佳。
基于流的生成建模优化压缩感知应用中的采样策略
发表机构 * Eindhoven University of Technology(埃因霍温理工大学)
AI总结 提出一种任务感知的基于流的生成框架,通过训练流模型优化压缩感知中的子采样掩码,显著提升图像分类、重建和MRI加速的性能。
视觉任务中的改进信念注意力
发表机构 * University of Exeter(埃克塞特大学)
AI总结 提出Belief2-Attention,通过同时利用垂直分量和投影分量扩展信念注意力,并引入额外内积矩阵增强标记相关性,提升视觉任务性能。
DefocusTrackerAI -- 一种用于自动检测离焦粒子图像的通用框架
发表机构 * IN+ Center for Innovation, Technology and Policy Research, Instituto Superior Técnico, University of Lisbon, Lisbon, Portugal(IN+创新、科技与政策研究中心,理工学院,里斯本大学,里斯本,葡萄牙) ; CINAMIL - Military Academy Research Center, Militart Academy, Portugal(CINAMIL - 军事学院研究中心,军事学院,葡萄牙) ; Department of Industrial Engineering, Alma Mater Studiorum University of Bologna, Bologna, Italy(工业工程系,博洛尼亚大学,博洛尼亚,意大利)
AI总结 提出DefocusTrackerAI,一种基于YOLOv9的通用深度学习框架,用于自动检测和位置估计离焦粒子图像,在多种光学配置下实现高召回率和低不确定性。
Comments 24 pages, 10 figures
从人类视频到机器人操作:基于人类中心数据的可扩展视觉-语言-动作学习综述
发表机构 * Tsinghua University(清华大学) ; HKUST(香港科技大学) ; Xi’an Jiaotong University(西安交通大学) ; Fudan University(复旦大学) ; Microsoft Research Asia(微软亚洲研究院) ; Peking University(北京大学) ; Microsoft Zurich Project(微软苏黎世实验室)
AI总结 本文综述了如何将丰富的人类视频转化为视觉-语言-动作(VLA)模型的有效知识,分类了四种方法(潜在动作表示、预测世界模型、显式2D监督、显式3D重建),并指出了结构化非结构化视频、跨具身和视角的动作映射、以及评估协议设计三大挑战。
Comments Accepted to IJCAI 2026 Survey Track. Project page: https://aaronfengzy.github.io/HumanCentricToVLA-Survey/
当玩笑越界:分析YouTube Shorts中的常规幽默与黑色幽默
发表机构 * Virginia Polytechnic Institute and State University(弗吉尼亚理工大学)
AI总结 通过构建TwistedHumor数据集(1211个YouTube Shorts及33041条评论的手工标注),结合多视角分析(LLooM概念归纳、评论情感分析、大模型评估),揭示了短格式视频中常规幽默与黑色幽默在主题、观众反应和模型检测上的差异,强调了上下文感知审核的必要性。
书道:连接书法、音乐与表演的评分框架
发表机构 * Hangzhou Domain Zones Technology Co., Ltd.(杭州域区技术有限公司)
AI总结 提出CWSR表示法和书道框架,将东亚书法建模为类似乐谱的结构化表演,支持人机共创。
Comments 47 pages
SOCO: 视觉基础模型中语义对象对应关系的基准测试
发表机构 * Max Planck Institute for Informatics(马克斯·普朗克研究所信息学研究所) ; Saarland Informatics Campus(萨尔州信息学校园) ; CISPA Helmholtz Center for Information Security(信息安全霍夫曼中心) ; University of Freiburg(弗赖堡大学)
AI总结 提出SOCO基准,通过引入对应类型分类法和100个类别上超过100万对功能上有意义的关键点注释,系统评估视觉基础模型中的语义对应能力,并揭示模型在跨类别迁移、语言引导定位与视觉对应之间的差距。
Comments Project page: https://genintel.github.io/SOCO/
EGOSTREAM: 面向第一人称视角的流式情景记忆诊断基准
发表机构 * Department of Mathematics and Computer Science(数学与计算机科学系) ; University of Catania(卡塔尼亚大学)
AI总结 提出EGOSTREAM基准,通过七种认知维度和答案有效期窗口,诊断流式视频中模型的情景记忆能力,并评估多种记忆管理机制。
提升仓库设施中计算机视觉模型泛化能力:垂直物料搬运系统异常检测案例研究
发表机构 * Amazon, USA(亚马逊公司)
AI总结 本研究通过实验室环境下的最优相机布置、图像触发策略、模型选择与集成,实现了垂直物料搬运系统异常检测模型从实验室到多种仓库环境的有效泛化,简化了部署流程并节省了标注和重训练资源。
Comments 6 pages, 10 figures. Accepted at IEEE International Conference on Mechatronics and Automation (ICMA) 2026
Astra:一种用于三维计算机断层扫描的通用报告生成基础模型
发表机构 * School of Biomedical Engineering, Tsinghua University(清华大学生物医学工程学院) ; School of Biomedical Engineering, Shanghai Jiao Tong University(上海交通大学生物医学工程学院) ; DAMO Academy, Alibaba Group(阿里云达摩院) ; Hupan Laboratory(壶辰实验室) ; Department of Biomedical Engineering, National University of Singapore(新加坡国立大学生物医学工程系) ; Department of Radiology, Guizhou Provincial People’s Hospital(贵州省级人民医院放射科) ; Department of Radiology, The First Affiliated Hospital, Zhejiang University School of Medicine(浙江大学医学院附属第一医院放射科) ; Department of Radiology, Shanghai Sixth People’s Hospital Affiliated to Shanghai Jiao Tong University School of Medicine(上海交通大学医学院附属第六人民医院放射科) ; College of Computer Science and Technology, Zhejiang University(浙江大学计算机科学与技术学院)
AI总结 提出Astra模型,通过风格统一和强化学习,在8个器官系统的CT报告生成中实现高精度,平均细粒度诊断指标提升44.1%,并加速临床工作流。
无条件扩散模型中低级感知编辑的引导
发表机构 * Indian Institute of Technology Roorkee(印度理工学院罗尔基)
AI总结 针对无条件扩散模型在美学和感知增强中难以进行全局低级变换的问题,提出一种无需训练的推理时机制,通过提取退化概念向量并结合瓶颈修补与无分类器引导,实现图像编辑与质量提升。
Comments 11 pages, 12 figures, Generative Models for Computer Vision Workshop CVPR 2026
Robust Dreamer: 用于动作控制AR视频生成的偏差感知潜在高斯记忆
发表机构 * School of Computing, National University of Singapore(新加坡国立大学计算机学院) ; Technische Universität München(慕尼黑技术大学) ; Vertex Lab(Vertex实验室) ; Australian National University(澳大利亚国立大学)
AI总结 提出Robust Dreamer框架,通过潜在高斯记忆和动态偏差存档解决自回归视频生成中的漂移问题,实现长程3D一致性。
工业视觉模拟到现实中的先验可用性:CAD引导与CAD不可用机制的综述
发表机构 * George W. Woodruff School of Mechanical Engineering(乔治·W·伍德鲁夫机械工程学院) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 本文通过先验可用性视角重新组织工业视觉模拟到现实问题,区分CAD可用、CAD不可用和边界先验三种机制,并基于T-LESS/BOP、MVTec AD和VisA数据集进行实证分析,揭示了源分布设计、检测器容量和真实校准的重要性,以及CAD在测试时提供的独特验证通道。
Comments Review article; 103 references; 9 main figures; empirical anchors on T-LESS/BOP, MVTec AD, and VisA
基于对比蒸馏的轻量级SAR舰船检测
发表机构 * University of Arizona Department of Electrical and Computer Engineering(亚利桑那大学电气与计算机工程系)
AI总结 提出结构化统一关系知识蒸馏框架SURGE,通过对比InfoNCE目标在共享嵌入空间中转移关系几何,实现轻量级SAR舰船检测,在SSDD和HRSID上提升6.2 mAP和8.0 AP75。
Comments Accepted in GLSVLSI'26 special session 74: Efficiency In Computer Vision: From Image Generation to Decision"
ForestHG-Trace: 大规模森林场景下的可追踪长程生态推理
AI总结 提出ForestHG-Trace框架,通过生态超图表示和LLM引导的确定性工具链,实现森林场景中可追踪的多步生态推理,并构建ForestTraceQA基准,显著提升长程生态问答的准确性和执行忠实度。
Comments It has theoretical flaws and experimental errors
融合异质注意力结构的Transformer模型通用解释方法
发表机构 * Zhejiang University(浙江大学)
AI总结 针对Transformer中异质注意力结构(如共注意力)带来的多源信息融合挑战,提出一种通用解释方法,并通过实验分析范式对代表性模型进行语义和逻辑解释。
Evi-Steer:通过高效且可泛化的证据调优学习引导生物医学视觉-语言模型
发表机构 * Concordia University(康科迪亚大学)
AI总结 提出Evi-Steer框架,通过证据跨模态低维引导实现BiomedCLIP的不确定性感知参数高效微调,仅更新0.11%参数,在15个生物医学数据集上少样本学习和域泛化设置中优于现有方法。
Comments MICCAI 2026 Early Accept; Project Page: https://tahakoleilat.github.io/Evi-Steer. This preprint has not undergone peer review or any post-submission improvements or corrections. The Version of Record of this contribution will be published as part of the MICCAI 2026 proceedings in October
通过校准交互解决组合图像检索中的歧义
发表机构 * Amsisan Tran ; Baogh Le ; Tuan Kiet Pham ; Sui Yang Guang
AI总结 本文提出将组合图像检索重新定义为不确定性下的校准意图解析,通过共形预测层提供覆盖保证的候选集,并利用期望信息增益策略提出最有效的澄清问题,从而解决查询歧义和假阴性问题。
InstructSAM: 根据任意指令分割任意实例
发表机构 * Zhejiang University(浙江大学) ; Nanjing University of Aeronautics and Astronautics(南京航空航天大学)
AI总结 提出InstructSAM框架,通过将指令驱动实例分割建模为集合结构查询预测问题,并设计显式推理到实例查询接口,结合视觉语言模型和SAM3实现单次前向传播中的多实例分割。
Comments 19 pages, 8 figures, code: https://github.com/DCDmllm/InstructSAM
通道级向量量化
发表机构 * Shanghai Innovation Institute(上海创新研究院) ; Westlake University(西湖大学) ; Zhejiang University(浙江大学) ; Fudan University(复旦大学) ; JD.COM(京东公司) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 提出通道级向量量化(CVQ)代替补丁级量化,并基于此设计通道级自回归(CAR)模型,通过逐通道预测实现渐进式细节生成,在图像重建和文本到图像生成中取得优异性能。
EVL-ECG:面向多视角异构知识蒸馏的高效心电图解读
发表机构 * University of Notre Dame(诺丁汉大学)
AI总结 提出EVL-ECG框架,通过多头交叉注意力对齐、最优传输视觉特征匹配和几何结构关系匹配三种创新方法,实现跨架构知识蒸馏,在资源受限环境下高效解读心电图。
Comments 7Accepted at the SD4H Workshop at ICML 2026. 7 pages, 3 figures
扩散模型、去噪器架构与创造力
发表机构 * The Hebrew University of Jerusalem(海法大学)
AI总结 本文通过理论和实验表明,扩散模型的创造力源于去噪器架构与目标分布之间的相互作用,并指出去噪器架构的归纳偏差必须与真实目标分布高度一致才能成功。
GiPL: 用于跨域小样本目标检测的生成增强迭代伪标签方法
发表机构 * Huazhong University of Science and Technology(华中科技大学)
AI总结 提出GiPL双分支训练框架,通过迭代伪标签自训练和生成数据增强,解决跨域小样本目标检测中支持集利用不足和过拟合问题。
Comments CVPR 2026 Workshop
AnyMo: 基于掩码建模的任意模态条件运动生成
发表机构 * Key Laboratory of Intelligent Information Processing of Chinese Academy of Sciences (CAS), Institute of Computing Technology, CAS, China(中国科学院智能信息处理重点实验室(中国科学院计算技术研究所,中国)) ; University of Chinese Academy of Sciences, China(中国科学院大学)
AI总结 提出AnyMo框架,结合残差FSQ运动分词器和可扩展掩码建模Transformer,利用大规模多模态对齐数据集OmniHuMo实现任意模态组合下的高质量人体运动生成。
WorldMemArena: 通过动作-世界交互评估多模态智能体记忆
发表机构 * University of California, Santa Barbara(加州大学圣芭芭拉分校) ; J.P. Morgan Chase(摩根大通) ; ETH Zurich(苏黎世联邦理工学院) ; Stanford University(斯坦福大学) ; Johns Hopkins University(约翰霍普金斯大学) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出WorldMemArena基准,通过动作-世界交互循环的四阶段生命周期评估多模态智能体记忆,揭示现有方法在写入、维护、检索和使用中的失败点。
Comments 25 pages, 8 figures
UniNote: 一种用于多模态表示和排序的统一嵌入模型
发表机构 * Xiaohongshu Beijing China(小红书北京中国) ; Shanghai Jiao Tong University(上海交通大学) ; Huazhong University of Science and Technology(华中科技大学) ; Beijing Institute of Technology(北京理工大学)
AI总结 提出UniNote统一嵌入模型,通过两阶段训练(对比SFT和强化学习)解决工业级Item-to-Item检索中全局表示与局部检索的平衡、解耦流水线效率及精度-延迟权衡问题,在小红书部署后显著提升检索质量和成本效率。
Comments Accepted by KDD Ads Track 2026
深度心理视觉图像表示
发表机构 * School of EECS The University of Queensland(电子工程与计算机科学学院昆士兰大学)
AI总结 受心理视觉模型启发,提出深度视觉编码方法,利用频域表示和复值图像表示实现心理视觉风格的抽象,构建首个基于心理视觉的深度学习框架,通过数据驱动频谱滤波器学习任务相关语义结构,实验表明该模型提取可解释性强的物体部分,且对深度依赖较小。
GAP3D: 将VLM潜在表示与补丁级嵌入进行生成式对齐以实现3D生成
发表机构 * Polytimi Anna Gkotsi ; Andrii Zadaianchuk ; Mohammad Mahdi Derakhshani
AI总结 提出GAP3D,一种基于扩散的模块化方法,将VLM生成的潜在表示直接对齐到预训练图像编码器的完整补丁级特征空间,使冻结的下游生成模型能够利用VLM作为提示编码器,同时保持空间结构化的条件信号,在3D资产生成中无需大规模3D数据训练,并展现出多模态提示的零样本能力。
扩散模型在高光谱图像分析中的应用:综述
发表机构 * School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology(上海理工大学光学电子与计算机工程学院) ; School of Electronics and Electrical Engineering, Shanghai University of Engineering Science(上海工程技术大学电子与电气工程学院) ; Medical Artificial Intelligence Lab, The First Hospital of Hebei Medical University, Hebei Medical University(河北医科大学第一医院医学人工智能实验室) ; Hangzhou Institute of Technology, xidian University(杭州职业技术学院)
AI总结 本文系统综述了扩散模型(包括去噪扩散概率模型和基于随机微分方程的生成框架)在高光谱图像处理中的最新进展,分类现有方法,强调其处理高维数据的优势,并与传统方法比较性能,特别关注变化检测和灾后异常识别等关键应用,同时讨论计算成本和训练稳定性等局限,并展望未来研究方向。
Comments Published in Neural Networks
Baton: 用于联合视频-音频生成的显式语义蓝图
发表机构 * Fudan University(复旦大学) ; Tencent Hunyuan(腾讯幻元)
AI总结 提出Baton框架,通过VA-Planner生成语义对齐的模态感知规划令牌作为蓝图,注入扩散骨干以协调视频和音频去噪,解决现有方法因缺乏共享长期规划导致的跨模态对齐脆弱问题。
SpikeReg: 基于脉冲神经网络的高能效3D可变形医学图像配准
发表机构 * School of Electrical and Computer Engineering, College of Engineering, University of Tehran(德黑兰大学电气与计算机工程学院) ; Max Planck Institute for Brain Research(马克斯·普朗克脑科学研究所) ; School of Computer Engineering, Iran University of Science and Technology (IUST)(伊朗科学技术大学计算机工程学院) ; Department of Electrical and Computer Engineering, University of Waterloo(滑铁卢大学电气与计算机工程系)
AI总结 提出SpikeReg,一种脉冲U-Net,通过层间权重迁移和激活百分位阈值校准从模拟ANN教师初始化,结合局部互相关、扩散正则化和脉冲率稀疏性的代理梯度微调,在OASIS Learn2Reg验证集上达到Dice 0.7474,与ANN教师无显著差异,同时实现12.8%平均脉冲率和55.5倍算术能量降低。
物理引导的自监督统计残差学习用于声纳图像去斑及泛化改进
发表机构 * School of Electrical Sciences, Indian Institute of Technology Goa(印度理工学院Goa电子科学学院) ; Inria, Sophia Antipolis, France(法国Sophia Antipolis Inria)
AI总结 提出一种物理引导的自监督框架,通过同态对数域残差一致性约束,结合方差统计损失、边缘感知正则化和中值引导课程学习,实现无需干净监督的声纳图像去斑,并在多个真实数据集上达到最优性能且具有跨数据集鲁棒性。
阅读,而非思考:理解并弥合多模态大语言模型中文本变为像素时的模态差距
发表机构 * Johns Hopkins University(约翰霍普金斯大学) ; Amazon(亚马逊) ; New York University(纽约大学) ; Texas A&M University(德克萨斯大学)
AI总结 本文系统诊断多模态大语言模型在处理图像文本时的模态差距,发现其源于模型推理意愿不足而非感知失败,并提出一种轻量级自蒸馏方法有效弥合该差距。
B-GRTO: 引导式分组相对工具优化用于指代分割
发表机构 * INSAIT ; Sofia University "St. Kliment Ohridski"(索菲亚大学"圣克莱门特·欧赫里迪斯基")
AI总结 提出B-GRTO框架,通过引导式预训练和分组相对工具优化,联合优化策略与可微分割解码器,显著提升复杂指代分割性能。
超越正常参考:判别式少样本异常检测
发表机构 * Singapore Management University, Singapore(新加坡国立管理学院) ; University of Wollongong, Australia(沃林戈大学)
AI总结 提出IDEAL框架,通过内在偏差学习同时利用正常和异常参考,抑制正常变化并提取判别性偏差向量,实现少样本异常检测的泛化。
Comments 31 pages, 7 figures
从抽象到实例化:学习视觉-语言-动作模型的行为表示
发表机构 * Harbin Institute of Technology, Shenzhen(哈尔滨工业大学(深圳)) ; Shenzhen Loop Area Institute(深圳环城研究所) ; PengCheng Laboratory(鹏城实验室) ; Sun Yat-sen University(中山大学) ; Shanghai University of Finance(上海财经大学)
AI总结 提出BehaviorVLA框架,通过因果Mamba架构的视觉运动行为编码器和相位条件行为解码器学习时间一致的行为表示,在分布偏移下实现鲁棒操作,在多个基准上达到最优成功率并展现数据效率。
Comments ICML 2026 Oral
散度即不确定性:流匹配的闭式后验协方差
发表机构 * Yale University(耶鲁大学) ; Shanxi University(山西大学) ; Harvard Medical School(哈佛医学院)
AI总结 本文通过扩展Tweedie公式到流匹配插值,推导出生成轨迹上每一点后验协方差的精确闭式表达式,该表达式仅依赖于学习速度场的散度,可在预训练模型上事后计算,无需重新训练或修改架构。
Comments 9 Pages, 5 figures
双锚定:解决视觉语言导航中的状态漂移问题
发表机构 * National Key Laboratory of Human-Machine Hybrid Augmented Intelligence(人机混合增强智能国家重点实验室) ; National Engineering Research Center for Visual Information and Applications(视觉信息与应用国家工程研究中心) ; Institute of Artificial Intelligence and Robotics(人工智能与机器人研究院) ; Xi’an Jiaotong University(西安交通大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院) ; Johns Hopkins University(约翰霍普金斯大学) ; Joy Future Academy, JD(京东未来学院)
AI总结 提出双锚定框架,通过指令进度锚定和记忆地标锚定分别解决进度漂移和记忆漂移,显著提升长场景导航成功率。
因果强迫:自回归扩散蒸馏的正确方法,用于高质量实时交互式视频生成
发表机构 * Hongzhou Zhu(朱洪洲) ; Min Zhao(赵敏) ; Guande He(何冠德) ; Hang Su(苏hang) ; Chongxuan Li(李崇轩) ; Jun Zhu(朱军)
AI总结 针对双向扩散模型蒸馏为自回归模型时的架构差距问题,提出因果强迫方法,通过自回归教师进行ODE初始化并应用DMD过程,显著提升视频生成质量。
Comments Project page and the code: \href{https://thu-ml.github.io/CausalForcing.github.io/}{https://thu-ml.github.io/CausalForcing.github.io/}; https://github.com/thu-ml/Causal-Forcing. ICML 2026
用于目标检测的双集成低延迟单透镜红外计算成像
发表机构 * MOE Key Laboratory of Advanced Micro-Structured Materials(教育部先进微结构材料重点实验室) ; Institute of Precision Optical Engineering(精密光学工程研究院) ; School of Physics Science and Engineering(物理科学与工程学院) ; Shanghai Frontiers Science Center of Digital Optics(上海前沿科学中心数字光学中心) ; School of Computer Science and Artificial Intelligence(计算机科学与人工智能学院) ; Shandong Normal University(山东师范大学) ; Shandong Engineering Research Center for Multimodal Computing and Intelligent Decision Making(山东省多模态计算与智能决策中心)
AI总结 提出物理感知双集成网络(PDI-Net),通过嵌入光学先验并共享编码器特征,在单透镜红外相机上实现低延迟高精度目标检测。
Comments 15 pages, 11 figures; supplementary material: 3 pages, 2 figures
RelWitness: 基于视觉-几何关系见证者的开放词汇3D场景图生成
发表机构 * Phenikaa University(费恩基亚大学)
AI总结 提出RelWitness框架,通过视觉-几何关系见证者从不完整关系监督中生成开放词汇3D场景图,解决关系标注稀疏和词汇扩展问题。
AIGaitor: 面向所有人的隐私保护与无云端运动分析——基于边缘计算
发表机构 * Department of Biomedical Informatics, Emory University(埃默里大学生物医学信息学系) ; Department of Rehabilitation Medicine, Emory University(埃默里大学康复医学系) ; The Wallace H. Coulter Department of Biomedical Engineering, Emory University and Georgia Institute of Technology(埃默里大学和佐治亚理工学院的Wallace H. Coulter生物医学工程系)
AI总结 提出AIGaitor系统,在智能手机上利用边缘计算实现无标记单目运动捕捉与深度学习分析,解决成本、隐私和易用性问题。
Comments 18 pages 3 figures, 2 tables
Co-Fusion4D:面向鲁棒3D目标检测的时空协同融合
发表机构 * Tsinghua University(清华大学)
AI总结 提出Co-Fusion4D框架,通过当前帧主导-历史帧互补机制和双注意力融合模块,解决BEV检测器中跨帧时空不一致问题,在nuScenes上达到74.9% mAP和75.6% NDS。
视觉模型真的能遗忘吗?Mirage:表示层面的视觉遗忘认证
发表机构 * Fudan University(复旦大学) ; Southeast University(东南大学) ; Northeast Normal University(东北师范大学)
AI总结 提出Mirage框架,通过表示层面诊断揭示现有垂直联邦学习遗忘方法在输出层面通过认证后仍保留类别结构信息,并发现遗忘三元组困境和类别-样本不对称性。
MobileEgo Anywhere:基于商用硬件的长时域自我中心数据开放基础设施
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学) ; University of Washington(华盛顿大学) ; University of California, Los Angeles(加州大学洛杉矶分校) ; University of California, Santa Barbara(加州大学圣巴巴拉分校)
AI总结 提出MobileEgo Anywhere框架,利用智能手机传感器实现超过一小时的自我中心轨迹采集,并发布开源处理流水线STERA、移动应用及200小时数据集,验证其在视觉-语言-动作模型训练中的有效性。
从太空看SDG 6:利用卫星图像和自监督学习对非洲管道水和污水系统接入进行局部尺度监测
发表机构 * Mila – Quebec AI Institute(魁北克人工智能研究所) ; School of Computer Science, McGill University(麦吉尔大学计算机科学学院) ; Department of Earth and Environmental Engineering, Columbia University(哥伦比亚大学地球与环境工程系) ; Center for Learning the Earth with Artificial Intelligence and Physics (LEAP)(人工智能与物理学习地球中心(LEAP)) ; Division of Natural and Applied Sciences, Duke Kunshan University(杜克-昆山大学自然科学与应用科学系)
AI总结 本研究利用Sentinel-2图像、Afrobarometer调查数据、30米人口数据和DINO自监督视觉Transformer特征,开发了一个可扩展的遥感框架,以约2.56公里分辨率估计管道水和污水系统接入情况,最佳模型AUROC分别达到91.54%和93.24%,与WHO/UNICEF JMP统计数据高度一致,并在尼日利亚案例中揭示了细粒度环境不平等。
Comments Under Review
一种具有代理控制的高效流式视频理解框架
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Eastern Institute of Technology, Ningbo, China(宁波工程技术学院) ; Microsoft Research Asia(微软亚洲研究院)
AI总结 提出R3-Streaming框架,通过级联控制(记忆压缩、响应判断、计算路由)和年龄感知遗忘策略及目标平衡强化学习(TB-GRPO),在严格延迟预算下实现流式视频理解,性能达到SOTA并减少95-96%视觉令牌使用。
TRACE:基于证据定位的多视频事件理解与声明生成
发表机构 * University at Buffalo, SUNY(布法罗大学) ; New York University(纽约大学)
AI总结 提出TRACE框架,通过先构建文本可搜索时间线进行证据定位,再引导视觉语言模型生成声明和跨视频引用,显著提升多视频事件理解的事实完整性和归因准确性。
Comments Accepted at ACL 2026 Workshop
MedSynapse-V:通过潜在记忆演化桥接视觉感知与临床直觉
发表机构 * Hunan University(湖南大学)
AI总结 提出MedSynapse-V框架,通过潜在诊断记忆演化模拟临床专家经验调用,解决医学视觉语言模型因离散分词导致的量化损失、长程信息消散和案例适应性问题,在诊断准确性上显著超越现有方法。
Comments Medical latent reasoning; Memory evolution
Causal Forcing++:用于实时交互式视频生成的可扩展少步自回归扩散蒸馏
发表机构 * Tsinghua University(清华大学) ; ShengShu(盛数) ; Renmin University of China(中国人民大学)
AI总结 提出Causal Forcing++框架,通过因果一致性蒸馏(causal CD)实现帧级1-2步自回归扩散蒸馏,在降低延迟和训练成本的同时提升视频生成质量。
打破双重瓶颈:将统一多模态模型演化为自适应交错视觉推理器
发表机构 * Tsinghua University(清华大学)
AI总结 针对统一多模态模型在理解与生成之间的鸿沟导致的注意力纠缠和视觉细化瓶颈,提出一种自适应切换生成策略的框架,通过分层数据流水线和两阶段训练(SFT+RL)提升X2I任务性能。
Comments Accepted by ICML 2026
任意骨干网络的归一化等变性及其在图像去噪中的应用
发表机构 * University of Cambridge(剑桥大学) ; DeepMind
AI总结 提出无参数包装器WNE,通过输入归一化、任意骨干网络处理、输出反归一化实现归一化等变,在盲去噪中提升CNN和Transformer对噪声水平失配的鲁棒性且无GPU开销。
CLIP Tricks You: 面向大型视觉-语言模型中高效像素定位的无训练令牌剪枝
发表机构 * KAIST(韩国科学技术院)
AI总结 提出LiteLVLM,一种无需训练、文本引导的令牌剪枝策略,通过反转CLIP视觉-文本相似度排序,保留指代区域令牌并恢复上下文令牌,实现高效像素定位推理,在多种令牌预算下性能提升超5%,保持90%原始性能同时加速22%并减少2.3倍内存。
Comments Accepted by ICML 2026
Agentic AI 在遥感中的应用:技术挑战与研究方向
发表机构 * Mohamed bin Zayed University of Artificial Intelligence(莫扎德·本·扎耶德人工智能大学)
AI总结 本文指出遥感中的多步分析工作流存在结构性的地理空间约束,提出面向地球观测的原生智能体设计原则,包括结构化地理空间状态、工具感知推理、验证器引导执行和有效性感知学习评估。
Comments 31 pages. Position Paper
通过一致性修正流实现快速图像超分辨率
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; Huawei Noah’s Ark Lab(华为诺亚实验室) ; HKUST (GZ)(香港科技大学(广州)) ; South China University of Technology(华南理工大学)
AI总结 提出FlowSR方法,将超分辨率问题重构为从低分辨率到高分辨率图像的修正流,利用改进的一致性学习策略实现单步高质量超分辨率。
Comments Accepted by ICCV 2025; Code: https://github.com/jiaqixuac/FlowSR
ScriptHOI:学习脚本化状态转换用于开放词汇人-物交互检测
发表机构 * Phenikaa University(费因克斯大学)
AI总结 提出ScriptHOI框架,将交互短语分解为软脚本化状态转换,通过视觉状态分词器和槽位匹配器校准HOI逻辑,并引入区间部分标签学习和反事实脚本对比损失,提升开放词汇HOI检测中稀有和未见交互的识别,减少功能冲突误报。
Picasso: 基于物理约束采样的整体场景重建
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; National University of Singapore(新加坡国立大学)
AI总结 提出Picasso,一种通过快速拒绝采样推理多物体交互并考虑几何、非穿透和物理约束的整体场景重建方法,在物理合理性和重建精度上显著优于现有技术。
Comments 15 pages, accepted to Robotics: Science and Systems (RSS) 2026
笛卡尔捷径:在极坐标空间中重新评估视觉推理
发表机构 * Stanford University(斯坦福大学) ; Google Research(谷歌研究院)
AI总结 针对多模态大语言模型在视觉推理中利用笛卡尔坐标捷径的问题,提出Polaris-Bench基准,将任务转换至极坐标空间,揭示模型缺乏拓扑不变性视觉推理。
PermuQuant:通过重新排列通道降低扩散模型每组量化误差
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Huawei Noah’s Ark Lab(华为诺亚实验室)
AI总结 提出PermuQuant框架,通过基于联合二阶矩的通道重排序和校准接受规则,降低低比特扩散模型每组量化误差,实现显著加速和内存压缩。
学习增强的可扩展线性分配问题优化:基于神经对偶热启动
发表机构 * Department of Electrical and Computer Engineering, Technion -- Israel Institute of Technology, Haifa, Israel(电气与计算机工程系,技术学院——以色列理工学院,海法,以色列)
AI总结 提出一种学习增强框架,通过预测对偶变量热启动精确求解器,并设计轻量级行独立架构RowDualNet避免O(N^2)内存瓶颈,实现可扩展的神经热启动,在保持最优性的同时获得超过2倍加速。
Comments Accepted to ICML 2026. 23 pages, 18 figures
探索和利用潜流匹配中的稳定性
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文证明潜流匹配模型对数据缩减和模型容量收缩具有鲁棒性,并利用这种稳定性提出更高效的训练和推理算法,包括数据节省和超过两倍的推理加速。
Comments Accepted at ICML 2026
联合音视频生成模型是否理解物理?
发表机构 * University of Texas at Dallas(德克萨斯大学达拉斯分校) ; University of Washington(华盛顿大学) ; University of California, Los Angeles(加州大学洛杉矶分校)
AI总结 针对联合音视频生成模型,提出AV-Phys Bench基准测试其物理常识,发现所有模型在物理一致性上表现不足,尤其是事件驱动和环境驱动转换场景。
Comments Preprint. Project Page: https://zijuncui.com/AV-Phys/. Full abstract appears in the PDF
AGILE: 通过代理生成从视频重建手-物体交互
发表机构 * State Key Lab of CAD & CG, Zhejiang University(浙江大学计算机辅助设计与图形学国家重点实验室) ; Zhejiang University of Technology(浙江工业大学)
AI总结 提出AGILE框架,利用视觉语言模型引导生成完整物体网格,结合锚定-跟踪策略和接触感知优化,从单目视频鲁棒重建手-物体交互,生成可直接用于仿真的资产。
Comments 16 pages, SIGGRAPH 2026
奖励分数匹配:统一流模型和扩散模型的基于奖励的微调
发表机构 * Graduate School of AI, KAIST, Korea(人工智能研究生院,韩国科学技术院)
AI总结 提出奖励分数匹配(RSM)框架,统一了多种基于奖励的微调方法,通过分数匹配与值引导目标对齐,简化了设计空间并提高了效率。
Comments 43 pages, 15 figures
频率增强扩散模型:基于课程引导语义对齐的零样本骨架动作识别
发表机构 * State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing(测绘遥感信息工程国家重点实验室) ; Wuhan University(武汉大学) ; Information Systems Technology and Design Pillar(信息系统技术与设计学院) ; Singapore University of Technology and Design(新加坡科技与设计大学) ; School of Geodesy and Geomatics(测绘学院) ; School of Mathematics and Statistics(数学与统计学院) ; Wuhan University Shenzhen Research Institute(武汉大学深圳研究院)
AI总结 提出频率感知扩散模型FDSM,通过语义引导频谱残差模块、时间步自适应频谱损失和课程语义抽象,解决扩散模型频谱偏差导致的高频动态过度平滑问题,实现零样本骨架动作识别,在多个数据集上达到最优性能。
Comments Accepted by The Visual Computer
GSDeformer:面向3D高斯泼溅的直接、实时且可扩展的笼形变形方法
发表机构 * National Centre for Computer Animation(国家计算机动画中心) ; Bournemouth University(伯恩茅斯大学) ; Department of Computer Science and Information Engineering(计算机科学与信息工程系)
AI总结 提出GSDeformer,通过代理点云表示桥接笼形变形与3D高斯泼溅,实现无需重新训练、实时且兼容多种3DGS变体的直接变形。
Comments Project Page: https://jhuangbu.github.io/gsdeformer, Video: https://www.youtube.com/watch?v=-ecrj48-MqM
超越视觉保真度:通过下游任务集成评估大规模遥感影像的超分辨率模型
发表机构 * University of Maryland(马里兰大学) ; University of Pittsburgh(匹兹堡大学) ; Worcester Polytechnic Institute(沃思利技术学院) ; University of Texas at Austin(德克萨斯大学奥斯汀分校)
AI总结 针对现有超分辨率评估依赖PSNR/SSIM等保真度指标而忽略下游任务效用的问题,提出GeoSR-Bench基准数据集,集成土地覆盖分割、基础设施映射等下游任务,评估GAN、Transformer等9种SR模型在270种设置下的性能,发现保真度指标与任务性能弱相关甚至负相关。
Comments Under review at IEEE TPAMI
视觉-语言模型将头部方向误认为注视方向:非语言对话线索
发表机构 * Brown University(布朗大学) ; Columbia University(哥伦比亚大学) ; Emory University(埃默里大学) ; Johns Hopkins University(约翰霍普金斯大学) ; University of Washington(华盛顿大学) ; Carnegie Mellon University(卡内基梅隆大学) ; University of Michigan(密歇根大学) ; UC San Diego(圣地亚哥大学)
AI总结 本研究通过控制头部方向的实验发现,视觉-语言模型(VLMs)在推断注视目标时主要依赖头部方向而非眼睛外观,导致与人类存在显著性能差距,并指出数据偏差是主要原因。
Comments Accepted by ACL 2026. Project page at https://zoryzhang.github.io/gaze/
retinalysis-vascx: 一个用于提取视网膜血管生物标志物的可解释软件工具箱
发表机构 * Department of Ophthalmology, Erasmus University Medical Center(埃因霍温大学医学中心眼科系) ; Department of Epidemiology, Erasmus University Medical Center(埃因霍温大学医学中心流行病学系) ; Department of Ophthalmology, Radboud University Medical Center(拉德堡德大学医学中心眼科系) ; Institute of Molecular and Clinical Ophthalmology, University of Basel(巴塞尔大学分子与临床眼科研究所) ; Dept. of Computational Biology, University of Lausanne(洛桑大学计算生物学系) ; Swiss Institute of Bioinformatics, Lausanne, Switzerland(瑞士生物信息学研究所,洛桑,瑞士) ; Dept. of Integrative Biomedical Sciences, University of Cape Town(开普敦大学整合生物医学科学系)
AI总结 提出开源Python工具箱VascX,从彩色眼底图像中提取视网膜血管生物标志物,包括血管密度、中央视网膜等效值和迂曲度等,并通过可重复性分析和敏感性分析验证其稳健性。
OmniHuman:面向以人为中心的视频生成的大规模数据集与基准
发表机构 * Peking University(北京大学) ; WeChat Lab(微信实验室) ; Chinese Academy of Sciences(中国科学院)
AI总结 为解决现有数据集在场景多样性、交互建模和属性对齐方面的结构性缺陷,提出OmniHuman大规模多场景数据集及全自动标注流程,并建立OHBench三级评估体系,实现与人类感知高度一致的诊断。
Comments 19 pages, 6 figures
FlowC2S:从当前帧流向后续帧以实现快速且内存高效的视频延续
发表机构 * Team ARAI, Université Paris-Saclay, CNRS, LISN, France(ARAI团队,巴黎萨克雷大学,法国国家科学研究中心,LISN,法国) ; LTCI, Télécom Paris, Institut Polytechnique de Paris, France(LTCI,巴黎电信学院,巴黎理工学院,法国)
AI总结 提出FlowC2S方法,通过微调预训练文本到视频流模型学习当前与后续视频块之间的向量场,利用固有最优耦合和目标反转实现快速、内存高效的视频延续。
Render-of-Thought: 将文本思维链渲染为图像以进行视觉潜在推理
发表机构 * Tencent BAC(腾讯BAC) ; Shenzhen International Graduate School, Tsinghua University(深圳国际研究生院,清华大学) ; School of Electronic and Computer Engineering, Peking University(北京大学电子与计算机工程学院) ; School of Mathematics and Statistics, University of Glasgow(格拉斯哥大学数学与统计学学院)
AI总结 提出Render-of-Thought框架,通过将思维链的文本步骤渲染为图像,利用视觉语言模型的视觉编码器进行语义对齐,实现3-4倍令牌压缩和推理加速,同时保持竞争性能。
Comments Accepted by ACL 2026 Main Conference
MobileAgeNet:面向移动部署的轻量级面部年龄估计
发表机构 * Computer Vision Lab, CAIDAS & IFI, University of Würzburg, Germany(计算机视觉实验室、CAIDAS与IFI、乌尔姆大学、德国)
AI总结 提出基于MobileNetV3-Large的轻量级年龄回归框架MobileAgeNet,通过两阶段微调和边界回归策略,在UTKFace测试集上达到4.65年MAE,移动端延迟14.4ms,参数量3.23M。
Comments 9 Pages including references, 3 figures
从记忆到创造:LLM作为新型神经架构的设计者
发表机构 * Computer Vision Lab, CAIDAS & IFI, University of Würzburg, Germany(计算机视觉实验室,CAIDAS与IFI,乌尔姆大学,德国)
AI总结 本文提出NNGPT框架,通过闭环架构合成流水线,利用代码型LLM的监督微调循环,结合MinHash-Jaccard新颖性过滤和低保真性能信号,迭代提升生成架构的有效性、性能和多样性,实现从记忆到创造的转变。
增强基于LLM的神经网络生成:面向自动化架构设计的少样本提示与高效验证
发表机构 * Computer Vision Lab, CAIDAS & IFI, University of Würzburg, Germany(计算机视觉实验室,CAIDAS与IFI,乌尔姆大学,德国)
AI总结 本文提出少样本架构提示(FSAP)和空白归一化哈希验证方法,以提升基于LLM的计算机视觉架构自动生成效率,并通过大规模实验验证其有效性。
看见还是取悦:揭示视觉语言模型中的视觉谄媚与分裂信念
发表机构 * George Mason University(乔治·玛斯纳大学) ; Independent Researcher(独立研究者)
AI总结 提出三层诊断框架,通过反事实干预实验发现视觉语言模型中普遍存在视觉谄媚(内部证据保留但输出幻觉答案)现象,并证明扩展模型规模无法解决该问题。
Comments 14 pages, 1 figures
多模态大语言模型驱动的视频翻译:面向角色的综述
发表机构 * School of Computer Science and Technology, Harbin Institute of Technology (Shenzhen)(哈尔滨工业大学(深圳)计算机科学与技术学院)
AI总结 本文通过面向角色的分类法,系统综述了多模态大语言模型在视频翻译中的应用,将其分为语义推理器、表达执行器和视觉合成器三个功能角色,并总结了数据集、基准和评估指标,指出了端到端视频翻译的挑战与未来方向。
Genie 4D:语义先验引导的4D动态场景重建
发表机构 * University of Zurich(苏黎世大学) ; ETH Zurich(苏黎世联邦理工学院)
AI总结 提出Genie 4D框架,结合实时视觉惯性高斯泼溅前端和前馈4D骨干网络,利用冻结的DINOv3特征作为结构先验抑制身份漂移,并通过条件扩散精炼器恢复高频细节,最终通过轻量级潜在动作头实现用户可控的4D世界模型重建。
MMTalker: 多分辨率3D说话头合成与多模态特征融合
发表机构 * IEEE Publication Technology Group(IEEE出版技术组) ; Piscataway, NJ(新泽西州皮萨卡威)
AI总结 提出一种基于多分辨率表示和多模态特征融合的3D语音驱动面部动画合成方法MMTalker,通过网格参数化、非均匀可微采样、残差图卷积网络和双交叉注意力机制,实现高唇同步精度和逼真面部表情。
Comments This article presents only the preliminary research results, which are not yet complete and lack necessary supplementary experiments. The author has decided to withdraw it to improve the research work, and will submit a more complete version in the future
WAON:用于对比视觉语言模型文化适应的大规模日语图像-文本数据集
发表机构 * Kyoto University(京都大学) ; NII LLMC(日本国家研究所语言模型中心) ; NII(日本国家研究所) ; Waseda University(早稻田大学) ; Institute of Science Tokyo(东京科学研究所)
AI总结 提出WAON,一个从Common Crawl构建的包含约1.55亿样本的最大公开原生日语图像-文本数据集,并通过微调实验证明其在日语文化基准上优于翻译数据。
Comments 13 pages, 7 figures
POVQA: 基于偏好的视频问答与数据效率的推理
发表机构 * University of Southern Mississippi(密西根州立大学)
AI总结 提出POVQA方法,通过时间池化压缩视频帧、监督微调加偏好优化,在长视频问答中实现数据高效推理。
Comments Accepted in MAR at CVPR Workshop (Proceedings Track)
FlowIt: 通过分层Transformer和最优传输实现全局匹配的光流估计
发表机构 * Department of Computer Engineering and KUIS AI Center, Koç University, Istanbul, Turkey(计算机工程系和KUIS人工智能中心,科克大学,伊斯坦布尔,土耳其) ; Department of Computer Science and Engineering (DISI), University of Bologna, Italy(计算机科学与工程系(DISI),博洛尼亚大学,意大利)
AI总结 提出FlowIt架构,结合分层Transformer和最优传输进行全局匹配,并通过置信度与遮挡引导的细化步骤,在多个基准上达到最先进性能。
Comments Project Page: https://kuis-ai.github.io/FlowIt/
OpenDPR:面向遥感影像的基于视觉中心扩散引导原型检索的开放词汇变化检测
发表机构 * Wuhan University(武汉大学) ; Beijing Institute of Technology(北京理工大学)
AI总结 提出OpenDPR框架,通过扩散模型构建原型并检索视觉相似性,解决开放词汇变化检测中类别识别瓶颈,并设计S2C模块增强变化定位能力。
Comments Accepted by CVPR 2026
EuraGovExam:来自现实世界公务员考试的多语言多模态基准
发表机构 * School of Computer Science / Data Intelligence Lab(计算机科学学院/数据智能实验室)
AI总结 提出一个包含8000多道真实公务员考试题目的多语言多模态基准EuraGovExam,要求模型直接从图像中进行布局感知的跨语言推理,当前最先进的视觉语言模型准确率仅达86%。
前沿大语言模型在空间意象推理中的局限性
发表机构 * Institute of Mathematics and Statistics – University of São Paulo(数学统计研究所 – 圣保罗大学)
AI总结 本研究通过引入外部“意象模块”辅助3D模型旋转任务,发现即使外包整体3D状态维护,前沿模型仍缺乏基础视觉空间原语,导致准确率最高仅62.5%。
Comments 25 pages. v2: Title updated; added a section on object/spatial imagery and propositional reasoning; added new experimental results for the single-object rotation probe
学习修剪:基于动态解剖特征库的端到端因果图剪枝用于医学视觉问答
发表机构 * School of Microelectronics, Tianjin University(天津大学微电子学院) ; School of Electrical and Information Engineering, Tianjin University(天津大学电气与信息工程学院)
AI总结 提出可学习因果修剪(LCT)框架,通过动态解剖特征库(DAFB)和可微修剪模块,在端到端优化中抑制虚假相关,增强因果信号,提升医学VQA的鲁棒性和泛化性。
LagerNVS:用于全神经实时新视角合成的潜在几何
发表机构 * Visual Geometry Group, University of Oxford(牛津大学视觉几何组) ; Meta AI
AI总结 提出LagerNVS,一种基于3D感知潜在特征的编码器-解码器神经网络,通过显式3D监督预训练初始化编码器,结合轻量解码器和光度损失端到端训练,实现实时、泛化的新视角合成,在Re10k上达到31.4 PSNR。
Comments IEEE CVF Conference on Computer Vision and Pattern Recognition 2026. Project page with code, models and examples: szymanowiczs.github.io/lagernvs
知识精炼的双上下文感知网络用于部分相关视频检索
发表机构 * School of Software Engineering, Xi’an Jiaotong University(西安交通大学软件工程学院) ; Faculty of Computer Science, Electrical Engineering and Information Technology, Universität Stuttgart(斯图加特大学计算机科学、电子工程和信息学院)
AI总结 针对未修剪视频中部分相关片段检索的信息密度不匹配和注意力机制不足问题,提出KDC-Net网络,通过层次语义聚合、动态时间注意力和基于CLIP的蒸馏策略,显著提升检索性能。
Comments Accepted in ICME 2026
λSplit: 用于荧光显微镜的自监督内容感知光谱解混
发表机构 * Fondazione Human Technopole(人类技术极地基金会) ; Harvard Medical School(哈佛医学院) ; Università Campus Bio-Medico(生物医学大学校园)
AI总结 提出λSplit,一种基于物理信息的深度生成模型,通过分层变分自编码器学习浓度图的条件分布,结合可微分光谱混合器实现最先进的光谱解混和隐式噪声去除。
Comments 14 pages, 25 pages supplement, 16 figures total, 14 tables total
MipSLAM:无混叠高斯泼溅SLAM
发表机构 * State Key Laboratory of Robotics and Systems (HIT), Harbin Institute of Technology(机器人系统国家重点实验室(哈工大)) ; Yangtze River Delta HlT Robot Technology Research Institute(长江三角洲HLT机器人技术研究院) ; Department of Computer Science, National University of Singapore(新加坡国立大学计算机科学系)
AI总结 提出MipSLAM框架,通过椭圆自适应抗混叠算法和频谱感知位姿图优化,实现高保真抗混叠新视角合成与鲁棒位姿估计。
Comments Accepted to ICRA 2026
IAG: 基于输入感知的后门攻击针对VLM视觉定位
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Fudan University(复旦大学) ; Columbia University(哥伦比亚大学) ; Hong Kong Polytechnic University(香港理工大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出IAG方法,通过文本条件UNet动态生成输入感知的触发器,实现首个多目标后门攻击VLM视觉定位,在多个模型和基准上达到最佳攻击成功率且不影响正常性能。
Comments Accepted by CVPR 2026; Code is at https://github.com/lijunxian111/IAG
CARES: 面向视觉语言模型的上下文感知分辨率选择器
发表机构 * Technion(技术ion大学) ; IBM Research(IBM研究院) ; Tel-Aviv University(特拉维夫大学) ; Ben-Gurion University(本· Gurion大学)
AI总结 提出CARES轻量级预处理模块,通过紧凑型VLM预测图像-查询对的最小足够分辨率,在保持任务性能的同时最多减少80%计算量。
Comments Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) Accepted to ACL 2026 (Oral presentation). Code available at https://github.com/mkimhi/CARES
超越字符串匹配:PDF表格提取的语义评估
发表机构 * Institute for Machine Learning and Analytics (IMLA)(机器学习与分析研究所) ; Offenburg University(奥芬堡大学) ; University of Mannheim(曼海姆大学)
AI总结 提出基于LLM-as-a-judge的语义评估框架,通过合成PDF和人工验证,显著优于现有规则指标(TEDS、GriTS),并评估了21种PDF解析器。
Comments Submitted to BMVC 2026
CloSE: 一种几何形状无关的布料状态表示
发表机构 * Institut de Robòtica i Informàtica Industrial, CSIC-UPC(西班牙工业机器人与信息技术研究所,CSIC-UPC)
AI总结 提出一种基于拓扑索引的dGLI圆盘表示,并从中抽象出紧凑、连续的CloSE表示,用于预测布料折叠位置并支持语义标注与规划。
Comments Accepted at ICRA 2026 (8 pages, 11 figures, 1 table). Project page: https://close-representation.github.io/
完美颜色等变的超环面覆盖
发表机构 * GitHub
AI总结 提出一种通过将区间值提升到圆上的双覆盖来构建真正等变的颜色等变架构,解决了先前方法中近似饱和度和亮度为1D平移带来的伪影问题,在细粒度分类和医学成像等任务上提升了性能。
Comments Accept to the 43rd International Conference on Machine Learning (ICML 2026)
LookWise: 知道何时何地关注多模态大语言模型中的细粒度视觉推理
发表机构 * Institute of Intelligent Machines, Hefei Institutes of Physical Science, Chinese Academy of Sciences(智能机器研究所,合肥物理科学研究院,中国科学院) ; University of Science and Technology of China(中国科学技术大学) ; Zhejiang University(浙江大学) ; East China Normal University(华东师范大学) ; The Hong Kong University of Science and Technology(香港科技大学)
AI总结 提出LookWise框架,通过置信度模块和语义引导定位模块实现自适应视觉推理,无需额外训练即可提升细粒度推理精度并加速推理。
RESBev:使BEV感知更加鲁棒
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 提出RESBev,一种即插即用的鲁棒BEV感知方法,通过构建潜在世界模型学习时空相关性来预测干净BEV特征,从而在无需修改骨干网络的情况下增强对自然扰动和对抗攻击的鲁棒性。
免训练的无载体多图像隐写术与访问控制
发表机构 * Department of Computer Science, Seoul National University(首尔国立大学计算机科学系)
AI总结 提出MIDAS框架,通过潜在级融合实现免训练的多图像隐写与用户特定访问控制,引入随机基机制抑制残差结构信息,并理论分析信息泄露。
Comments Accepted (Poster) at ICML 2026
看、规划、回退:面向鲁棒机器人操作的进度感知视觉-语言-动作模型
发表机构 * School of Information Science and Technology, University of Science and Technology of China(信息科学与技术学院,中国科学技术大学) ; University of Technology Sydney(新南威尔士大学) ; Department of Computer Vision, Mohamed Bin Zayed University of Artificial Intelligence(人工智能与计算机视觉系,Mohamed Bin Zayed人工智能大学) ; The University of Hong Kong(香港大学) ; Institute of AI for Industry, Chinese Academy of Sciences(产业人工智能研究所,中国科学院) ; School of Intelligent Science and Engineering, Harbin Institute of Technology (Shenzhen)(智能科学与工程学院,哈尔滨工业大学(深圳))
AI总结 提出进度感知的视觉-语言-动作框架SPR,通过动态将语言指令映射为空间子目标序列,并利用闭环进度监控实现错误恢复,在LIBERO基准上提升5%性能,在LIBERO-Plus上展现最先进的鲁棒性。
Comments Suggested to CVPR Findings. https://tingjundai.github.io/SPRVLA/
v-HUB: 从视觉和声音理解视频幽默的基准
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Wuhan University(武汉大学) ; Beijing Institute for General Artificial Intelligence(北京一般人工智能研究院) ; Independent Researcher(独立研究者)
AI总结 提出v-HUB基准,通过非语言短视频评估多模态大语言模型在仅凭视觉线索理解幽默的能力,并发现音频信息有助于提升幽默理解。
Comments 24 pages, 9 figures
异构去中心化扩散模型
发表机构 * bagel.com(Bagel公司)
AI总结 提出一种异构去中心化训练框架,通过支持不同专家使用不同目标(DDPM和Flow Matching)并统一推理、预训练检查点转换以及高效架构,大幅降低计算和数据需求,使单GPU(24-48GB VRAM)即可参与训练。
Comments Accepted to CVPR2026
Pinterest Canvas: Pinterest 的大规模图像生成系统
发表机构 * Pinterest, Inc.(Pinterest公司)
AI总结 本文提出 Pinterest Canvas,一个基于扩散模型的大规模图像生成系统,通过基础模型微调为特定任务(如背景增强和宽高比外扩)生成专用模型,并在线上实验中分别获得18.0%和12.5%的参与度提升。
Comments Accepted by KDD 2026 Applied Data Science Track
WorldCache: 通过异构令牌缓存免费加速世界模型
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对扩散世界模型中令牌异质性和非均匀时间动态导致的推理慢问题,提出基于曲率引导的异构令牌预测和混沌优先自适应跳过的缓存框架WorldCache,实现高达3.7倍加速并保持98%的推出质量。
Comments Accepted by ICML 2026
热启动中文语言建模:视觉字形加速样本高效学习
发表机构 * Independent Researcher(独立研究者) ; Institute of Software, Chinese Academy of Sciences(中国科学院软件研究所)
AI总结 本文通过将汉字渲染为视觉字形图像,研究其对字符级语言建模的归纳偏置,发现视觉输入产生显著的热启动效应,但最终精度与基于索引的方法一致。
Comments 15 pages, 5 figures, submitted to ACL 2026
AutoFFS: 用于面部女性化手术规划的对抗性变形
发表机构 * Department of Biomedical Engineering, University of Basel(巴塞尔大学生物医学工程系) ; Department of Oral and Cranio-Maxillofacial Surgery, University Hospital Basel(巴塞尔大学口腔和颅面外科系)
AI总结 提出AutoFFS框架,通过对抗性自由变形生成反事实颅骨形态,为面部女性化手术提供定量规划依据。
Comments Project Page: https://pfriedri.github.io/autoffs-io Code: https://github.com/pfriedri/autoffs
家庭事务:空间掩码与频率掩码在连续测试时自适应中的系统研究
发表机构 * Faculty of Science and Technology (REALTEK), Norwegian University of Life Sciences (NMBU)(科学与技术学院(REALTEK)、挪威生命科学大学) ; Tulane University(路易斯安那州立大学) ; Gwangju Institute of Science and Technology(全州科学技术学院) ; Hanyang University(翰阳大学)
AI总结 通过控制变量实验,系统研究了空间掩码与频率掩码在连续测试时自适应中的效果,发现空间掩码在补丁标记化架构上积累稳定表示,而频率掩码导致灾难性崩溃,且最优掩码家族取决于架构-任务对齐。
Comments Accepted to TMLR 2026; code at https://github.com/chandlerbing65nm/m2a.git
你不需要所有注意力:文本到图像扩散模型中的外科记忆缓解
发表机构 * University of California, San Diego(加州大学圣地亚哥分校)
AI总结 提出GUARD框架,通过吸引-排斥动力学调整去噪过程,结合交叉注意力衰减机制,在不损害图像质量的前提下有效缓解文本到图像扩散模型中的记忆问题。
Comments Accepted at ICML 2026
面向事件相机的运动感知事件抑制
发表机构 * Robotics and Perception Group, University of Zurich, Switzerland(苏黎世大学机器人与感知组,瑞士)
AI总结 提出首个运动感知事件抑制框架,通过联合分割当前事件流中的独立运动物体并预测其未来运动,实现动态事件的预期抑制,在EVIMO基准上分割精度提升67%,推理速度提高53%。
Comments Robotics: Science and Systems (RSS) 2026
基于拉梅曲线LED的可见光定位:一种通用的相机姿态估计方法
发表机构 * Beijing Key Laboratory of Network System Architecture and Convergence, School of Information and Communication Engineering, Beijing University of Posts and Telecommunications(北京网络系统架构与融合重点实验室,信息与通信工程学院,北京邮电大学) ; Institute of Information Engineering, Chinese Academy of Sciences(信息工程研究所,中国科学院) ; College of Physics and Electronic Engineering, Shanxi University(物理与电子工程学院,山西大学) ; School of Electronic Information and Artificial Intelligence, West Anhui University(电子信息与人工智能学院,皖西学院)
AI总结 本文提出一种基于拉梅曲线LED的通用可见光定位算法LC-VLP,通过统一表示常见LED形状并利用曲线参数进行非线性最小二乘优化,实现高精度相机姿态估计。
Comments Submitted to an IEEE journal for possible publication
RU4D-SLAM:面向4D场景重建的高斯溅射SLAM不确定性重加权
发表机构 * Capital Normal University(首都师范大学) ; Saarland University(萨尔兰大学) ; Xi’an Jiaotong-Liverpool University(西安交通大学利物浦大学) ; King’s College London(伦敦国王学院)
AI总结 提出RU4D-SLAM框架,通过引入时间因子、不确定性感知和语义引导重加权机制,解决动态环境中3D高斯溅射SLAM的跟踪与4D场景重建问题。
对比元域适应用于跨临床和采集条件的鲁棒皮肤病变分类
发表机构 * University of São Paulo(圣保罗大学)
AI总结 提出基于视觉元域概念的适应策略,通过将大规模皮肤镜数据集的视觉表示迁移到临床图像域,提高皮肤病变分类的泛化鲁棒性。
Comments 4 pages, 5 figures, 1 table, Published in: 2026 IEEE 23rd International Symposium on Biomedical Imaging (ISBI)
DerMAE: 通过条件潜在扩散和MAE蒸馏改进皮肤病变分类
发表机构 * Universidade Federal do Pernambuco(佛罗里达州帕尔马大学)
AI总结 针对皮肤病变分类中恶性样本不足导致的类别不平衡问题,提出使用类别条件扩散模型生成合成图像,结合自监督MAE预训练学习鲁棒特征,并通过知识蒸馏将大模型知识迁移至轻量级ViT学生模型,在提升分类性能的同时实现高效设备端推理。
Comments 4 pages, 2 figures, 1 table, Published in: 2026 IEEE 23rd International Symposium on Biomedical Imaging (ISBI)
处理胸部X光分类中的监督稀缺性:长尾与零样本学习
发表机构 * University of Technology, Vietnam(越南技术大学) ; National University of Singapore(新加坡国立大学) ; University of California, San Diego(加州大学圣地亚哥分校) ; University of Texas at Austin(德克萨斯大学奥斯汀分校)
AI总结 针对胸部X光分类中极端长尾多标签分布和罕见/未见发现缺失标注的问题,提出不平衡感知多标签学习(任务1)和无需监督标签的零样本预测方法(任务2),在CXR-LT 2026挑战赛中取得领先性能。
视觉说服:什么影响了视觉语言模型的决策?
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; MIT Media Lab(MIT媒体实验室)
AI总结 提出一个框架,通过控制图像选择任务并系统性地扰动输入,利用视觉提示优化方法推断视觉语言模型的潜在视觉效用,揭示影响模型决策的视觉偏好。
Comments Accepted to ICML 2026
DenseMLLM:用于密集预测的标准多模态大语言模型
发表机构 * Department of Electronic and Computer Engineering, The Hong Kong University of Science and Technology, Hong Kong, China(香港科技大学电子与计算机工程系) ; Tencent, Youtu-Lab, China(腾讯优图实验室)
AI总结 提出DenseMLLM,通过标准多模态大语言模型架构和视觉令牌监督策略,无需任务特定解码器即可实现语义分割、深度估计等密集预测任务,在多个基准上取得竞争性能。
Comments ICML 2026
迈向稀疏视频理解与推理
发表机构 * Northwestern University(西北大学) ; Johns Hopkins University(约翰霍普金斯大学) ; Dolby Laboratories(杜比实验室)
AI总结 提出一种多轮视频问答代理,通过稀疏帧选择、状态摘要和早期停止机制,在减少帧数和令牌数的同时提升准确率。
Comments Accepted to CVPR 2026. Project page: https://sparsevideounderstanding.github.io
HyperDet: 基于超4D雷达点云的3D目标检测
发表机构 * University of Edinburgh(爱丁堡大学) ; HKUST (GZ)(香港科技大学(广州)) ; University of Oxford(牛津大学) ; MIT(麻省理工学院)
AI总结 提出一种与检测器无关的框架HyperDet,通过构建任务感知的超4D雷达点云,利用时空累积、跨传感器验证和多普勒引导的运动补偿以及前景生成增强,显著提升仅用雷达的3D目标检测性能。
Comments 11 pages, 3 figures, 3 tables
WISE:一种用于视觉场景、音频、物体、人脸、语音和元数据的多模态搜索引擎
发表机构 * Engineering Science University of Oxford(工程科学大学牛津)
AI总结 提出WISE开源多模态搜索引擎,整合场景级和物体级的自然语言与反向图像查询、人脸搜索、音频事件检索、语音转录搜索及元数据过滤,支持跨模态组合查询,采用向量搜索实现高效扩展,可本地部署。
Comments Software: https://www.robots.ox.ac.uk/~vgg/software/wise/ , Online demos: https://www.robots.ox.ac.uk/~vgg/software/wise/demo/ , Example Queries: https://www.robots.ox.ac.uk/~vgg/software/wise/examples/
SceneSmith: 面向仿真就绪室内场景的智能体生成
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; Harvard University(哈佛大学)
AI总结 提出层次化智能体框架SceneSmith,通过VLM智能体协作从自然语言生成仿真就绪的室内场景,相比先前方法生成3-6倍物体且碰撞率低于2%。
Comments ICML 2026 Spotlight; Project page: https://scenesmith.github.io/
何时想象以及想象多少:基于世界模型的自适应测试时缩放用于视觉空间推理
发表机构 * University of North Carolina, Chapel Hill(北卡罗来纳大学教堂山分校) ; Nanyang Technological University(南洋理工大学)
AI总结 本文提出自适应测试时框架AVIC/AVIC-R,通过世界模型选择性调用和缩放视觉想象,在空间推理中平衡准确性与效率,超越GPT-4o等基线。
Comments the first two authors are equally contributed. Project page: https://adaptive-visual-tts.github.io/
基于密度引导的单次场景自适应人群计数
发表机构 * Jiangsu Key Laboratory of Intelligent Weather Forecasting and Applications Based on Big Data(江苏大数据智能天气预报与应用重点实验室) ; State Key Laboratory of Climate System Prediction and Risk Management (CPRM)(气候变化预测与风险管理国家重点实验室) ; ICAR/CIC-FEMD/KLME/ILCEC ; Nanjing University of Information Science and Technology(南京信息工程大学) ; School of Artificial Intelligence, OPtics and ElectroNics, Northwestern Polytechnical University(人工智能、光学与电子学学院,西北工业大学) ; School of Computer Science, Wuhan University(武汉大学计算机学院) ; School of Computer Science and Engineering, Nanjing University of Science and Technology(南京理工大学计算机科学与工程学院)
AI总结 提出利用局部和全局密度特征引导模型适应未见过的监控场景,通过多局部密度学习器学习支持场景中的多原型密度分布,并编码局部密度相似性矩阵进行局部引导,同时提取全局密度特征进行全局引导,在三个监控数据集上优于现有方法。
ChatUMM: 面向对话式交错生成的鲁棒上下文追踪
发表机构 * Tsinghua University(清华大学) ; Tencent Hunyuan Project lead(腾讯文心一言项目负责人)
AI总结 提出ChatUMM,一种通过交错多轮训练策略和系统化对话数据合成流水线实现鲁棒上下文追踪的对话式统一多模态模型,在视觉理解和指令引导编辑基准上达到开源模型最优性能。
Comments ChatUMM Project
Tempora: 表征在线测试时适应的时间条件效用
发表机构 * University of Bristol(布里斯托大学)
AI总结 提出Tempora框架,通过时间场景、评估协议和时间条件效用指标,系统评估测试时适应方法在延迟约束下的准确性-延迟权衡,揭示传统排名在时间压力下失效。
Comments Accepted to ICML 2026
更好的源,更好的流:学习条件依赖的源分布用于流匹配
发表机构 * New York University(纽约大学) ; KAIST AI(韩国科学技术院人工智能实验室)
AI总结 本文提出在流匹配框架中学习条件依赖的源分布,通过方差正则化和源-目标方向对齐,显著提升文本到图像生成的速度和质量。
Comments Project Page: https://junwankimm.github.io/CSFM
稳定速度:流匹配的方差视角
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对流匹配中单样本条件速度导致的高方差训练目标,提出稳定速度框架,通过方差表征识别高低方差区域,并引入无偏方差缩减目标(StableVM)、方差感知表示对齐(VA-REPA)以及免微调加速采样(StableVS),在多个大规模模型上实现训练效率提升和超过2倍采样加速。
Comments ICML 2026
Event2Vec: 通过向量空间表示直接处理神经形态事件
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出Event2Vec表示法,使Transformer能直接处理稀疏异步事件数据,在多个基准上实现高精度、低延迟和高吞吐量。
Comments Accepted at ICML 2026
Fast-SAM3D: 更快地将图像中的任何物体三维化
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Tsinghua University(清华大学)
AI总结 提出Fast-SAM3D,一种无需训练的三维重建加速框架,通过多级异构性感知机制(模态感知步骤缓存、联合时空令牌雕刻、频谱感知令牌聚合)实现高达2.67倍端到端加速且保真度损失极小。
Comments Accepted by ICML 2026
跨域小样本分割:多视角渐进适应
发表机构 * Interdisciplinary Graduate Programme, Nanyang Technological University(南洋理工大学交叉学科研究生项目) ; Nanyang Technological University(南洋理工大学) ; Xi’an Jiaotong University(西安交通大学) ; VinUniversity(文大学) ; SMBU
AI总结 提出多视角渐进适应方法,通过混合渐进增强和双链多视角预测,从数据和策略两方面逐步将小样本能力适应到目标域,显著提升跨域小样本分割性能。
Comments Accepted by CVPR 2026
寻找NeMO:面向少样本感知的模板视图几何感知表示
发表机构 * German Aerospace Center (DLR)(德国航空航天中心(DLR))
AI总结 提出NeMO(神经记忆对象)表示,通过少量RGB模板视图编码生成稀疏点云,实现未见对象的检测、分割和6DoF姿态估计,无需重训练。
Comments 17 pages including supplement, published in 3DV 2026, Project website: https://sebastian-jung.github.io/nemo/
VideoBrain: 学习自适应帧采样以理解长视频
发表机构 * Stanford University(斯坦福大学)
AI总结 提出VideoBrain框架,通过CLIP和均匀采样双智能体策略,使视觉语言模型自适应获取关键帧,在减少30-40%帧数的同时提升长视频理解准确率3.5%-9.0%。
FOVI:一种受生物启发的深度视觉模型中央凹接口
发表机构 * harvard(哈佛大学) ; nvidia
AI总结 受人类视觉系统启发,提出基于视网膜和V1的中央凹接口FOVI,通过kNN卷积和低秩适应实现高效变分辨率视觉处理,在减少像素和计算成本的同时保持竞争力。
Comments ICML 2026
ObjEmbed:迈向通用多模态对象嵌入
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出ObjEmbed模型,通过分解图像为多个区域嵌入(每个对应一个对象)并生成语义和IoU两种互补嵌入,实现细粒度视觉-语言对齐,在视觉定位、局部和全局图像检索等任务中表现优异。
Comments Accepted by ICML 2026
Med-Scout: 通过几何感知的强化学习后训练治愈多模态大语言模型在医学感知中的几何盲点
发表机构 * HKUSTGZ-ML4Health-Lab(香港科技大学-ML4Health实验室)
AI总结 提出Med-Scout框架,利用无标注医学图像中的内在几何逻辑,通过强化学习和三种代理任务(层次尺度定位、拓扑拼图重建、异常一致性检测)来缓解多模态大语言模型的几何盲点,并在新基准Med-Scout-Bench上提升超过40%的几何感知性能,同时泛化到更广泛的医学理解任务。
Comments 29 pages, 14 figures. Accepted at ICML 2026
SurrogateSHAP:文本到图像(T2I)模型的无训练贡献者归因
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 针对文本到图像扩散模型中数据贡献者公平估值的高计算成本问题,提出基于预训练模型推理的无重训练框架SurrogateSHAP,利用梯度提升树近似效用函数并解析计算Shapley值,在多个任务上以更低开销超越现有方法。
APB-V: 通过序列并行感知的近似注意力加速长视频理解
发表机构 * NLP Group, DCST, IAI, BNRIST, Tsinghua University, Beijing, China(清华大学北京校区自然语言处理组、国防科技大学、人工智能研究院、北京理工大学、清华大学) ; Department of CS&T, Central South University, Changsha, China(中南大学计算机与技术系,长沙,中国) ; BUPT, Beijing, China(北京邮电大学,北京,中国) ; Pattern Recognition Center, WeChat AI, Tencent Inc.(腾讯公司微信人工智能研究院)
AI总结 提出APB-V,一种序列并行框架,通过分布式近似注意力在多GPU上加速长视频推理,显著提升速度且不损失性能。
Comments ACL 2026 main
超越刚性:非刚性视频编辑基准测试
发表机构 * Harbin Institute of Technology, Shenzhen, China(哈尔滨工业大学(深圳))
AI总结 提出NRVBench诊断基准,通过物理感知评估框架揭示传统指标在非刚性视频编辑中的不足,并引入VM-Edit基线分析稳定性-可塑性权衡。
SAR图像中舰船目标的分类感知超分辨率框架
发表机构 * University of Malaya(马来亚大学)
AI总结 提出一种将分类目标融入超分辨率过程的算法,通过优化兼顾图像质量和分类性能的损失函数,提升SAR图像分辨率并改善分类精度。
基于低秩适应的3D卷积基础模型跨模态微调用于ADHD分类
发表机构 * National Institute of Mental Health, National Institutes of Health(国家精神卫生研究所,国立卫生研究院)
AI总结 提出一种参数高效的迁移学习方法,通过3D低秩适应(LoRA)将预训练于CT图像的3D卷积基础模型微调至MRI的ADHD分类任务,在公开扩散MRI数据集上达到71.9%准确率和0.716 AUC,仅需164万可训练参数。
Comments Accepted for presentation at the IEEE International Symposium on Biomedical Imaging (ISBI) 2026
原型性偏差揭示多模态评估指标中的盲点
发表机构 * University of Technology Nuremberg(图恩大学)
AI总结 本文通过构建受控诊断基准PROTOBIAS,发现并验证了多模态评估指标中存在原型性偏差,即倾向于选择视觉或社会原型性高但语义错误的图像,并提出了轻量级对比训练评估器PROTOSCORE作为缓解基线。
VLM4VLA:重新审视视觉-语言-动作模型中的视觉-语言模型
发表机构 * Institute for Interdisciplinary Information Sciences, Tsinghua University(清华大学交叉信息研究院) ; Qwen Team, Alibaba Inc.(阿里巴巴公司Qwen团队)
AI总结 本文通过VLM4VLA最小适配管道,系统研究视觉-语言模型(VLM)的选择和能力如何影响下游视觉-语言-动作(VLA)策略性能,发现VLM通用能力无法预测下游任务表现,且视觉模块是性能瓶颈。
Avatar Forcing:用于自然对话的实时交互式头部化身生成
发表机构 * KAIST(韩国科学技术院) ; NTU Singapore(新加坡国立大学) ; DeepAuto.ai
AI总结 提出Avatar Forcing框架,通过扩散强制实现实时交互式头部化身生成,利用直接偏好优化进行无标签学习,在低延迟(约500ms)下生成富有表现力的反应动作。
Comments CVPR 2026. Project page: https://taekyungki.github.io/AvatarForcing/
IntraStyler: 跨模态MRI域适应的域内风格合成
发表机构 * Siemens Healthineers(西门子医疗) ; Princeton, NJ, USA(新泽西州普林斯顿) ; Vanderbilt University(范德比尔特大学) ; Mayo Clinic(梅奥诊所) ; Johnson & Johnson Innovative Medicine(强生创新医学)
AI总结 针对T2 MRI中前庭神经鞘瘤和耳蜗分割的域适应问题,提出IntraStyler方法,通过对比学习提取与解剖解耦的风格嵌入,自动发现并合成目标域内多样化的风格图像,提升下游分割模型的泛化性。
Comments Extension of our 1st place solution for the CrossMoDA 2023 challenge
CountGD++: 面向开放世界计数的通用提示
发表机构 * Visual Geometry Group (VGG)(视觉几何组(VGG)) ; University of Oxford, UK(牛津大学,英国)
AI总结 提出CountGD++模型,通过扩展提示方式(包括负样本描述、伪示例自动标注和外部图像示例)提升开放世界计数的灵活性、准确性和泛化能力。
Comments CVPR 2026
IMA++: ISIC档案多标注者皮肤镜皮损分割数据集
发表机构 * Medical Image Analysis Lab, School of Computing Science, Simon Fraser University(医学影像分析实验室,计算科学学院,西蒙弗雷泽大学) ; AIP Labs(AIP实验室)
AI总结 提出ISIC MultiAnnot++数据集,包含14,967张皮肤镜图像和17,684个分割掩码,其中2,394张图像有2-5个标注,并附带标注者技能水平和工具元数据,支持多标注者医学图像分割研究。
Comments Published in IEEE Data Descriptions, 12 pages, 7 figures
退化感知度量提示用于高光谱图像恢复
发表机构 * School of Computer Science and Technology, Beijing Institute of Technology, Beijing, China(北京理工大学计算机科学与技术学院) ; School of Computer Science, Wuhan University, Wuhan, Hubei, China(武汉大学计算机学院) ; Zhongguancun Academy, Beijing, China(中关村学院)
AI总结 提出退化感知度量提示(DAMP)框架,通过可解释的空间-光谱度量作为退化提示,结合退化自适应混合专家(DAMoE)模块,实现多维度退化统一恢复,在自然和遥感高光谱数据集上达到最先进性能并展现零样本泛化能力。
Comments Accepted by ICML 2026
离散扩散VLA:将离散扩散引入视觉-语言-动作策略中的动作解码
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出离散扩散VLA,通过将动作块离散化并在统一Transformer骨干内使用离散扩散模式进行渐进细化,实现自适应解码顺序和错误纠正,在多个基准上取得高性能并保留预训练的视觉-语言先验。
Comments Accepted by ICML 2026. 17 pages
硬标签登场!重新思考硬标签在缓解局部语义漂移中的作用
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对软标签在稀疏监督下导致的局部语义漂移问题,提出混合硬标签与软标签的HALD训练范式,在数据集蒸馏和大规模分类任务中提升泛化性能。
Comments ICML 2026. Code at: https://github.com/Jiacheng8/HALD
事件相机三维重建综述
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 本文首次全面综述了基于事件相机的三维重建方法,按输入模态(立体、单目、多模态)和重建技术(几何、深度学习、神经渲染如NeRF和3DGS)分类,并讨论了数据集、评估、表示和动态场景重建等挑战。
Comments This survey has been accepted for publication in the Computational Visual Media Journal
MGRegBench:一个带有解剖标志的乳腺X线图像配准新型基准数据集
发表机构 * MSU(莫斯科国立大学)
AI总结 为解决乳腺X线图像配准中缺乏公开数据集和标准化基准的问题,提出了MGRegBench,包含5000多对图像和100对带手动标注解剖标志的数据集,并评估了多种配准方法。
统一语义Transformer用于3D场景理解
发表机构 * Ulm University(乌尔姆大学) ; Google(谷歌) ; TU Vienna(维也纳技术大学) ; TU Munich(慕尼黑技术大学)
AI总结 提出UNITE,一个统一的语义Transformer,通过端到端训练从RGB图像直接预测多种密集语义属性,实现3D场景理解,并在多个任务上达到最先进性能。
Comments Accepted at TMLR. Project page: https://unite-page.github.io/
两个数据集优于一个:冷冻电镜三维重建的双矩方法
发表机构 * Department of Mathematics and Oden Institute, University of Texas at Austin(德克萨斯大学奥斯汀分校数学系与奥登研究所) ; Yau Mathematical Sciences Center, Tsinghua University(清华大学姚贝泰数学科学中心) ; Program in Applied and Computational Mathematics and Department of Mathematics, Princeton University(普林斯顿大学应用与计算数学项目及数学系) ; Program in Applied and Computational Mathematics, Princeton University(普林斯顿大学应用与计算数学项目)
AI总结 提出双矩方法(MoDM),利用均匀和非均匀两种取向分布下的二阶矩数据唯一确定分子结构,并开发基于凸松弛的算法实现高精度重建。
WorldLens:真实世界中驾驶世界模型的全光谱评估
发表机构 * WorldBench Team(WorldBench团队) ; Equal Contributions Project Lead(同等贡献项目负责人) ; Project Lead(项目负责人) ; Corresponding Author(通讯作者)
AI总结 提出WorldLens基准,从生成、重建、动作跟随、下游任务和人类偏好五个方面评估生成世界模型在视觉真实性、几何一致性、物理合理性和功能可靠性上的表现,并构建WorldLens-26K数据集和WorldLens-Agent评估模型以实现可扩展的可解释评分。
Comments CVPR 2026 Oral Presentation; 80 pages, 37 figures, 29 tables; Project Page at https://worldbench.github.io/worldlens GitHub at https://github.com/worldbench/WorldLens
多视角金字塔变换器:看得更粗以看得更广
发表机构 * Sungkyunkwan University(成均馆大学) ; Yonsei University(延世大学)
AI总结 提出MVP,一种可扩展的多视角变换器架构,通过局部到全局的视角层次和细到粗的空间层次,实现从数十到数百张图像中单次前向重建大型3D场景,结合3D高斯泼溅达到最先进的可泛化重建质量。
Comments Project page: see https://gynjn.github.io/MVP/
HyperVQ: 为基于VQ的生成式图像压缩实现超先验熵建模
发表机构 * Xidian University(西安电子科技大学)
AI总结 提出HyperVQ框架,通过将概率建模转移到连续嵌入空间并利用高斯密度与码本锚点的距离关系,实现端到端率失真优化,平均节省18.5%比特率。
Comments 22 pages, 16 figures, 4 tables
SpaceTools: 通过双交互强化学习实现工具增强的空间推理
发表机构 * NVIDIA ; University of Michigan(密歇根大学)
AI总结 提出双交互强化学习(DIRL)框架,通过两阶段训练让视觉语言模型学会协调多种工具(如深度估计、分割、姿态估计)进行精确空间推理,在多个基准上达到最优性能。
Comments CVPR 2026
Semimage: 基于HSV的语义图像编码用于解缠文本表示
发表机构 * AI Lab at Department of Computer Engineering(计算机工程系人工智能实验室) ; AriooBarzan Engineering Team and Information Technology(AriooBarzan工程团队和信息技术) ; Shiraz University of Technology(谢兹大学技术学院)
AI总结 提出SemImage方法,将文本表示为二维语义图像,利用HSV颜色空间解缠主题、情感和强度特征,通过多任务学习实现,并在文档分类中取得竞争性性能。
CLIP-like模型作为基础密度比估计器
发表机构 * The University of Tokyo(东京大学) ; AIST(日本产业技术综合研究所)
AI总结 本文重新解释CLIP类模型为预训练的通用密度比估计器,提出重要性权重学习和KL散度估计两种应用,通过单一提示提升F1分数达7点,并利用KL散度实现数据筛选。
Comments Accepted to CVPR 2026. Code: https://github.com/fumiyauchiyama/CLIP_Density_Ratio
理解干扰项对推理视觉语言模型的影响
发表机构 * Pohang University of Science and Technology (POSTECH)(坡山科学技术大学(POSTECH))
AI总结 本文通过构建包含语义和数值维度干扰项的视觉问答数据集Idis,研究视觉干扰项如何影响视觉语言模型的测试时缩放行为,发现视觉干扰项以与文本干扰项根本不同的方式降低准确率而不增加推理长度,并提出简单提示策略缓解干扰项驱动的预测。
Comments preprint
评估深度学习模型在负重活动期间全身动态3D姿态预测中的性能
发表机构 * Department of Mechanical Engineering, Sharif University of Technology(谢赫·巴赫什大学机械工程系)
AI总结 本研究利用双向长短期记忆和Transformer架构的时间序列模型,通过优化身体段长度约束的代价函数,实现了对动态负重活动中全身3D姿态的高精度预测。
Comments 11 pages, 6 figures, 7 tables, This work has been submitted to the IEEE for possible publication
回归特征:用视频反事实解释来解释视频分类器
发表机构 * Visual Understanding Research Group, Department of Informatics, King’s College London, UK(信息学院视觉理解研究组,伦敦国王学院,英国) ; Department of Informatics, King’s College London, UK(信息学院,伦敦国王学院,英国)
AI总结 提出BTTF优化框架,通过两阶段优化和渐进式去噪策略生成物理合理、时间连贯的视频反事实解释,揭示视频分类器的决策依据。
Comments Accepted at CVPR2026 main conference
RichControl: 面向文本到图像生成的、结构和外观丰富的免训练空间控制
发表机构 * Peking University(北京大学) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出一种免训练框架,通过解耦条件特征的采样调度与去噪过程,并引入重启细化调度和外观丰富提示策略,在复杂条件下实现结构和外观平衡的受控生成。
DermAI:通过质量驱动的图像采集实现移动端AI分类的临床皮肤病学
发表机构 * Centro de Informática, Universidade Federal de Pernambuco, Brazil(巴西佩纳布卢克联邦大学计算机中心) ; Hospital das Clínicas, Universidade Federal de Pernambuco, Brazil(巴西佩纳布卢克联邦大学临床医院)
AI总结 提出DermAI智能手机应用,通过实时质量检查、本地模型适应和多样化数据集收集,解决AI皮肤病学中数据集偏差、图像质量差异和验证不足的问题。
Comments 4 pages, 2 figures, 1 table, submitted on ISBI
从注意力到频率:融合Vision Transformer与FFT-ReLU的图像去模糊增强方法
发表机构 * Department of Computer Science and Engineering, University of Dhaka(达卡大学计算机科学与工程系)
AI总结 提出一种双域架构,将Vision Transformer与频域FFT-ReLU模块结合,通过空间注意力建模和频率稀疏性抑制模糊伪影并保留细节,在基准数据集上取得优于现有方法的PSNR、SSIM和感知质量。
基于图论一致性的鲁棒且拓扑感知的半监督组织病理学分割
发表机构 * Student(学生)
AI总结 提出拓扑图一致性(TGC)框架,通过对齐预测图与参考图的拉普拉斯谱、组件计数和邻接统计,在仅5-10%标注下实现最先进的半监督分割性能。
Comments Accepted to the AAAI 2026 Student Abstract and Poster Program
面向激光雷达离群点检测的相对能量学习
发表机构 * The University of Melbourne(墨尔本大学)
AI总结 提出相对能量学习(REL)框架,利用正负逻辑之间的能量差距作为相对评分函数,并结合轻量级数据合成策略Point Raise,有效提升激光雷达点云中离群点检测性能。
Comments Project Page: https://github.com/343gltysprk/rel
野外零样本多动物跟踪
发表机构 * Institute of Computer Science and Campus Institute Data Science(计算机科学研究所和校园数据科学研究院)
AI总结 本文基于视觉基础模型,结合Grounding DINO与SAM 2,通过三项针对性修改实现无需重新训练或调参的零样本多动物跟踪,在多个数据集上取得最优结果。
Comments CV4Animals Workshop at CVPR26
用于手术引导的无标记增强现实配准:一项多解剖结构临床精度研究
发表机构 * School of Medicine, Stanford University(斯坦福大学医学院) ; Vanderbilt Institute of Surgery and Engineering(范德比尔特手术与工程研究院)
AI总结 本文开发并临床评估了一种基于深度相机的无标记增强现实配准方法,在头戴式显示器上实现多解剖结构(足、耳、小腿)的手术引导,中位误差约3-4 mm,接近临床可接受阈值。
C-LEAD:用于增强对抗防御的对比学习
发表机构 * Department of Computer Science and Engineering, Indian Institute of Technology(计算机科学与工程系,印度理工学院)
AI总结 提出利用对比学习增强分类模型对对抗攻击的鲁棒性,通过联合优化模型参数和扰动,学习鲁棒特征表示。
Comments Published in SN Computer Science, May 2026
CaptionFormer:时空对象的统一分割、跟踪与描述
发表机构 * Inria, École Normale Supérieure, CNRS, PSL Research University(法国国家科学研究中心、巴黎高等师范学院、国家科学研究中心、巴黎综合理工研究所) ; Google DeepMind(谷歌DeepMind)
AI总结 提出 CaptionFormer 模型,通过利用 VLM 生成合成描述并扩展数据集,实现视频中对象轨迹的联合检测、分割、跟踪与描述,在三个基准上达到最优。
Comments 17 pages, 10 figures
看穿MiRAGE:评估多模态检索增强生成
发表机构 * Johns Hopkins University(约翰霍普金斯大学) ; Human Language Technology Center of Excellence(人类语言技术卓越中心)
AI总结 提出MiRAGE框架,通过InfoF1和CiteF1指标评估多模态RAG的事实性和引用支持,并验证其与人工判断的一致性。
超越对象:面向细粒度分类的上下文合成数据生成
发表机构 * Princeton University(普林斯顿大学) ; Google DeepMind(谷歌深Mind)
AI总结 提出BOB微调策略,通过提取并条件化类不可知属性(如场景背景和物体姿态)来缓解过拟合,提升细粒度分类中合成训练数据的质量,在多个数据集上达到最优性能。
Comments CVPR 2026
Seq-DeepIPC:足式机器人导航中用于端到端控制的顺序感知
发表机构 * Department of Computer Science and Electronics, Universitas Gadjah Mada(计算机科学与电子系,加查马达大学) ; Department of Computer Science and Engineering, Toyohashi University of Technology(计算机科学与工程系,东福冈技术大学)
AI总结 提出Seq-DeepIPC模型,通过融合多模态感知(RGB-D+GNSS)与时间序列,实现足式机器人在真实环境中的端到端导航控制,并在机器人狗上验证了其有效性。
Comments This work has been accepted for publication in the IEEE Sensors Journal. https://ieeexplore.ieee.org/document/11373257/
无需训练的视频推理
发表机构 * Qualcomm AI Research(高通AI研究) ; University of California, San Diego(加州大学圣地亚哥分校)
AI总结 提出V-Reason方法,利用输出分布熵作为信号,通过轻量级控制器在推理时自适应调整值缓存,无需强化学习或微调即可提升视频推理性能。
Comments CVPR Findings 2026. Project Page https://deepaksridhar.github.io/vreason.github.io/
病理基础模型的通用与可迁移攻击
发表机构 * Electrical and Computer Engineering Department, University of California, Los Angeles, CA, 90095, USA(加州大学洛杉矶分校电子与计算机工程系) ; Bioengineering Department, University of California, Los Angeles, CA, 90095, USA(加州大学洛杉矶分校生物工程系) ; California NanoSystems Institute (CNSI), University of California, Los Angeles, CA, 90095, USA(加州大学洛杉矶分校加州纳米系统研究所) ; Department of Pathology, Hadassah Hebrew University Medical Center, Jerusalem, 91120, Israel(海法希伯来大学医疗中心病理学系) ; Department of Surgery, University of California, Los Angeles, CA, 90095, USA(加州大学洛杉矶分校外科系)
AI总结 提出通用可迁移对抗扰动(UTAP),通过固定弱噪声模式破坏多个病理基础模型的特征表示能力,导致下游任务性能下降,并展示其跨数据集通用性和跨模型可迁移性。
Comments 38 Pages, 8 Figures
iLRM:一种迭代式大型3D重建模型
发表机构 * Sungkyunkwan University(首尔大学) ; Yonsei University(延世大学) ; Rembrand ; Meta
AI总结 提出一种迭代式大型3D重建模型iLRM,通过解耦场景表示、分解多视图交互和注入高分辨率信息,实现高效、可扩展的前馈3D重建,在RE10K和DL3DV数据集上优于现有方法。
Comments Project page: https://gynjn.github.io/iLRM/
NAPPure: 针对非加性扰动的鲁棒图像分类的对抗净化
发表机构 * State Key Laboratory of AI Safety, Institute of Computing Technology, Chinese Academy of Sciences(人工智能安全国家重点实验室,计算技术研究所,中国科学院) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 提出NAPPure框架,通过似然最大化解耦干净图像与扰动参数,有效提升图像分类模型对非加性扰动(如模糊、遮挡、失真)的鲁棒性。
UrbanFusion: 用于鲁棒空间表示对比学习的随机多模态融合
发表机构 * ETH Zurich(苏黎世联邦理工学院)
AI总结 提出UrbanFusion模型,通过随机多模态融合(SMF)和Transformer模块整合街景、遥感、地图和POI数据,在56个城市41项任务中优于现有GeoAI模型。
DetailMaster:你的文本到图像模型能处理长提示吗?
发表机构 * Sun Yat-Sen University(中山大学) ; Alibaba Group(阿里巴巴集团) ; Worcester Polytechnic Institute(沃斯特理工学院) ; Guangdong Provincial Key Laboratory of Fire Science and Intelligent Emergency Technology(广东省火灾科学与智能应急技术重点实验室)
AI总结 提出DetailMaster基准,通过自动数据构建和评估流程,系统评估文本到图像模型在长提示下的性能,发现编码器和扩散模型在细节密集条件下的局限性,并证明高保真生成需要扩展提示限制与长提示训练的协同组合。
Comments 36 pages, 10 figures, 21 tables, accepted by ICML2026
StreamingVLM:无限视频流的实时理解
发表机构 * MIT(麻省理工学院) ; NVIDIA(英伟达)
AI总结 提出StreamingVLM,通过统一训练与流推理的框架,利用注意力汇点状态复用和滑动窗口机制实现无限视频流的实时稳定理解,在Inf-Streams-Eval基准上以8 FPS速度达到66.18%胜率,并提升通用VQA能力。
Comments Published as a conference paper at ICLR 2026. The first two authors contributed equally to this work
使用衍射解码器实现扩展景深上的超分辨率图像投影
发表机构 * Electrical and Computer Engineering Department, University of California, Los Angeles, California 90095, USA(加州大学洛杉矶分校电子与计算机工程系) ; Bioengineering Department, University of California, Los Angeles, California 90095, USA(加州大学洛杉矶分校生物工程系) ; California NanoSystems Institute (CNSI), University of California, Los Angeles, California 90095, USA(加州大学洛杉矶分校加州纳米系统研究所)
AI总结 提出一种混合图像投影系统,结合CNN编码器和全光学衍射解码器,实现扩展景深和像素超分辨率,提升空间带宽积。
Comments 18 Pages, 6 Figures
DPsurv: 双原型证据融合用于不确定性感知和可解释的全切片图像生存预测
发表机构 * National University of Singapore ; National University of Singapore Guangzhou Research Translation ; Innovation Institute ; Imperial College London ; Peking Union Medical College Hospital, Chinese Academy of Medical Sciences \& Peking Union Medical College ; Hunan University ; Institute of High Performance Computing, Agency for Science, Technology ; Research (A STAR)
AI总结 提出DPsurv双原型证据融合网络,通过不确定性感知的生存区间预测和基于补丁原型分配图、组件原型及组件级相对风险聚合的可解释性,在五个公开数据集上取得最佳一致性指数和积分Brier分数。
MCPDepth:基于多圆柱全景图的立体匹配全方位深度估计
发表机构 * Washington University in St. Louis(华盛顿大学圣路易斯分校) ; The Chinese University of Hong Kong(香港中文大学) ; ShanghaiTech University(上海科技大学) ; University of California, Los Angeles(加州大学洛杉矶分校)
AI总结 提出MCPDepth两阶段框架,通过圆柱全景图的立体匹配和融合,利用循环注意力模块处理垂直畸变,在标准网络组件上实现高效的全方位深度估计,在Deep360和3D60数据集上MAE分别降低18.8%和19.9%。
Comments Accepted at the OmniCV Workshop, CVPR 2026
LEMUR 神经网络数据集:迈向无缝 AutoML
发表机构 * Computer Vision Lab, CAIDAS, University of Würzburg(计算机视觉实验室,CAIDAS,乌尔姆大学)
AI总结 提出 LEMUR 开源数据集与框架,通过统一模板、结构化存储和自动化超参数优化,标准化神经网络实现与评估,以加速 AutoML 研究并促进公平基准测试。
面向任意时间检索:任意时间行人重识别基准
发表机构 * School of Cyber Science and Technology, University of Science and Technology of China(中国科学技术大学信息科学与技术学院) ; Anhui Province Key Laboratory of Digital Security(安徽省数字安全重点实验室) ; The Chinese University of Hong Kong(香港中文大学) ; School of Computer Science, Wuhan University, China(武汉大学计算机科学学院)
AI总结 提出任意时间行人重识别(AT-ReID)任务,构建大规模多场景数据集AT-USTC,并设计统一模型Uni-AT实现全天候多场景有效检索。
Comments Accepted by IJCAI 2025 (oral)
探索大语言模型编码器在胸部X光片图像-文本检索中的能力
发表机构 * Interdisciplinary Program in Bioengineering, Seoul National University Graduate School(生物工程跨学科项目,首尔国立大学研究生院) ; Integrated Major in Innovative Medical Science, Seoul National University Graduate School(创新医学科学整合专业,首尔国立大学研究生院) ; Department of Radiology, The First Affiliated Hospital, Zhejiang University School of Medicine(浙江大学医学院第一附属医院放射科) ; Seoul National University College of Medicine(首尔国立大学医学院) ; Department of Radiology, Seoul National University College of Medicine, Seoul National University Hospital(首尔国立大学医学院放射科,首尔国立大学医院) ; Institute of Medical and Biological Engineering, Seoul National University Medical Research Center(医学与生物工程研究所,首尔国立大学医学研究所以及) ; Institute of Radiation Medicine, Seoul National University Medical Research Center(放射医学研究所,首尔国立大学医学研究所以及)
AI总结 提出一种领域自适应的双向大语言模型文本编码器,通过掩码标记预测和监督对比学习训练,结合参数高效的双塔对比视觉语言框架,提升胸部X光片图像与文本的对齐和检索性能。
Comments 12 pages, 2 figures, under review
以表示为中心的监督式骨骼动作识别综述与新基准
发表机构 * School of Computing, Australian National University(澳大利亚国立大学计算学院) ; University of Alabama at Birmingham(阿拉巴马大学伯明翰分校) ; OPPO US Research Center(OPPO美国研究中心) ; Carnegie Mellon University(卡内基梅隆大学) ; University of Western Australia(西澳大利亚大学) ; Curtin University(Curtin大学) ; School of Engineering and Built Environment, Griffith University(格里菲斯大学工程与环境学院) ; School of Medicine, Yale University(耶鲁大学医学院)
AI总结 本文以输入表示类型(关节坐标、骨骼向量、运动流及扩展表示)为中心,系统综述了监督式3D骨骼动作识别方法,并提出了包含多视角、复杂多人交互等挑战的大规模数据集ANUBIS,通过实验揭示了动作-特征依赖关系及多表示融合的局限性。
Comments Accepted for publication in Pattern Recognition
FedS2R: 面向自动驾驶中合成到真实语义分割的一次性联邦域泛化
发表机构 * Computer Vision Center (CVC) Univ. Autònoma de Barcelona (UAB) Barcelona, Spain(计算机视觉中心(CVC)巴塞罗那自治大学(UAB)巴塞罗那,西班牙)
AI总结 提出FedS2R框架,通过不一致性驱动的数据增强和多客户端知识蒸馏,实现自动驾驶中合成到真实语义分割的一次性联邦域泛化,在五个真实数据集上性能接近集中式训练。
Comments Accepted by IEEE Intelligent Vehicles Symposium (IV) 2026
基于点视觉融合与语言模型重建的音素级视觉语音识别
发表机构 * Kyushu Institute of Technology(九州工业大学)
AI总结 提出一种两阶段音素级视觉语音识别框架,通过融合视觉和面部地标运动特征,并利用LLM模型重建单词,在LRS2和LRS3数据集上分别实现17.4%和21.0%的词错误率。
Comments Accepted at ICASSP 2026. This version corresponds to the camera-ready manuscript
Seg-Zero: 通过认知强化学习的推理链引导分割
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; The Hong Kong University of Science and Technology(香港科学与技术大学) ; Renmin University of China(中国人民大学)
AI总结 提出Seg-Zero框架,通过解耦的推理模型和分割模型,结合GRPO强化学习与格式-精度奖励机制,实现零样本推理分割,在ReasonSeg基准上超越LISA-7B 18%。
ShapeLib: 利用大型语言模型设计程序化3D形状抽象库
发表机构 * Stanford University(斯坦福大学) ; Adobe Research(Adobe研究) ; University College London(伦敦大学学院) ; Brown University(布朗大学)
AI总结 提出ShapeLib方法,利用大型语言模型的先验知识,通过引导式工作流自动设计可泛化的程序化3D形状抽象库,并支持下游形状编辑与生成。
Med-URWKV†:面向医学图像分割的增强型预训练纯VRWKV模型
发表机构 * College of Computer Science, Nankai University(南开大学计算机科学学院) ; Key Laboratory of Data and Intelligent System Security, Ministry of Education(教育部数据与智能系统安全重点实验室) ; School of Medicine, Nankai University(南开大学医学院) ; Nankai University Eye institute, Nankai University(南开大学眼科研究院) ; Tianjn Eye Hospital(天津眼科医院) ; Haihe Lab of ITAI(海河ITAI实验室)
AI总结 本文提出Med-URWKV模型,通过重用预训练VRWKV编码器并设计FAWA和MSCF模块,在五个数据集上达到SOTA性能,其中Med-URWKV†以半参数实现最高平均Dice 88.00%。
Comments Under Review Since 2026-1-22, 12 pages. Copyright: College of Computer Science, Nankai University. All rights reserved
IGraSS: 通过迭代图约束语义分割从卫星图像中识别基础设施网络
发表机构 * Biocomplexity Institute, University of Virginia(弗吉尼亚大学生物复杂性研究所) ; Department of Computer Science, University of Virginia(弗吉尼亚大学计算机科学系) ; Department Biomedical Systems Engineering, Washington State University(华盛顿州立大学生物医学系统工程系) ; Earth System Science Center, University of Alabama in Huntsville(阿拉巴马大学亨茨维尔分校地球系统科学中心)
AI总结 提出IGraSS迭代框架,结合语义分割与图约束优化,将不可达运河段从18%降至3%,并提升道路网络完整性。
Princeton365: 一个具有精确相机位姿的多样化数据集
发表机构 * Princeton University(普林斯顿大学)
AI总结 提出Princeton365数据集,包含365个视频和精确相机位姿,通过校准板和360度相机的新颖真值采集框架弥合精度与多样性差距,并引入基于光流的尺度感知评估指标及新颖视图合成基准。
Comments Update v2: Match the ICCV 2025 camera-ready version. Fix typos
通过剪枝冗余检索增强层注意力效率
发表机构 * De Artificial Intelligence Lab(德人工智能实验室)
AI总结 针对层注意力机制中相邻层权重冗余导致特征重复和训练效率低的问题,提出基于KL散度量化冗余并利用增强Beta分位数映射(EBQM)跳过冗余层的高效层注意力(ELA)架构,在图像分类和目标检测任务中训练时间减少30%且性能提升。
Comments 5 pages
RankByGene: 通过跨模态排序一致性实现基因引导的组织病理学表示学习
发表机构 * Stony Brook University(石英溪大学) ; Athinoula A. Martinos Center for Biomedical Imaging, Massachusetts General Hospital and Harvard Medical School(阿提诺拉A.马丁努斯生物医学影像中心,麻省总医院和哈佛医学院) ; Department of Biomedical Data Science, Stanford University(生物医学数据科学系,斯坦福大学) ; Department of Pathology and Cell Biology, Columbia University(病理学与细胞生物学系,哥伦比亚大学)
AI总结 提出基于排序对齐损失的框架,利用教师-学生网络自监督知识蒸馏,解决空间转录组学与组织学图像的对齐问题,在基因表达预测、切片分类和生存分析任务中表现优异。
Comments 18 pages, 9 figures
一种轻量级上下文驱动的免训练网络用于场景文本分割与识别
发表机构 * CVPR Unit, Indian Statistical Institute, Kolkata, India(印度统计研究所柯西拉分校CVPR单位) ; Manipal University Jaipur, India(印度贾浦尔曼普尔大学) ; University of Salford, UK(英国萨尔福德大学) ; School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院)
AI总结 提出一种基于上下文理解、无需训练的即插即用框架,通过注意力分割和语义评估实现高效场景文本识别,性能与SOTA相当且资源消耗更低。
Comments Accepted at ICDAR 2025 (ORAL) 21 pages, 8 figures, 7 tables
GSV3D: 基于高斯溅射的几何蒸馏与稳定视频扩散用于单图像3D物体生成
发表机构 * State Key Laboratory of Virtual Reality Technology and Systems, Beihang University(虚拟现实技术与系统国家重点实验室,北京航空航天大学) ; SenseTime Research(商汤研究) ; PBVR
AI总结 提出一种结合2D扩散模型隐式3D推理能力与高斯溅射几何蒸馏的方法,通过高斯溅射解码器将SV3D潜变量输出转换为显式3D表示,实现多视图一致性和高质量3D生成。
将视觉语言模型的预训练扩展到一千亿数据
发表机构 * Google DeepMind(谷歌DeepMind)
AI总结 本文通过实验探究将视觉语言模型预训练数据扩展到一千亿规模的效果,发现传统基准性能饱和,但文化多样性任务和低资源语言受益显著,并指出质量过滤可能减少文化多样性。
Comments v2: CVPR Findings'26
哪些数据增强对超参数敏感以及为什么?
发表机构 * Knowledge Representation Lab Innopolis University(知识表示实验室 印尼奥利普斯大学) ; Sorbonne Center for Artificial Intelligence - SCAI Sorbonne University(索邦人工智能中心 - SCAI 索邦大学)
AI总结 本研究通过局部代理(LIME)解释和线性回归系数评估不同数据增强对模型超参数的敏感性、一致性和影响,发现某些增强对超参数高度敏感,而另一些则更稳健可靠。
Comments 10 pages, 17 figures
通过流形对齐可视化高维数据中的定义差异:应用于3D右心室应变计算
发表机构 * Univ Lyon, Université Claude Bernard Lyon 1, INSA-Lyon,CNRS, Inserm, CREATIS UMR 5220, U1294(里昂大学,克劳德·贝尔纳里 Lyon 1 大学,INSA-里昂,CNRS,Inserm,CREATIS UMR 5220,U1294) ; Institute of Machine Learning in Biomedical Imaging, Helmholtz Center Munich, Germany(生物医学成像机器学习研究所,海德堡中心慕尼黑,德国) ; LTCI, Telecom Paris, Institut Polytechnique de Paris(LTCI,电信巴黎,巴黎理工学院) ; DTIC, Universitat Pompeu Fabra, Barcelona, Spain(DTIC,庞培法布拉大学,巴塞罗那,西班牙) ; Institut Universitaire de France (IUF)(法国大学研究所(IUF))
AI总结 提出一种基于表示学习的策略,通过流形对齐匹配不同定义的高维数据,并重建参数图以可视化定义差异,应用于右心室应变分析。
Comments Accepted for publication in IEEE Transactions on Medical Imaging, DOI: 10.1109/TMI.2026.3698240 \c{opyright} 2026 IEEE. Personal use is permitted. For all other uses, permission must be obtained from IEEE
OP-LoRA:维度的祝福
发表机构 * Boston University(波士顿大学) ; University of Central Florida(中央佛罗里达大学)
AI总结 提出OP-LoRA方法,通过额外MLP预测LoRA适配器权重以改善优化,训练后丢弃MLP,在零额外推理成本下提升性能并降低对学习率的敏感性。
基于潜在先验的自监督单目内窥镜深度与姿态估计
发表机构 * University of Oxford(牛津大学) ; University of Leeds(利兹大学)
AI总结 提出一种结合生成潜在库和变分自编码器的自监督框架,通过自然图像深度先验和姿态潜在变量正则化,实现内窥镜复杂场景下的高精度深度与姿态估计。
增强盲源分离的解离主成分分析
发表机构 * College of Computer and Information Sciences, Imam Mohammad Ibn Saud Islamic University(伊斯兰国际大学计算机与信息科学学院)
AI总结 提出解离主成分分析(DPCA),通过联合估计主成分和载荷向量并显式建模其相互依赖关系,克服传统稀疏PCA在源重叠时性能下降的问题,在模拟fMRI源恢复、前景背景分离等任务中优于经典sPCA。
Comments 13 pages with 6 figures, this work has not been published before
国家级农业景观理解
发表机构 * Google DeepMind(谷歌深Mind) ; Google(谷歌)
AI总结 提出首个国家级农业制图系统,通过新颖的后处理启发式方法实现田地、树木和水体的实例分割,并在全国范围内部署验证。
Comments 32 pages, 11 tables, 22 figs
基于单一视觉-语言嵌入的域适应
发表机构 * Inria(法国国家信息与自动化研究所) ; Kyutai(Kyutai公司)
AI总结 提出一种利用单一视觉-语言(VL)嵌入进行域适应的框架,通过提示/照片驱动的实例归一化(PIN)挖掘多种视觉风格,实现零样本和单样本无监督域适应,在语义分割任务上优于基线方法。
Comments International Journal of Computer Vision (IJCV 2026)
使用点云对场景流进行攻击
发表机构 * Sharif University of Technology(谢里弗大学) ; ICT Research Institute(信息与通信技术研究所)
AI总结 针对场景流网络提出白盒对抗攻击方法,在KITTI和FlyingThings3D数据集上实现平均端点误差相对下降33.7%,并揭示单维度或单颜色通道攻击的影响。
孟加拉语盲文到文本翻译:一种几何方法
发表机构 * Institute of Information Technology(信息科技研究所) ; University of Dhaka(达卡大学)
AI总结 针对孟加拉语缺乏盲文翻译工具的问题,提出一种基于图像处理和几何结构分析的盲文到文本翻译方法,识别准确率达97.25%。
Comments GitHub Repo.: https://github.com/MinhasKamal/BrailleToTextTranslator
SCL:面向遥感变化检测的单时相多模态对比学习域泛化方法
发表机构 * Fudan University(复旦大学) ; Tencent YouTu Lab(腾讯YouTu实验室)
AI总结 提出基于视觉-语言预训练模型的单时相多模态对比学习(SCL)基础模型,结合动态文本-视觉上下文优化(DTCO)和可控生成与单时相训练策略(SAIN),无需目标数据集训练即可实现遥感变化检测的跨数据集泛化。
Comments CVPRW 2026
DeepIPCv2: 基于LiDAR的鲁棒环境感知与自动驾驶导航控制
发表机构 * Department of Computer Science and Electronics, Universitas Gadjah Mada(计算机科学与电子系,加查马达大学) ; Department of Computer Science and Engineering, Toyohashi University of Technology(计算机科学与工程系,toyohashi技术大学)
AI总结 提出DeepIPCv2端到端自动驾驶框架,通过融合LiDAR点云分割与多视图投影构建鲁棒场景表示,结合门控循环单元、命令特定多层感知器和PID控制器实现路径点与导航控制命令的联合估计,在光照变化下取得最低总指标误差和最少驾驶干预。
Comments This work has been accepted for publication in IEEE Access. https://ieeexplore.ieee.org/document/11313052
多模态3D智能的最新进展:综合调查与评估
发表机构 * College of Electronics and Information Engineering, Sichuan University(四川大学电子信息工程学院) ; School of Computer Science, University of Adelaide(阿德莱德大学计算机科学学院) ; School of Computer Science and Engineering, University of Electronic Science and Technology of China(电子科技大学计算机科学与工程学院)
AI总结 本文系统综述了多模态3D智能方法,提出基于模态和任务的新分类法,并比较了基准数据集上的结果,最后讨论了未来研究方向。
反事实干预特征迁移用于可见光-红外行人重识别
发表机构 * School of Information Science and Technology, University of Science and Technology of China(信息科学与技术学院,中国科学技术大学) ; Key Laboratory of Electromagnetic Space Information, Chinese Academy of Science(电磁空间信息重点实验室,中国科学院) ; School of Data Science, University of Science and Technology of China(数据科学学院,中国科学技术大学) ; SenseTime Research(商汤研究院) ; Qing Yuan Research Institute, Shanghai Jiao Tong University(青元研究院,上海交通大学)
AI总结 针对可见光-红外行人重识别中图模型泛化性差的问题,提出反事实干预特征迁移方法,通过同质与异质特征迁移减少模态不平衡,并利用反事实关系干预增强图拓扑结构的可靠性。
Comments Accepted by ECCV 2022
CrowdFormer: 改进泛化性的弱监督人群计数
发表机构 * Department of Electrical Engineering, Indian Institute of Technology Indore, India(印度理工学院印度尔分校电子工程系)
AI总结 提出基于金字塔视觉变换器的弱监督人群计数方法,通过全局上下文建模实现与现有方法相当的性能并展现显著泛化性。