A Mutual Information Lower Bound for Multimodal Regression Active Learning
AI总结 该论文针对多模态回归中的主动学习问题,提出了一种新的获取函数MI-LB,用于更准确地捕捉模型的不确定性。研究引入了双索引框架,区分认识论不确定性和偶然性不确定性,并基于信息论推导出一个互信息下界作为获取目标。实验表明,该方法在多模态系统基准上表现优异,优于现有各类基线方法。
AI总结 该论文针对多模态回归中的主动学习问题,提出了一种新的获取函数MI-LB,用于更准确地捕捉模型的不确定性。研究引入了双索引框架,区分认识论不确定性和偶然性不确定性,并基于信息论推导出一个互信息下界作为获取目标。实验表明,该方法在多模态系统基准上表现优异,优于现有各类基线方法。
AI总结 本文提出TILBench,一个用于评估表格数据不平衡学习的系统性基准平台。该基准测试了40多种代表性算法在57个多样化表格数据集上的表现,覆盖了超过20万个受控实验,揭示了不同方法在预测性能、鲁棒性和计算可扩展性方面的差异。研究发现,没有一种方法在所有场景下都表现最佳,方法的有效性高度依赖于数据特性和计算约束,基于此研究提供了实际应用中的方法选择建议。
AI总结 该论文提出了一种名为Representative Attention(RPAttention)的线性全局注意力机制,旨在解决视觉Transformer中传统自注意力计算复杂度高、依赖图像坐标的问题。其核心方法通过在表示空间中动态生成语义相关的代表性token,替代固定空间划分的中间token,从而实现跨空间区域的语义通信。该方法在保持全局感受野的同时,将token交互复杂度从二次降至线性,实验表明其在图像分类、目标检测和语义分割任务中均表现出优越的性能。
AI总结 本文探讨了人工智能对齐中的“多元主义对齐”问题,指出当前基于强化学习的AI系统在面对不同价值观时倾向于迎合用户意见,导致缺乏真实的价值冲突与分歧。为此,作者提出以格赖斯语用原则为基础的三种对话机制——界定、信号和修正,强调AI应能承认自身视角限制、揭示价值冲突并基于原则进行修正,而非简单迎合。研究引入“多元修正得分”(PRS)作为衡量指标,并在实验中验证了现有模型在面对争议性问题时虽能遵循用户意见,但修正能力较弱,突显了部署阶段治理机制对实现多元主义的重要性。
AI总结 本文提出了一种名为 Chrono-Gymnasium 的开源分布式仿真框架,旨在解决高精度物理仿真在机器人和复杂机械系统中计算开销大、难以应用于数据密集型任务的问题。该框架基于 Ray 构建,兼容 Gymnasium 接口,支持与现代机器学习库的无缝集成,并提供了分布式执行所需的同步与通信机制。通过两个案例研究,展示了其在强化学习和贝叶斯优化中的应用效果,证明了其在保证物理精度的同时显著提升了仿真效率。
AI总结 视频推理分割任务需要根据自然语言描述在视频帧中定位目标对象,通常涉及空间推理和隐含引用。现有方法通过提取冻结的大视觉语言模型(LVLM)的注意力图作为分割的先验信息,实现无需训练的定位,但这些注意力图主要用于文本生成,导致定位信号模糊。本文提出SteerSeg,一种轻量框架,通过识别注意力偏差并引入输入级条件引导来优化注意力分布,结合可学习的软提示和推理引导的思维链(CoT)提示,显著提升了LVLM的空间定位能力,并在多个基准测试中表现出良好的泛化性能。
Comments Project page: https://steerseg.github.io
AI总结 知识图谱基础模型旨在通过学习可迁移的关系结构,实现对包含新实体和关系的图的泛化。然而,现有方法大多关注关系层面的通用性,而对上下文学习这一基础模型的重要支柱在知识图谱推理中的应用研究较少。本文提出KGPFN,一种结合先验数据适配网络的知识图谱基础模型,通过结构化上下文中的局部和全局信息进行推理,实现了跨图的强适应能力,并在多个基准测试中表现出色。
AI总结 MemLens 是一个用于评估大型视觉语言模型(LVLMs)多模态长期记忆能力的综合性基准,涵盖了信息抽取、多轮推理、时序推理等五个方面,测试了不同上下文长度下的模型表现。研究发现,长上下文模型在短对话中表现良好,但随着对话增长性能下降,而记忆增强代理虽在长度上更稳定,却在存储时间压缩下丢失了视觉细节。实验表明,单一方法难以胜任多轮多模态任务,因此提出了结合长上下文注意力与结构化多模态检索的混合架构方向。
Comments Work in progress
AI总结 本文提出了一种基于核心集理论的个性化知识图谱摘要方法 COREKG,旨在解决大规模知识图谱在问答和可视化等任务中应用不便的问题。该方法通过基于用户查询模式的敏感度评分,从知识图谱中采样出一个具有代表性的三元组子集,以保证摘要在结构和语义上的准确性。实验表明,COREKG 在多个真实数据集上相比现有方法在查询准确率和结构覆盖率方面表现更优,同时显著减少了存储和查询开销。
Comments Accepted at IJCAI 2026
AI总结 本文研究如何将深度强化学习策略蒸馏到可解释模型中,以平衡性能与可解释性之间的矛盾。提出了一种基于评论家网络的Voronoi量化方法,通过划分状态空间并为每个区域拟合线性函数,实现对复杂策略的简化表示。该方法利用原策略的评论家网络迭代优化子策略,有效提升了蒸馏模型的性能与可解释性。
Comments Accepted for presentation at EXTRAAMAS 2026
AI总结 本文介绍了2024年文本依赖说话人验证(TdSV)挑战赛中“Naive”团队的系统方案。该系统基于现有的先进神经网络ResNet-TDNN和NeXt-TDNN进行适配,并设计了轻量高效的EfficientNet-A0模型,结合数据增强和优化的超参数,实现了优异的验证性能,取得了0.0461的最小检测代价函数(MinDCF)和1.3%的等错误率(EER)。研究展示了多模型集成学习在说话人和短语验证中的有效性。
AI总结 本文提出了一种名为 SEDiT 的新型视频字幕擦除方法,无需预先生成掩码即可直接完成字幕移除任务。该方法基于一步式扩散变换器,通过引入单阶段框架避免了传统两阶段处理中的次优问题,并在理论上证明了一步去噪的可行性。为保证时间一致性,文中采用混合训练策略并支持原生高清视频的高效处理。
Comments Project page:http://zheng222.github.io/SEDiT_project
AI总结 本文研究了对比预训练视觉-语言模型(VLMs)中潜在空间的结构问题,发现其共享的潜在空间中存在大量非语义的多模态噪声。作者通过协方差矩阵的谱分解方法,将潜在空间分解为语义信号和共享噪声子空间,并观察到噪声结构在不同数据子集上具有强子群不变性。实验表明,去除这些噪声维度对下游任务性能影响较小,甚至有助于提升性能,揭示了现代VLMs潜在空间中存在大量由模型架构引起的噪声,而非仅由任务相关语义主导。
AI总结 本文提出了一种基于视觉自回归(VAR)模型的多尺度图像超分辨率方法,通过引入层次化图像分块(HIT)和直接偏好优化(DPO)正则化项,解决了现有方法在尺度映射和模型复杂度方面的不足。HIT 通过逐级表示不同尺度的图像并强制跨尺度的分块重叠,提升了模型的灵活性,而 DPO 则仅依赖低分辨率与高分辨率图像对,引导模型生成更高质量的输出。该方法在无需外部训练数据的情况下,使用更小的模型实现了领先的多尺度超分辨率效果。
Comments Accepted for publication at ICML 2026. *Joint first authorship (alphabetical order). arXiv admin note: substantial text overlap with arXiv:2506.04990
AI总结 PROCESS-2 是一个用于早期认知障碍检测的大型语音数据集,旨在支持基于自发和任务导向语音的自动认知评估研究。该数据集包含200名健康受试者、150名轻度认知障碍患者和50名痴呆患者的语音记录,共计约21小时,涵盖图片描述和语言流畅性任务,并附有手动验证的文本和元数据。PROCESS-2 通过严格的临床验证和分区设计,确保了数据的可靠性与实用性,为相关研究提供了可复现的基准资源。
AI总结 在物联网医疗(IoMT)网络中,心电图(ECG)监测受到数据共享法规和隐私保护的限制。为解决联邦学习中模型更新通信开销大、在非独立同分布和长尾标签场景下性能下降的问题,本文提出了一种双向联邦知识蒸馏框架BiFedKD,通过温度缩放和聚合蒸馏机制提升模型对齐效果。实验表明,BiFedKD在MIT-BIH心律失常数据集上显著提升了准确率和Macro-F1指标,同时大幅降低了通信和计算开销。
AI总结 场景文本识别需要建模从粗粒度布局到细粒度字符笔画的视觉结构演变过程,但现有方法依赖大量标注数据。本文提出了一种统一的自监督框架——Masked Next-Scale Prediction(MNSP),通过跨尺度预测和掩码图像重建联合学习,显式建模场景文本的层次结构演化。该方法引入了Next-Scale Prediction(NSP)模块,从低分辨率上下文预测高分辨率特征,并结合多尺度语言对齐模块保持语义一致性,实验表明其在多个基准数据集上取得了先进性能。
Comments Accepted to the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2026 Findings Track.10 pages, 4 figures
AI总结 本文提出了一种名为Denoising-GS的高保真新视角合成方法,针对3D高斯泼溅(3DGS)在优化过程中因初始点云稀疏不完整而引入噪声的问题,引入了一种基于空间感知的去噪框架。该方法通过同时考虑高斯原语的位置和空间结构,设计了保持空间优化流的优化器和基于空间梯度的去噪策略,有效提升了去噪的连贯性和一致性,并通过不确定性估计和空间一致性优化进一步提升了模型的表现。实验表明,Denoising-GS在多个基准数据集上均取得了最先进的效果。
AI总结 视觉自回归(VAR)模型在保持低延迟的同时展现了出色的图像生成质量,但其面临严重的KV缓存内存限制问题。本文提出了一种名为HeatKV的新压缩方法,通过根据每个注意力头对先前生成尺度的关注程度动态调整缓存分配,实现更高效的内存利用。该方法基于小规模离线校准集对注意力头进行排序,并据此构建静态剪枝计划,显著提升了KV缓存的压缩比,同时保持了图像保真度和生成质量,在VAR模型的KV缓存压缩任务中取得了新的最优性能。
Comments 18 pages total including appendix; 6 main-paper figures, 2 appendix figures; 4 tables
AI总结 虚拟试穿(VTON)旨在生成与人体姿态和结构精确对齐的逼真服装图像。当前基于扩散模型的方法在结构完整性和纹理保真度之间面临根本性的权衡问题。本文提出LPH-VTON框架,通过在单一连续去噪过程中解耦结构与纹理生成,实现两者的协同优化,有效解决了这一矛盾,并在标准数据集VITON-HD上取得了结构对齐与感知真实感的优越平衡。
AI总结 该论文提出了一种通过预测梯度来加速对抗样本生成的方法,避免了传统方法中耗时的反向传播过程。研究基于神经网络的核视角,利用前向传播中的隐藏状态通过轻量线性回归估计输入梯度,从而大幅提升了生成效率。实验表明,该方法在保持较高攻击效果的同时,显著提高了吞吐量,比FGSM方法快了超过5倍。
Comments 17 pages
AI总结 该研究提出了一种名为REALM的因果LFP解码框架,旨在解决基于局部场电位(LFP)的行为解码中精度低和非因果架构不适用于实时应用的问题。REALM通过从预训练的双向LFP模型中迁移表征知识到因果学生模型,实现了高效的实时解码。实验表明,REALM在保持高解码性能的同时,显著减少了模型参数和训练时间,展示了LFP-only模型在无线植入式脑机接口中的实用性和可扩展性。
AI总结 该研究提出了一种用于AI智能体的全面评估与故障诊断框架,旨在解决现有评估方法在解释失败原因和定位问题位置方面的不足。该框架结合自顶向下的智能体级诊断与自底向上的片段级评估,将分析过程分解为独立的片段评估,从而支持任意长度的轨迹分析,并为每个判断提供片段级的解释依据。实验表明,该方法在多个基准测试中取得领先结果,显著提升了分类、定位及联合定位-分类的准确率。
AI总结 本文提出了一种确定性智能体工作流,用于解决高阶协调制度(HS)税则分类这一专家级任务。该方法通过多维规则推理,结合可解释的决策过程,解决了在材料、形式、功能等多个维度上同时满足优先规则的挑战。研究设计了一个固定流程的智能体架构,将大语言模型调用限制在特定阶段,并保留本地的反思与验证机制,从而实现结构化、可解释的分类决策。实验表明,该方法在HSCodeComp数据集上取得了较高的分类准确率,并揭示了部分标注可能存在与HS规则不符的情况。
AI总结 本文研究了在动态运动预测任务中如何有效利用隐藏上下文信息,重点探讨了从循环神经网络到图神经网络以及通用型Transformer模型的演进过程。研究对比了多种机器学习方法在预测NBA球员动态运动轨迹中的性能,发现基于LSTM的混合模型在结合上下文信息后取得了最低的最终位移误差,表现优于图注意力网络和Transformer等其他模型。实验表明,不同模型在预测精度、泛化能力和训练效率方面各有优劣,强调了在快速动态环境中进行轨迹预测时需根据具体任务选择合适模型。
Comments 12 pages
AI总结 现代图像超分辨率方法虽然能生成细节丰富、视觉吸引的结果,但常常引入影响感知质量的视觉伪影。本文提出“伪影显著性”作为评估指标,定义为多数观者认为某区域存在明显伪影的比例,并构建了SR-Prominence数据集,包含3,935个标注显著性的伪影掩码,涵盖多个真实场景。研究发现传统全参考质量评估指标如SSIM在局部显著性预测上表现突出,而无参考方法和专用伪影检测器泛化能力较差,该数据集为超分辨率伪影评估提供了感知导向的新基准。
AI总结 本文研究了视觉-语言模型(VLM)在在线签名验证任务中的零样本能力,评估了GPT-5.2和Gemini 2.5 Pro等先进模型在签名验证挑战(SVC)基准上的表现。通过将原始运动时间序列转化为静态图像,并利用模型的隐含token概率计算生物特征分数,实验发现模型在随机伪造场景下表现出色,GPT-5.2在移动任务中的等错误率低至0.32%,但在高难度的熟练伪造场景中性能显著下降,并暴露出模型在链式推理过程中产生运动幻觉的问题。
Comments Accepted at the 14th International Workshop on Biometrics and Forensics
AI总结 本文提出了一种名为XFP的动态权重量化方法,用于大语言模型的高效推理。该方法通过设定每通道的余弦相似度质量下限,自动确定每层的码本大小、异常值预算和打包方式,无需手动选择位宽或校准数据。XFP将权重矩阵分解为稀疏的fp16异常值残差和密集的子字节索引张量,并通过两种存储模式实现高效解码。实验表明,XFP在多个大模型上实现了比现有方法更高的推理速度和准确率,同时有效解决了模型超出内存限制的问题。
Comments 17 pages, 3 figures, 17 tables, 1 algorithm. Code: https://github.com/flash7777/vllm/tree/multiquant
AI总结 本文提出 MechVerse,一个用于评估视频生成模型中物理运动一致性的新基准。研究关注当前模型在生成具有机械结构的视频时,常无法满足运动学和几何约束的问题,例如部件变形、运动传递不一致等。MechVerse 包含大量合成视频片段及结构化提示,用于评估模型在机械约束下的生成能力,实验表明现有模型在外观和流畅性上表现良好,但在生成符合物理机制的运动方面仍存在明显不足。
Comments Under Review
AI总结 本文研究了图像编辑中抽象意图的理解与评估问题,提出了一个基于原子实体分析的评估框架Entity-Rubrics,并构建了首个专注于抽象图像编辑的基准数据集AbstractEdit。该工作首次对抽象图像编辑进行了形式化定义与分类,通过分解编辑任务为实体级别的评估指标,实现了与人类判断的高相关性。实验表明,现有模型在抽象指令理解上存在显著挑战,而结合先进语言模型编码器和迭代推理机制可有效提升性能,为多模态交互的自然化提供了新方向。