Holistic Reliability Propagation: Decoupling Annotation and Prediction for Robust Noisy-Label
整体可靠性传播:解耦标注与预测以实现鲁棒的噪声标签
AI总结 本文提出了一种整体可靠性传播方法,通过解耦标注和预测来提高在噪声标签下的鲁棒性,该方法通过双层元学习生成两个批次标准化标量,分别用于给定标签和伪标签,并在不同目标上路由这些可靠性,从而在合成和现实基准上提升了平均准确率。
整体可靠性传播:解耦标注与预测以实现鲁棒的噪声标签
AI总结 本文提出了一种整体可靠性传播方法,通过解耦标注和预测来提高在噪声标签下的鲁棒性,该方法通过双层元学习生成两个批次标准化标量,分别用于给定标签和伪标签,并在不同目标上路由这些可靠性,从而在合成和现实基准上提升了平均准确率。
在资源受限的Android蜂窝中实现内存高效的分区DNN推理
AI总结 本文提出了一种在资源受限的Android设备上实现高效DNN推理的方法,通过五个机制将内存压力分散到多个设备上,从而在不修改模型的情况下实现ONNX推理,显著降低了电池消耗和延迟。
Comments 6 pages, 3 figures, 4 tables. Accepted at the ICML 2026 Workshop on Machine Learning for the Global South
AGPO: 基于双统计反馈的自适应群体策略优化
AI总结 本文提出AGPO,一种无 critic 的 GRPO 改进方法,通过群体层面的统计信息控制更新幅度和探索。在九个英语和中文数学/STEM 基准上,Qwen2.5-14B 在相同生成 token 预算下优于 PPO/GRPO,达到 GSM8K 67.3% 和 MATH 40.5%。
从噪声隐式反馈中鲁棒推荐:一种加权贝叶斯标签转移矩阵框架
AI总结 本文提出了一种鲁棒的高斯混合模型加权贝叶斯标签转移矩阵框架(RGBT),通过利用高斯混合模型生成实例特定的可靠性评分,系统校准贝叶斯标签转移矩阵估计以减少偏差,从而在保证全样本利用的同时,实现一致的估计和显著的估计方差减少。
SAVER:选择性所需视觉证据用于多模态信息提取
AI总结 该研究提出SAVER框架,通过选择性视觉证据提升多模态命名实体识别和关系抽取的性能,减少计算开销并提高准确性。
SCRIBE:用于印度语言ASR的诊断评估和丰富转录模型
AI总结 SCRIBE通过沙地容忍对齐和领域词汇注入,提供词错误率的分类分解,解决了传统词错误率在处理聚合语言时的不足,同时释放了用于印地语、马拉雅尔语和卡纳达语的丰富转录模型。
Comments Submitted to Interspeech 2026
重新思考扩散变换器中的跨层信息路由
AI总结 本文研究了扩散变换器中跨层信息流动的问题,通过系统性的实证分析,识别了传统残差加法的三个具体症状,并提出了扩散适应性路由(DAR)方法,以实现可学习、时间步适应和非递增的子层输出聚合,从而提升模型性能。
分布式直接偏好优化
AI总结 本文研究了在分布式环境中直接偏好优化(DPO)的收敛性和时间复杂度,分析了联邦学习和去中心化学习中偏好数据碎片化对优化动态的影响,并提出了具有理论保证的鲁棒且可扩展的实现实现方法。
Comments 29 pages, 12 figures
通过共识和标签解缠获得可解释的判别文本表示
AI总结 本文提出了一种可解释的判别文本表示方法,通过共识和标签解缠来确保特征的可解释性和可重复性,实验表明该方法在多个文本分类任务中表现优异,产生了更清晰且更少标签纠缠的特征。
DIVE: 通过自限制梯度更新实现嵌入压缩
AI总结 本文提出DIVE方法,通过自限制的三元组损失和头级NT-Xent对比损失解决嵌入压缩中因标注数据稀缺导致的过拟合问题,提升了检索性能。
超越语义相似性:一种用于企业信贷审批的双阶段非参数检索流程
AI总结 本文提出了一种双阶段非参数检索架构,旨在解决信贷审批中检索结果与决策有用性之间的差距问题,通过结合词法和密集多语言检索构建候选池,并利用LLM作为判断机制对文档进行实用性评分,从而提高检索效率和实用性。
IndusAgent: 通过智能工具增强开放词汇工业异常检测
AI总结 本文提出IndusAgent框架,通过整合视觉观测、高分辨率局部片段和专家正常性先验,提升开放词汇工业异常检测的零样本性能,验证了方法的鲁棒性和泛化能力。
DarkShake-DVS: 低光和摇晃条件下基于事件的行人动作识别
AI总结 本文提出了一种结合事件相机和惯性测量单元的EIS-HAR方法,通过非线性变形模块减少运动模糊并提取时空特征,同时引入DarkShake-DVS基准数据集,用于低光和6自由度运动条件下的行人动作识别研究。
Comments 8pages,7 figures
动态TMoE:一种针对非平稳时间序列预测的漂移感知动态专家混合框架
AI总结 本文提出Dynamic TMoE框架,通过动态构建异构专家和剪枝冗余专家来优化容量,并利用时间记忆路由器确保稳定且上下文感知的专家选择,从而在非平稳时间序列预测中实现更优性能。
Comments 27 pages, 7 figures. Accepted to ICML 2026
VISTAQA: 评估联合视觉问答与像素级证据
AI总结 本文提出VISTAQA基准,用于评估视觉问答中自由回答的正确性和像素级证据的定位,通过引入GROVE指标,强调回答正确性与视觉证据对齐的重要性,实验显示现有系统在该指标下表现有限,揭示了回答准确性和视觉证据对齐之间的显著差距。
无需微调的模块化多模态分类:一种简单的组合方法
AI总结 本文提出CoMET,一种无需微调的多模态分类方法,通过冻结预训练的backbone对每个模态进行处理,使用PCA压缩嵌入并输入到表格基础模型中进行预测,展示了PCA作为适配器在不同模态上的强大鲁棒性能,并提出了PALPooling来提升表示质量,实现了无需训练的多模态学习最佳结果。
Comments 30 pages, 17 figures
GSA-YOLO: 一种通过结构稀疏性和自适应知识蒸馏实现高效率的实时X射线安全检查框架
AI总结 本文提出GSA-YOLO框架,通过结构稀疏性和自适应知识蒸馏提升实时X射线安全检查的检测鲁棒性和推理效率,实现了高精度和高效率的平衡。
Comments 41 pages, 8 figures, submitted to Scientific Reports
人工智能审稿人的局限与机遇:对Nature系列论文审稿的45位专家科学家的审查
AI总结 本文通过大规模专家标注研究,探讨了AI审稿人在科学同行评审中的能力与局限,发现AI审稿在准确性、显著性和证据充分性方面表现优异,但存在领域知识有限、上下文管理不足等弱点,表明AI审稿是人类审稿的补充而非替代。
Comments Work in progress
LER-YOLO: 一种可靠性感知的专家路由方法用于对齐不准确的RGB-红外无人机检测
AI总结 该研究提出LER-YOLO,一种可靠性感知的稀疏专家混合方法,用于解决RGB-红外遥感对中无人机检测的挑战,通过引入不确定性感知的目标对齐模块和可靠性引导的稀疏MoE融合模块,提升跨模态交互的可靠性。
Comments 17 pages, 6 figures, 8 tables
一种语义和遮挡感知的GM-PHD滤波器
AI总结 本文提出了一种包含从深度学习中提取的语义信息的新出生模型,以创建一种遮挡感知的高斯混合概率假说密度(GM-PHD)滤波器。与以往依赖简单或统一假设的方法不同,所提出的语义-遮挡感知(S-OA)出生模型通过显式考虑遮挡区域并利用环境的语义信息来定义初始化项。这使滤波器能够准确表示新物体更可能出现的位置,从而在复杂和高密度的驾驶场景中提高跟踪性能。该方法通过蒙特卡洛模拟和KITTI数据集的实验进行评估。性能通过测量首次检测与跟踪初始化之间的延迟、平均绝对数量误差以及最优子模式分配(OSPA)度量来评估。结果表明,S-OA出生模型在遮挡密集的环境中减少了初始化延迟,在约70%的情况下匹配或优于最强基线。还提供了出生模型权重的敏感性分析。总体而言,研究结果强调了在自动驾驶中将遮挡推理和语义先验整合到贝叶斯跟踪框架中的优势。
Comments Accepted at ICRA 2026
RoPeSLR: 3D RoPE驱动的稀疏低秩注意力用于高效的扩散变换器
AI总结 本研究提出RoPeSLR,一种基于3D RoPE的稀疏低秩注意力框架,旨在解决扩散变换器中长序列生成的高复杂度问题,通过结合高频率语义尖峰集和极低秩背景连续体,实现子二次稀疏性和子线性秩增长,从而在超长视频推理中表现出色。
凝视细节:用于OCTA视网膜血管分割的局部敏感增强
AI总结 本文提出LSENet,通过引入三个创新模块解决OCTA血管分割中局部对比度低导致的断续和细节丢失问题,实验表明其在多个公开数据集上达到最佳性能且参数更少。
联合学习谓词和动作使零样本技能组合成为可能
AI总结 本文提出了一种联合学习谓词和动作的技能方法,通过闭合回路的视觉-运动策略,使机器人能够在不重新训练的情况下实现零样本技能组合。
穿透雾气:迈向雾不变的动作识别
AI总结 本文提出FogAct基准数据集和FogNet模型,旨在解决雾天环境下动作识别中的挑战,通过改进的两流CLIP模型提取雾不变的语义信息,提升在雾天条件下的动作识别性能。
制造设计:一种集成制造知识的强化学习框架用于航空发动机自由形管道路由
AI总结 本文提出了一种集成制造知识的强化学习框架,用于航空发动机中自由形管道路由优化,通过将制造知识作为约束条件,提高了管道路径的可制造性和几何平滑度。
AVSD:通过平衡共识和教师特定的特权信号实现自适应视图自蒸馏
AI总结 本文提出AVSD,一种通过平衡共识和教师特定的特权信号来实现自适应视图自蒸馏的方法,以解决自蒸馏中教师和学生信息不对称和特权信息选择的问题。
Comments Code: https://github.com/duykhuongnguyen/AVSD
相同目标,不同盆地:标注者分布中的硬标签与软标签
AI总结 本文研究了在标注者分布中硬标签与软标签的区别,发现当每个示例的标注数量较少时,硬标签方法在性能上优于软标签训练,尤其是在稀疏经验目标远离完整标注者分布时效果更佳。
Comments 14 pages, 12 figures. Accepted to the 2nd Workshop on Epistemic Intelligence in Machine Learning (EIML @ ICML 2026)
帕累托优化的肖像生成:用于对齐、真实性和美学的视觉对齐文本监督
AI总结 本文提出了一种多模态扩散变换器(MM-DiT)的特征监督方法,通过引入轻量级的跨模态对齐机制,隐式提取多粒度的视觉对齐文本表示,以提升文本-图像对齐、真实性和美学质量,从而在Pareto前沿上实现协同改进。
评估代理计划-执行管道中的时间语义缓存和工作流优化
AI总结 本文研究了在代理计划-执行管道中时间语义缓存和工作流优化的问题,提出两种互补的优化层以提高效率,并展示了其在工业资产操作工作流中的应用效果。
Comments 13 pages, 8 figures, 3 appendices
基于检索的长上下文翻译用于文化图像描述:佛罗里达大学Gators参加2026年美洲自然语言处理共享任务的提交
AI总结 本文提出了一种基于检索的长上下文翻译方法,用于文化图像描述,通过两阶段流程生成西班牙语中间描述,再利用检索增强的多示例提示生成目标语言描述,显著提升了Bribri、Guaraní和Orizaba Nahuatl语言的描述生成性能,并在共享任务中获得冠军。