Noise-Adaptive Regularization for Robust Multi-Label Remote Sensing Image Classification
针对鲁棒多标签遥感图像分类的噪声自适应正则化
发表机构 * Burgert et al.(Burgert 等)
AI总结 本文提出了一种噪声自适应正则化方法NAR,通过区分加性噪声和减性噪声,提升遥感多标签分类的鲁棒性,实验表明在不同噪声场景下均优于现有方法。
Comments Submitted to TGRS
针对鲁棒多标签遥感图像分类的噪声自适应正则化
发表机构 * Burgert et al.(Burgert 等)
AI总结 本文提出了一种噪声自适应正则化方法NAR,通过区分加性噪声和减性噪声,提升遥感多标签分类的鲁棒性,实验表明在不同噪声场景下均优于现有方法。
Comments Submitted to TGRS
二阶高斯方向导数表示法用于图像高分辨率角点检测
发表机构 * School of Electronic Information and Artificial Intelligence, Shaanxi University of Science and Technology(陕西科技大学电子信息与人工智能学院) ; CSIRO Data61
AI总结 本文提出了一种新的高分辨率角点检测方法,通过二阶高斯方向导数(SOGDD)滤波器对END型和L型高分辨率角点模型进行平滑处理,发现了高分辨率角点的多种特征,从而实现了对相邻角点的精确检测,实验结果表明该方法在定位误差、图像模糊变换鲁棒性、图像匹配和3D重建方面优于现有方法。
Comments 11pages, 9 figures
多模态用户界面/用户体验设计理解的基准测试:MLLMs能否捕捉界面如何引导用户行为?
发表机构 * Yonsei University(延世大学) ; Seoul National University(首尔国立大学) ; NC AI
AI总结 本文提出WiserUI-Bench基准测试,用于评估多模态UI/UX设计对用户行为的影响,通过300对真实世界UI图像对和专家解读,发现MLLMs在理解UI/UX设计行为影响方面存在局限。
Comments ACL 2026 Main. Our code and dataset: https://github.com/jeochris/wiserui-bench
HOLO:基于单应图的细粒度视觉定位网络用于标准定义(SD)地图的视觉定位
发表机构 * Beijing Institute of Technology(北京理工大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 本文提出了一种基于单应图的视觉定位网络,用于多视角图像与标准定义地图之间的细粒度视觉定位,通过构建满足单应约束的输入对,利用单应关系引导特征融合并限制姿态输出到有效区域,提高了训练效率和定位精度。
CangLing-KnowFlow: 一个统一的知识与流程融合代理用于综合遥感应用
发表机构 * State Key Laboratory of Remote Sensing and Digital Earth, Aerospace Information Research Institute, Chinese Academy of Sciences(遥感与数字地球国家重点实验室,航天信息研究所,中国科学院) ; Beijing Tiandi Shijie Technology Co., Ltd.(北京天帝世纪科技有限公司) ; Faculty of Science and Technology, Lancaster University(兰卡斯特大学科学与技术学院) ; Faculty of Electrical and Computer Engineering, University of Iceland(冰岛大学电气与计算机工程学院) ; Helmholtz-Zentrum Dresden-Rossendorf(德累斯顿-罗斯托克亥姆霍尔茨中心) ; School of Information and Communication Technology, Griffith University(格里菲斯大学信息与通信技术学院)
AI总结 本文提出CangLing-KnowFlow,一个融合知识与流程的统一智能代理框架,通过整合过程知识库、动态工作流调整和进化记忆模块,解决遥感数据处理中任务特定、缺乏统一框架的问题,并在KnowFlow-Bench基准测试中表现出色。
Blade:一种使用扩散先验的无导数贝叶斯反演方法
发表机构 * California Institute of Technology(加州理工学院) ; University of Toronto(多伦多大学) ; Peking University(北京大学)
AI总结 本文提出Blade方法,通过使用扩散模型作为数据驱动的先验,解决无导数贝叶斯反演中高维非线性问题的后验估计问题,实现了准确且校准良好的后验分布。
EVE: 一种生成策略的生成-验证系统
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Toyota Research Institute(丰田研究院) ; Symbotic Inc.(Symbotic公司)
AI总结 本文提出EVE系统,通过生成-验证框架在测试时提升预训练生成策略的性能,利用零样本视觉语言模型验证者进行动作优化,无需额外训练。
潜在隐式视觉推理
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Xero ; MIT-IBM Watson AI Lab(麻省理工-IBM Watson人工智能实验室)
AI总结 本文提出了一种任务无关的机制,训练大规模多模态模型(LMMs)在无需显式中间监督的情况下发现和使用潜在视觉推理标记,从而在多种视觉中心任务中优于直接监督微调,并在不使用辅助图像、边界框、图像裁剪、深度图或思维链注释的情况下,与或优于先前基于文本和显式视觉中间推理方法相媲美。
GraphFire-X: 基于物理信息图注意力网络和结构梯度提升的建筑尺度野火准备方法用于荒野-城市界面
发表机构 * Urban Reslience.AI Lab, Zachry Department of Civil and Environmental Engineering, Texas A&M University(Urban Reslience.AI实验室,Zachry土木与环境工程系,德克萨斯A&M大学) ; Department of Computer Science and Engineering, Texas A&M University(计算机科学与工程系,德克萨斯A&M大学)
AI总结 本研究提出GraphFire-X框架,结合物理信息图注意力网络和结构梯度提升,通过分离脆弱性为环境传染和结构脆弱两个向量,解决荒野-城市界面野火风险建模问题,揭示环境压力主导传播路径,而屋檐成为主要微尺度入侵向量,从而实现精准的灾害预防和缓解策略。
Journal ref Computer-Aided Civil and Infrastructure Engineering (2026): 100085
ABBEL: 为高效交互学习自然语言信念状态
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 本文提出ABBEL框架,通过显式自然语言信念状态直接监督每个摘要的信息内容,以解决传统方法在生成摘要时信息丢失或更新错误的问题,从而在保持高效内存使用的同时提升交互性能。
在大规模系统中实现可扩展的时间异常因果发现:通过二进制异常标志数据实现计算效率
发表机构 * Department of ICT, University of Agder(阿格德大学信息与通信技术系) ; The CMS Experiment, CERN(欧洲核子研究中心(CERN)CMS实验)
AI总结 本文提出了一种异常因果发现方法(AnomalyCD),旨在解决从时间二进制标志数据集生成图形因果模型(GCMs)的准确性和计算挑战,通过异常数据感知的因果测试、稀疏数据和先验链接压缩以及边修剪调整等策略,提高了计算效率和准确性。
Comments 26 pages, 17 figures, 8 tables, published version at EPJ-C: Computing, Software and Data Science
Journal ref Eur. Phys. J. C, 86, 585 (2026)
迈向基于谱表示的可扩展且有效的条件独立性检验
发表机构 * University of Cambridge(剑桥大学) ; University of Oxford(牛津大学) ; ETH Zürich(苏黎世联邦理工学院)
AI总结 本文提出了一种基于谱表示的学习方法,用于解决传统条件独立性检验在适应性和可扩展性方面的不足,通过构造简单的检验统计量和双层对比算法,建立了表示学习误差与检验性能之间的理论联系,并在实际和合成数据上验证了其有效性。
Comments Accepted at ICML 2026. Revised to match the accepted version; updated experiments and exposition
通过利用多模态链式推理解释可解释的动作形式评估
发表机构 * State Key Laboratory of Networking and Switching Technology(网络与交换技术国家重点实验室)
AI总结 本文提出了一种新的动作形式评估任务,并引入了一个包含大量健身和武术视频的多级标注数据集CoT-AFA,通过引入新的链式思维解释方法,提出了可解释性健身评估框架,以提升动作分析能力。
利用LLM生成IaC:错误分类法与配置知识注入研究
发表机构 * Jheronimus Academy of Data Science(Jheronimus数据科学学院) ; Tilburg University(蒂尔堡大学) ; Eindhoven University of Technology(埃因霍温理工大学) ; University of Sannio(萨诺尼大学)
AI总结 本研究探讨了如何通过系统性地注入结构化配置知识来提高LLM生成正确且意图一致的基础设施即代码(IaC)能力,特别是在Terraform中,提出了新的错误分类法,并评估了多种知识注入技术。
Comments Submitted to ACM
BrainExplore: 在人脑中大规模发现可解释的视觉表征
发表机构 * Weizmann Institute of Science(魏茨曼科学研究所) ; Massachusetts Institute of Technology(麻省理工学院)
AI总结 本文提出了一种大规模自动化框架,用于发现和解释人脑皮层中的视觉表征,通过无监督的数据驱动分解方法发现候选可解释模式,并通过识别最能激发这些模式的自然图像生成自然语言描述,从而揭示了数千种覆盖多种不同视觉概念的可解释模式,包括此前未报告的细粒度表征。
通过强化学习训练一个模型以掌握跨层级的代理行为
发表机构 * Peking University(北京大学) ; National University of Singapore(新加坡国立大学)
AI总结 本文提出CrossHA,一种统一的代理模型,能够掌握异构的动作空间并自主选择每一步轨迹中最有效的接口,通过结合冷启动监督微调和多轮组相对策略优化(GRPO)算法,实现适应性动作切换,在Minecraft开放世界中超过800个任务上展示了最先进的性能。
Comments Accepted to CVPR 2026 as a Highlight
摆脱验证者:通过示范学习推理
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 本文提出RARO方法,通过逆强化学习从专家示范中学习强大的推理能力,无需任务特定的验证者,从而在多个评估任务中实现了显著的性能提升。
主动视频感知:用于代理长视频理解的迭代证据寻求
发表机构 * Salesforce AI Research(Salesforce AI研究院) ; University of North Carolina at Chapel Hill(北卡罗来纳大学教堂山分校)
AI总结 本文提出了一种主动视频感知框架AVP,通过迭代计划-观察-反思过程,主动决定视频内容的观察目标和时间,以提高长视频理解的准确性和效率。
Comments Website: https://activevideoperception.github.io/
扩散语言模型的综述
发表机构 * VILA Lab, Mohamed bin Zayed University of Artificial Intelligence(维拉实验室,穆罕默德·本·扎耶德人工智能大学) ; Department of Automation, Tsinghua University(清华大学自动化系)
AI总结 本文综述了扩散语言模型的发展现状,探讨了其与自回归模型和掩码语言模型的关系,分析了预训练策略、后训练方法以及推理优化技术,并讨论了多模态扩展、应用场景、局限性及未来研究方向。
在多智能体系统中检测视角变化
发表机构 * Helivan, San Francisco, CA(San Francisco, CA 的 Helivan)
AI总结 本文提出了一种名为TDKPS的框架,用于检测多智能体系统中智能体和群体层面的行为变化,通过模拟和自然实验验证了其在检测真实外部事件变化方面的有效性。
掩码可能具有干扰性:关于扩散语言模型中的上下文理解
发表机构 * University of Cambridge(剑桥大学)
AI总结 本文研究了扩散语言模型中掩码对上下文理解的影响,发现掩码会干扰模型对相关信息的处理,提出一种掩码无关的损失函数以提高模型的鲁棒性。
Comments Published at the Forty-Third International Conference on Machine Learning (ICML 2026)
能否用Vibe编码击败研究生计算机科学学生?一个LLM与人类编码竞赛在市场驱动的战略规划中的表现
发表机构 * University of Southampton(苏塞克斯大学) ; University of Oxford and Alan Turing Institute(牛津大学和艾伦·图灵研究所)
AI总结 本文提出一个基于现实物流优化问题(拍卖、取件和送货问题)的多智能体推理驱动基准,该问题结合了竞争拍卖与容量受限路由。研究通过比较40个LLM编码代理与17个人类编码代理在12场双打全部比赛和约4万场比赛中的表现,揭示了人类编码代理在战略规划和优化任务中的优势,以及LLM在现实世界中生成有效代码的能力不足。
在安全对齐的连续视觉指令微调中实现和谐参数适应
发表机构 * Hefei University of Technology(合肥工业大学) ; Tsinghua University(清华大学) ; University of Amsterdam(阿姆斯特丹大学)
AI总结 本文研究了在安全对齐的连续视觉指令微调中如何平衡安全性和任务性能,提出了一种名为和谐参数适应(HPA)的后训练框架,通过参数分区、平衡选择和正交调整来缓解遗忘问题。
无需模型训练的误读检测与诊断:基于检索的方法
发表机构 * Hanoi National University of Education(河内教育大学)
AI总结 本文提出一种无需模型训练的误读检测与诊断方法,利用预训练的自动语音识别模型和检索技术,实现高准确率的发音错误检测与诊断,实验表明其在L2-ARCTIC数据集上达到69.60%的F1分数。
Journal ref ICASSP 2026 - 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
GenTract:生成式全局束追踪
发表机构 * Hawkes Institute and Department of Computer Science, University College London, UK(霍克斯研究所和计算机科学系,伦敦大学学院,英国) ; Department of Maths and Computer Science, University of Catania, Italy(数学和计算机科学系,卡塔尼亚大学,意大利) ; AI Centre and Department of Computer Science, University College London, UK(人工智能中心和计算机科学系,伦敦大学学院,英国)
AI总结 本文提出GenTract,一种基于生成模型的全局束追踪方法,通过学习从dMRI到完整解剖学合理束流的直接映射,提高了在低分辨率和噪声数据下的精度和可靠性。
Comments Upload of camera-ready
双视角嵌入融合:一种混合学习方法用于知识图谱节点分类,以解决数据有限的问题
发表机构 * Department of Mathematical and Computer Sciences, Physical Sciences and Earth Sciences, University of Messina(数学与计算机科学系、物理科学与地球科学系,墨西拿大学)
AI总结 本文提出了一种双视角嵌入融合方法,通过结合Node2Vec和GraphSAGE两种互补的图嵌入技术,提升知识图谱节点特征的 informative 内容,从而生成增强的图嵌入以改进GML模型,无需额外合成数据。
Comments Accepted at the 14th International Joint Conference on Knowledge Graphs (IJCKG) 2025
Journal ref Knowledge Graphs, Springer Nature Singapore, 2026, pp. 19-34
深度线性神经网络的梯度流方程:从网络角度的综述
发表机构 * Department of Electrical Engineering, Linköping University(电子工程系,林雪平大学)
AI总结 本文综述了深度线性神经网络梯度流方程的动力学和损失景观的最新进展,从网络角度探讨了梯度下降训练动态(步长趋近于0时的极限情况)以及二次损失函数下的研究问题,揭示了该方程类为收敛的矩阵微分方程,具有 nilpotent、多项式、isospectral 和守恒律等特性。
Comments Manuscript accepted for publication in SIAM Review (SIREV)
Journal ref SIAM Review 68 (2026) 293-345
选择性Sinkhorn路由以提高稀疏专家混合模型
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; National University of Singapore(新加坡国立大学)
AI总结 本文提出了一种选择性Sinkhorn路由方法,通过将token到专家的分配问题转化为最优传输问题,并引入约束以确保专家利用率均衡,从而在不依赖辅助平衡损失的情况下提升稀疏专家混合模型的性能。
Comments 12 pages, 5 figures
wa-hls4ml: 一个用于hls4ml资源和延迟估计的基准及替代模型
发表机构 * Fermi National Accelerator Laboratory(费米国家加速器实验室) ; University of California San Diego(加州大学圣地亚哥分校) ; Johns Hopkins University(约翰霍普金斯大学) ; University of Sherbrooke(Sherbrooke大学) ; Columbia University(哥伦比亚大学) ; Texas A&M University(德克萨斯A&M大学) ; European Organization for Nuclear Research (CERN)(欧洲核子研究中心(CERN))
AI总结 本文提出了一个用于评估ML加速器资源和延迟的基准wa-hls4ml,并介绍了基于图神经网络和Transformer的替代模型,用于预测ML加速器的延迟和资源使用情况。
Comments 30 pages, 18 figures
Journal ref Wa-hls4ml: A Benchmark and Surrogate Models for hls4ml Resource and Latency Estimation. ACM Trans. Reconfigurable Technol. Syst. 19, 2, Article 20 (June 2026), 29 pages
逆熵最优运输通过数据似然最大化解决半监督学习
发表机构 * Institute for Advanced Study(高级研究院) ; National Research Council Canada(加拿大国家研究理事会) ; University of Toronto(多伦多大学) ; St. Petersburg State University(圣彼得格勒国立大学) ; Skolkovo Institute of Science and Technology(斯克罗夫诺技术研究所) ; Kazan Federal University(卡兹兰卡联邦大学)
AI总结 本文提出了一种名为EBiEOT的新学习范式,通过数据似然最大化技术无缝整合配对和非配对数据,解决了半监督学习中的数据获取难题,并证明了该方法在理论上能够以任意小的误差恢复真实条件分布。