Leveraging Unsupervised Learning for Cost-Effective Visual Anomaly Detection
利用无监督学习实现高效视觉异常检测
发表机构 * Department of Engineering, University of Cambridge(剑桥大学工程系)
AI总结 本研究提出一种低成本视觉异常检测系统,通过预训练模型和低成本硬件,利用少量数据实现高准确率的异常检测,适用于中小型企业。
利用无监督学习实现高效视觉异常检测
发表机构 * Department of Engineering, University of Cambridge(剑桥大学工程系)
AI总结 本研究提出一种低成本视觉异常检测系统,通过预训练模型和低成本硬件,利用少量数据实现高准确率的异常检测,适用于中小型企业。
急切模式下的捆绑调整
发表机构 * Spatial AI & Robotics (SAIR) Lab, University at Buffalo(空间人工智能与机器人实验室,布法罗大学) ; Georgia Institute of Technology(佐治亚理工学院) ; Purdue University(普渡大学) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 本文提出了一种与PyTorch无缝集成的高效急切模式捆绑调整库,通过稀疏感知的自动微分设计和GPU加速的稀疏运算,提升了在机器人应用中捆绑调整的运行效率和性能。
DyDiff: 通过动力学扩散实现离线强化学习中的长周期 rollout
发表机构 * School of Computer Science, Shanghai Jiao Tong University, Shanghai 200240, China(上海交通大学计算机科学学院) ; Department of Computer Science, Nanjing University, Nanjing 210093, China(南京大学计算机科学系)
AI总结 本文提出DyDiff,一种通过动力学扩散模型实现离线强化学习中长周期轨迹生成的方法,通过迭代注入学习策略信息,解决行为策略与学习策略不一致的问题,提升长周期rollout的准确性。
Comments 18 pages, 10 figures, 9 tables. The article has been accepted by Frontiers of Computer Science (FCS), with the DOI: {10.1007/s11704-026-52028-5}
虚拟弹性缆绳:一种多智能体在受限水下环境中的导航新方法
发表机构 * Manchester Centre for Robotics and AI, Department of Electrical and Electronic Engineering, University of Manchester(曼彻斯特机器人与人工智能中心,电气与电子工程系,曼彻斯特大学)
AI总结 本文提出了一种虚拟弹性缆绳(VET)方法,用于解决水下环境中多智能体导航的挑战,通过在不完全状态测量条件下实现更稳定的导航性能。
Comments This work has been submitted to the Wiley for possible publication
利用基本特征的深度知识蒸馏进行复杂面部表情识别
发表机构 * School of Information Technology, Deakin University(德克萨斯大学信息学院)
AI总结 本文提出了一种基于持续学习的方法,通过知识蒸馏和新颖的预测排序记忆重放,实现了复杂面部表情识别的最新状态,能够在少量样本下准确识别新复合表情类别。
Comments 13 pages, 9 figures, 6 tables, 3 algorithms. Code available at https://github.com/AngusMaiden/complex-FER
多类流队列网络的最优控制:一种机器学习方法
发表机构 * Sloan School of Management, Massachusetts Institute of Technology(麻省理工学院斯隆管理学院) ; Operations Research Center, Massachusetts Institute of Technology(麻省理工学院运筹学中心)
AI总结 本文提出了一种机器学习方法,用于多类流队列网络(MFQNETs)的最优控制,通过显式且有洞察力的控制策略,证明了存在分段常数最优策略,并通过OCT-H算法学习最优控制策略,实验表明在大规模网络中,该方法在测试集上达到100%的准确率。
ReBaR:基于参考的鲁棒单目图像姿态估计
发表机构 * College of Information Engineering Northwest A\&F University(西北农林科技大学信息工程学院) ; University of Technology Sydney(悉尼技术大学) ; Tencent AI Lab(腾讯人工智能实验室) ; City University of Hong Kong(香港城市大学)
AI总结 本文提出ReBaR方法,通过学习参考特征来解决遮挡和深度模糊问题,实现从单目图像中鲁棒的人体姿态和形状估计。
Comments Accepted by Pattern Recognition
具有人类样记忆系统的机器
发表机构 * Vrije Universiteit Amsterdam(荷兰瓦赫宁根大学) ; Technische Universiteit Delft(代尔夫特理工大学)
AI总结 本文提出了一种同时具备语义记忆和事件记忆的智能体,证明双记忆系统优于单一记忆系统,并通过自研环境
Comments Submitted to Human-Centered Design of Symbiotic Hybrid Intelligence 2022 (https://ii.tudelft.nl/humancenteredsymbioticHI/)
RadGenome-Anatomy: 通过物理基础的体积分量生成大规模解剖标注胸部X光图像数据集
发表机构 * The University of Sydney(悉尼大学) ; Zhongguancun Academy(中关村学院) ; Shanghai Jiao Tong University(上海交通大学) ; Macquarie University(麦考瑞大学)
AI总结 本文提出RadGenome-Anatomy数据集,通过物理基础的体积分量生成技术,生成包含超过1000万段分割掩码的大型解剖标注胸部X光图像数据集,用于改进医学图像分割和诊断任务。
弥合数据试验与任务障碍:面向草图生物识别的统一框架
发表机构 * IEEE
AI总结 本文提出了一种统一框架,用于解决草图生物识别中的跨模态和跨任务挑战,通过高效的合成草图生成和任务序列持续学习,提升模型的鲁棒性和泛化能力。
Comments The source code and models are publicly available at https://github.com/sHanbIgsUn/UFSB
基于记忆的查询意图理解用于高效的基于聊天的图像检索
发表机构 * School of Computer Science and Technology, and the School of Statistics and Mathematics, Zhejiang Gongshang University(计算机科学与技术学院,和统计与数学学院,浙江工商大学) ; School of Computer Science and Technology, Zhejiang Gongshang University, and the Zhejiang Key Laboratory of Big Data and Future E-Commerce Technology(计算机科学与技术学院,浙江工商大学,和大数据与未来电子商务技术浙江省重点实验室) ; Wangxuan Institute of Computer Technology, Peking University(王璇计算机技术研究所,北京大学) ; School of Information and Electronic Engineering, Zhejiang Gongshang University(信息与电子工程学院,浙江工商大学) ; School of Computer Science and Technology, East China Normal University(计算机科学与技术学院,华东师范大学) ; Key Laboratory of Intelligent Information Processing of Chinese Academy of Sciences , Institute of Computing Technology, CAS(中国科学院智能信息处理重点实验室,计算技术研究所,中国科学院) ; School of Information Science and Technology, University of Science and Technology of China(信息科学与技术学院,中国科学技术大学)
AI总结 本文提出了一种高效的基于聊天的图像检索任务中的记忆增强查询意图理解框架MAQIU,通过动态聚合和演化查询意图的语义表示,防止意图遗忘并增强长期语义完整性,从而在保持高计算效率的同时实现显著的性能提升。
NewsLens: 一个用于对抗性新闻偏见导航的多智能体框架
发表机构 * Independent Researcher(独立研究者)
AI总结 本文提出NewsLens多智能体框架,通过五个智能体协作解构新闻文章,揭示意识形态缺失、修辞操纵和框架边界,利用Qwen2.5-3B-Instruct和Mistral 7B模型进行评估,展示了系统在不同政治事件簇中的表现。
Comments 17 pages, 2 figures, 7 tables, 1 appendix
通过图策略优化学习稀疏矩阵的填充填充排序
发表机构 * Institute of Software, Chinese Academy of Sciences(中国科学院软件研究所) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 本文提出了一种图策略优化方法,通过全局和局部视角建模填充,以减少稀疏矩阵求解器中的填充和内存使用,实验表明该方法在SuiteSparse矩阵集合上实现了显著的改进。
Comments Accepted by ICASSP 2026
MasFACT:基于几何感知后验转移的连续多智能体拓扑学习
发表机构 * Beihang University(北京航空航天大学)
AI总结 本文提出MasFACT框架,通过几何感知后验转移方法,解决多智能体系统中因新任务适应导致的拓扑遗忘问题,提升连续学习任务的准确性和拓扑稳定性。
Omni-DuplexEval: 评估实时双工全模交互
发表机构 * Tsinghua University(清华大学) ; Tongji University(同济大学) ; ModelBest Inc.(ModelBest公司)
AI总结 本文提出Omni-DuplexEval基准,用于系统评估实时双工交互能力,通过两个互补场景评估模型生成连续响应和主动提醒的能力,并揭示现有模型在平衡响应及时性和内容连贯性方面的局限性。
Comments 22 pages, 6 figures
学习跨领域的多智能体LLM协作可转移拓扑先验
发表机构 * Hefei University of Technology(合肥工业大学) ; China University of Petroleum (Beijing)(中国石油大学(北京)) ; East China Normal University(东华大学) ; Alibaba Group(阿里巴巴集团)
AI总结 本文提出TopoPrior框架,通过学习可转移的拓扑先验来提升多智能体LLM在跨领域协作中的效率,减少在线搜索开销并提高可扩展性。
HyperPersona: 一种多级超图框架用于基于文本的自动人格预测
发表机构 * Department of Computer Science and Information Technology(计算机科学与信息技术系) ; Institude for Advanced Studies in Basic Sciences (IASBS)(基础科学高级研究 institute (IASBS))
AI总结 本文提出HyperPersona框架,通过超图结构显式建模文本的层次结构,利用基于Transformer的图编码器学习不同语言层之间的交互,从而在不依赖传统心理测量法的情况下,实现更准确的人格预测。
Comments Preprint. Submitted to Artificial Intelligence (Elsevier)
GeoHand: 解锁先验几何知识以实现单目3D手形 reconstruction
发表机构 * School of Artificial Intelligence, Xidian University(西安电子科技大学人工智能学院) ; Zhongguancun Academy(中关村学院) ; School of Automation, Beijing Institute of Technology(北京理工大学自动化学院)
AI总结 本文提出GeoHand框架,通过解锁冻结的基础单目几何估计器MoGe2中的高质量几何先验,结合地图级GeoAdapter和门控跨模态token融合策略,实现高精度手形重建,尤其在严重遮挡和手-物体交互场景中表现优异。
AMATA: 适应性多智能体轨迹对齐用于知识密集型问答
发表机构 * School of Computer Science and Information Engineering, Hefei University of Technology(合肥工业大学计算机科学与信息工程学院) ; Shanghai University of Electric Power(上海电力大学) ; East China Normal University(华东师范大学) ; Guangdong University of Finance and Economics(广东财经大学) ; Alibaba Group(阿里巴巴集团)
AI总结 本研究提出AMATA框架,通过动态整合外部知识提高知识密集型问答的响应可解释性和事实准确性,采用六个专门化智能体协作执行复杂问题推理,并引入两种创新:轨迹内偏好学习和智能体间依赖学习。
驯服“僵尸”代理:一种面向鲁棒多代理演化的马尔可夫状态感知框架
发表机构 * School of Computer Science and Information Engineering, Hefei University of Technology(合肥工业大学计算机科学与信息工程学院) ; Guangdong University of Finance and Economics(广东财经大学) ; Alibaba Group(阿里巴巴集团) ; East China Normal University(华东师范大学)
AI总结 本文提出AgentRevive框架,通过动态管理代理协作和状态感知边优化,有效解决多代理系统中因临时问题导致有价值代理被提前丢弃的问题,提升了系统鲁棒性和效率。
VoxShield: 通过频率感知的跨切片扰动保护3D医学数据集免受未经授权的训练
发表机构 * Westlake University(西拉雅大学) ; Dalian University of Technology(大连理工大学) ; Hokkaido University(北海道大学) ; The Chinese University of Hong Kong(香港中文大学) ; RIKEN(理化学研究所)
AI总结 本文提出VoxShield,一种通过频率感知的跨切片扰动机制,针对3D医学图像分割数据集中的体积诱导偏差,有效降低3D分割网络性能,同时保持视觉质量。
Comments Submitted version to MICCAI 2026 (Provisional Accept)
GraphMAR: 一种基于几何的图学习框架用于空间自适应的CT金属伪影减少
发表机构 * Shanghai Key Lab of Intelligent Information Processing, College of Computer Science and Artificial Intelligence, Fudan University(上海智能信息处理关键实验室,计算机科学与人工智能学院,复旦大学) ; Institute of Science and Technology for Brain-inspired Intelligence, Fudan University(脑启发式智能科学技术研究院,复旦大学) ; College of Computer Science and Technology, Qingdao University(计算机科学与技术学院,青岛大学) ; Department of Oral Maxillofacial Head and Neck Oncology, Shanghai Ninth People’s Hospital, Shanghai Jiao Tong University School of Medicine(口腔颌面头颈肿瘤科,上海第九人民医院,上海交通大学医学院) ; School of Cyber Science and Engineering, Sichuan University(网络科学与工程学院,四川大学)
AI总结 本文提出GraphMAR,一种基于几何的图学习框架,用于在图像域中实现空间自适应的CT金属伪影减少,通过引入图基的几何建模来显式识别伪影并提高恢复质量和可解释性。
传递性与循环性:动态大语言模型对齐的显式偏好分解
发表机构 * Harbin Institute of Technology, Shenzhen, China(哈尔滨工业大学深圳校区)
AI总结 本文提出Hybrid Reward-Cyclic模型,通过博弈论分解显式分离传递性和循环性偏好,结合动态自我博弈优化方法提升大语言模型对齐效果,实验证明其在混合传递-循环设置中具有结构优势和更高的准确率。
Comments Accepted by ICML 2026
通过跨模态语义对齐实现面向视觉-语言模型的单样本黑盒成员推断攻击
发表机构 * Wuhan University(武汉大学) ; Tarim University(塔里木大学)
AI总结 本文提出了一种基于跨模态语义对齐的新型成员推断攻击框架,针对视觉-语言模型在单样本和黑盒场景下的数据安全风险进行评估,通过量化联合嵌入空间中的对齐程度,显著提升了攻击性能。
弥合稀疏矩阵重排与分解之间的差距:一种用于填充减少的深度学习框架
发表机构 * Institute of Software, Chinese Academy of Sciences, Beijing, China(中国科学院软件研究所,北京,中国) ; University of Chinese Academy of Sciences, Beijing, China(中国科学院大学,北京,中国)
AI总结 本文提出一种深度学习框架,通过谱嵌入最小化填充代理函数,弥合稀疏矩阵重排与分解之间的差距,实验表明其性能优于传统图论算法和深度学习方法。
Comments Accepted by DASFAA 2025
基于触觉的多模态融合在具身智能中的应用:视觉、语言和接触驱动范式的综述
发表机构 * School of Electronic Science and Engineering, Xi’an Jiaotong University, China(西安交通大学电子科学与技术学院) ; Thrust of Artificial Intelligence, The Hong Kong University of Science and Technology (Guangzhou), China(香港科技大学(广州)人工智能研究所) ; State Key Laboratory for Novel Software Technology, Nanjing University, China(南京大学新型软件技术国家重点实验室) ; Purple Mountain Laboratory, China(紫金山实验室) ; Institute for Math & AI, Wuhan University, China(武汉大学数学与人工智能学院) ; Centre for AI and Data Science Innovation and the School of Science and Engineering, James Cook University, Australia(詹姆斯库克大学人工智能与数据科学创新中心及科学与工程学院) ; School of Artificial Intelligence, Beijing University of Posts and Telecommunications, China(北京邮电大学人工智能学院) ; Institute of Big Data, Fudan University, China(复旦大学大数据研究院) ; Linkerbot (Beijing) Technology Co., Ltd, China(北京链动科技有限公司) ; School of Engineering, Swinburne University of Technology, Melbourne(斯威本技术大学工程学院)
AI总结 本文综述了多模态触觉融合在具身智能中的研究,探讨了如何通过整合视觉、语言和触觉信息来提升物理交互与语义推理的结合,提出了一种分层的分类体系,并总结了当前的研究挑战和未来方向。
Comments 20 pages, 8 figures
为单目视觉-惯性系统使用前馈3D模型实现高效的特征-free初始化
发表机构 * MBZUAI(马克斯·普朗克人工智能研究所) ; HKUST (GZ)(香港科技大学(广州)) ; Zhejiang University(浙江大学)
AI总结 本文提出了一种无需视觉特征跟踪的初始化框架,利用前馈3D模型预测的点云,从而提高了单目视觉-惯性导航系统的初始化可靠性与效率,实验表明其初始化成功率超过90%且数据需求显著减少。
从不完整时空数据中学习高阶结构:具有神经细化的多尺度超图拉普拉斯算子
发表机构 * Texas A&M University(德克萨斯大学A&M分校) ; University of Wisconsin-Madison(威斯康星大学麦迪逊分校)
AI总结 本文提出了一种多尺度超图拉普拉斯(MSHL)框架,通过两阶段方法从不完整时空观测中学习高阶结构。该方法通过发现阶段构建多尺度超图,并在细化阶段引入条件残差网络,以处理高阶关系中的残差特征,从而在交通网络中实现了更准确的缺失数据填补。
通过不匹配的错误草稿实现弱到强的引导
发表机构 * Independent Researcher(独立研究者)
AI总结 本文研究了通过较小较弱模型的不匹配错误草稿引导更强学习者的能力,发现这种策略在MATH-500和AIME 2025/2026等任务上表现优异,主要贡献是提出了一种有效的训练方法。
VISTA: 基于扩散变换器的三元组监督视频风格迁移
发表机构 * Show Lab, National University of Singapore(新加坡国立大学Show实验室) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Lovart AI(Lovart人工智能)
AI总结 本文提出VISTA方法,通过引入大规模三元组数据和基于扩散变换器的框架,解决视频风格迁移中风格、内容和运动的联合建模与解耦问题,实现了高质量的风格迁移效果。