Multimodal Concept Bottleneck Models
多模态概念瓶颈模型
发表机构 * UC San Diego(加州大学圣地亚哥分校)
AI总结 提出多模态概念瓶颈模型(MM-CBM),利用双概念瓶颈层对齐图像和文本嵌入,实现可解释的零样本分类和图像检索,在四个基准上平均准确率提升高达51.26%。
Comments Present at NeurIPS 2025 Mechanistic Interpretability Workshop
多模态概念瓶颈模型
发表机构 * UC San Diego(加州大学圣地亚哥分校)
AI总结 提出多模态概念瓶颈模型(MM-CBM),利用双概念瓶颈层对齐图像和文本嵌入,实现可解释的零样本分类和图像检索,在四个基准上平均准确率提升高达51.26%。
Comments Present at NeurIPS 2025 Mechanistic Interpretability Workshop
REDACT:一个系统控制的个人信息检测多语言基准
发表机构 * ServiceNow
AI总结 提出REDACT基准,包含13,427条记录、51种实体类型、25种语言,通过强度-2覆盖阵列采样控制9个生成轴,并引入实体级元数据(披露状态、形式、GDPR敏感层级)以支持分层评估,揭示检测器在敏感数据上的架构依赖性失败模式。
Comments 14 pages, 5 figures
MMD-SLAM:结构增强的多元高斯分布引导视觉SLAM
发表机构 * HFIPS, Chinese Academy of Sciences(中国科学院合肥物质科学研究院) ; University of Science and Technology of China(中国科学技术大学) ; Aarhus University(奥胡斯大学) ; University of Tokyo(东京大学) ; Beijing University of Chemical Technology(北京化工大学) ; North China Electric Power University(华北电力大学)
AI总结 提出MMD-SLAM,利用亚特兰大世界假设引导多元高斯表示,通过点线融合、主导方向编码和高斯进化策略,提升视觉SLAM的跟踪精度与建图质量。
Comments ICRA 2026
PSCT-Net: 通过可微反投影和注意力引导细化实现几何感知的儿科颅骨CT重建
发表机构 * Interdisciplinary Program in Bioengineering, Seoul National University(首尔大学生物工程跨学科项目) ; Department of Transdisciplinary Medicine, Seoul National University Hospital(首尔大学医院跨学科医学系) ; Department of Artificial Intelligence, Yonsei University(延世大学人工智能系) ; Department of Medicine, Seoul National University College of Medicine(首尔大学医学院医学系) ; Healthcare AI Research Institute, Seoul National University Hospital(首尔大学医院医疗人工智能研究所)
AI总结 提出PSCT-Net,利用可微反投影建立空间先验,结合注意力引导投影和双向Mamba模块,从稀疏双平面X射线重建3D CT,缓解深度模糊并改善骨边界。
Comments 11pages, 5 figures
具有特征选择和交互的神经加性模型与神经基础模型
发表机构 * Yokohama National University(横滨国立大学)
AI总结 提出在神经加性模型和神经基础模型中引入特征选择机制,通过特征选择层减少计算开销,并支持高维数据中的特征交互学习,性能优于或持平于现有GAM方法。
Comments Accepted at PAKDD 2024. Code is available at https://github.com/shiralab/NAM-FS
ViCoStream: 流式视频大模型通过阶段协调推理可运行超过100 FPS
发表机构 * Southeast University(东南大学) ; Eastern Institute of Technology, Ningbo(宁波东方理工大学) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 提出ViCoStream框架,通过阶段协调的流水线(分块执行、CUDA流重叠、视觉令牌控制、有界视觉注意力、查询端检索)实现流式视频大模型的高吞吐低延迟推理,在单A100上达到134 FPS视频吞吐和<50 ms首令牌延迟,精度接近全历史基线。
Comments 19 pages, 7 figures, 13 tables
AtomMem: 通过原子事实构建简单有效的LLM智能体记忆系统
发表机构 * State Key Laboratory of Cognitive Intelligence, University of Science and Technology of China(中国科学技术大学认知智能国家重点实验室) ; Anhui University(安徽大学)
AI总结 针对现有记忆系统存储粗粒度、更新不稳定的问题,提出AtomMem,通过事实执行器提取高价值原子事实作为高效记忆表示,并组织为层次化事件结构和时间档案,实现价值密集存储和稳定演化,在LoCoMo基准上取得最优性能。
Comments 19 pages, 10 figures, 5 tables
OTCHA: 基于最优传输的置信度感知潜在中心对齐用于多视图医学图像分类
发表机构 * Hanyang University(汉阳大学) ; Hankuk University of Foreign Studies(韩国外国语大学)
AI总结 提出OTCHA模块,通过最优传输对齐多视图补丁令牌与共享潜在中心令牌,结合置信度门控和部分匹配,消除无关特征,提升多视图医学图像分类鲁棒性。
Comments Accepted at MICCAI 2026
神经事件:用于事件视觉的离散异步自编码器
发表机构 * Robotics and Perception Group, University of Zurich(苏黎世大学机器人感知组) ; University of Pennsylvania(宾夕法尼亚大学) ; The University of Tokyo(东京大学) ; Keio University(庆应义塾大学)
AI总结 提出将事件流重新标记为少量高信息量的“神经事件”,每个事件代表一个局部时空上下文窗口的离散可学习编码,在物体检测和分类任务中达到或超越现有方法,同时将事件率降低2.0倍。
杠杆不等于可达性:语言模型中单神经元操控的控制窗口定律
发表机构 * Palo Alto Networks
AI总结 提出预算归一化控制窗口框架,通过残差范数与写入范数之比定义的相干预算,预测单神经元干预何时产生连贯行为控制,并在15个神经元上验证了预测精度。
3D-PLOT-LLM: 用于三维大语言模型的部件级对象标记
发表机构 * University of Southern California(南加州大学) ; Ohio State University(俄亥俄州立大学)
AI总结 提出3D-PLOT-LLM,通过重组输入标记流使部件可直接通过LLM词汇寻址,无需分割解码器或边界框,在部件级基准上超越现有方法。
何时、何地以及如何:面向表格自监督学习的自适应分箱
发表机构 * Hanyang University(汉阳大学) ; Hankuk University of Foreign Studies(韩国外国语大学)
AI总结 提出自适应分箱方法,通过特征级粗到细课程学习动态优化离散化,结合类别重建与顺序监督,在医疗表格数据上提升自监督学习性能。
Comments Accepted to MICCAI 2026
利用邻近图增强图神经网络用于沙尘源排放预测
发表机构 * Amirkabir University of Technology(阿米尔卡比尔理工大学) ; University of Tehran(德黑兰大学)
AI总结 提出使用Delaunay三角剖分等邻近图作为图神经网络输入,通过消息传递捕捉沙尘源排放的时空动态,相比随机图和LSTM模型显著提升预测精度。
CSWinUNETR: 医学图像中薄解剖结构的分割
发表机构 * Hanyang University(汉阳大学) ; Hankuk University of Foreign Studies(韩国外国语大学)
AI总结 提出CSWinUNETR通用骨干网络,通过交叉形条带自注意力、循环移位、细节增强多尺度自注意力和稀疏控制动态蛇形卷积,解决薄结构分割中的低对比度、断裂和类不平衡问题,在眼科、神经血管和皮肤科基准上超越现有方法。
Comments Accepted at MICCAI 2026
TelcoAgent: 一种可扩展的5G多KPM预测与3GPP基础可解释性
发表机构 * NextG Wireless Lab, North Carolina State University(北卡罗来纳州立大学下一代无线实验室) ; Kyung Hee University(庆熙大学)
AI总结 提出TelcoAgent框架,利用基础模型实现多KPM的零样本预测,通过3GPP知识图谱和可解释性管道提供可操作诊断。
Comments 6 pages, 6 figures. Submitted to IEEE GLOBECOM 2026
CREDENCE: 面向分解与增强可信度的声明缩减——语义度量与收敛性分析
发表机构 * Vietnamese-German University(越南德国大学) ; Ho Chi Minh University of Technology(胡志明市理工大学)
AI总结 提出CREDENCE框架,通过语义F1度量解决Jaccard度量对释义声明的低估问题,并形式化分析修复管道的收敛性,实验表明语义F1比Jaccard F1提升15-32个百分点,规则修复将原子性违反率降低47-100%。
Comments 40 pages, 6 figures, 19 tables. Submitted to Language Resources and Evaluation
不确定性感知的奖励建模用于稳定的RLHF
发表机构 * Zhejiang University(浙江大学) ; Peking University(北京大学) ; National University of Singapore(新加坡国立大学)
AI总结 提出不确定性感知奖励建模(UARM),通过分位数保形预测校准不确定性并利用异方差方差分解重加权GRPO优势,以缓解奖励黑客问题,提升对齐质量。
无需训练的合成目标检测数据度量:检测器性能的代理指标
发表机构 * GenGenAI
AI总结 提出CCDM度量族,无需训练即可评估合成数据集对下游目标检测的效用,在VisDrone-DET上实现与YOLOv8性能的完全Spearman相关。
Comments 9 pages, 4 figures
聚类即一切:利用语言模型中的语义聚类预训练Tsetlin Machine以实现可解释性
发表机构 * Independent Researcher(独立研究员) ; University of California, Irvine(加州大学尔湾分校) ; University of the Chinese Academy of Sciences(中国科学院大学)
AI总结 提出一种语义预训练框架,通过K-means或Top2Vec将文本聚类,用聚类-样本对预训练Tsetlin Machine,使其学习可解释的语义关键词,在五个数据集上性能优于传统方法且与BERT竞争。
TIDY: 基于小波域熵和方向条纹指数的热红外图像去噪
发表机构 * Dept. of Mechanical Engineering, SNU(首尔大学机械工程系)
AI总结 提出轻量级小波域去噪器TIDY,利用真实噪声数据训练,通过小波熵和方向条纹指数损失项抑制随机噪声和条纹伪影,在室内恶劣条件下提升热红外图像质量及下游机器人任务性能。
再思考还是更长时间思考?面向预算感知推理的选择性验证
发表机构 * Department of Computer Science, Virginia Tech(弗吉尼亚理工大学计算机科学系) ; Fralin Biomedical Research Institute, Virginia Tech(弗吉尼亚理工大学弗拉林生物医学研究所) ; FBRI Cancer Research Center(FBRI癌症研究中心)
AI总结 提出选择性验证框架SEVRA,通过服务层控制器决定是否对冻结求解器的初始答案进行验证,在Math500上以更少token达到更高准确率,并减少有害翻转。
ParaScale: 通过规范不变视差数进行尺度校准的相机运动迁移
发表机构 * Peking University(北京大学)
AI总结 提出ParaScale模块,通过规范不变的视差数Pi实现尺度忠实相机运动迁移,无需重新训练,在四个数量级尺度上降低视差一致性误差3倍以上。
Comments Accepted by SCA2026(poster)
HypOProto: 用于左心室充盈压分类的双曲序数原型
发表机构 * The University of British Columbia(不列颠哥伦比亚大学) ; Vancouver General Hospital(温哥华综合医院)
AI总结 提出HypOProto框架,利用双曲空间中的序数原型对左心室充盈压进行分类,通过冻结的可解释基础模型实现高精度与临床可解释性。
流映射去噪器:遍历逆问题的失真-感知平面
发表机构 * Rice University(莱斯大学) ; NVIDIA Inc.(英伟达公司)
AI总结 提出流映射模型,通过单一参数t在MMSE和感知质量间连续调节,实现逆问题的失真-感知权衡,无需额外监督或调参。
探索预训练在语音合成中通过微调对音素添加的益处
发表机构 * CyberAgent, Japan(日本CyberAgent公司) ; Nagoya University, Japan(日本名古屋大学)
AI总结 研究预训练模型在微调过程中添加新音素时的表现,发现预训练主要提升自然度,但对新音素添加的益处有限。
Comments Accepted by INTERSPEECH 2026
CombEval:评估大语言模型中组合计数的框架
发表机构 * School of Artificial Intelligence, Jilin University(吉林大学人工智能学院) ; Czech Technical University in Prague(捷克布拉格理工大学) ; CRRC Zhuzhou Institute(中车株洲研究所) ; Tengen Intelligence Institute(天元智能研究院) ; International Center of Future Science, Jilin University(吉林大学未来科学国际合作中心) ; Engineering Research Center of Knowledge-Driven Human-Machine Intelligence, MOE(教育部知识驱动人机智能工程研究中心)
AI总结 提出CombEval动态基准,通过类型化Cofola规范生成组合计数问题,评估11个大语言模型在直接和代码增强设置下的表现,发现模型在有序对象、不可区分元素、相对位置约束和嵌套对象依赖上存在脆弱性。
Comments under review. Code: https://github.com/YuxuZhou-CN/combination-problem-generation
ORAgentBench: LLM代理能否解决具有挑战性的端到端运筹学任务?
发表机构 * Southeast University(东南大学) ; Waseda University(早稻田大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出ORAgentBench基准,评估LLM代理在端到端运筹学任务中的表现,发现当前代理通过率仅35.51%,主要受策略性弱点限制。
Comments 31 pages, preprint, v1
EquiVLA: 旋转等变视觉-语言-动作模型的通用框架
发表机构 * VinRobotics ; VinUniversity ; DFKI(德国人工智能研究中心) ; University of Stuttgart(斯图加特大学) ; IMPRS-IS(国际马克斯·普朗克智能系统研究学院)
AI总结 提出EquiVLA,首个端到端SO(2)等变VLA框架,通过EquiPerceptor和EquiActor实现从视觉到动作的近似等变链,在LIBERO、CALVIN和真实机器人任务上显著提升性能。
Comments Comment: First version 22 pages, project site: https://equivla.github.io/
AgentFinVQA:一种可部署的多智能体管道用于可审计的金融图表问答
发表机构 * Vector Institute(向量研究所)
AI总结 提出多智能体管道AgentFinVQA,通过分解查询步骤并记录可追溯的模型评估包,在金融图表问答中实现可审计性与本地部署,在FinMME上提升准确率7.68个百分点。
Occ-VLM: 面向室内场景理解的占用接地视觉语言模型
发表机构 * School of Electronic Science and Engineering, Nanjing University(南京大学电子科学与工程学院)
AI总结 提出Occ-VLM,仅用姿态RGB图像和单一2D视觉编码器,通过重建3D占用作为几何先验,实现统一的3D场景理解,在占用预测、3D VQA和密集描述任务上达到领先水平。