Rethinking Token Reduction for Diffusion Models via Output-Similarity-Awareness
重新思考扩散模型的token减少:通过输出相似性意识
发表机构 * KAIST(韩国科学技术院)
AI总结 本文提出DiTo,一种基于输出中心的token减少方法,通过利用相邻时间步的输出相似性来建立token对应关系,从而减少计算复杂度并提高生成质量。
重新思考扩散模型的token减少:通过输出相似性意识
发表机构 * KAIST(韩国科学技术院)
AI总结 本文提出DiTo,一种基于输出中心的token减少方法,通过利用相邻时间步的输出相似性来建立token对应关系,从而减少计算复杂度并提高生成质量。
幻觉作为承诺失败:更大的LLM在知道答案的情况下仍会出错
发表机构 * Graduate School of Data Science(数据科学研究生院) ; Department of Rural Systems Engineering(农村系统工程系) ; Electrical Engineering and Computer Science(电子工程与计算机科学) ; Department of Aerospace Engineering(航空航天工程系)
AI总结 本文研究了大型LLM在知道正确答案的情况下仍出现幻觉的现象,发现模型在生成答案时,正确概念的概率分布方式决定了幻觉的发生,而非是否包含正确概念。
从TF-IDF到Transformer:一种比较和集成的方法用于情感分类
发表机构 * School of Computer Engineering KIIT Deemed to be University(计算机工程学院 KIIT 被认定大学)
AI总结 本文比较了多种机器学习模型,包括Naive Bayes、逻辑回归、SVM、LightGBM、LSTM以及基于Transformer的RoBERTa和DistilBERT,旨在对电影评论进行情感分类,并发现RoBERTa在准确率上表现最佳,同时集成所有模型的软投票方法进一步提升了分类性能。
Comments 6 pages, 9 figures. This is the author's accepted manuscript, presented at the International Conference on Intelligent Computing, Networks and Security (IC-ICNS 2026), March 26-28, Bhubaneswar, India. Proceedings publication pending
ConvNeXt-FD:一种基于分形的深度模型用于鲁棒的生物医学图像分割
发表机构 * Institute of Mathematics, Statistics and Scientific Computing, Department of Applied Mathematics, University of Campinas(数学、统计与科学计算研究所,应用数学系,坎皮纳斯大学)
AI总结 本文提出了一种基于分形的深度学习模型ConvNeXt-FD,用于提高生物医学图像分割的鲁棒性,通过结合Dice系数和边界感知正则化项,提升模型对物体边界和形状保真的敏感性。
从相位对比背光干涉断层扫描生成虚拟3D的H&E染色
发表机构 * Department of Biomedical Engineering, Johns Hopkins University(约翰霍普金斯大学生物医学工程系) ; Department of Pathology, Johns Hopkins Hospital(约翰霍普金斯医院病理学系)
AI总结 本文提出HistoBIT3D,首个基于voxel的配对BIT和荧光标记核数据集,用于评估无监督虚拟染色在结构保持方面的定量效果。通过该数据集,作者提出一种新的虚拟染色框架,利用双向多尺度内容一致性与跨域风格复用,将具有移变对比度的BIT体积转化为逼真的H&E体积,从而提升3D核分割精度和边界保持性。
迈向理解对抗蒸馏:为何鲁棒教师失败
发表机构 * School of Electrical Engineering, KAIST, Daejeon, Korea(韩国科学技术院电子工程学院)
AI总结 本文研究了对抗蒸馏中鲁棒教师与学生鲁棒性之间的关系,揭示了教师监督信心与学生表示限制之间的不匹配导致鲁棒过拟合现象,并提出了理论框架和实验验证。
Comments Accepted to ICML 2026. Code is available at https://github.com/HongsinLee/why-robust-teachers-fail
Ex-GraphRAG:图增强大语言模型中的可解释证据路由
发表机构 * Tel Aviv University(特拉维夫大学) ; Institute for AI, University of Stuttgart(人工智能研究所,斯图加特大学) ; NVIDIA(英伟达) ; Meta AI
AI总结 本文提出Ex-GraphRAG,通过引入多变量图神经加法网络(M-GNAN)来解决图增强大语言模型中证据路由的可解释性问题,揭示了语义重要性与结构连通性之间的不匹配,对检索剪枝、上下文构建和失败诊断有重要影响。
ECPO:基于证据的策略优化用于证据认证的候选者排序
发表机构 * Institute of Information Engineering, Chinese Academy of Sciences(信息工程研究所,中国科学院) ; School of Cyber Security, University of Chinese Academy of Sciences(中国科学院大学网络安全学院) ; School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院)
AI总结 本文研究了证据认证候选者排序问题,提出了一种名为ECPO的策略优化方法,通过结合排序和证据证书来提升排序效果和证据可靠性。
通过反事实强化学习学习视频大语言模型中的时空敏感性
发表机构 * Hong Kong University of Science and Technology(香港科技大学) ; Tencent(腾讯)
AI总结 本文提出CRPO方法,通过反事实强化学习提升视频大语言模型对时空动态的敏感性,通过构建反事实视频并引入反事实关系奖励,有效抑制了依赖静态线索的简略策略,从而在DyBench基准测试中提升了模型的时空敏感性。
Comments Project website: https://ddz16.github.io/crpo.github.io/
Echo:通过用户驱动的细化学习经验数据
发表机构 * Core Contributors(核心贡献者) ; Qiang Lin is the team leader(Qiang Lin 是团队负责人)
AI总结 本文提出Echo框架,通过用户驱动的细化过程将原始经验数据转化为可学习的知识,提升模型性能,实验表明其能将接受率从25.7%提升至35.7%。
RiT: vanilla diffusion transformers suffice in representation space
发表机构 * Mila – Québec AI Institute, UdeM(魁北克AI研究院,麦吉尔大学) ; Utrecht University(乌得勒支大学) ; Canada CIFAR AI Chair(加拿大CIFAR人工智能主席)
AI总结 该研究探讨了在表示空间中使用vanilla diffusion transformers进行图像生成的有效性,发现通过预训练的表示空间能够更有效地进行流匹配学习,从而在ImageNet数据集上取得了优于DiT-DH-XL的性能。
通过跨模态信息流解读并增强大视觉-语言模型中的情感电路
发表机构 * MoE Key Laboratory of Brain-inspired Intelligent Perception(脑启发智能感知与认知MOE实验室) ; Cognition, University of Science(认知,科学大学) ; AIPD, Tencent(AIPD,腾讯)
AI总结 本文提出了一种基于转向向量的因果归因框架,用于描述性情感推理,通过构建专用数据集揭示了三阶段'适应-聚合-执行'机制下的情感电路,发现视觉情感线索在中间层通过情感特定的注意力头进行聚合,随后在深层通过情感通用路径转换为叙述生成,并通过调控情感信息路由增强注意力流和语义激活,从而提升性能并缓解情感幻觉。
Comments Accepted by ICML 2026
视频作为自然增强:迈向统一的AI生成图像和视频检测
发表机构 * Harbin Institute of Technology, Shenzhen(哈尔滨工业大学(深圳)) ; Pengcheng Laboratory(鹏城实验室) ; Shenzhen Loop Area Institute(深圳南山区研究院)
AI总结 本研究针对AI生成内容检测中跨模态差距的问题,提出VINA框架,通过联合训练图像和视频数据,利用视频帧作为自然增强,并引入跨模态监督对比目标,实现统一的AI生成内容检测,提升鲁棒性和迁移性。
TacO: 用于物体操作的触觉传感器基准测试
发表机构 * UC San Diego(圣迭戈大学) ; CMU(卡内基梅隆大学) ; SNU(首尔国立大学)
AI总结 本文提出了一种基于任务驱动的触觉传感器评估框架,通过训练不同模态的触觉传感器(视觉、声学、磁性和电阻性)在三个任务上的表现,探讨了触觉信息在不同材料和任务中的有效性。
通过可验证的预测动作进行推理:面向金融大语言模型的一致性导向强化学习
发表机构 * Yale University(耶鲁大学) ; University of Texas Rio Grande Valley(德克萨斯理工大学) ; Arizona State University(亚利桑那州立大学)
AI总结 本文提出StockR1,一种结合时间序列的LLM,通过可验证的预测动作统一股票预测与金融推理,利用强化学习优化整个流程,提升金融问答和股票预测的准确性。
知识图谱构建中统计表的格式约束耦合
发表机构 * South China University of Technology(华南理工大学)
AI总结 本文研究了在统计表中构建知识图谱时,格式约束与提取方案之间的耦合效应,发现格式与约束的联合影响超过了独立影响的总和,并提出了CSVFidelity-Bench基准测试集以支持基于保真的评估。
Comments 8 pages main body, 18 pages appendices. Submitted to EMNLP 2026 via ACL Rolling Review (ARR). Corresponding author: Yuxiang Feng (yxfeng@scut.edu.cn). Code and data available at https://anonymous.4open.science/r/sge_lightrag-BE19
Foresee-to-Ground: 从预测性时间感知到证据驱动推理的视频时间接地
发表机构 * Qwen3-VL-8B-Instruct
AI总结 本文提出了一种新的视频时间接地框架F2G,通过将时间接地问题重新表述为可验证的识别-测量问题,结合预测性时间感知和证据驱动推理,以提高时间接地的准确性和鲁棒性。
Comments Accepted by ICML 2026
稀疏性分配如何塑造无标签后剪枝恢复能力
发表机构 * Marquette University(马凯特大学) ; Cornell University(康奈尔大学) ; Tongji University(同济大学)
AI总结 本文研究了在固定激活统计修复后端下,稀疏性分配如何影响后修复恢复能力,通过比较ERK和LAMP分配在不同数据集和模型上的表现,发现分配选择对后修复准确性有显著影响,并揭示了修复敏感的过渡区域。
一种改进的自适应PID优化器,具有增强的收敛性和稳定性,用于深度学习
发表机构 * 1 Department of Computer Science \& Engineering, Indian Institute of Technology Indore, India. ; 3 National Remote Sensing Centre, Indian Space Research Organisation, India.
AI总结 本文提出了一种改进的自适应PID优化器IAdaPID-ADG,通过引入非递增有效学习率和基于梯度差的调制因子来解决AdaPID在收敛性和稳定性方面的不足,实验表明其在多个数据集上表现优异。
Comments 11 Pages, Double Column, 6 Tables, 5 Figures
SpecHop:连续推测用于加速多跳检索代理
发表机构 * University of Maryland, College Park(马里兰大学学院公园分校)
AI总结 本文研究如何在不改变最终轨迹的情况下加速多跳工具使用过程,提出了一种连续推测框架SpecHop,通过维护多个推测线程和异步验证预测观测来减少延迟。
ChronoMedicalWorld:一个用于从纵向护理数据中学习患者轨迹的医学世界模型
发表机构 * Beijing KidneyTec Medical Technology Co., Ltd.(北京肾科医疗技术有限公司)
AI总结 本文提出了一种名为ChronoMedicalWorld的模型,旨在通过纵向护理数据学习患者轨迹,该模型结合了联合嵌入状态编码器和宽动作编码器,并在六个术语目标下训练了循环潜在转移模块,以提高慢性病护理中长期预测的准确性。
Comments 14 pages, 2 figures, 6 tables
AI赋能的严肃游戏:在训练系统中整合智能与适应性
发表机构 * Durham College(达灵顿学院) ; Ontario Tech University(安大略技术大学)
AI总结 本文探讨了如何利用人工智能技术提升严肃游戏中的实时教学适应能力,分析了智能与适应性的定义,并讨论了大型语言模型、强化学习和基于代理的架构在严肃游戏中的应用及面临的挑战。
Comments Book chapter, 1 figure. To appear in "Advances in Global Applied Artificial Intelligence," G. A. Tsihrintzis, M. Virvou, N. G. Bourbakis, and L. C. Jain (Eds.), Springer, Learning and Analytics in Intelligent Systems book series, 2026
诊断并非处方:语言共适应解释了LLM流水线中的修补危害
发表机构 * KAIST (Korea Advanced Institute of Science and Technology)(韩国科学技术院) ; NAVER Corp.(NAVER公司)
AI总结 本文研究了多模块LLM代理失败时,诊断与修补之间的矛盾,发现路由模块虽为瓶颈,但注入修正示例反而降低性能,而修正查询重写模块则更有效,提出了语言合同假说解释这种现象。
Comments Preprint. Under review at EMNLP 2026 (ARR)
边界框轨迹对视频异常检测至关重要
发表机构 * Sungkyunkwan University(成均馆大学)
AI总结 本文提出TrajVAD框架,通过建模多类边界框轨迹来学习正常运动模式,利用边界框轨迹作为主要异常线索,在ShanghaiTech数据集上取得优于现有姿态基方法的性能。
Comments 17 pages, 3 figures
MLLMs Know When Before Speaking: Revealing and Recovering Temporal Grounding via Attention Cues
发表机构 * Hong Kong University of Science and Technology(香港理工大学) ; Xi’an Jiaotong University(西安交通大学) ; Tencent(腾讯)
AI总结 本文研究了多模态大语言模型(MLLMs)在视频时间定位中的感知与生成之间的差距,提出了一种推理阶段的读取-再生成框架,通过利用注意力线索来提高时间定位的准确性,从而在三个视频时间定位基准上提升了MiMo-VL-7B、Qwen3-VL-8B和TimeLens-8B的性能。
Comments Project Website: https://ddz16.github.io/mllmsknowwhen.github.io/
动态潜在记忆混合用于自演化智能体
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; University of Oxford(牛津大学) ; Nanyang Technological University(南洋理工大学) ; University of Edinburgh(爱丁堡大学) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 本文提出MoLEM框架,通过动态混合专家机制实现智能体的持续学习,避免灾难性遗忘,提升任务学习和能力保持。
Comments 19 pages, 5 figures, 5 tables
面向高风险医疗检索增强生成的声明选择性认证
发表机构 * Jinglue Technology Development (Nanjing) Co., Ltd.(Jinglue 技术发展(南京)有限公司)
AI总结 本文研究了高风险医疗问答场景中检索增强生成系统中声明选择性认证问题,通过将响应分解为可验证的声明并根据检索证据评分,结合意图感知选择器映射到{完整、部分、冲突、回避},在弱标签证书协议上实现了高准确率的认证结果。
Comments 22 pages, 7 figures, 11 tables
SCI-Defense: 防御生成引擎优化的操纵攻击
发表机构 * Siebel School of Computing and Data Science, University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校计算机科学与数据科学学院) ; School of Information Sciences, University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校信息科学学院) ; Amazon topcited.ai(亚马逊topcited.ai)
AI总结 本文提出SCI-Defense框架,通过检测困惑度、语义完整性评分和跨候选检测三种组件,有效识别生成引擎优化攻击,实现了高精度和低误报率,同时揭示了现有防御方法的局限性及未来研究方向。
Comments 20 pages, NeurIPS 2026 submission
用于机器人群完全覆盖觅食的访问网格
发表机构 * Department of Computer Science(计算机科学系) ; The University of Texas Rio Grande Valley(德克萨斯大学里奥格兰德谷分校)
AI总结 本文提出了一种基于网格的随机觅食策略,通过减少冗余访问并加速后期收集,提高了机器人群在大规模未知环境中的资源收集效率和完整性。
Comments The 23rd International Conference on Ubiquitous Robots, 10 figures, 3 tables
对Rényi差分隐私机器学习的最优审计保证
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; Stony Brook University(石溪大学)
AI总结 本文研究了声称具有Rényi差分隐私(RDP)保证的机器学习算法的黑盒审计问题,提出了一种基于假设检验的审计框架,利用Donsker-Varadhan(DV)变分估计器直接估计相邻执行之间的Rényi散度,并通过类受限DV估计器得出非渐近的置信区间,证明了样本复杂度保证在信息论上最优,首次建立了通过DV估计器审计RDP的最优保证。
Comments 28 pages, 3 figures