DODO: Discrete OCR Diffusion Models
DODO: 离散OCR扩散模型
发表机构 * Technion - Israel Institute of Technology, Haifa, Israel.(特拉维夫大学-以色列理工学院,海法,以色列。) ; Amazon Web Services(亚马逊网络服务)
AI总结 针对OCR任务中自回归解码速度慢的问题,提出首个利用块离散扩散的VLM模型DODO,在保持高精度的同时实现高达5倍的推理加速。
DODO: 离散OCR扩散模型
发表机构 * Technion - Israel Institute of Technology, Haifa, Israel.(特拉维夫大学-以色列理工学院,海法,以色列。) ; Amazon Web Services(亚马逊网络服务)
AI总结 针对OCR任务中自回归解码速度慢的问题,提出首个利用块离散扩散的VLM模型DODO,在保持高精度的同时实现高达5倍的推理加速。
Transformer中位置偏差的结构理论
发表机构 * University of Hamburg(汉堡大学)
AI总结 本文通过残差感知累积注意力展开,提出一种结构理论解释因果Transformer中位置偏差的起源,并揭示残差连接如何改变无限深度下的注意力动力学,从而解释Lost-in-the-Middle现象。
Comments Revised version with improved presentation
通过注意力匹配实现快速KV压缩
发表机构 * Massachusetts Institute of Technology(麻省理工学院)
AI总结 提出通过注意力匹配在潜在空间快速压缩键值缓存的方法,以保持注意力输出并实现高达50倍压缩且质量损失小。
质量约束的熵最大化策略优化用于LLM多样性
发表机构 * Zuoyebang Education Technology(左叶bang教育科技)
AI总结 提出QEMPO框架,通过理论推导的闭式解在保证输出质量的同时最大化熵以提升LLM多样性,实验证明其在不牺牲质量的情况下提升多样性。
大语言模型作为细粒度意见分析的自动标注者和标注裁决者
发表机构 * Data Science Institute(数据科学研究所) ; University of Galway(Galway大学)
AI总结 本文探索使用大语言模型作为自动标注者进行细粒度意见分析,提出声明式标注流水线和LLM裁决方法,实验表明LLM在跨度级别可靠但难以再现关系结构,更适合作为标注助手而非完全替代人类。
RMPL:基于关系感知的多任务渐进学习与分阶段训练的多媒体事件抽取
发表机构 * School of Computer Science and Technology, Soochow University(苏州大学计算机科学与技术学院)
AI总结 提出RMPL框架,通过分阶段训练结合单模态事件抽取和多模态关系抽取的异构监督,在低资源条件下实现多媒体事件抽取,并在M2E2基准上取得一致改进。
Comments Accepted by ACM ICMR 2026
DeepC4: 用于城市形态大规模多任务空间分解的深度条件普查约束聚类
发表机构 * Department of Architecture, University of Cambridge(剑桥大学建筑系) ; Cambridge University Centre for Risk in the Built Environment(剑桥大学建筑环境风险研究中心) ; Earth Observation Center, German Aerospace Center(德国航天中心地球观测中心) ; Institute of Geography, University of Bonn(波恩大学地理研究所)
AI总结 提出DeepC4,一种结合局部普查统计作为聚类约束并联合学习卫星图像模式的多任务深度学习方法,用于城市形态的粗到细空间分解,在卢旺达数据上优于现有方法。
Comments Major Revised Preprint Submitted to ISPRS Journal of Photogrammetry and Remote Sensing (in review) | Keywords: urban morphology, building exposure, physical vulnerability, spatial disaggregation, deep clustering | Data: https://doi.org/10.5281/zenodo.13119552 | Code: https://github.com/riskaudit/DeepC4
注意力头的奇异向量与特征对齐
发表机构 * Department of Computer Science, Boston University, Boston, USA ; Faculty of Computing \& Data Sciences, Boston University, Boston, USA
AI总结 本文通过理论分析和实验验证,解释了注意力头奇异向量与特征表示对齐的原因和条件,并提出了稀疏注意力分解作为对齐的可检验预测。
Comments To be published in ICML 2026
统一多域图预训练:通过域特定专家编码实现同质和异质图
发表机构 * School of Computer Science ; Technology Tianjin University Tianjin China ; North China University of Science ; School of Economics ; Management Beijing University of Posts ; Departments of Health Technology \& Informatics ; Computing The Hong Kong Polytechnic University Kowloon Hong Kong ; Tianjin University ; Beijing University of Posts ; The Hong Kong Polytechnic University
AI总结 提出统一多域图预训练方法GPH²,通过域特定专家编码和任务导向专家融合策略,解决同质与异质图混合场景下的跨域分布偏移问题。
Comments 12 pages, 7 figures
MMRad-22K:用于胸部X光报告生成的结构化多模态证据数据集
发表机构 * MoE Key Lab of Artificial Intelligence, AI Institute, School of Computer Science, Shanghai Jiao Tong University(人工智能MOE实验室、人工智能研究院、计算机科学学院、上海交通大学) ; School of Biomedical Engineering, Division of Life Sciences and Medicine, University of Science and Technology of China (USTC)(生物医学工程学院、生命科学与医学系、中国科学技术大学) ; Center for Medical Imaging, Robotics, Analytic Computing & Learning (MIRACLE), Suzhou Institute for Advanced Research, USTC(医学影像、机器人、分析计算与学习中心(MIRACLE)、苏州市先进研究院、中国科学技术大学) ; Department of Radiology, The First Affiliated Hospital, Zhejiang University School of Medicine(放射科、浙江大学医学院第一附属医院)
AI总结 针对胸部X光报告生成中现有资源监督信号碎片化的问题,提出结构化多模态证据数据集MMRad-22K,并基于统一LVLM骨干进行适配,证明结构化多模态证据优于纯文本或边界框证据,在语言和临床指标上表现更优。
能给我你的订单吗?扩散语言模型中插槽填充顺序的蒙特卡洛树搜索
发表机构 * Imperial College London(帝国理工学院伦敦分校) ; University of Edinburgh(爱丁堡大学)
AI总结 针对掩码扩散模型(MDM)中计划-填充解码对插槽填充顺序敏感的问题,提出McDiffuSE框架,利用蒙特卡洛树搜索(MCTS)优化生成顺序,平均性能提升3.2%,在MBPP和MATH500上分别提升19.5%和4.9%。
Comments 8 pages, ICML2026
连续扩散模型可以遵守形式语法
发表机构 * Department of Computer Science and Engineering, University of California-San Diego, San Diego, USA(计算机科学与工程系,加州大学圣地亚哥分校,圣地亚哥,美国)
AI总结 提出一种无需训练的引导方法,利用正则表达式约束连续扩散语言模型的生成过程,使其满足形式语法,并在JSON和自然语言基准上实现68-96%的约束满足率。
LUVE:基于双频专家的潜在级联超高分辨率视频生成
发表机构 * Nanjing University(南京大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出LUVE框架,通过三阶段潜在级联架构(低分辨率运动生成、潜在空间上采样、高分辨率内容精炼)结合双频专家,解决超高分辨率视频生成中的运动建模、语义规划和细节合成难题。
Comments ICML 2026
自适应采样与裁剪的私有最坏情况组优化
发表机构 * Institute of Science and Technology Austria (ISTA)(奥地利科学与技术研究所) ; University of Copenhagen(哥本哈根大学)
AI总结 提出ASC算法,通过自适应控制每组梯度贡献的采样率和裁剪阈值,在差分隐私下优化最坏情况组准确率,同时保持模型效用。
Comments 10 pages, 3 figures
我们真的在创新吗?AI研究论文原创性的定性与定量研究
发表机构 * Peter L. Reichertz Institute for Medical Informatics(汉诺威医学院彼得·L·里赫茨医学信息学研究所) ; L3S Research Center(L3S研究中心) ; Lower Saxony Center for Artificial Intelligence and Causal Methods in Medicine (CAIMed)(下萨克森人工智能与医学因果方法中心(CAIMed))
AI总结 基于10万+同行评审报告,通过定性与定量方法分析AI研究论文原创性的感知维度,并评估大语言模型在原创性评估中的可靠性。
Transformer中的涌现类比推理
发表机构 * The University of Tokyo(东京大学) ; Google Deep Mind(谷歌深Mind)
AI总结 本研究通过范畴论中的函子概念形式化类比推理,设计合成任务探究Transformer中类比推理的涌现机制,发现其依赖于数据特征、优化选择和模型规模,并通过机制分析揭示几何对齐和函子应用两个关键组件。
Comments Accepted to ICML2026 (spotlight)
并非所有像素都平等:面向含噪标签医学分割的像素级元学习
发表机构 * Xidian University(西安电子科技大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出MetaDCSeg框架,通过动态学习像素级权重并引入动态中心距离机制建模边界不确定性,抑制噪声标签影响并提升边界分割性能。
考虑随机通信延迟的高速公路匝道合流延迟感知强化学习
发表机构 * Department of Computer Science, George Washington University, Washington, D.C.(计算机科学系,乔治华盛顿大学,华盛顿特区) ; Connected and Automated Vehicle Program Manager, Traffic Operations Division, Virginia Department of Transportation(连接与自动化车辆计划主任,交通运营处,弗吉尼亚州交通部) ; Department of Mechanical & Aerospace Engineering, George Washington University, Washington, D.C.(机械与航空航天工程系,乔治华盛顿大学,华盛顿特区)
AI总结 针对V2I通信随机延迟导致状态观测延迟的问题,提出DAROM框架,通过随机延迟MDP建模和延迟感知编码器恢复马尔可夫性,结合物理安全控制器实现鲁棒控制。
ViCA:仅视觉交叉注意力的高效多模态大语言模型
发表机构 * Ningbo Institute of Digital Twin, Eastern Institute of Technology(宁波数字孪生研究院、东部技术研究院) ; Munich Center for Machine Learning, LMU Munich(慕尼黑机器学习中心、慕尼黑大学)
AI总结 提出ViCA架构,通过仅视觉交叉注意力减少视觉令牌计算,在保持98%准确率的同时将视觉计算降至4%,实现显著加速。
解耦自适应梯度下降中的方差与尺度不变更新以实现统一向量和矩阵优化
发表机构 * Department of Computer Science, Purdue University, West Lafayette, USA(计算机科学系,普渡大学,西拉法叶,美国) ; Edwardson School of Industrial Engineering, Purdue University, West Lafayette, USA(工业工程学院,普渡大学,西拉法叶,美国)
AI总结 提出DeVA框架,通过解耦AdaGrad更新中的方差适应项和尺度不变项,统一向量自适应方法与矩阵谱优化,在语言建模和图像分类中优于Muon和SOAP,减少约6.6%的token使用。
只取所需:秩最小化作为持续学习中的隐式遗忘正则化器
发表机构 * University of New South Wales(新南威尔士大学) ; CSIRO(澳大利亚联邦科学工业研究组织)
AI总结 本文提出CoDyRA方法,通过秩最小化作为隐式遗忘正则化器,在持续学习中平衡可塑性与稳定性,在多个基准上优于现有方法。
Comments Preprint
STFlow: 用于几何轨迹模拟的数据耦合流匹配
发表机构 * Machine Learning for Physical Sciences (ML4Sci/e) Group, Department of Mathematics \& Computer Science, Eindhoven University of Technology, The Netherlands
AI总结 提出STFlow,一种基于图神经网络和层次卷积的生成模型,通过数据依赖耦合的流匹配框架,从条件随机游走而非高斯噪声去噪,降低传输成本,提高训练和推理效率,在N体系统、分子动力学和人类轨迹预测中实现最低预测误差。
Comments Proceedings of the 43rd International Conference on Machine Learning (ICML), Seoul, South Korea. PMLR 306, 2026, 18 pages, 12 figures
停止奖励幻觉步骤:面向小型推理模型的忠实感知步骤级强化学习
发表机构 * Institute of Computing and Intelligence, Harbin Institute of Technology, Shenzhen, China(哈尔滨工业大学深圳研究院) ; Institute of Artificial Intelligence (TeleAI), China Telecom Corp Ltd(中国电信人工智能研究院) ; College of Integrated Circuits, Zhejiang University, Hangzhou, Zhejiang, China(浙江大学集成电路学院) ; Zhongguancun Academy, Beijing, China(中关村学院)
AI总结 针对小型推理模型在中间推理步骤中容易产生忠实性幻觉的问题,提出忠实感知步骤级强化学习(FaithRL),通过过程奖励模型提供步骤级监督和隐式截断重采样策略,减少幻觉并提高推理可靠性。
安全的上下文强化学习
发表机构 * University of Virginia(弗吉尼亚大学) ; Virginia Commonwealth University(弗吉尼亚 Commonwealth 大学)
AI总结 提出SCARED方法,在无参数更新的上下文强化学习适应过程中,通过精确惩罚对偶法在约束马尔可夫决策过程框架下保证安全,实现奖励最大化与成本约束。
Comments ICML 2026
如果你能说服我:评估大型语言模型说服效果与易受影响性的框架
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出PMIYC框架,通过多智能体对话自动评估LLM的说服效果与易受影响性,发现不同模型在说服力和抗说服性上存在显著差异。
Comments Paper published at the ACM Conference on AI and Agentic Systems 2026
MVP-LAM:通过跨视角重建学习以动作为中心的潜在动作
发表机构 * Seoul National University, Seoul, South Korea(首尔国立大学,首尔,韩国) ; Konkuk University, Seoul, South Korea(韩国konkuk大学,首尔,韩国) ; Microsoft Research Asia, Beijing, China(微软亚洲研究院,北京,中国) ; HodooAI Labs, Seoul, South Korea(HodooAI实验室,首尔,韩国)
AI总结 提出MVP-LAM模型,利用多视角视频通过跨视角重建目标学习与真实动作高度相关的潜在动作,提升动作预测和下游操作性能。
通过基旋转缓解异步流水线并行中的陈旧性问题
发表机构 * POSTECH(POSTECH大学)
AI总结 针对异步流水线并行中梯度陈旧性随流水线深度线性增长的问题,提出基旋转框架,通过将优化器坐标系与Hessian特征基对齐来保持延迟更新的有效性,理论证明最小化基失配并实证在3B参数LLM训练中减少81.7%迭代次数。
Comments ICML 2026
解耦骨架与血肉:基于解缠对齐和结构感知引导的高效多模态表格推理
发表机构 * Harbin Institute of Technology, Shenzhen, China(哈尔滨工业大学(深圳)) ; Peng Cheng Laboratory, Shenzhen, China(鹏城实验室)
AI总结 提出DiSCo解缠结构-内容对齐框架和Table-GLS全局到局部结构引导推理框架,高效增强LVLM的表格理解与推理能力,无需昂贵监督或外部工具。
Comments Accepted as a Spotlight Paper at ICML 2026
将语言模型基准与成对偏好对齐
发表机构 * School of Data Science, University of Virginia(弗吉尼亚大学数据科学学院) ; Imperial College London(伦敦帝国理工学院) ; Thomson Reuters Foundational Research(汤姆森路透基础研究) ; Department of Electrical Engineering and Computer Science, UC Berkeley and UCSF(伯克利大学电气工程与计算机科学系及旧金山大学)
AI总结 提出BenchAlign方法,通过利用语言模型在问题级别的性能与模型成对排名,自动调整离线基准权重,使新基准能根据偏好准确排序未见模型。
当预训练损害LoRA微调:基于单指标模型的动力学分析
发表机构 * International School of Advanced Studies(国际先进研究学校) ; Département d’Informatique, École Normale Supérieure, PSL & CNRS(信息学院,巴黎高等师范学校,PSL与CNRS) ; Abdus Salam International Centre for Theoretical Physics(阿布杜斯·萨拉姆国际理论物理中心)
AI总结 本文通过单指标模型下的动力学分析,数学证明了过度预训练会降低LoRA微调的收敛速度,并刻画了收敛率与初始对齐及目标任务非线性的关系。
Comments 38 pages, 14 figures