Loosely Coupled Factor Graph Optimization for Pseudolite-Augmented Navigation
松耦合因子图优化用于伪卫星增强导航
AI总结 提出一种松耦合因子图优化框架,融合GNSS/伪卫星最小二乘解与IMU数据,在低可见度环境下相比标准最小二乘方法将平均三维误差降低22.8%至41.3%。
松耦合因子图优化用于伪卫星增强导航
AI总结 提出一种松耦合因子图优化框架,融合GNSS/伪卫星最小二乘解与IMU数据,在低可见度环境下相比标准最小二乘方法将平均三维误差降低22.8%至41.3%。
通用增强,特定抑制:基于稀疏自编码器引导的医学视觉语言模型
AI总结 本文提出一种无需权重更新的解码时残差引导方法,通过每token稀疏自编码器(SAE)对医学视觉语言模型进行干预,抑制幻觉并提升报告质量,在多个模型上取得显著改进。
弥合差距:实现软演员-评论家算法用于高性能腿部运动
AI总结 本文通过识别软演员-评论家(SAC)在并行训练中性能不足的根本原因,并提出策略初始化、超时感知评论家目标和多步回报估计等改进,使其在腿部运动任务中达到与近端策略优化(PPO)相当的性能。
MinerU-Popo:结构化文档解析的通用后处理模型
AI总结 提出MinerU-Popo轻量级通用后处理框架,通过分解为文本/表格截断恢复、标题层级重建和图文关联四个子任务,并利用动态分块和重叠同步将OCR页面级结果重构为文档级逻辑结构,显著提升标题层级TEDS和RAG准确性。
Comments The code is available at https://github.com/opendatalab/MinerU-Popo
TGFormer:基于自相关机制的时间图Transformer
AI总结 针对时间图神经网络在捕获长期依赖和周期模式上的不足,提出TGFormer,通过轨迹框架和自相关机制实现子交互级别的依赖发现与表示聚合,在六个基准上最高提升9.35%精度。
OSDTW:长尾识别的最优共享深度与任务加权
AI总结 提出OSDTW框架,通过分解任务、共享编码器与任务特定解码器,并基于Fisher信息矩阵推导泛化误差的偏置-方差分解,以优化共享深度和任务权重,解决长尾识别中头部-尾部性能权衡问题。
Comments ICIC 2026 Oral
视觉基础模型在面部深度伪造检测中的跨域泛化极限
AI总结 本文通过系统评估三种视觉基础模型(RoPE-ViT、DINOv3、NVIDIA C-RADIOv4-H)在DF40基准上的线性探测性能,揭示了它们在面部深度伪造检测中的跨域泛化极限,发现基础模型对全脸合成保持高判别力,但对局部编辑技术存在根本性边界。
ConFi-GS:置信度引导的高频注入用于3D高斯泼溅超分辨率
AI总结 提出一种可靠性感知的频率建模框架,通过几何引导的细节需求先验和频率感知的可靠性图,指导低分辨率3DGS重建中高频细节的注入,提升保真度和感知质量。
Tempered Self-Similarity Alignment for Physically Plausible Video Generation
AI总结 提出Tempered Self-Similarity Alignment (TSA)损失函数,通过将视觉基础模型中的时空自相似性关系知识迁移到视频生成模型中,以改善视频的物理合理性。
Comments Accepted to the CVPR 2026 Workshop on Video Generative Models: Benchmarks and Evaluation (VGBE)
MedMamba: 基于自适应图学习的多视图状态空间模型用于医疗时间序列分类
AI总结 提出MedMamba,一种集成状态空间模型与领域特定归纳偏置的端到端架构,通过多尺度卷积嵌入、三支差分状态空间编码器和空间图Mamba模块,分别处理局部-全局动态、非平稳性和潜在通道交互,在五个真实数据集上实现最先进性能。
Comments Accepted to 2026 ICML
探究优化下上下文与参数化思维链忠实性之间的相互作用
AI总结 通过提出统一偏好对齐接口FaithMate,研究上下文与参数化两种思维链忠实性范式在优化下的相互作用,发现两者正相关但不对称,且上下文忠实性指标间存在权衡。
Comments The first two authors contributed equally and share first-authorship
三步条件扩散光场显微三维重建
AI总结 针对光场显微成像中传统算法分辨率低、伪影重、计算成本高,以及现有学习方法重建精度和泛化能力不足的问题,提出一种基于三步条件扩散的高保真三维重建方法,通过确定性三步采样和轻量条件U-Net实现快速准确重建,并引入类间检测模块增强稳定性。
Comments 10 pages, 6 figures. Accepted to CVPR 2026 Findings
SEP-Attack:一种简单有效的基于迁移的文本对抗攻击范式
AI总结 提出SEP-Attack,利用行列式点过程生成多样化的代理集成权重,通过新指标评估预测置信度以计算词重要性并生成对抗样本,在多个数据集和API上显著优于现有方法。
通过区域感知注意力重校准减轻视觉语言模型中的对象幻觉
AI总结 提出一种无需训练的区域感知自适应加权机制,通过计算注意力头的稳健统计中点并利用跨头分歧动态调整干预预算,以连续惩罚调制抑制幻觉路径,有效纠正视觉语义错位,同时保持生成流畅性。
NITP:面向LLM预训练的下一隐式令牌预测
AI总结 提出NITP方法,通过在表示空间中添加密集连续监督来增强离散令牌预测,以解决标准下一令牌预测中潜在表示空间约束不足的问题,并在0.5B至9B参数模型上取得一致性能提升。
Comments Accepted at ICML 2026
面向工业资产运维的多轮对话系统
AI总结 针对工业资产运维中的多轮、迭代问答问题,提出基于监督者-专家多智能体架构的多轮对话系统,通过结构化工件复用、动态重规划和并行工具执行,显著提升规划效果和任务完成率。
ARCANE-PedSynth:具有行为穿越注释的合成多行人数据集
AI总结 提出基于CARLA的开源框架ARCANE-PedSynth,通过混合AI-手动控制架构和12状态行为有限状态机生成高穿越率的多行人合成数据,支持RGB、LiDAR和DVS模态及行为标注,用于自动驾驶中的行人穿越预测。
通过稀疏自编码器实现从语言到视觉的可解释性迁移
AI总结 提出VISTA框架,通过约束视觉投影器将视觉token映射到LLM的文本SAE空间,实现无需专用视觉SAE的视觉可解释性,并在对象移除和替换任务上分别提升35%和47%。
RealBench: 在操作条件和极端事件挑战下对数据驱动数值天气预报的基准测试
AI总结 提出RealBench基准,通过使用低延迟操作分析和全球10,000+站点观测数据,在严格分布外测试集上评估AI天气预报模型,揭示再分析指标与实际性能的显著差异,特别是极端事件方面。
Comments 35 pages, 22 figures
熵正则化softmax策略梯度的全局线性收敛性:超越表格MDP
AI总结 本文研究连续状态和动作空间的无限时域熵正则化马尔可夫决策过程中策略梯度的全局收敛性,通过线性函数逼近的log-linear softmax策略,在$Q^π_τ$可实现性假设下建立非均匀Polyak--Łojasiewicz不等式,并识别两种特征机制下非均匀常数的有界性,证明正则化目标沿梯度流的全局线性收敛。
X-Edit: 面向医学视觉Transformer的精确、显式且可解释的零空间编辑
AI总结 提出X-Edit框架,通过因果定位和零空间投影实现医学图像分类中ViT模型的精确错误修正,避免灾难性遗忘。
Comments Early accepted by MICCAI 2026
在潜在空间中学习高频连续动作块
AI总结 本文提出通过变分自编码器将高频动作学习从动作空间转移到潜在空间,并引入Reuse-then-Refine块级精炼策略,以提升高频控制的时间与空间一致性,实现复杂接触任务的平滑执行。
Comments 17 pages, 10 figures
H$^{2}$MT: 语义层次感知的层次记忆Transformer
AI总结 提出H$^{2}$MT模型,通过离线构建语义层次结构并利用自底向上的后序聚合计算记忆嵌入,在推理时实现从粗到细的查询路由,从而在长上下文推理中实现质量与效率的权衡。
MambaDSF:基于膨胀特征融合的多尺度SSM用于声纳小目标检测
AI总结 针对声纳小目标检测中像素覆盖不足、噪声干扰和尺度模糊问题,提出MambaDSF混合框架,通过Mamba增强特征金字塔、膨胀融合编码器和尺度自适应损失函数,在UATD数据集上达到91.5% mAP50,参数28.7M。
Comments 8 pages, 4 figures, under review at IEEE Geoscience and Remote Sensing Letters (GRSL)
公平性能量护盾
AI总结 提出一种受物理学启发的轻量级自适应控制器——能量护盾,通过概率性干预平滑地保证运行时公平性,并首次同时提供短期安全性和长期活性保证。
动态神经Koopman蒸馏:基于扩散模型的实时机器人控制
AI总结 提出动态神经Koopman蒸馏框架,将多步扩散推理蒸馏为单步前向传递,通过因子化动态Koopman层保留多模态表达能力,在D4RL MuJoCo和物理机器人上实现毫秒级延迟的闭环控制。
Comments 8 pages, 5 figures
MuJoCoUni:MuJoCo的持久化批处理运行时原语
AI总结 提出MuJoCoUni,一个用于在线机器人学习和批处理物理评估的MuJoCo下游发行版,通过BatchEnvPool提供有状态环境执行的运行时原语,支持高吞吐并行执行并保持上游语义。
Comments Technical report
BandVQ: 分带向量量化的脑电图基础模型
AI总结 针对脑电图基础模型中频率特异性活动表征不足的问题,提出BandVQ模型,通过分带VQ-VAE分词器和共享Transformer编码器,在71个公共数据集上预训练,并在六个分类任务上取得领先性能。
Comments 15 pages, 1 figure
共享分数的四元数自注意力
AI总结 提出一种共享分数四元数自注意力机制,通过四元数内积计算单一实值分数并共享注意力分布,在保持性能的同时大幅降低计算成本。
Comments 26 pages, 6 figures and 15 tables. Accepted at ICML2026
MultiHaluDet: 通过LLM隐藏状态探测实现多语言幻觉检测
AI总结 提出MultiHaluDet框架,通过探测冻结LLM的全隐藏状态轨迹,结合多尺度注意力和自注意力池化的混合架构,以及校准的经典分类器集成,实现跨语言的高精度幻觉检测,在英语基准上达到98.55% AUROC,并展现出对高、中、低资源语言的强泛化能力。
Comments MeLLM @ ACL 2026