DIPHINE: Diffusion-based $Φ$-ID Neural Estimator
DIPHINE: 基于扩散的 $\Phi$ID 神经估计器
发表机构 * KAUST(卡塔尔科学与技术部) ; EURECOM(欧雷康)
AI总结 提出首个基于扩散模型的神经估计器 DIPHINE,用于计算连续非高斯动力系统的集成信息分解($\Phi$ID),通过单个摊销网络联合估计所有互信息项,并利用 Möbius 逆变换恢复十六个原子。
DIPHINE: 基于扩散的 $\Phi$ID 神经估计器
发表机构 * KAUST(卡塔尔科学与技术部) ; EURECOM(欧雷康)
AI总结 提出首个基于扩散模型的神经估计器 DIPHINE,用于计算连续非高斯动力系统的集成信息分解($\Phi$ID),通过单个摊销网络联合估计所有互信息项,并利用 Möbius 逆变换恢复十六个原子。
展示,而非询问:基于轮次有效覆盖的生成式视觉消歧用于组合图像检索
发表机构 * Amsisan Tran ; Baogh Le ; Tuan Kiet Pham ; Sui Yang Guang
AI总结 提出CLARA框架,通过展示视觉备选面板让用户选择,结合似然比重校准实现多轮覆盖保证,在组合图像检索中有效消歧,优于文本提问基线。
G-IdiomAlign:基于释义的跨语言习语对齐基准
发表机构 * NLP 2 CT Lab, Department of Computer and Information Science, University of Macau(NLP 2 CT实验室,计算机与信息科学系,澳门大学) ; Faculty of Arts and Humanities, University of Macau(人文学院,澳门大学)
AI总结 提出G-IdiomAlign基准,通过维基词典释义锚定习语,构建高置信度对齐集,并设计多项选择等价测试和释义对比生成协议,揭示大语言模型在习语翻译中的字面翻译偏差。
Comments Accepted to ACL 2026
ThinkDeception: 一种用于可解释多模态欺骗检测的渐进式强化学习框架
发表机构 * Xi'an Jiaotong-Liverpool University(西安交通大学利物浦大学)
AI总结 提出ThinkDeception框架,将多模态大语言模型引入欺骗检测,通过逐步推理和视觉-音频一致性组相对策略优化(VAC-GRPO)实现可解释的认知推理,在主流基准上达到新SOTA。
Comments 10pages,4figures
超越分词:面向时间序列问答的直接时间步嵌入与对比对齐
发表机构 * Deakin University(德肯大学)
AI总结 提出CADE框架,通过逐点线性编码器直接嵌入每个时间步,避免分词瓶颈,并利用单向监督对比损失对齐时间序列与文本锚点,在Time-MQA基准上提升六项TSQA任务性能。
Visual-OPSD:用于高效统一多模态推理的跨模态在策略自蒸馏
发表机构 * Xi’an Jiaotong University(西安交通大学) ; MOE KLINNS Lab(MOE KLINNS实验室) ; Shaanxi Province Key Laboratory of Big Data Knowledge Engineering(陕西省大数据知识工程重点实验室) ; Sun Yat-sen University(中山大学)
AI总结 提出Visual-OPSD方法,通过跨模态在策略自蒸馏,将多步扩散生成的可视化思维推理能力转移到纯文本学生模型,实现14.3倍加速且性能提升3.40个百分点。
脑MRI的量子潜GAN增强的受控基准测试
发表机构 * Department of Mathematics(数学系) ; Department of Political and Social Sciences(政治与社会科学系)
AI总结 通过受控基准测试,比较量子与经典生成器在脑MRI数据增强中的性能,发现两者均未显著优于仅用真实数据训练,且量子生成器无额外优势。
Comments This work has been submitted to the IEEE for possible publication. This work has been submitted to the IEEE for possible publication
EfficientRollout: 面向强化学习推演的感知系统的自推测解码
发表机构 * FuriosaAI ; University of California, Berkeley(加州大学伯克利分校)
AI总结 针对强化学习推演中自回归解码延迟瓶颈,提出感知系统的自推测解码框架,通过量化自推测解码器与感知系统的推测开关策略,在保持模型质量前提下降低推演和端到端延迟。
Comments Project Page: https://github.com/furiosa-ai/EfficientRollout
无环境奖励的固定通道感知事件流在线奖惩学习
发表机构 * Zirong Li(李 Cirong)
AI总结 提出OHIRL框架,在无标量奖励下通过固定通道感知流进行在线奖惩学习,利用内部轨迹评估器推断感知维度的效价,在XOR任务和CartPole等控制任务中达到高准确率。
Comments 9 pages, 5 figures, 6 tables; 13-page technical supplement
做自己的老师:通过无监督奖励优化引导蛋白质语言模型
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; MBZUAI ; Hong Kong University of Science and Technology(香港科学理工大学)
AI总结 提出无监督奖励优化框架,结合模型不确定性和语义一致性作为代理奖励,通过SRO和BRO算法优化PLMs,在无标签数据下实现可控蛋白质生成,性能接近有监督方法。
Comments 24 pages, 2 figures, 13 tables
Mem-World:用于持久机器人操作的内存增强动作条件世界模型
发表机构 * Dalian University of Technology(大连理工大学) ; Samsung R&D Institute China-Beijing (SRCB)(三星中国北京研究院)
AI总结 提出Mem-World,通过4D腕部视角曲面元索引内存W-VMem,解决操作中因遮挡和运动导致的场景遗忘问题,实现持久世界建模,提升策略评估与改进效果。
TactSpace: 学习富含物理信息的共享潜在空间以实现触觉模拟到现实的迁移
发表机构 * Robotic Systems Lab, ETH Zürich(瑞士苏黎世联邦理工学院机器人系统实验室) ; Micro- and Nanosystems Lab, ETH Zürich(瑞士苏黎世联邦理工学院微纳系统实验室) ; ETH AI Center(苏黎世联邦理工学院人工智能中心) ; NVIDIA(NVIDIA公司)
AI总结 提出多模态表示学习框架TactSpace,通过共享潜在空间对齐异构触觉模态,实现零样本模拟到现实迁移,在力预测和形状重建任务中分别降低误差16.7%和45.8%。
Comments 9 pages, 6 figures, 4 tables, accepted into IROS 2026
运动聚焦的潜在动作使跨实体VLA训练能从人类自我中心视频中学习
发表机构 * Department of Electronic Engineering, Tsinghua University(清华大学电子工程系) ; Tianfu Jiangxi Laboratory(天府江西实验室)
AI总结 提出基于潜在动作的框架,利用混合解耦VQ-VAE从无标签人类视频中提取通用动作先验,通过意图-感知解耦策略减少动作幻觉,仅需50条轨迹即可适配下游任务。
Comments Accepted to IROS 2026
GraphPO:基于图的推理模型策略优化
发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China(中国人民大学北京校区人工智能学院) ; Ant Group(蚂蚁集团)
AI总结 提出GraphPO框架,将推理轨迹建模为有向无环图,通过合并语义等价路径减少冗余探索,并利用边级优势函数提高推理效率,在多个基准上优于链式和树式方法。
面向零样本仿真到现实VLA增强的以对象为中心的残差强化学习
发表机构 * KAIST(韩国科学技术院) ; Microsoft Research Asia - Tokyo(微软亚洲研究院-东京) ; The University of Tokyo(东京大学)
AI总结 提出以对象为中心的残差强化学习框架,在仿真中训练策略,零样本迁移到真实机器人,将VLA模型成功率从42%提升至76%。
Comments 8 pages, 7 figures, 2 tables; 8-page appendix
SP-TransientBench: 一个真实捕获的单光子感知基准
发表机构 * Shanghai University(上海大学) ; Southern University of Science and Technology(南方科技大学) ; The University of Sydney(悉尼大学)
AI总结 针对单光子LiDAR在真实场景中因噪声和多回波瞬态现象导致的感知挑战,提出包含10个场景、10297个视角的真实捕获多任务基准STB,支持深度估计、多视图重建和3D语义理解评估。
RTSGameBench: 视觉语言模型战略推理的RTS基准
发表机构 * Seoul National University(首尔国立大学)
AI总结 提出RTSGameBench,基于Beyond All Reason游戏,通过多样化对战、迷你游戏诊断和自进化生成框架,评估视觉语言模型在实时策略游戏中的战略推理能力。
Comments First two authors contributed equally
C-ARC: 面向非重复式LiDAR传感器的连续自适应范围聚类
发表机构 * Technical University of Darmstadt(德累斯顿技术大学) ; Simulation, Systems Optimization and Robotics Group(仿真、系统优化与机器人组)
AI总结 提出C-ARC框架,通过滑动窗口上的持久双图结构解耦高频点插入与按需聚类检索,并利用指数控制环自适应校准网格分辨率,实现非重复式LiDAR点云的实时聚类。
Comments Submitted to IEEE Robotics and Automation Letters. This work has been submitted to the IEEE for possible publication. 8 pages, 7 figures
将搜索与推理解耦:面向LLM Agent的供应商无关的接地架构
发表机构 * DoorDash, Inc.(DoorDash公司)
AI总结 提出解耦搜索接地(DSG)架构,将搜索接地从推理模型中分离,通过MCP兼容网关实现供应商路由、缓存等控制,在降低成本和延迟的同时保持或提升准确性。
Comments 15 pages, Figure 8
SenFlow: 面向混合文档中AI生成文本检测的句间流建模
发表机构 * Northwestern Polytechnical University(西北工业大学) ; Zhejiang Lab(浙江实验室)
AI总结 针对人机混合文档的句子级AI文本检测,提出SenFlow模型,通过图传播和CRF解码建模句间依赖,在MOSAIC基准上跨域F1提升4.15个百分点。
Comments 16 pages, 4 figures, 9 tables
物理智力验证
发表机构 * Anates Labs(Anates实验室) ; Technical University of Munich(慕尼黑技术大学) ; University of Technology Nuremberg(纽伦堡技术大学) ; Tuebingen AI Center, University of Tuebingen(图宾根大学人工智能中心) ; Helmholtz AI, Munich(慕尼黑海德堡人工智能研究所) ; Google DeepMind research(谷歌DeepMind研究)
AI总结 本文提出Physics-IQ Verified基准,通过改进提示和地面真实质量及引入样本级评分系统,提升视频生成模型对物理现实的理解评估,验证结果表明基准提升了57.6%的样本和34.8%的提示。
SciRisk-Bench:面向AI4Science安全的风险维度感知基准
发表机构 * Brain-inspired Cognitive Intelligence Lab, Institute of Automation, Chinese Academy of Sciences, Beijing, China(脑启发认知智能实验室,自动化研究所,中国科学院,北京,中国) ; School of Future Technology, University of Chinese Academy of Sciences, China(未来技术学院,中国科学院大学,中国) ; School of Artificial Intelligence, University of Chinese Academy of Sciences, China(人工智能学院,中国科学院大学,中国) ; Zhongguancun Academy, China(中关村学院,中国) ; Beijing Key Laboratory of Safe AI and Superalignment(北京安全人工智能与超对齐重点实验室) ; Gaoling School of AI, Renmin University of China(甘露人工智能学院,中国人民大学) ; Beijing Institute of AI Safety and Governance (Beijing-AISI)(北京人工智能安全与治理研究院(北京-AISI)) ; School of Humanities, University of Chinese Academy of Sciences, China(人文学院,中国科学院大学,中国)
AI总结 提出SciRisk-Bench基准,从显式风险维度和科学学科两个角度评估AI4Science安全,覆盖7个学科、31个子学科和10个风险维度,实验揭示主流及科学大模型的安全薄弱环节。
基于LLM启发式的零样本主动特征获取
发表机构 * Faculty of EE, Technion(技术学院电子工程系) ; Faculty of Medicine, Technion(技术学院医学院) ; CytoReason ; NVIDIA
AI总结 提出通过LLM启发式获取马尔可夫随机场充分统计量的零样本主动特征获取框架,解决数据标注不足问题,在IBD患者诊断中优于现有方法。
谁赢得冲突?音频大模型中文本偏差的机制可解释性
发表机构 * School of Electrical Engineering, KAIST(韩国科学技术院电子工程学院)
AI总结 本文通过机制分析揭示音频大模型中的文本主导偏差,发现文本路径主动抑制完整音频表征,并提出无训练干预方法back-patching以增强音频表征,缓解文本主导。
Comments Preprint
GrapNet: 一种可编程的动态架构神经图基板
发表机构 * Zirong Li(李子荣)
AI总结 提出GrapNet,一种将图作为可执行架构的神经基板,通过可编程接口支持结构编辑、冻结子图、局部审计等操作,在Split Fashion-MNIST和Split CIFAR-10上分别提升12.08和3.81个百分点的准确率。
Comments 8 pages, 1 figure, preprint
像火箭科学一样简单:评估大型语言模型解释比喻语言中否定能力的研究
发表机构 * Intelligent Systems Lab University of Bristol(智能系统实验室 英国布里斯托尔大学) ; ILLC University of Amsterdam(阿姆斯特丹大学语言学研究所)
AI总结 本研究通过开发新的注释数据集,测试多种大型语言模型在比喻语言中理解否定的能力,发现否定与比喻的组合对模型构成挑战,且性能高度依赖提示风格。
Comments 16 pages, 16 figures; for associated code and data see https://github.com/jrdowers/Negation-and-Fig-Lang; To be published in Transactions of the Association for Computational Linguistics
二值化神经网络鲁棒性验证的一些复杂性结果
发表机构 * Indian Institute of Technology Goa(印度理工学院Goa)
AI总结 本文通过从布尔可满足性问题归约证明二值化神经网络的可满足性是NP完全的,并利用均匀遮挡导致的网络输出分段常数结构,提出多项式时间鲁棒性检查算法。
REVES:通过修订与验证增强的测试时扩展训练
发表机构 * Northwestern University(西北大学) ; Amazon AGI(亚马逊人工智能实验室) ; Qualcomm AI Research(高通人工智能研究) ; University of Minnesota(明尼苏达大学)
AI总结 提出REVES框架,通过将中间步骤的“接近正确”答案转化为解耦的修订和验证提示,实现高效的离策略数据生成,提升大语言模型的多步推理能力,在LiveCodeBench上比强化学习基线高6.5分。
BindEdit: 驯服注意力泄漏以实现精确的多目标图像编辑
发表机构 * Sookmyung Women’s University(成均女性大学) ; Yonsei University(延世大学) ; Samsung Research(三星研究院)
AI总结 针对多目标图像编辑中的语义混合和对象重复问题,提出BindEdit方法,通过联合正则化交叉注意力和自注意力、交叉注意力重平衡机制及区域保真项,在单次扩散轨迹内抑制注意力泄漏,实现精确编辑。
Comments Preprint
SAGE: 基于智能体引导探索的随机提示优化
发表机构 * Slingshot AI ; Department of Engineering, University of Cambridge(剑桥大学工程系)
AI总结 提出随机提示优化框架SPO,其中SAGE方法通过多智能体诊断代码执行实现黑盒搜索,在多个基准测试中表现依赖于错误类型,并在心理健康聊天机器人中通过连续优化显著提升次日留存率。