Probability-Conserving Flow Guidance
概率守恒的流引导
发表机构 * University of Bristol(布里斯托大学) ; KAIST(韩国科学技术院)
AI总结 本文提出了一种概率守恒的流引导方法AdaMaG,通过分析连续方程,将引导效果分解为发散项和分数平行项,并通过时间依赖的调度和分数平行衰减来控制这两个项,从而在不增加推理成本的情况下提高生成质量并减少幻觉。
概率守恒的流引导
发表机构 * University of Bristol(布里斯托大学) ; KAIST(韩国科学技术院)
AI总结 本文提出了一种概率守恒的流引导方法AdaMaG,通过分析连续方程,将引导效果分解为发散项和分数平行项,并通过时间依赖的调度和分数平行衰减来控制这两个项,从而在不增加推理成本的情况下提高生成质量并减少幻觉。
CopT: 在连续空间中利用对比学习进行通用和代理推理的在线策略思考
发表机构 * Georgia Tech(佐治亚理工学院) ; UC Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学) ; Microsoft(微软公司)
AI总结 本文提出CopT,一种改进的推理流程,通过反转传统思考和回答的顺序,首先生成草稿答案,再基于该答案进行在线策略思考以进行反思和修正。CopT利用连续嵌入作为推理时的对比验证器,通过对比离散令牌输入和连续嵌入输入下模型对相同生成令牌的支持,得到一个序列级的反KL估计器来评估答案的可靠性。在数学、编程和代理推理任务中,CopT在保持同等或更高准确性的情况下,将峰值准确率提高了高达23%,并将令牌使用量减少了高达57%。
Comments Code: https://github.com/sdc17/CopT, Website: https://copt-web.github.io/
面向组合优化中算法对齐的蒸馏保证
发表机构 * SEAS, Harvard University(哈佛大学SEAS学院)
AI总结 本文研究了在算法对齐框架下,通过蒸馏将大规模模型的知识转移到更高效的模型以用于部署的问题,重点分析了当目标模型是图神经网络且其架构与动态规划算法对齐时,蒸馏成功的条件。
Comments 22 pages
基于机器学习和区域生长的X射线心血管造影血管分割
发表机构 * Department of Academic Informatics (DAINF), Universidade Tecnologica Federal do Parana (UTEPR)(学术信息系(DAINF),技术联邦大学帕托布拉桑分校(UTEPR)) ; Graduate Program of Applied Sciences to Health Products, Universid ade Federal Fluminense (UFF)(健康产品应用科学研究生项目,联邦理工学院弗洛里亚纳分校(UFF)) ; Primary Health Care, Pato Branco Prefecture, Parana, Brazil(帕托布拉桑市初级卫生保健,巴兰省,巴西) ; Innovation Office, Mass General Brigham Hospital, Cambridge, Massachusetts, United States of America(麻省总医院创新办公室,剑桥,马萨诸塞州,美国)
AI总结 本文提出了一种基于像素分类的X射线血管分割方法,利用纹理特征和区域生长技术,通过随机森林分类器实现高精度血管识别,达到95.48%的准确率。
Journal ref Biomedical Physics & Engineering Express 2021
探查具身大语言模型:当更高的观察保真度损害问题解决
发表机构 * Robotics and Biology Laboratory, Technische Universität Berlin, Germany(柏林技术大学机器人与生物学实验室) ; Science of Intelligence, Research Cluster of Excellence, Berlin, Germany(柏林科学智能研究卓越集群) ; Robotics Institute Germany (RIG)(德国机器人研究所(RIG))
AI总结 本文研究了具身大语言模型在不同观察信息下的行为,发现高保真度观察反而降低了问题解决能力,核心方法是通过实验改变可用信息并测量行为变化,主要贡献是揭示了感知误差与推理失败的交互影响。
Comments Submitted to From Animals to Animats: The 18th International Conference on the Simulation of Adaptive Behavior (SAB)
利用计算断层扫描和图像到图像的条件生成对抗神经网络进行心脏脂肪分割
发表机构 * Academic Department of Informatics, Universidade Tecnoldgica Federal do Parand (UTFPR)(信息学学术部门,联邦技术大学(UTFPR))
AI总结 本研究提出了一种基于深度学习的新方法,利用pix2pix网络对心脏脂肪进行自动分割和量化,实现了高精度的epicardial和mediastinal脂肪分割,并在准确率和运行时间上优于现有方法。
Journal ref Medical Engineering & Physics 2024
奖励信念,而非行动:一致性引导的长期智能体信用分配
发表机构 * College of Computer, National University of Defense Technology(国防科技大学计算机学院) ; Intelligent Game and Decision Lab (IGDL)(智能游戏与决策实验室) ; Institute of Artificial Intelligence, Xiamen University(厦门大学人工智能研究院)
AI总结 本文提出ReBel算法,通过建模结构化信念状态来指导策略学习,解决长期任务中由于部分可观测性导致的信用分配问题,实验表明其在ALFWorld和WebShop等基准测试中提升了任务成功率并提高了样本效率。
Comments 10 pages, 4 figures, 3 tables, plus appendix
语言变异维持社交媒体上阴谋论的持续性
发表机构 * Oxford Internet Institute, University of Oxford(牛津大学互联网研究所) ; Department of Mathematics, University of Zurich(苏黎世大学数学系)
AI总结 本研究探讨了语言变异如何影响社交媒体上阴谋论的持续传播,通过分析X平台三年的阴谋相关帖子数据,发现语义变异更大的阴谋论具有更长的生命周期,且心理语言学属性的变异与延长生命周期有关。
OP2GS: 带双不透明度的物体感知3D高斯散射
发表机构 * Center for Machine Vision and Signal Analysis, University of Oulu, Finland(奥卢大学机器视觉与信号分析中心,芬兰) ; Aalto University, Finland(阿尔托大学,芬兰)
AI总结 OP2GS通过引入双不透明度机制,为每个原始体素添加显式实例身份和专用实例不透明度σ*,以解决3D高斯散射在物体层面身份缺失的问题,从而提升开放词汇场景理解的性能。
Comments Under review
主动上下文选择提升上下文老虎机中的简单遗憾
发表机构 * College of Management of Technology, EPFL(EPFL技术管理学院) ; Department of Computer Science, TU Munich(慕尼黑工业大学计算机科学系)
AI总结 本文研究了具有有限上下文空间的上下文多臂老虎机问题,通过主动选择上下文样本来优化简单遗憾,提出了一种在已知和未知上下文分布时均能有效提升性能的算法。
当批评者意见不一致时:RIS辅助无线控制系统中的自适应奖励中毒攻击
发表机构 * Department of Computer and Software Engineering(计算机与软件工程系)
AI总结 本文提出了一种基于分歧引导的奖励中毒攻击(DGRP),用于攻击Soft Actor-Critic(SAC)智能体,以评估RIS辅助网络中深度强化学习(DRL)的鲁棒性。
面向高效多模态大语言模型的阶段自适应令牌选择
发表机构 * Renmin University of China(中国人民大学) ; WeChat Vision, Tencent Inc.(腾讯微信视觉实验室)
AI总结 本文提出SEATS方法,通过阶段自适应的令牌选择技术,有效提升多模态大语言模型的推理效率,在保留96.3%原始性能的同时,实现9.3倍的FLOPs减少和4.8倍的prefill加速。
Comments Code Link: https://github.com/xxayt/SEATS
为无训练多模态步骤验证构建纳什均衡框架
发表机构 * Microsoft Research India(微软印度研究院) ; Indian Institute of Technology Hyderabad(印度海得拉巴理工学院)
AI总结 本文提出一种无训练的多模态步骤验证方法,将步骤验证视为专门法官之间的协调问题,并通过纳什均衡游戏形式化法官之间的交互,通过闭式解计算均衡分数,实现对分歧的敏感过滤和稳定性意识的排名,实验表明跨模态一致性(而非平均置信度)提供了鲁棒的验证信号。
Comments ICLR 2026 Workshop VerifAI-2
CAMERA: 适应语义伪装的无监督文本属性图欺诈检测
发表机构 * School of Information and Communication Technology, Griffith University, Australia(格里菲斯大学信息与通信技术学院,澳大利亚) ; Department of Computer Science and Information Technology, La Trobe University, Australia(拉特罗布大学计算机科学与信息技术系,澳大利亚)
AI总结 本文提出CAMERA框架,通过适应性多 cue 专家模型来应对语义伪装问题,利用图结构和文本属性信息进行无监督欺诈检测,提高对伪装欺诈者的识别能力。
Comments Accepted by IJCAI 2026
无需训练的贝叶斯过滤与生成模拟器
发表机构 * SAIL, Montefiore institute, University of Liège, Belgium(SAIL、蒙费伊尔研究所、利耶大学、比利时)
AI总结 本文提出一种无需额外训练的最优粒子滤波变种,利用基于扩散的动力学模拟器,解决了高维环境下粒子滤波的可扩展性问题,通过非线性混沌系统实验验证了其有效性。
Comments Accepted as a spotlight paper at the International Conference on Machine Learning 2026
FlexDraft: 通过注意力调节和奖励引导校准实现灵活的推测解码
发表机构 * EPIC Lab, SJTU(上海交通大学EPIC实验室) ; UESTC ; School of Software Engineering, HUST(华中科技大学软件工程学院) ; Tsinghua University(清华大学) ; HKUST(GZ)(香港科技大学(广州)) ; Shanghai AI Laboratory(上海人工智能实验室)
AI总结 本文提出FlexDraft框架,通过注意力调节和奖励引导校准,灵活适应不同批处理大小,解决传统并行推测解码在大批次时的吞吐量下降问题。
精确且简单的音频到乐谱对齐
发表机构 * Institute of Computational Perception, Johannes Kepler University(计算感知研究所,约翰·凯普勒大学) ; LIT AI Lab, Linz Institute of Technology(LIT人工智能实验室,林茨技术学院)
AI总结 本文提出了一种直接连接音频样特征和符号级特征的算法,该算法基于符号对齐方法,实现了高精度且灵活的音频到乐谱对齐,适用于不同音色特性。
Comments published at the Music Encoding Conference (MEC) 2026
用最优双贝叶斯学习训练神经网络
发表机构 * Lister Hill National Center for Biomedical Communications, National Library of Medicine National Institutes of Health(利斯特希尔国家生物医学通讯中心、国家医学图书馆国家卫生研究院)
AI总结 本文提出了一种新的概率框架,用于学习率这一关键参数,通过双贝叶斯决策机制改进随机梯度下降,从而推导出理论上最优的学习率,并在多种任务中验证其有效性。
Comments 13 pages, 4 figures; see also arXiv:2410.12984 [cs.LG]
GeoX:通过自我对战和可验证奖励掌握地理空间推理
发表机构 * KAIST(韩国科学技术院) ; MPI-SP(马克斯·普朗克研究所) ; MPI-SWS(马克斯·普朗克研究所)
AI总结 本文提出GeoX框架,通过自我对战和可验证奖励解决图像 grounded 的复杂空间问题,无需大规模人工标注数据,提升了基础视觉语言模型在地理空间理解上的性能。
Comments 26 pages,12 figures, 9 tables
通过损失自适应学习率实现无遗忘的微调
发表机构 * University of California San Diego(加州大学圣迭戈分校)
AI总结 本文提出了一种损失自适应学习率调度方法FINCH,通过动态调整学习率来减少微调过程中的遗忘现象,同时保持任务性能,从而在知识获取、科学和低资源语言适应等基准测试中显著提升了模型表现。
Comments 25 pages
LLM基准数据集应具备抗污染性
发表机构 * The Pennsylvania State University, University Park, PA, USA(宾夕法尼亚州立大学)
AI总结 本文探讨了LLM基准数据集应具备抗污染性,提出通过改进数据集设计和架构来提高其可靠性和通用性。
Comments Accepted to ICML 2026 Position Paper Track
CogOmniControl: 通过创意意图认知实现推理驱动的可控视频生成
发表机构 * SKL-IOTSC, CIS, University of Macau(澳门大学SKL-IOTSC、CIS实验室) ; Online-Video BU, Tencent(腾讯在线视频事业部)
AI总结 本文提出CogOmniControl框架,通过将可控视频生成分解为创意意图认知和生成两个阶段,利用专门训练的CogVLM生成更专业清晰的输出,并通过强化学习对齐不同条件的控制,最终在两个基准测试中超越现有开源模型。
极简视觉惯性里程计
发表机构 * Department of Information Engineering, University of Padua(帕多瓦大学信息工程系) ; Computer Science Department, Columbia University(哥伦比亚大学计算机科学系)
AI总结 本文提出了一种极简的平面里程计方法,通过四个视觉测量和一个IMU实现差分驱动机器人的鲁棒运动估计,展示了极简传感在高效准确平面里程计中的应用。
Comments This work has been submitted to the IEEE for possible publication
超越二元成功:一种用于细粒度操控的诊断元评估框架
发表机构 * Southeast University(东南大学) ; Monash University(墨尔本大学) ; Xiaomi EV(小米电动车) ; University of Copenhagen(哥本哈根大学) ; Peking University(北京大学)
AI总结 本文提出MetaFine框架,通过分解理解、感知和受控行为三个维度,诊断细粒度操控中的能力瓶颈,并通过因果干预识别视觉编码器在保持局部空间结构方面的关键限制,从而提升操控精度。
Comments Project page: https://metafine.github.io/
基于奖励的学习倾听的概念框架:好奇心驱动的新型声源搜索
发表机构 * CHI – Chair of Health Informatics, Technical University of Munich(健康信息学系,慕尼黑技术大学) ; MCML – Munich Center for Machine Learning(慕尼黑机器学习中心) ; MDSI – Munich Data Science Institute(慕尼黑数据科学研究所) ; GLAM – Group on Language, Audio, & Music, Imperial College(语言、音频与音乐小组,帝国学院)
AI总结 本文提出了一种基于奖励的学习倾听的概念框架,通过好奇心驱动的新型声源搜索来解决音频领域中强化学习应用不足的问题。
InterLight: 利用内在照明先验进行低光照图像增强
发表机构 * National Engineering Research Center for Multimedia Software, School of Computer Science, Wuhan University(武汉大学计算机学院多媒体软件国家工程研究中心) ; Department of Computer Science, University of Macau(澳门大学计算机科学系) ; Department of Computer Vision, Mohamed bin Zayed University of Artificial Intelligence(马尔代夫穆罕默德·本·扎耶德人工智能大学计算机视觉系) ; School of Information Engineering, Guangdong University of Technology(广东技术大学信息工程学院)
AI总结 本文提出InterLight框架,通过系统挖掘和操作内在照明先验来解决低光照图像增强问题,核心方法是构建照明感知的处理流程,通过物理引导增强和自监督一致性目标实现更清晰的纹理和更一致的增强效果。
Comments Accepted by IJCAI 2026. Code: https://github.com/House-yuyu/InterLight
CEER:一种用于分层人形机器人运动-操作的合规末端执行器-根控制统一接口
发表机构 * Department of Mechanical Engineering and Materials Science(机械工程与材料科学系)
AI总结 本文提出CEER,一种用于分层人形机器人运动-操作的合规末端执行器-根控制统一接口,通过模块化接口实现接触丰富和长时程操作任务的稳定交互,实验表明其在仿真和硬件上均表现出较高的末端执行器跟踪精度和操作稳定性。
Comments Project page: https://robotproject8.github.io/ceer_page/. 9 pages, 7 figures
RECIPE: 通过指令视频中的 grounding 实现过程规划
发表机构 * Khoury College of Computer Sciences, Northeastern University, Boston(东北大学北斯托顿学院计算机科学学院) ; Department of Mathematics and Computer Science, University of Catania, Italy(卡塔尼亚大学数学与计算机科学系)
AI总结 该研究提出RECIPE方法,通过利用指令视频中的grounding信息来改进过程规划任务,通过利用预计算的文本嵌入实现大规模视频数据的验证,从而提升规划的准确性和鲁棒性。
具有前瞻性学习:通过多节点前瞻性预测增强神经路由策略
发表机构 * Eindhoven University of Technology(埃因霍温理工大学) ; Nanyang Technological University(南洋理工大学) ; Agency for Science, Technology and Research (A*STAR)(科技研究局(A*STAR))
AI总结 本研究提出多节点前瞻性预测(MnLP)方法,通过扩展监督学习范式同时预测多个未来节点,提升神经路由策略的长期规划能力,并在不同问题规模和现实基准上改进泛化能力。
Comments Accepted by the 35th International Joint Conference on Artificial Intelligence
SphericalDreamer: 通过全景融合生成可导航的沉浸式3D世界
发表机构 * Université Côte d'Azur, CNRS, I3S, France(法国蔚蓝海岸大学、国家科学研究中心、I3S研究所) ; Criteo AI Lab, Paris, France(法国Criteo人工智能实验室)
AI总结 本研究提出SphericalDreamer方法,通过生成多个全景图像并将其提升到3D空间中进行融合,从而生成高度细节且可导航的沉浸式3D户外环境,显著提升了尺度和可导航性。
Comments Accepted at ICML 2026. Project page available at https://sphericaldreamer.github.io