Trust Region Q Adjoint Matching
信任区域Q伴随匹配
发表机构 * KAIST AI(韩国科学技术院人工智能) ; Seoul National University(首尔国立大学) ; RLWRLD
AI总结 针对预训练流策略的离策略强化学习不稳定性,提出信任区域Q伴随匹配方法,通过投影对偶下降自适应控制路径空间KL散度,实现稳定微调,在50个OGBench任务中离线RL成功率达68%。
信任区域Q伴随匹配
发表机构 * KAIST AI(韩国科学技术院人工智能) ; Seoul National University(首尔国立大学) ; RLWRLD
AI总结 针对预训练流策略的离策略强化学习不稳定性,提出信任区域Q伴随匹配方法,通过投影对偶下降自适应控制路径空间KL散度,实现稳定微调,在50个OGBench任务中离线RL成功率达68%。
SoftCap: 扩散Transformer加速的软预算控制
发表机构 * Hefei University of Technology(合肥工业大学) ; University of Science and Technology of China(中国科学技术大学) ; Anhui University of Science and Technology(安徽理工大学) ; University of Macau(澳门大学)
AI总结 提出一种无需训练的软预算控制层SoftCap,通过轨迹漂移观测器和软预算PI控制器动态调整全步触发阈值,在保持计算预算软上限的同时提升图像质量。
IPIBench: 在连续流下评估多模态大模型的交互式主动智能
发表机构 * College of AI, Tsinghua University(清华大学人工智能学院) ; ByteDance(字节跳动)
AI总结 提出IPIBench基准,用于评估多模态大模型在流式视频场景中的交互式主动智能,并设计IPI-Agent框架以改善主动触发和交互协调。
学习在不确定性下编排智能体
发表机构 * Department of Applied Mathematics and Theoretical Physics, University of Cambridge(应用数学与理论物理系,剑桥大学) ; Centre for Human-Inspired Artificial Intelligence, University of Cambridge(启发式人工智能中心,剑桥大学) ; African Institute for Mathematical Sciences, South Africa(南非数学科学研究所) ; Department of Engineering Science, University of Oxford(工程科学系,牛津大学)
AI总结 提出BOT-Orch框架,将编排问题转化为带正则化的多臂赌博机问题,在不确定性下实现异构智能体的自适应编排,理论保证遗憾界为O(√T)并优于基线。
可溯源知识图谱推理助力钢铁行业工业VOCs的LLM辅助决策支持
发表机构 * Hunan Key Laboratory of Carbon Neutrality and Intelligent Energy, School of New Energy and Environment, Hunan University of Technology and Business(湖南碳中和与智能能源重点实验室,新能环境学院,湖南科技商务大学) ; Aerospace Kaitian Environmental Technology Co., Ltd.(航天凯天环境科技有限公司) ; School of Energy Science and Engineering, Central South University(能源科学与工程学院,中南大学)
AI总结 针对钢铁行业VOCs治理知识分散、通用大模型易产生幻觉的问题,提出基于知识图谱增强的多智能体问答系统Chat-ISV,通过拓扑优化、多智能体路由和源回溯检索实现高可靠性决策支持。
QUACK: 多模态社交推理智能体中的沟通知识质疑、理解与审计
发表机构 * McGill University(麦吉尔大学) ; Mila - Quebec AI Institute(魁北克人工智能研究所) ; University of Cambridge(剑桥大学) ; MBZUAI - Mohamed bin Zayed University of Artificial Intelligence(MBZUAI - 摩苏尔·本·扎耶德人工智能大学) ; University of Toronto(多伦多大学) ; Salesforce
AI总结 提出QUACK框架,通过游戏结果、行为轨迹和话语一致性三级评估,自动审计多模态社交推理智能体语言与感知行为的一致性,发现最强智能体仍有15.1%的空间幻觉和过半无据指控。
BEAT: 节奏弹性对齐用于智能音乐引导的电影预告片生成
发表机构 * The University of Sydney(悉尼大学) ; Shanghai AI Laboratory(上海人工智能实验室)
AI总结 提出BEAT框架,通过音乐-视觉对齐编码器MuVA和能量自适应动态规划算法Bar-DP,实现弹性多对一节奏对齐,用于端到端电影预告片生成。
工业搜索中基于大语言模型的查询驱动事件时间线摘要
发表机构 * Baidu Inc.(百度公司)
AI总结 提出QDET系统,通过多任务微调和强化学习实现查询驱动的事件时间线摘要,在百度搜索中显著提升用户参与度。
Comments Accepted at KDD 2026
通过时间跨度视图对比学习动态图表示
发表机构 * School of Computer Science and Technology(计算机科学与技术学院) ; School of Distance Education(继续教育学院)
AI总结 提出基于时间平移不变性的动态图表示框架CLDG和CLDG++,通过跨时间跨度对比学习和多尺度对比学习,有效提升节点分类和动态图异常检测性能。
Comments Accepted by Neural Networks
FalAR: 一个大规模说话人标注的欧洲葡萄牙语议会会议语音语料库
发表机构 * INESC-ID ; Instituto Superior Técnico(理工学院)
AI总结 为弥补欧洲葡萄牙语语音资源不足,构建了FalAR语料库,包含5800小时议会会议语音及说话人标注,实验表明作为预训练数据可使ASR词错误率相对降低14%。
Comments Published in LREC2026
BhashaSetu:一种以数据为中心的低资源机器翻译方法
发表机构 * Department of Computer Engineering and Information Technology, Veermata Jijabai Technological Institute, Mumbai(孟买韦尔马塔·吉贾拜技术学院计算机工程与信息技术系) ; Tübingen AI Center, University of Tübingen, Germany(图宾根大学图宾根人工智能中心,德国)
AI总结 提出BhashaSetu数据集,通过大规模、多领域、形态感知的英-马拉地语平行语料库,并验证语料库级去重对低资源神经机器翻译质量的关键影响。
学习平衡电机热安全与四足运动性能的残差策略
发表机构 * School of Mechanical Science and Engineering, Huazhong University of Science and Technology(华中科技大学机械科学与工程学院)
AI总结 提出一种两阶段训练框架,结合整机热模型和残差策略,在保持运动性能的同时防止电机过热,实现长时间负重运动。
ExTax:基于说服、情感和叙事角色分类学的可解释虚假信息检测
发表机构 * Peking University(北京大学) ; University of Science and Technology of China(中国科学技术大学) ; North China University of Science and Technology(华北理工大学) ; Tsinghua University(清华大学) ; Nanjing University of Aeronautics and Astronautics(南京航空航天大学) ; University of Chinese Academy of Sciences(中国科学院大学) ; Soochow University(苏州大学) ; Beihang University(北航) ; University of Illinois Chicago(伊利诺伊大学芝加哥分校)
AI总结 提出ExTax框架,统一说服修辞、情感操纵和叙事角色为17维分类空间,通过熵驱动动态标签平滑和多头注意力融合分类与上下文特征,实现可解释的虚假信息检测,在跨域基准上达到0.8456 Macro F1。
TPS-Drive: 基于VLM的自动驾驶任务引导表示净化
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科学与技术大学(广州))
AI总结 提出TPS-Drive框架,通过任务引导的表示净化(Agent-Centric Tokenizer)解决VLM在自动驾驶中的空间幻觉和表示干扰问题,实现精确的3D空间预测与安全规划。
追踪LLMs中的计算密度
发表机构 * Universitat Pompeu Fabra(庞培法布拉大学) ; ICREA
AI总结 提出s-Trace方法估计最优子图,发现LLM计算分为早期稀疏核心和后期密集细化两个阶段,且计算量与模型不确定性相关。
SCKAN: 基于结构一致性的KAN原型学习用于半监督胰腺分割
发表机构 * School of Computer Science and Technology, Tongji University, Shanghai, China(同济大学计算机科学与技术学院) ; Artificial Intelligence Institute, Shanghai University, Shanghai, China(上海大学人工智能研究院) ; Department of Computer and Data Science and Department of Biomedical Engineering, Case Western Reserve University, Cleveland, USA(凯斯西储大学计算机与数据科学系及生物医学工程系)
AI总结 针对半监督胰腺分割中稀疏监督导致的监督偏差问题,提出基于结构一致性的KAN原型学习方法(SCKAN),通过跨样本结构一致性学习和KAN自适应融合实现更泛化且准确的分割。
Comments 10.5 pages, 5 figures, Medical Image Computing and Computer Assisted Intervention 2026
分享更多,搜索更少:面向高效测试时间扩展的协作并行思考
发表机构 * School of Computer Science, Beijing Institute of Technology(北京理工大学计算机学院) ; Xiaohongshu Inc(小红书公司)
AI总结 提出一种无需训练的协作并行思考框架,通过在并行分支间共享搜索信息来减少冗余探索,从而在测试时间扩展中实现更优的准确率-延迟帕累托边界。
Comments Preprint
少即是多:用于在线策略蒸馏的早停展开
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校) ; Beijing Institute of General Artificial Intelligence(北京通用人工智能研究院)
AI总结 针对在线策略蒸馏中存在的“离策略教师衰减”问题,提出早停展开(ESR)方法,通过限制响应生成的前几个token来提升性能、GPU效率和训练稳定性。
SQARL: 一种适用于分布式量子架构中电路分配的大小无关强化学习方法
发表机构 * Computer Science Department, Universitat Polit\`ecnica de Catalunya - BarcelonaTech (UPC) ; High Performance Artificial Intelligence group, Barcelona Supercomputing Center
AI总结 针对分布式量子计算中的量子比特分配问题,提出一种基于Transformer的灵活强化学习架构,无需重新训练即可处理任意数量的量子比特和核心,在分配成本上比匈牙利量子比特分配算法降低33%。
基于属性的LLM与仇恨言论标注的对齐诊断
发表机构 * School of Computation, Information and Technology, TU Munich(计算、信息与技术学院,慕尼黑技术大学) ; Munich Center for Machine Learning (MCML)(慕尼黑机器学习中心)
AI总结 通过分析LLM在十个主观属性上的判断与人类标注的对齐情况,发现行为显式维度对齐良好而评价维度系统性反转,并提出基于置信度加权岭回归的属性组合方法,重构连续仇恨言论分数,R²达0.71。
NeR-SC:适应屏幕内容的神经视频表示
发表机构 * Management school(管理学院) ; The University of Sheffield(谢菲尔德大学) ; Undergraduate School of Artificial Intelligence(人工智能本科学院) ; Shenzhen Polytechnic University(深圳职业技术大学) ; School of Artificial Intelligence(人工智能学院) ; Shenzhen University of Information Technology(深圳信息大学)
AI总结 提出NeR-SC框架,通过可学习调色板、多门密集融合和嵌入级帧跳过策略,针对屏幕内容视频的离散颜色、强时间冗余等特性进行优化,在低码率下超越H.264/H.265。
Comments Submitted to PRMVAI 2026
ORCA:一种用于优化根因分析的端到端交互式副驾驶
发表机构 * Robert Bosch GmbH, Germany ; Bosch Global Software Technologies Company Limited, Vietnam ; Computer Science Department, TU Darmstadt, Germany ; Hessian Center for Artificial Intelligence (hessian.AI), Darmstadt ; German Center for Artificial Intelligence (DFKI)
AI总结 提出ORCA,一种端到端因果分析副驾驶,通过编排智能体理解用户目标并引导其完成从全自动到高度用户引导的因果分析工作流,涵盖因果发现、效应估计、可解释性和根因分析,并生成结构化报告。
黑盒成员推断攻击:针对图像生成模型的预训练数据
发表机构 * Beijing University of Posts and Telecommunications(北京邮电大学) ; Tsinghua University(清华大学)
AI总结 提出一种基于跨模态数据扰动的黑盒成员推断攻击框架SD-MIA,通过分析扩散模型对目标图像和扰动文本指令的去噪过程,有效检测预训练数据中的成员关系。
Comments 13 pages, 9 figures; CVPR 2026 camera-ready
评估不确定性估计器与LLM幻觉的相关性
发表机构 * CREST, ENSAE Institut Polytechnique de Paris(CREST,巴黎高等理工学院) ; Ekimetrics France(法国Ekimetrics) ; Centre Inria de l’Université Grenoble Alpes(格勒诺布尔阿尔卑斯大学信息研究院)
AI总结 通过系统实证研究,评估信息论、基于采样和反思性等不确定性估计器与LLM幻觉之间的关联,发现关联性高度可变且通常较弱,挑战了将不确定性作为幻觉直接信号的做法。
Comments 35 pages, 7 figures, 9 tables
PersLitEval:波斯文学问题上的细粒度基准与LLM评估
发表机构 * School of Computation, Information and Technology, TU Munich(计算信息与技术学院,慕尼黑工业大学) ; Munich Center for Machine Learning (MCML)(慕尼黑机器学习中心)
AI总结 提出PersLitEval基准,包含4514道波斯文学多选题,评估六种LLM在十种提示策略下的表现,发现模型在概念相似性任务上准确率高,但在拼写和构词等正式语言分析上困难,且提示策略显著影响性能。
使用大型语言模型生成鲁棒的优化模型组合
发表机构 * Max Planck Institute for Software Systems(马克斯·普朗克软件系统研究所) ; Harvard University(哈佛大学)
AI总结 提出一种利用LLM作为随机生成器和推理评估器的统一框架,生成鲁棒的优化模型组合,并保证在生成器或评估器之一与人类偏好对齐时组合中包含高质量候选模型。
Comments Accepted at the ICML 2026 LM4Plan Workshop
SCENT: 将质谱与分子结构对齐用于嗅觉感知
发表机构 * Dept. of Intelligent Systems, KTH Royal Institute of Technology(智能系统系,皇家理工学院) ; Atmospheric Chemistry Dept., Max Planck Institute for Chemistry(大气化学部,马克斯·普朗克研究所) ; Dept. of Information Technology, Uppsala University(信息科技系,乌普萨拉大学) ; Science for Life Laboratory (SciLifeLab), Uppsala(生命科学实验室(SciLifeLab),乌普萨拉)
AI总结 提出SCENT多模态对比学习框架,通过将电子电离质谱表示与预训练化学结构嵌入对齐,在无需分子结构的情况下实现与结构模型相当的嗅觉预测性能。
通过前向-反向扩散步骤链采样数据
发表机构 * Johns Hopkins University(约翰霍普金斯大学) ; EPFL(瑞士联邦理工学院) ; University of Göttingen(哥廷根大学)
AI总结 提出U-turn链,通过扩散模型的短前向-反向步骤迭代构造马尔可夫链,结合Metropolis-Hastings校正从能量修正目标中采样,并发现最小U-turn动力学经历由数据流形碎片化驱动的遍历性破缺相变。
时间步感知的 SVDQuant-GPTQ 用于 Wan2.2-I2V 的 W4A4 量化
发表机构 * National Engineering Research Center for Big Data Technology and System(大数据技术与系统国家工程研究中心) ; Services Computing Technology and System Lab(服务计算技术与系统实验室) ; Cluster and Grid Computing Lab(集群与网格计算实验室) ; School of Computer Science and Technology(计算机科学与技术学院) ; Huazhong University of Science and Technology(华中科技大学)
AI总结 针对 Wan2.2-I2V 视频扩散 Transformer 的 W4A4 量化,提出结合 SVDQuant 低秩异常补偿、GPTQ 重建感知残差权重量化和时间步分箱逐层激活裁剪比搜索的后训练量化框架,在 OpenS2V-Eval 上降低 59.3% 峰值显存且仅损失 0.9% VBench 平均分。
提示注入检测是依赖于场景的:一种基于可解释结构信号的部署感知评估
发表机构 * School of Computer Science, University of Nottingham(诺丁汉大学计算机科学学院)
AI总结 本研究通过多模型、多场景的实验框架,评估了提示注入检测方法,发现检测性能高度依赖于部署场景和阈值选择,其中基于Transformer的模型表现最佳,结构信号在特定场景下提供适度但一致的改进。