PHUMA: Physically Reliable Humanoid Locomotion Dataset
PHUMA:物理可靠的仿人运动数据集
发表机构 * KAIST(韩国科学技术院)
AI总结 本文提出PHUMA数据集,通过结合物理感知的筛选和物理约束的重定向,整合动作捕捉和网络视频,生成物理可靠的仿人运动数据,提升仿人运动的稳定性和泛化能力。
PHUMA:物理可靠的仿人运动数据集
发表机构 * KAIST(韩国科学技术院)
AI总结 本文提出PHUMA数据集,通过结合物理感知的筛选和物理约束的重定向,整合动作捕捉和网络视频,生成物理可靠的仿人运动数据,提升仿人运动的稳定性和泛化能力。
VOLD:通过在线蒸馏将LLM推理能力转移到视觉语言模型
发表机构 * Tuebingen AI Center(图宾根人工智能中心) ; University of Tuebingen(图宾根大学) ; MIT-IBM Watson AI Lab(MIT-IBM沃森人工智能实验室) ; Inria, École Normale Supérieure, CNRS, PSL Research University(法国国家科学研究院、巴黎-萨克勒大学、École Normale Supérieure、PSL研究大学)
AI总结 本文提出VOLD框架,通过在线蒸馏将文本模型的推理能力转移到视觉语言模型,利用组相对策略优化与在线蒸馏结合,提升推理性能,并验证了冷启动对齐在在线训练中的重要性。
Comments www.walidbousselham.com/VOLD/
HOPSE:可扩展的高阶位置和结构编码器用于组合表示
发表机构 * Guillermo Bernárdez University California Santa Barbara(Guillermo Bernárdez 卡尔弗大学圣巴bara分校) ; Sapienza University of Rome(罗马萨皮恩扎大学) ; Universitat Politèqnica de Catalunya(加泰罗尼亚理工大学) ; University of Fribourg(弗里堡大学) ; Aalto University(阿alto大学) ; University California Santa Barbara(加州圣巴bara大学) ; Intelligent Maintenance and Operations Systems, EPFL(EPFL智能维护与操作系统)
AI总结 本文提出HOPSE,一种无需消息传递层的框架,通过Hasse图分解在任意高阶域上生成高效且表达能力强的编码,实现了在组合表示规模线性增长的同时保持HOMP方法的表达能力和排列等价性,实验表明其在分子和拓扑基准上表现优异且速度更快。
见多识广?评估面向Agent-to-Agent多模态说服的视觉语言模型易受性
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校) ; Salesforce AI Research(Salesforce AI研究)
AI总结 本文研究了在多智能体多模态说服场景中,视觉语言模型对多模态内容的易受性,提出了MMPersuade框架和数据集,通过实验揭示了多模态输入在说服中的优势,以及说服对象的领域和格式依赖性,以及心理策略在不同上下文和模型架构下的效果差异。
大型语言模型的可解释性:朝着生成可信解释的方向机遇与挑战
发表机构 * University of Alberta(阿尔伯塔大学) ; University of Tokyo(东京大学)
AI总结 本文探讨了大型语言模型的可解释性问题,分析了局部可解释性和机械可解释性方法,并在医疗和自动驾驶两个关键领域进行了实验研究,总结了当前可解释性领域存在的问题和未来发展方向。
O_O-VC: 基于合成数据驱动的任意到任意语音转换一一对一对齐
发表机构 * VNPT AI, VNPT Group(VNPT AI,VNPT集团) ; Hanoi University of Science and Technology(河内科学技术大学) ; Business AI Lab, National Economics University(国家经济大学商业人工智能实验室)
AI总结 本文提出了一种基于合成数据驱动的任意到任意语音转换方法,通过利用高质量预训练多说话人文本到语音模型生成的合成语音数据,学习源语音到目标语音的直接映射,从而在保留语言内容的同时捕捉说话人特定特征,并在零样本场景中提升适应性和性能。
Comments EMNLP 2025
基于激活信息的帕累托引导低秩压缩用于高效LLM/VLM
发表机构 * University of California-Santa Barbara(加州大学圣芭芭拉分校) ; Amazon(亚马逊)
AI总结 本文提出了一种基于激活信息的帕累托引导低秩压缩方法,通过理论分析和算法设计,在保持模型精度的同时提升LLM和VLM的压缩效率和推理速度。
性能提升的幻象:为何对比解码无法减轻多模态大语言模型中的对象幻觉?
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Eastern Institute of Technology, Ningbo(宁波东部技术研究所)
AI总结 本文研究了对比解码方法在减轻多模态大语言模型(MLLMs)中对象幻觉方面的有效性,发现其性能提升主要源于两个误导性因素,挑战了对比解码策略的有效性。
扩展神经元,而非参数
发表机构 * University of Washington(华盛顿大学) ; Microsoft Research(微软研究院)
AI总结 通过增加神经元数量而不增加非零参数总数,减少特征干扰,从而提高网络性能,并在多种模型中验证了有效性。
Comments Accepted to the 43rd International Conference on Machine Learning (ICML 2026). 9 pages, 6 figures. Code available at https://github.com/Shavit-Lab/Expand-Neurons
通过最优脑损伤遮蔽实现抗标签噪声学习
发表机构 * Hohai University(河海大学)
AI总结 本文提出了一种基于最优脑损伤理论的抗标签噪声学习方法,通过遮蔽冗余连接来减少噪声梯度传播,提升模型鲁棒性。
Concept-SAE: 一种可控且可逆的概念接口用于稀疏自编码器
发表机构 * The Chinese University of Hong Kong(香港中文大学)
AI总结 本文提出Concept-SAE,一种通过结构化可控接口探测用户定义概念的框架,通过将激活子空间分解为概念令牌和自由令牌,实现高保真、局部化强且解耦的概念表示,优于现有方法。
Comments Accepted by ECML PKDD 2026, the project can be found at https://github.com/RafaDD/Concept-SAE
CLASH:从多个视角评估语言模型在高风险困境中的判断
发表机构 * Department of Computer Science and Engineering(计算机科学与工程系) ; Department of Philosophy(哲学系) ; University of Michigan Ann Arbor(安娜堡大学)
AI总结 本文提出CLASH数据集,用于研究基于价值观的决策过程,发现语言模型在处理矛盾决策、心理不适和价值观变化时存在显著不足。
Comments Published as a conference paper at ICLR 2026
Ask-to-Clarify: 通过多轮对话解决指令歧义
发表机构 * College of Computer Science and Artificial Intelligence, Fudan University, Shanghai, China(复旦大学计算机科学与人工智能学院) ; Shanghai Innovation Institute, Shanghai, China(上海创新研究院) ; Mechanical Systems Control Lab, UC Berkeley, California, USA(伯克利机械系统控制实验室)
AI总结 本文提出Ask-to-Clarify框架,通过多轮对话解决指令歧义问题,结合视觉语言模型和扩散模型,采用两阶段知识绝缘策略训练,实现多任务中更高效的协作式具身代理。
Comments 9 pages, 4 figures, 7 tables
重新思考分布偏移:针对表格数据的经验分析与建模
发表机构 * Department of Industrial Engineering and Operations Research(工业工程与运筹学系) ; Department of Computer Science and Technology(计算机科学与技术系) ; Decision, Risk, and Operations Division(决策、风险与运营部) ; Columbia University(哥伦比亚大学) ; Tsinghua University(清华大学)
AI总结 本文通过经验分析和建模,重新审视分布偏移问题,发现Y|X偏移在表格数据中最为常见,与机器学习文献中对X(协变量)偏移的重视形成鲜明对比,并指出鲁棒算法的性能并不优于普通方法。
Comments Forthcoming at Management Science. Conference version appeared in NeurIPS 2023, previously titled "On the Need for a Language Describing Distribution Shifts: Illustrations on Tabular Datasets"
DocHop-QA: 向多跳推理多模态文档集合迈进
发表机构 * Pohang University of Science and Technology(釜山科学技术大学) ; The University of Sydney(悉尼大学) ; The University of Western Australia(西澳大学) ; The University of Melbourne(墨尔本大学)
AI总结 本文提出DocHop-QA基准,通过多模态、多文档、多跳科学问答评估多模态证据综合能力,揭示当前模型在长上下文和多证据需求下的局限性。
表情符号的语调
发表机构 * University of Edinburgh(爱丁堡大学) ; NatWest ; Aveni
AI总结 研究探讨了表情符号如何影响语音表达,并揭示听众如何通过语音线索恢复表情符号的含义,发现语义差异越大,语音变化越明显,表明表情符号是连接数字文本和口语表达的语调载体。
Comments ACL 26
自监督特征解耦与增强网络用于单类面部反伪装
发表机构 * National Tsinghua University(国立清华大学)
AI总结 本文提出了一种自监督特征解耦与增强网络(UFDANet),通过解耦活体特征和领域特征,提升单类面部反伪装的泛化能力,实验表明其优于现有单类方法并可与双类方法媲美。
IDRBench: 理解大型语言模型在跨学科研究中的能力
发表机构 * GitHub
AI总结 本文研究了大型语言模型在跨学科研究中的能力,提出IDRBench框架,通过三个任务评估不同模型的跨学科知识整合能力,并为未来研究建立基准。
无监督单目多视图扩散先验的3D关键点发现
发表机构 * Yonsei University(延世大学)
AI总结 本文提出KeyDiff3D框架,通过单张图像准确预测3D关键点,利用预训练的多视图扩散模型中的几何先验,将隐式3D先验转化为显式3D特征体,实现关键点估计和3D对象操控。
Comments Accepted at CVPR 2026. Project page: https://subin6.github.io/keydiff3d-project/
多样性是否是可扩展机器人操作的全部需求?
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Tsinghua University(清华大学) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 本文研究了数据多样性在机器人学习中的作用,发现任务多样性比单任务演示量更重要,多身体预训练数据在跨身体转移中可选,专家多样性可能对策略学习产生干扰,提出分布去偏方法提升性能。
Comments Code is available at https://github.com/OpenDriveLab/AgiBot-World
通过周期性引导的rPPG估计与信号重建实现从超短视频片段中准确的心率测量
发表机构 * National Tsinghua University(国立清华大学) ; Fujian Normal University(福建师范大学) ; Sungkyunkwan University(成均馆大学)
AI总结 本文针对超短视频片段中心率测量问题,提出周期性引导的rPPG估计方法和信号重建技术,以提高从超短视频中准确测量心率的能力,并在多个基准数据集上验证了方法的有效性。
时间点过程的进展:贝叶斯、神经网络和大语言模型方法
发表机构 * Center for Applied Statistics and School of Statistics, Renmin University of China(应用统计中心和中国人民大学统计学院) ; Independent Researcher(独立研究者) ; School of Computer Science, Guangdong University of Technology(广东工业大学计算机学院) ; School of Statistics and Data Science, Southeast University(东南大学统计与数据科学学院)
AI总结 本文综述了时间点过程的最新研究,从贝叶斯、深度学习和大语言模型三个角度探讨了模型设计、参数估计以及经典应用领域,并展望了未来的研究挑战和方向。
层次化掩码增强双重建网络用于少样本细粒度图像分类
发表机构 * Nanjing University(南京大学)
AI总结 本文提出层次化掩码增强双重建网络(HMDRN),通过双层特征重建与掩码增强特征处理,解决少样本细粒度图像分类中区分视觉相似子类的问题,实验显示其在三种细粒度数据集上均优于现有方法。
RoCA: 面向鲁棒跨域端到端自动驾驶的框架
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; University of Texas at Austin(德克萨斯大学奥斯汀分校) ; University of California, San Diego(加州大学圣地亚哥分校) ; University of California, Los Angeles(加州大学洛杉矶分校) ; University of California, Davis(加州大学戴维斯分校)
AI总结 本文提出RoCA框架,通过联合概率分布建模端到端自动驾驶管道中的 ego 和周围车辆信息,提升跨域自动驾驶的泛化能力和鲁棒性,无需额外推理计算。
Comments accepted for ICML 2026
自调节汽车:自动化自由流道路网络的交通控制
发表机构 * Department of Computer Science(计算机科学系) ; New York University(纽约大学) ; Indian Institute of Technology Delhi(德里印度理工学院)
AI总结 本文提出了一种基于强化学习的自调节汽车方法,通过动态调节车辆速度来优化通行能力和防止拥堵,无需新基础设施,结合经典交通流理论和微观模拟,在高保真度的PTV Vissim模拟器上实现了提高通行能力、减少延误和停车次数的改进。
GenFT:一种用于预训练基础模型的生成性参数高效微调方法
发表机构 * Department of Mathematics, Hong Kong Baptist University, Hong Kong, China(香港 Baptist 大学数学系,香港,中国) ; Department of Computer Science, Harbin Institute of Technology, Shenzhen, China(哈尔滨工业大学(深圳)计算机科学系,中国)
AI总结 本文提出GenFT,一种基于预训练权重的参数高效微调方法,通过生成任务特定的更新来利用预训练权重中的结构信息,实现高效的模型微调。
Comments paper is accepted at ICANN 2026
语义解耦的空间分区引导的点监督定向物体检测
发表机构 * Institute of Computing Technology, Chinese Academy of Sciences(中国科学院计算技术研究所) ; Hefei University of Technology(合肥工业大学)
AI总结 本文提出了一种高效的训练框架SSP,通过规则驱动的先验注入和数据驱动的标签净化,解决了单点注解放置不足和伪标签质量差的问题,实验表明SSP在DOTA-v1.0和其他数据集上取得了显著的mAP提升,且训练时间和内存占用较低。
Comments Published in Pattern Recognition, 2026
基于聚类的因果混合器用于多变量时间序列的在线异常检测
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文提出了一种基于聚类的因果混合器,用于多变量时间序列的在线异常检测,通过聚类处理通道间的相关性,结合因果混合器保持时间因果性,并开发了序列异常评分方法以提高检测准确性。
通过非负每例费舍尔分解揭示模型处理策略
发表机构 * University of North Carolina Chapel Hill(北卡罗来纳大学教堂山分校) ; University of Toronto(多伦多大学) ; Vector Institute(向量研究所)
AI总结 本文提出NPEFF方法,通过分解每例费舍尔矩阵揭示模型生成预测所用的策略,展示了NPEFF组件在语言模型和文本处理任务中的应用,并展示了如何通过扰动这些组件来干扰模型处理,同时通过消融研究和实验验证了NPEFF在分析和缓解去学习的副作用以及研究上下文学习中的优势。
懒惰但有效:基于异构数据的协同个性化联邦学习
发表机构 * Artificial Intelligence Laboratory EPFL(苏黎世联邦理工学院人工智能实验室) ; Telenor Research(Telenor研究)
AI总结 本文提出了一种简单有效的个性化联邦学习框架pFedLIA,通过使用计算效率高的影响近似方法'Lazy Influence',在分布式 manner 中对客户端进行聚类,从而在模型聚合前协同训练模型以捕捉客户端特定的数据模式,实验证明其在非iid数据集上能有效恢复全局模型性能,并在多个基准任务中优于现有基线方法。
Comments Accepted at the International Joint Conference on Neural Networks (IJCNN), IEEE, 2025