HYPER: A Foundation Model for Inductive Link Prediction with Knowledge Hypergraphs
AI总结 本文提出HYPER,一种用于归纳性超图链接预测的基础模型,能够处理包含全新实体和全新关系类型的超图。HYPER通过编码超边中实体及其在超边中的位置信息,实现了对不同元数关系类型的泛化能力。实验表明,HYPER在多种归纳设置下均优于现有方法,展示了其对高元数关系结构的强大泛化能力。
AI总结 本文提出HYPER,一种用于归纳性超图链接预测的基础模型,能够处理包含全新实体和全新关系类型的超图。HYPER通过编码超边中实体及其在超边中的位置信息,实现了对不同元数关系类型的泛化能力。实验表明,HYPER在多种归纳设置下均优于现有方法,展示了其对高元数关系结构的强大泛化能力。
AI总结 近年来,大语言模型(LLMs)为时间序列分析(TSA)引入了新的范式,但传统TSA任务难以覆盖时间序列语言理解等任务,存在与LLMs目标不匹配的问题。为此,研究提出将TSA向时间序列问答(TSQA)演进,强调以用户为中心的统一任务处理。本文综述了从TSA到TSQA的演变过程,提出了三种对齐范式,并分析了数据集特点与未来研究方向。
Comments Accepted by IJCAI 2026 Survey Track
AI总结 本文提出了一种名为RNE的插件式扩散模型方法,用于在推理阶段实现对生成过程的控制,并支持基于能量的训练。RNE基于路径分布之间的密度比概念,建立了边缘密度与转移核之间的基本联系,从而统一了扩散密度估计、推理控制和能量训练等多个任务。实验表明,RNE在推理控制任务中表现出色,同时为能量型扩散模型提供了简单高效的正则化方法,并适用于连续和离散扩散模型。
Comments Accepted at ICLR 2026
AI总结 随着大型语言模型逐步演变为具备工具增强能力的智能体,一个核心问题仍未解决:何时才需要调用外部工具?本文提出,智能体应在认知上必要时才调用外部工具,即当仅靠其内部推理无法可靠完成任务时。为此,文章引入了“智能体理论”(ToA)框架,将智能体视为在不确定情况下决定是内部处理还是外部委托的序列决策者,并指出不必要的工具调用不仅效率低下,还可能阻碍内部推理能力的发展。该研究为工具使用提供了规范性准则,有助于构建更智能、更高效的智能体系统。
AI总结 本文研究了在分离网络结构下深度脉冲神经网络(SNN)训练中权重对称性的放松问题。为了解决传统反向传播(BP)在神经形态硬件上实施时因权重对称性带来的高能耗和硬件开销问题,作者提出了冻结反向传播(Frozen Backpropagation,fBP)算法,通过周期性冻结反馈权重来减少权重传输和同步开销。实验表明,fBP在保持较高准确率的同时显著降低了权重传输成本,并可通过部分权重传输策略进一步提升效率。
AI总结 该研究探讨了联合分子生成与性质预测的协同优势,提出了一种基于Transformer架构的联合模型Hyformer。该模型通过交替注意力机制和联合预训练策略,实现了分子生成与性质预测功能的融合,能够在条件采样、分布外性质预测和表征学习等方面展现协同效益。实验表明,Hyformer在抗菌肽设计等药物研发任务中表现出显著的联合学习优势。
Comments 17 pages, 4 figures
AI总结 该研究提出了一种基于表格数据引导的对比学习框架,旨在解决传统视觉对比学习方法在医学影像领域中忽略样本间语义关系的问题。通过利用临床表格数据,该方法能够识别患者层面的相似性并构建更具语义意义的样本对,从而提升视觉表征的学习效果。实验表明,在心脏MRI图像和临床属性数据集上,结合表格数据的引导能够显著增强模型在下游任务中的表现,包括细调、线性探针和零样本预测等,并且方法在自然图像数据集上也表现出良好的泛化能力。
AI总结 本文研究了在噪声函数评估下的双目标组合优化问题,提出了一个适用于此类问题的鲁棒性框架。该框架引入了$(α,β,δ,\texttt{N})$-鲁棒性概念,用于描述在有界噪声下近似保证的联合退化情况,并开发了一个通用的黑盒方法,将任何鲁棒的离线算法转化为适用于双目标组合多臂老虎机问题的在线算法。该方法在无需线性、子模性等结构假设的情况下,实现了次线性遗憾和约束违反的累积上界,展示了框架在经典子模优化贪心算法中的适用性。
AI总结 医疗资源短缺导致大量患者无法及时获得可靠医疗服务,而大型语言模型(LLMs)在实际临床对话中仍面临权威医学依据不足、诊断不确定性处理不透明以及语言缺乏人性化等问题。为此,研究提出“Ask Patients with Patience(APP)”,一种基于多轮对话的医疗助手,通过共情对话引导用户描述症状,结合贝叶斯主动学习实现透明、适应性的诊断,并基于权威医学指南进行推理。实验表明,APP在提升诊断准确性、降低不确定性及改善用户体验方面均优于现有模型,为人工智能辅助医疗提供了更具临床实用性的解决方案。
AI总结 本文介绍了Surgical Visual Understanding (SurgVU)数据集,旨在推动手术数据科学领域的基础研究。该数据集包含大量手术视频及其标签,涵盖了数据采集方法和独特属性,并提出了多个示例问题,适用于多种机器学习任务。该数据集不仅针对特定科学挑战设计,还具有广泛的适用性,期望能吸引更广泛的机器学习社区关注手术场景中的挑战性问题,并成为未来研究的重要基准。
AI总结 本文提出了一种名为UNCOM的新型混合框架,用于在桌面场景中理解自然的人类指令。该系统整合了语音、手势和场景上下文等多源信息,提取结构化的可执行指令,支持机器人在无需预定义物体模型或特定任务训练数据的情况下进行零样本操作。通过基础模型和任务特定的深度学习模型,UNCOM实现了即开即用的语音识别、自然语言理解、手势检测和物体分割,其模块化架构提升了系统的透明性和可解释性,并在实际机器人交互数据集上达到了82.39%的成功率。
AI总结 本文提出了一种用于多目标离线强化学习的基于目标条件的决策 Transformer 模型,旨在解决机器人领域中样本效率低和跨目标泛化能力差的问题。该方法通过将目标状态显式地融入序列建模框架,能够在仅使用预收集数据的情况下高效完成多种任务。实验表明,该方法在 Franka Emika Panda 平台的新离线数据集上优于最先进的在线基线方法,尤其在稀疏奖励环境下表现出良好的鲁棒性。
AI总结 该研究探讨了MFCC参数对呼吸道疾病自动检测性能的影响,系统分析了系数数量、帧长和帧移等关键参数的作用。通过四个公开数据集和SVM分类器进行实验,发现MFCC的准确率随帧移增加而下降,最佳系数数量约为30,并揭示了不同数据集对帧长的敏感性差异。研究进一步优化了参数组合,显著提升了分类准确率,最高提升幅度达19.6%。
AI总结 该论文研究了如何利用CLIP模型进行无监督语义分割任务,并指出在像素级理解任务中,CLIP存在类偏好和空间偏好等偏差,影响分割性能。为此,作者提出ReCLIP++方法,通过设计可学习的参考提示和位置嵌入投影,分别建模并校正这两种偏差,并利用矩阵乘法生成偏差logits图,再通过元素级减法对CLIP的logits进行校正。实验表明,该方法在多个基准数据集上取得了优于现有方法的性能。
Comments Extended version of our CVPR 24 paper, accepted by IJCV 2025
AI总结 本文提出了一种新的策略蒸馏方法——近端策略蒸馏(Proximal Policy Distillation, PPD),将学生驱动的蒸馏与近端策略优化(PPO)相结合,旨在提高样本效率并利用学生策略在蒸馏过程中获得的额外奖励。实验表明,与传统的学生蒸馏和教师蒸馏方法相比,PPD在多种强化学习环境中表现出更高的样本效率和更优的学生策略性能,尤其在从不完美示范中蒸馏策略时展现出更强的鲁棒性。
AI总结 该研究针对城市土地利用推断任务,提出了一种结合异构图神经网络(HGN)与可解释AI技术的框架,以提升模型在多模态数据下的预测精度与可解释性。该方法有效捕捉了空间邻近对象间的关联及不同服务类型的异质性,并通过特征归因和反事实解释提供了透明的决策依据。实验表明,该框架在多个土地利用指标上优于传统图神经网络,尤其在“办公”和“生活”类别上表现突出,为城市规划提供了更具说服力的分析工具。
AI总结 本文研究了如何在资源受限的微控制器上高效部署带有二次锥约束的模型预测控制(MPC)。为解决传统嵌入式求解器在处理复杂约束时计算开销大的问题,作者基于ADMM方法扩展开发了一个结构化求解器,并支持从Python、MATLAB和Julia生成C++代码。实验表明,该求解器在求解QP和SOCP问题时相比现有嵌入式求解器速度提升达10.6至142.7倍,并显著提高了微控制器的内存利用率,已在实际飞行器轨迹跟踪任务中得到验证。
Comments Accepted to ICRA 2026. 4 Figures. 2 Tables. First three authors contributed equally
AI总结 本文研究了无需人工标注的无监督语义分割问题,提出了一个基于因果推理的新型框架CAUSE。该方法通过引入干预导向的因果调整策略,构建了一个两步任务流程:首先生成概念聚类作为中介变量,用于表示不同粒度的概念原型;然后利用该中介变量引导像素级的自监督学习,实现更精准的语义分组。实验表明,CAUSE在多个数据集上取得了当前最先进的无监督语义分割性能。
Comments code available: https://github.com/ByungKwanLee/Causal-Unsupervised-Segmentation
AI总结 本文研究了时间序列外生回归(TSER)问题,即利用一组训练时间序列预测与回归变量无直接关系的连续响应变量。作者扩展了TSER算法比较数据集,从19个问题增加到63个,并对比了多种回归模型,发现基于分类器的回归方法(如旋转森林)表现优异。文中提出两种新的TSER算法——FreshPRINCE和DrCIF,它们通过提取时间序列的统计特征进行预测,在多个数据集上显著优于其他方法,尤其是优于标准的旋转森林回归器。
Comments 19 pages, 21 figures, 6 tables. Appendix included
AI总结 本文回顾并评估了近年来时间序列分类(TSC)算法的发展,基于扩展后的UCR数据集对多种算法进行了比较实验。研究扩展了原有的算法分类体系,新增了三个类别,并引入了30个新数据集以进一步验证各算法性能。实验结果显示,新提出的Hydra+MultiROCKET和HIVE-COTEv2算法在当前和新问题上均表现出显著优势。
AI总结 HIVE-COTE 2.0 是一种用于时间序列分类的新型元集成方法,通过结合多种不同领域的分类器,如基于形状片段、词袋字典和相位依赖区间的方法,提升分类性能。该方法在原有 HIVE-COTE 1.0 的基础上进行了全面改进,引入了两种新的分类器 Temporal Dictionary Ensemble(TDE)和 Diverse Representation Canonical Interval Forest(DrCIF),并新增了由 ROCKET 分类器组成的 Arsenal 集成模块,显著提高了准确率和实用性。实验表明,HIVE-COTE 2.0 在多个时间序列数据集上均优于当前最先进的方法。
AI总结 本文研究了世界动作模型(WAMs)在生成未来动作和观测时的动态一致性问题,指出当前模型可能仅生成视觉上合理但动力学上不兼容的未来轨迹。通过系统分析,作者发现动作与状态转移的一致性是衡量WAM可靠性的重要指标,并提出背景坍塌现象可能导致错误一致性判断。基于这些发现,作者提出了一种无需价值函数的共识策略,用于提升测试时的轨迹选择效果,有效提高了多个机器人任务的成功率。
Comments Technical Report
AI总结 本文研究了半离散流匹配问题,即在有限离散目标点集上将高斯源分布进行传输的场景。该设置是流匹配用于生成建模的理论基础,文中给出了精确流匹配速度场的闭式表达,使得能够独立于优化和近似效应分析终端流映射所诱导的几何结构。研究发现终端分配区域是开集且单连通的,并在额外假设下与单位球同胚,但与半离散最优传输中的拉格朗日单元相比,这些区域可能具有非凸、曲边界的特性,表现出不同的有界性和邻接模式。
AI总结 本文研究了视觉-语言模型在持续学习中的类别增量学习问题,旨在在不断学习新知识的同时避免遗忘已有知识。为了解决任务间子空间干扰导致的严重遗忘问题,作者提出了一个分层双子空间解耦框架HDSD,通过引入特征调制模块和分层学习模块,将参数空间分解为通用和任务特定子空间,有效减少了子空间干扰和参数漂移。实验表明,该方法在多个基准测试中取得了最先进的性能。
AI总结 现有的多模态智能体搜索基准主要评估文本搜索和视觉浏览能力,但视觉证据通常仅作为输入或最终答案,未在搜索过程中动态交互。本文提出 **InterLV-Search**,一个用于评估交错语言-视觉智能体搜索的新型基准,要求在搜索过程中交替使用文本和视觉证据进行条件引导。该基准包含2,061个样本,涵盖从主动视觉证据搜索到开放网络交错搜索的三个难度级别,并引入多分支比较任务以提升挑战性。实验表明,当前主流多模态系统在交错搜索任务中表现仍较弱,最佳模型整体准确率低于50%,突显了视觉证据获取、搜索控制和多模态信息融合等方面的困难。
AI总结 随着学术文献的爆炸式增长,自动从非结构化科学文本中提取结构化知识的需求日益迫切。本文提出TCMIIES,一个基于浏览器、无需安装的智能信息抽取系统,利用商业大语言模型(LLM)API实现学术文献的结构化信息抽取。该系统采用新型的模式引导提示框架,支持用户通过图形界面自定义抽取模式,无需编程即可使用,并具备本地数据处理、多LLM支持、批量处理和中文数据库智能映射等功能,在中医药研究等场景中表现出优异的抽取准确率和合规率,为领域研究人员提供了灵活、隐私保护且成本低廉的实用工具。
AI总结 本文提出了一种无需监督微调的新型训练范式LiteGUI,旨在提升小型视觉-语言GUI代理的性能。通过引入引导式策略蒸馏和多解双层次探索框架,该方法有效缓解了小模型在多解任务中的幻觉和认知偏差问题,并增强了长期任务中的探索能力。实验表明,LiteGUI在保持轻量级的同时,在多个基准上达到了最先进的性能,甚至接近大模型的表现。
AI总结 本文提出了一种名为Diffusion-APO的轨迹感知偏好对齐方法,用于提升视频扩散模型与人类意图的一致性。该方法通过同步训练噪声与推理去噪路径,优化梯度信号的有效性,解决了现有方法在奖励模型偏差和时间步采样不足的问题。研究还引入了一个统一的模块化RLHF框架,实现了无需基于标量奖励的策略梯度即可进行灵活、多阶段的偏好对齐,并在多个实验中展现出更优的视觉质量和指令遵循能力。
AI总结 本研究利用云顶红外观测揭示了降水的四维结构,解决了全球范围内高精度降水信息获取的难题。研究提出了一种物理约束的深度学习框架4DPrecipNet,通过整合多通道红外亮温与雷达降水数据,重建了降水系统的垂直与时间演变过程。该方法成功捕捉了深层对流结构及其演变,验证了云顶红外观测中蕴含的次云层降水信息,为全球连续监测降水结构提供了新途径。
AI总结 本文研究了在无配对数据情况下智能手机图像信号处理(ISP)的轻量级图像转换问题。为了解决RAW图像与目标RGB图像之间场景和颜色对齐困难的问题,作者提出了一种基于语义伪配对的方法,通过DINOv2提取语义嵌入,并利用融合的格罗莫夫-瓦舍尔(FGW)最优传输算法在图像和块级别建立伪配对,从而缓解数据无配对性的影响。基于这些伪配对,作者设计了一个仅有7K参数的轻量CNN网络,专注于颜色变换以提升训练稳定性并减少伪影,最终在挑战测试集上取得了优异的性能表现。
Comments 13 pages, 9 figures, CVPR Workshops 2026