Block-Sphere Vector Quantization
块球向量量化
发表机构 * Seoul National University(首尔国立大学)
AI总结 本文研究了向量量化方法,通过统一理论比较不同旋转量化器,揭示其性能依赖于特定的失真度量标准,并提出块球量化算法以改进旋转块量化。
块球向量量化
发表机构 * Seoul National University(首尔国立大学)
AI总结 本文研究了向量量化方法,通过统一理论比较不同旋转量化器,揭示其性能依赖于特定的失真度量标准,并提出块球量化算法以改进旋转块量化。
通过顺序熵变化检测基于优化的对抗性提示
发表机构 * Department of Electronic and Electrical Engineering, University College London, London, United Kingdom(电子与电气工程系,伦敦大学学院,伦敦,英国)
AI总结 本文提出了一种基于在线变化点检测的对抗性后缀检测方法CPD,通过标准化用户令牌熵并应用单侧CUSUM统计量,提高了对优化基于对抗性提示的检测性能,同时在多个大型语言模型上实现了更高的F1分数和AUC性能。
Comments Accepted at ICML 2026; 20 pages, including 9 pages main text, references, and appendix
在函数空间中学习正交基
发表机构 * MIT CSAIL(麻省理工学院计算机科学与人工智能实验室)
AI总结 本文提出通过神经网络学习和优化函数空间中的正交基,利用李群的流形性质,证明即使使用有限秩生成器,也能在适当算子拓扑下实现正交基的稠密性。
TravExplorer: 通过可 traversability-aware 3-D 规划实现跨楼层的 embodied 探索
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 本文提出TravExplorer框架,结合零样本语义引导与可 traversability-aware 3-D 规划,实现跨楼层的 embodied 探索,通过统一的体积地图区分占用结构与机器人可达支撑面,并提取可 traversable 前沿区域,同时采用FOV-aware的主动感知策略解决跨楼层遍历中的不完整观测问题,最终在HM3D和MP3D上进行了4195次模拟实验,并在真实世界中验证了无需先验地图或人工干预的开放词汇目标搜索能力。
为混合具身体验中的长时域演化构建世界-自我模型
发表机构 * Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; University of Chinese Academy of Sciences(中国科学院大学) ; Peking University(北京大学)
AI总结 本文提出了一种新的世界-自我建模范式,通过分解未来演化为世界和自我组件,解决混合任务中长时域具身体验中的退化问题,并通过HTEWorld基准测试验证了其有效性。
迈向细粒度鲁棒性:面向视觉-语言模型的注意力引导测试时提示调优
发表机构 * School of Computer Science and Engineering(计算机科学与工程学院) ; Key Laboratory of New Generation Artificial Intelligence Technology and Its Interdisciplinary Applications(新一代人工智能技术及其交叉应用重点实验室) ; Southeast University(东南大学) ; School of Intelligence Science and Engineering(智能科学与工程学院)
AI总结 本文提出了一种注意力引导的测试时提示调优方法(A-TPT),旨在解决视觉-语言模型在对抗攻击下的鲁棒性问题,通过改进的梯度注意力机制和空间变化的增强强度来提升模型在细粒度场景下的表现。
Comments Accepted by ICML 2026, Project Page: this https, URL Code URL: this https URL
重新思考如何记忆:超越原子事实的终身LLM代理记忆
发表机构 * TMLR Group, Hong Kong Baptist University(香港 Baptist 大学 TMLR 实验组) ; The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Shanghai Jiao Tong University(上海交通大学) ; Sydney AI Center, The University of Sydney(悉尼大学悉尼人工智能中心)
AI总结 本文提出TriMem,一种能够维护三种共存表示粒度的内存系统,通过保留原始对话片段、提取原子事实以及合成轮廓来实现对积累对话历史的忠实存储、高效检索和深度推理,从而克服现有方法在细节丢失和推理能力不足的问题。
AffectVerse: 多模态情感计算中的情感世界模型
发表机构 * Great Bay University(大湾大学) ; Tencent(腾讯) ; Tsinghua University(清华大学) ; Shenzhen Technology University(深圳技术大学)
AI总结 本研究提出AffectVerse,一种基于Qwen2.5-Omni的多模态情感计算模型,通过引入情感世界模块实现短期潜在情感预测,利用未来预测作为自监督信号,提高了情感计算的准确性。
从稀疏航拍视图进行前馈高斯点扩散
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港理工大学(广州)) ; Peking University(北京大学) ; The Ohio State University(俄亥俄州立大学)
AI总结 本文提出AnyCity框架,通过观察驱动的生成重建方法,解决稀疏航拍视图中大规模城市场景重建中的证据不平衡问题,通过几何潜在表示和条件化空中完成标记预测,实现高质量的3D高斯点场重建。
利用非负性在DAG结构学习中的应用
发表机构 * Dept. of Signal Theory and Communications, Universidad Rey Juan Carlos(信号理论与通信系,雷昂·卡洛斯大学) ; Dept. of Electrical and Computer Engineering, Rice University(电气与计算机工程系,里奇大学) ; Dept. of Electrical and Computer Engineering, University of Rochester(电气与计算机工程系,罗切斯特大学)
AI总结 本文研究了如何通过非负性约束简化DAG结构学习中的非凸优化问题,并提出了基于多pliers方法的正则化非负DAG学习算法,证明了在总体情况下真实DAG是唯一全局最小值点。
关于推理的测度论分析:结构泛化与近似限制
发表机构 * McGill University(麦吉尔大学) ; Mila - Quebec AI Institute(魁北克AI研究所) ; Université de Montréal(蒙特利尔大学)
AI总结 本文通过最优传输理论分析推理过程,揭示了结构泛化和近似限制的理论机制,发现位置依赖注意力机制和Transformer电路深度对推理性能有显著影响。
Comments Preprint
概率性微型递归模型
发表机构 * Mila – Quebec AI Institute(魁北克人工智能研究所)
AI总结 本文提出概率性微型递归模型(PTRM),通过在递归步骤中注入高斯噪声,使模型能够并行探索多样化的解决方案盆地,从而在不重新训练或进行任务特定增强的情况下,提升多个基准测试的准确性,包括Sudoku-Extreme和Pencil Puzzle Bench上的各种谜题。
受机器人启发的用于社会敏感领域基础模型的护栏
发表机构 * Yale University(耶鲁大学) ; Kyoto University(京都大学)
AI总结 本文提出了一种基于机器人学的护栏框架,用于在社会敏感领域中对基础模型进行运行时行为控制,以减少交互轨迹中向不良状态的漂移,并适应多样化的社会情境。
Comments Under review at Journal of Artificial Intelligence Research (JAIR)
大型语言模型如何影响科学交流?测量写作实践和阅读体验的变化
发表机构 * Institute for Natural Language Processing, University of Stuttgart, Germany(斯图加特大学自然语言处理研究所,德国)
AI总结 本研究探讨了大型语言模型对科学交流风格的影响,通过分析自然语言处理领域中超过37000篇论文和3000篇人类撰写的文本及其LLM改进版本,发现写作实践和阅读体验发生了显著变化,同时揭示了AI辅助写作对阅读体验的主观影响。
Comments Accepted to LREC 2026
PEEK:上下文地图作为长上下文LLM代理的导向缓存
发表机构 * MIT CSAIL(麻省理工学院计算机科学与人工智能实验室) ; Stanford University(斯坦福大学)
AI总结 本文提出PEEK系统,通过上下文地图缓存和维护导向知识,提升长上下文LLM代理在重复外部上下文中的交互准确性和效率,相比基线方法在推理和上下文学习任务中均取得显著提升。
StruMPL:在不相交的部分监督和MNAR标签下的多任务密集回归
发表机构 * School of Geosciences, University of Edinburgh, UK(爱丁堡大学地球科学学院,英国) ; National Centre for Earth Observation (NCEO), UK(英国地球观测国家中心) ; Department of Spatial Sciences, Faculty of Environmental Sciences Czech University of Life Sciences Prague, Praha, Czech Republic(环境科学学院空间科学系,捷克布拉格生命科学大学)
AI总结 本文针对在不相交的部分监督和MNAR标签下的多任务密集回归问题,提出StruMPL方法,通过共享编码器和可学习的物理模块,结合Augmented IPW损失函数,提高了对森林地上生物量的估计精度。
Comments 10 pages with 3 figures and 4 tables, References and Appendix 12 pages with 1 figure and 4 tables
打破大视觉-语言模型低比特量化中的模态异质性
发表机构 * VCIP, College of Computer Science, Nankai University(南开大学计算机科学学院VCIP) ; D-ITET, ETH Zürich(苏黎世联邦理工学院D-ITET) ; OPPO Research Institute(OPPO研究院) ; Department of Computing, Hong Kong Polytechnic University(香港理工大学计算机系)
AI总结 本文提出SplitQ框架,通过通道分割和自适应跨模态校准模块,解决大视觉-语言模型在低比特量化中因模态异质性导致的精度下降问题,显著提升了在多种多模态数据集上的性能。
JAXenstein: 加速的第一人称环境基准测试
发表机构 * GitHub
AI总结 本文提出JAXenstein,一个基于JAX的开源基准测试,用于加速第一人称视觉任务的实验,通过实现Wolfenstein 3D渲染引擎,提高了实验效率并支持更复杂的环境。
Comments Main paper: 5 pages, supplementary material: 3 pages
RoHIL: 面对光照变化的鲁棒人机协同机器人强化学习
发表机构 * Chongqing University(重庆大学) ; Chengdu Anu Intelligence(成都安努智能)
AI总结 本文提出RoHIL框架,通过离线微调方法解决机器人在不同工作间因光照变化导致的性能下降问题,保留原始工作间性能并避免重新收集数据和训练。
超越动作残差:通过瓶颈潜在强化学习实现现实世界机器人策略引导
发表机构 * School of Computing and Data Science, The University of Hong Kong(香港大学计算与数据科学学院) ; Shanghai Qizhi Institute(上海启智研究院) ; Shanghai Jiao Tong University(上海交通大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Institute for Interdisciplinary Information Sciences, Tsinghua University(清华大学交叉信息研究院)
AI总结 本文提出了一种名为Z-Perturbation Reinforcement Learning(ZPRL)的方法,通过紧凑的瓶颈潜在空间来引导预训练策略,从而提高样本效率和最终性能,同时在现实世界任务中显著提升了成功率。
基于部分成对监督的快速且无特征节点表示学习
发表机构 * Indian Institute of Science Education and Research(印度科学教育与研究学院)
AI总结 该研究提出了一种快速且统一的框架,用于在部分可用的成对节点标签和无可用节点特征的图中进行可扩展的节点表示学习,通过结合社区感知的结构信号和带符号的成对约束,实现了高效的优化方案。
多领域蛋白质-配体结合的分层对比学习
发表机构 * University of Birmingham, UK(英国伯明翰大学)
AI总结 本研究提出HCLBind框架,通过分层对比学习方法,解决多领域蛋白质-配体结合亲和力预测问题,核心方法是分离几何表示学习与亲和力回归,并采用新颖的分层诱饵策略,结合领域门控图注意力网络和跨模态注意力,提升领域界面优先级,实验表明HCLBind能有效学习判别界面特征并提供鲁棒的不确定性估计。
Comments Accepted by ISBRA2026
GoTTA be Diverse: 重新思考测试时间适应中的记忆策略
发表机构 * Center of Excellence in Generative AI, KAUST, Saudi Arabia(沙特王国人工智能卓越中心)
AI总结 本文研究了测试时间适应中记忆策略的重要性,提出了一种基于类平衡和特征空间多样性的GOTTA方法,展示了在受限内存和非独立同分布流中,多样性管理对适应性能的提升。
轨迹规划与控制在极限情况下的研究:RoboRacer平台上的开放实验基准
发表机构 * Professorship of Autonomous Vehicle Systems, Technical University of Munich(自动驾驶车辆系统教授职位,慕尼黑技术大学) ; Munich Institute of Robotics and Machine Intelligence (MIRMI)(慕尼黑机器人与机器智能研究所(MIRMI)) ; Avilus GmbH(Avilus GmbH公司) ; Department of Information Technology and Electrical Engineering (DIETI), University of Naples Federico II(那不勒斯费德里科二世大学信息科技与电气工程系(DIETI)) ; Dept. of Industrial Engineering, University of Trento(特伦托大学工业工程系)
AI总结 本文提出了一种模块化框架,用于评估轨迹规划和控制在高加速度 maneuver 中的新方法和现有方法,通过 RoboRacer 平台上的两个赛道测试,展示了 MS-NN 在提高跟踪精度和减少转向振荡方面的优势,以及在线速度重计划对提高 lap 时间和安全速度的贡献。
Comments Accepted - 2026 IEEE 29th International Conference on Intelligent Transportation Systems (ITSC)
通过基于人设的对抗性链式思考视觉语言模型验证实现被动施工现场安全监控
发表机构 * Department of Computer Science, University of Maryland, College Park, MD, USA(大学马里兰学院计算机科学系,马里兰州科利尔帕克,MD,美国)
AI总结 本文提出了一种被动的施工现场安全监控方法,通过三阶段架构处理视频数据,结合细调的YOLO11、SAM 3和Qwen3-VL-8B-Instruct模型,利用基于人设的对抗性链式思考协议提高合规性验证和幻觉控制,主要贡献是第三阶段提示设计,提升了12%的精度。
Comments 10 pages, 4 figures. First place, Ironsite.ai Spatial Intelligence Hackathon, University of Maryland, February 2026. Code available at https://github.com/ananthsriram1/ironsite-hackathon-project-safety_assistant
WoundFormer: 多尺度空间特征融合用于多类伤口组织分割
发表机构 * School of Computing, Mathematics and Engineering(计算、数学与工程学院) ; Charles Sturt University(查尔斯·斯特劳特大学) ; NSW, Australia(新南威尔士州,澳大利亚)
AI总结 本研究提出WoundFormer框架,通过多尺度空间特征融合提升多类伤口组织分割的准确性,解决了现有方法在处理异质组织组成时的不足。
Comments 10 pages
用于鲁棒性文档理解的结构化布局先验
发表机构 * ETH Zurich(苏黎世联邦理工学院) ; IBM Research(IBM研究院)
AI总结 本文提出了一种结构化布局先验,通过在解码器之外运行轻量级RT-DETR检测器,将检测结果转换为解析器的DocTags词汇,并注入到提示中,以解决文档布局解析中的两跳瓶颈问题,从而提升文档理解的鲁棒性。
Comments 18 pages, 7 figures. Main text: 9 pages (4 figures); Appendix: 9 pages (3 figures)
面向几何视角的扩散模型
发表机构 * Elsa Lab, National Taiwan University(国家台湾大学 Elsa 实验室)
AI总结 本文提出了一种面向几何视角的扩散模型,通过重塑优化景观来引导更新至真实视角,并通过视角条件扩散模型进行细化,以提高收敛性、减少对暴力采样依赖并实现更高的样本效率。
Comments CVPR2026
StableGrad: 无需批量归一化的反向缩放控制
发表机构 * Universitat Politècnica de València(巴塞罗那理工大学) ; Universitat Jaume I(Jaime I 大学)
AI总结 本文提出StableGrad,一种在无需批量归一化的情况下通过优化器层面控制权重-梯度缩放来稳定深度神经网络训练的方法,特别适用于物理信息神经网络等场景。
基于概念的可解释性人工智能的零样本图像生成评估框架
发表机构 * Politecnico di Milano, DEIB(米兰理工大学,DEIB)
AI总结 本文提出了一种基于概念的可解释性人工智能的零样本图像生成评估框架,通过生成合成概念数据集来评估概念基于的XAI方法,探讨了零样本文本到图像生成模型在模型分析中的挑战和开放性问题。
Comments G. Astolfi, M. Bianchi, and R. Campi contributed equally