AVI-HT: Adaptive Vision-IMU Fusion for 3D Hand Tracking
AVI-HT:自适应视觉-IMU融合用于3D手部跟踪
发表机构 * Meta Reality Labs(Meta现实实验室)
AI总结 本文提出AVI-HT,一种自适应视觉-IMU融合方法,通过联合建模第一人称视角图像与手套上的6自由度IMU信号,用于跟踪3D手部姿态。核心方法包括同步多模态训练数据配对和跨传感器深度注意力机制,主要贡献是提高了在手-物体交互场景中的准确性和可用性。
AVI-HT:自适应视觉-IMU融合用于3D手部跟踪
发表机构 * Meta Reality Labs(Meta现实实验室)
AI总结 本文提出AVI-HT,一种自适应视觉-IMU融合方法,通过联合建模第一人称视角图像与手套上的6自由度IMU信号,用于跟踪3D手部姿态。核心方法包括同步多模态训练数据配对和跨传感器深度注意力机制,主要贡献是提高了在手-物体交互场景中的准确性和可用性。
Sem-Detect:基于语义层面的AI生成同行评审检测
发表机构 * Language Technologies Institute, Carnegie Mellon University(卡内基梅隆大学语言技术研究所)
AI总结 本文提出Sem-Detect方法,通过结合文本特征和语义分析,区分AI生成与人类撰写的同行评审,实验表明其在二分类和三分类场景下均表现出色,准确率显著提升。
通过生成式AI拓宽交通安全管理数据的可及性:一种基于模式的时空自然语言查询框架
发表机构 * Department of Civil and Environmental Engineering, University of Massachusetts Amherst(麻省大学阿姆赫斯特分校土木与环境工程系)
AI总结 本文提出了一种基于模式的自然语言接口,利用大型语言模型解释用户意图,同时保持确定性和可审查的执行,以解决交通安全管理数据访问不均的问题,通过整合事故记录、道路属性和地理空间数据,提升公共部门的安全规划能力。
Comments 30 pages, 5 figures
PGDG: 为从单个示范中学习鲁棒双臂策略而设计的物理基础数据生成
发表机构 * Robotics Institute, Carnegie Mellon University(卡内基梅隆大学机器人研究所) ; Dexmate
AI总结 本文提出PGDG,一种基于物理的数据生成框架,通过零样本校准扩展单个示范为包含物理上合理、成功和多样恢复行为的紧凑数据集,从而提升双臂操作中接触丰富的行为克隆性能。
微重力环境下基于抓取的动态移动运动设计
发表机构 * Department of Mechanical Science and Engineering at the University of Illinois at Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校机械科学与工程系)
AI总结 本文针对微重力环境下多肢体机器人系统基于抓取的动态移动问题,提出了一种可参数化的移动规划框架,通过调整步态模式、步长、移动速度和名义姿态等参数,评估其在稳定性和驱动需求方面的性能。研究结果表明,扩大可行接触力空间并抑制脉冲全身动力学可提升移动性能。
X-Token: 通过投影引导的跨分词器知识蒸馏
发表机构 * NVIDIA
AI总结 本文提出X-Token,一种通过投影引导的跨分词器知识蒸馏方法,解决传统方法在处理不同分词器间知识迁移时的不足,通过两个互补的损失函数改进知识蒸馏效果。
人工智能使用与信息性对逻辑推理技能发展的影响力
发表机构 * University of California, Irvine(加州大学尔湾分校) ; Massachusetts Institute of Technology(麻省理工学院)
AI总结 本文研究了人工智能使用和信息性如何影响逻辑推理技能的发展,发现高使用AI的用户表现较差,而信息性低的AI对学习无帮助,信息性高的AI则在短期内提升表现但影响不均一。
Comments Accepted at Hybrid Human Artificial Intelligence (HHAI) 2026
表示差距:从几何视角解释神经网络的不合理有效性
发表机构 * Universidade Federal de Minas Gerais(巴西联邦大学矿务学院) ; Queen Mary University of London(伦敦女王玛丽大学)
AI总结 本文从几何视角出发,研究神经网络的表示差距,提出一个与泛化误差密切相关的度量标准,并展示其在更广泛任务和训练算法中的适用性,通过实验证明该理论在合成数据和现实数据中的准确性。
闭环仿真到现实强化学习用于可变形微纤维形状控制
发表机构 * Department of Electrical Engineering and Automation, Aalto University(艾尔沃大学电气工程与自动化系)
AI总结 本文提出了一种闭环仿真到现实强化学习方法,用于在表面控制可变形微纤维形状,通过在简化摩擦模拟器中训练几何形状调节,并利用实时视觉反馈在部署过程中迭代修正未建模的表面相互作用效果。
Comments 7 pages,7 figures
机器人群的分布式多覆盖
发表机构 * University of Houston(德克萨斯大学休斯顿分校)
AI总结 本文提出了一种分布式多覆盖算法,用于解决机器人群在局部感知、局部通信和无全局协调的情况下,维持关键资产可靠覆盖的问题,同时应对机器人故障等约束条件。
Comments Accepted at ANTS 2026 (International Conference on Swarm Intelligence), published by Springer Nature
通过不合理的类别成员探究概念对齐
发表机构 * Department of Computer Science(计算机科学系) ; Princeton University(普林斯顿大学) ; Department of Psychology(心理学系)
AI总结 本文研究了通过询问不合理类别成员来探究概念边界,发现AI模型在某些概念上与人类存在显著差异,如将'词语'归类为'车辆'或'衣物',并探讨了这些概念错位对AI安全的影响。
Flying Together: Human-Guided Immersive Shared Control for Aerial Robot Teams in Unknown Environments
发表机构 * New York University(纽约大学) ; Ecole Polytechnique Federale de Lausanne(洛桑联邦理工学院) ; University of California Berkeley(加州大学伯克利分校)
AI总结 本文提出了一种基于虚拟现实的共享控制框架,用于在约束和未知环境中操作无人机团队,通过实时用户引导探索,提升在无结构环境中的自主导航能力。核心方法是一种基于用户引导的运动原语规划器,结合阻抗控制器,使操作员能够灵活影响团队行为并引导无人机前往自主规划器可能忽略的感兴趣区域。
Comments Accepted at IEEE International Conference in Robotics and Automation, Vienna 2026
MRecover: 一种基于AI生成对比度的条件生成模型,用于通过AI生成对比度恢复运动模糊的MRI图像
发表机构 * Department of Bioengineering, University of Pittsburgh(匹兹堡大学生物工程系) ; School of Medicine, University of Pittsburgh(匹兹堡大学医学院) ; Department of Radiology, University of Pittsburgh(匹兹堡大学放射科) ; Department of Psychiatry, University of Pittsburgh(匹兹堡大学精神病学系)
AI总结 该研究提出了一种条件生成模型MRecover,利用AI生成的对比度来恢复运动模糊的MRI图像,通过自回归切片条件化实现体积分 consistency,提高了 hippocampal 子区域分割的精度和泛化能力。
分层变分策略用于奖励引导的扩散
发表机构 * Department of Computer Science(计算机科学系) ; University of California Irvine(加州大学伊文斯顿分校)
AI总结 本文提出了一种分层变分模型框架,通过将控制信息压缩到轻量级且表达能力强的随机策略中,实现了在降低推理成本的同时生成高质量的奖励对齐样本,该方法在4倍超分辨率任务中实现了比现有最佳基线快5倍的推理速度并具有更好的感知质量。
强化学习中大语言模型的价值-梯度假说
发表机构 * MBZUAI(穆斯林人工智能研究所)
AI总结 本文提出了一种价值-梯度视角来解释无评论强化学习方法在大语言模型后训练中的有效性,并通过分析actor更新和注意力机制中的自适应微分,提出了价值梯度信号和可达奖励空间的分解方法。
放大而非学习:微调的AI文本检测器放大了预训练的方向
发表机构 * University College London(伦敦大学学院)
AI总结 该研究探讨了通过微调AI文本检测器来放大预训练方向而非学习AI与人类边界的问题,发现微调在某些情况下会降低辨别能力,但在非母语写作中表现不同,并展示了闭合形式雅可比预测器在不同架构中的有效性。
EntmaxKV: 基于支持的解码方法用于Entmax注意力
发表机构 * Instituto Superior Técnico, Universidade de Lisboa(里斯本大学理工学院) ; ELLIS Unit Lisbon(里斯本ELLIS单位) ; INESC-ID ; Instituto de Telecomunicações(电信研究所)
AI总结 本文提出EntmaxKV,一种基于支持的解码框架,利用熵最大注意力的稀疏性在KV页面加载前进行稀疏解码,通过查询感知的页面评分、支持感知的候选选择和稀疏熵最大注意力,减少概率质量丢失,提高长上下文语言模型的效率。
相似部分:一种基于特征的局部和全局原型解释方法
发表机构 * Institute of Computing Science(计算科学研究所)
AI总结 本文提出了一种基于特征的局部和全局原型解释方法,通过整合特征重要性来提高解释的粒度,实验表明该方法在保持模型预测精度的同时增强了特征多样性。
Comments Accepted for publication in International Journal of Applied Mathematics and Computer Science (IJAMCS)
AOP-Wiki EMOD 3.0: 数据模型扩展和内容评估框架用于利用代理AI改进AOP与新方法论(NAMs)之间的整合
发表机构 * Open BioData Modeling(开放生物数据建模) ; Environmental Genomics and Systems Biology(环境基因组学与系统生物学) ; Lawrence Berkeley National Laboratory(伯克利国家实验室) ; National Wildlife Research Centre(国家野生动物研究中心) ; UL Research Institutes - Chemical Insights(UL研究机构-化学洞察)
AI总结 本文提出AOP-Wiki EMOD 3.0,通过数据模型扩展和内容评估框架,利用代理AI改进AOP与新方法论之间的整合,为监管科学和生物医学领域提供支持。
Comments 7 Figures and 3 Supplemental Figures
Ablate-to-Validate: 视觉语言模型真的在使用连续思维令牌吗?
发表机构 * University of Washington(华盛顿大学)
AI总结 本文提出了一种诊断原则Ablate-to-Validate,通过Token Replacement Test(TRT)测试视觉语言模型是否真正利用了连续令牌内容,发现模型性能提升可能并非源于令牌内容,而是令牌存在本身。
MindLoom: 通过组合思维模式进行前沿级推理数据合成
发表机构 * Peking University(北京大学) ; Tsinghua University(清华大学)
AI总结 本文提出MindLoom框架,通过组合思维模式工程合成前沿级推理数据,解决了现有方法在问题难度控制和多样性方面的不足,实验表明其在多个基准测试中表现优异。
Comments Work in Progress. Comments: 27 pages, 4 figures, preprint
Flat-Pack Bench: 通过家具组装评估大视觉-语言模型的时空理解
发表机构 * Cornell University(康奈尔大学) ; Cornell Tech(康奈尔科技) ; MBZUAI(麦吉尔-伯克利-浙江大学人工智能研究院) ; UC Berkeley(伯克利大学)
AI总结 本文提出Flat-Pack Bench基准,用于评估大视觉-语言模型在复杂视频场景中的时空理解能力,发现当前模型在细粒度时空推理上存在显著不足。
Comments CVPR 2026
证词的形态:一种可扩展的口述史档案比较框架
发表机构 * Hebrew University of Jerusalem(海法大学)
AI总结 本文通过大规模计算分析超过1600个口述史档案,探讨了犹太人大屠杀研究中两种口述证词风格的区别,并提出一种可扩展的比较语料库分析框架。
TO-Agents:一种用于基于偏好的拓扑优化的多智能体AI流水线
发表机构 * Department of Mechanical Engineering Massachusetts Institute of Technology Cambridge, MA, 02139 USA(机械工程系 马萨诸塞理工学院 哥伦布, 马萨诸塞州, 02139 美国)
AI总结 本文提出TO-Agents,一种多智能体AI框架,通过将自然语言设计意图与迭代拓扑优化相结合,解决设计者手动转换非直接关联的偏好到求解器设置的问题,并在两个长周期设计任务中验证了其有效性。
Comments Accepted for publication in the Proceedings of the ASME 2026 International Design Engineering Technical Conferences (IDETC2026)
UniVL:统一的视觉-语言嵌入用于空间接地的上下文图像生成
发表机构 * Center for Advanced AI(先进人工智能中心)
AI总结 本文提出了一种统一的视觉-语言嵌入方法,通过单一的视觉输入直接将语义绑定到空间位置,从而减少计算并提高图像生成质量。
AgForce 使生成抗体设计具备抗原条件
发表机构 * Georgia State University(佐治亚州立大学) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 本文提出AgForce方法,通过图神经网络和改进的解码器设计,解决传统抗体设计方法中对抗原输入忽略的问题,提升了抗体序列生成的质量和恢复能力。
CR4T:基于重写的青少年LLM安全机制
发表机构 * Virginia Tech(弗吉尼亚理工大学)
AI总结 本文提出CR4T框架,通过选择性响应重构替代拒绝导向的安全机制,以更符合青少年发展需求的方式提升LLM的安全性。
何时教师标记可靠?用于推理的基于位置加权的在线自我蒸馏
发表机构 * Johns Hopkins University(约翰霍普金斯大学) ; University of Wisconsin–Madison(威斯康星大学麦迪逊分校) ; Nanyang Technological University(南洋理工大学)
AI总结 本文提出了一种基于位置加权的在线自我蒸馏方法,用于改进推理任务中教师标记的可靠性,通过引入分支可行性诊断来识别教师标记的可靠性,并在不同模型上验证了其有效性。
Comments Pre-print. Code is available at https://github.com/SaFo-Lab/PW-OPSD
ConTact: 通过显式界面推理进行接触优先的抗体CDR设计
发表机构 * Georgia State University, Atlanta, USA(佐治亚州立大学) ; Georgia Institute of Technology, Atlanta, USA(佐治亚理工学院) ; DePauw University, Indiana, USA(德保罗大学) ; University of Engineering(工程大学)
AI总结 本文提出ConTact,一种通过显式界面推理进行抗体CDR设计的方法,通过显式分解CDR设计为三个阶段:学习表面互补性指纹、预测CDR-抗原接触以及注入接触门控抗原特征,从而提高结构质量和表位意识。
Lens:重新思考基础文本到图像模型的训练效率
发表机构 * Microsoft Lens Team(微软Lens团队)
AI总结 本文提出Lens,一个具有38亿参数的文本到图像模型,在多种基准测试中表现与超过60亿参数的最新模型相当甚至更优,同时训练计算需求显著降低。通过最大化训练批次的数据信息密度和改进收敛速度的架构选择,实现了高效的训练和优化。
Comments Project Page: https://github.com/microsoft/Lens