Gaze Heads: How VLMs Look at What They Describe
注视头:视觉语言模型如何观察它们所描述的内容
发表机构 * Northeastern University(东北大学)
AI总结 发现视觉语言模型的语言骨干中存在一组“注视头”,其注意力跟踪当前描述的图像区域,通过干预这些头可精确控制模型描述内容,准确率达83.1%。
注视头:视觉语言模型如何观察它们所描述的内容
发表机构 * Northeastern University(东北大学)
AI总结 发现视觉语言模型的语言骨干中存在一组“注视头”,其注意力跟踪当前描述的图像区域,通过干预这些头可精确控制模型描述内容,准确率达83.1%。
OmniVideo-100K:通过结构化脚本和证据链进行音视频推理的数据集
发表机构 * Nanjing University(南京大学) ; CASIA(中国科学院自动化研究所)
AI总结 提出OmniVideo-100K数据集,通过实体锚定视频脚本和线索引导的QA生成机制,解决音视频问答中跨段实体不一致和长时推理不足的问题,微调模型在多个基准上取得显著提升。
Comments Project page: this https URL (https://github.com/MiG-NJU/OmniVideo-100K)
RATS!补丁通过寄存器对话:寄存器注意力Transformer中的涌现部件
发表机构 * Johns Hopkins University(约翰霍普金斯大学) ; Office of Naval Research, Arlington, VA(海军研究办公室,阿灵顿,弗吉尼亚州) ; Department of Laboratory Medicine and Pathology, Mayo Clinic, MN, USA(梅奥诊所检验医学与病理学系,明尼苏达州,美国)
AI总结 提出RATS模型,通过将分类令牌分解为可学习的寄存器令牌,在L→N→N→L瓶颈中路由补丁信息,无需辅助损失或部件标注,每个寄存器自发专化为类似物体部件的原语义区域,在五个分割基准上平均mIoU提升12。
RepFusion:利用多模态先验在表示空间中进行去噪
发表机构 * Meta AI ; New York University(纽约大学)
AI总结 提出RepFusion方法,利用多模态大语言模型作为噪声表示编码器,为扩散变压器提供条件信号,在相似推理预算下优于新初始化解码器基线。
Comments Project Page: this https URL (https://xichenpan.com/repfusion)
Instruct-Particulate: 基于运动学控制的可扩展前馈式3D物体关节化
发表机构 * University of Oxford(牛津大学) ; University of Cambridge(剑桥大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出Instruct-Particulate模型,通过运动学规范(部件描述、连接性、关节类型等)指导3D网格的关节分割和运动参数预测,利用异构数据集(15万+物体)训练,实现跨类别和AI生成网格的泛化。
Comments Project page: this https URL (https://instruct-particulate.github.io/)
ClinHallu: 用于诊断医学多模态大语言模型推理中阶段式幻觉的基准
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; DAMO Academy, Alibaba Group(阿里巴巴达摩院) ; Hupan Lab(湖畔实验室) ; Zhejiang University(浙江大学)
AI总结 提出ClinHallu基准,包含7031个实例,每个实例带有结构化推理轨迹(视觉识别、知识回忆、推理整合),通过阶段替换干预和轨迹监督微调,实现细粒度幻觉诊断与缓解。
Comments Code and datasets: this https URL (https://github.com/alibaba-damo-academy/ClinHallu)
AdaSR: 自适应流式推理与分层相对策略优化
发表机构 * Eastern Institute of Technology, Ningbo(宁波东方理工大学) ; Shanghai Jiao Tong University(上海交通大学) ; The Hong Kong Polytechnic University(香港理工大学) ; Southeast University(东南大学) ; Xi’an Jiaotong-Liverpool University(西交利物浦大学)
AI总结 提出AdaSR框架,通过分层相对策略优化(HRPO)实现流式输入下的自适应推理,在推理准确率、计算效率和流式延迟间取得更好平衡。
CORA: 通过一致性导向的推理对齐分析与弥合多模态RLVR中的思考-答案差距
发表机构 * University of Chinese Academy of Sciences(中国科学院大学) ; Wuhan University(武汉大学) ; Tsinghua University(清华大学) ; Tianjin University(天津大学)
AI总结 本文分析多模态RLVR中思考与答案的语义不一致问题,提出CORA方法,通过轻量级一致性奖励模型引入语义一致性,并采用混合奖励优势分裂稳定优化,提升推理忠实度。
Comments Submitted to EMNLP 2026
多组均值估计中主动学习的复杂度度量
发表机构 * Department of Industrial Engineering and Operations Research & Data Science Institute, Columbia University(哥伦比亚大学工业工程与运筹学系及数据科学研究所)
AI总结 针对多组均值估计的max-risk目标,提出局部极小极大框架并证明一般下界,引入方差局部曲率(VLC)作为复杂度度量,在平滑类中与方差-费希尔信息关联,并揭示异质实例中的系统性差距。
洪流与收获:通过极限语言生成视角证明琐碎知识对于生成有价值数学的必要性
发表机构 * University of New South Wales(新南威尔士大学) ; University of Sydney(悉尼大学) ; University of Cambridge(剑桥大学)
AI总结 本文通过极限语言生成模型证明,在形式化数学生成中,验证器无法替代品味:覆盖未记录的有价值数学必须产生无限但渐近可忽略的琐碎语句,这是理论上的必然。
一般凸集上在线库存优化的最优隐藏目标学习
发表机构 * UIUC(伊利诺伊大学厄巴纳-香槟分校)
AI总结 针对一般凸容量集上的在线库存优化问题,提出隐藏目标投影方法,将遗憾从逆概率依赖改进为平方根逆概率依赖,并证明匹配下界,同时首次给出强凸损失的 polylog 遗憾和动态遗憾保证。
AgentSpec: 通过受控组合理解具身智能体脚手架
发表机构 * University of California, San Diego(加利福尼亚大学圣迭戈分校) ; Johns Hopkins University(约翰霍普金斯大学) ; University of Washington(华盛顿大学) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出AgentSpec模块化规范框架,将具身智能体表示为可复用策略组件的类型化组合,通过标准化接口实现受控组件替换与重组,揭示脚手架兼容性和交互效应对性能的主导作用。
压缩计算(可能)不是叠加计算
发表机构 * Metamorphic ; Independent(独立研究者) ; UK AI Security Institute(英国人工智能安全研究所) ; Apollo Research
AI总结 通过分析压缩计算(CC)模型,发现其性能提升源于标签中的混合矩阵,而非真正的叠加计算,SNMF基线可复现其损失特征。
Comments Presented at the Mechanistic Interpretability Workshop at NeurIPS 2025
面向LLM-Agent工作流中并行分支的直接潜在空间合成
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Meta
AI总结 提出Parallel-Synthesis框架,通过直接利用并行工作代理的KV缓存进行合成,避免文本拼接冗余,在9个数据集上匹配或超越文本合成,并将首令牌延迟降低2.5-11倍。
Memento: 通过重建来记忆以实现一致的长视频生成
发表机构 * Xiamen University(厦门大学) ; ERNIE Team, Baidu Inc.(百度公司ERNIE团队)
AI总结 提出Memento框架,通过主体重建引导和双查询记忆机制,解决长视频生成中主体一致性丢失问题,实现跨镜头连贯生成。
Comments Project page: this https URL (https://ernie-research.github.io/Memento/)
EgoGuide: 以自我为中心引导的高效无机器人演示收集与学习
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai Innovation Institute(上海创新研究院) ; Beijing Institute for General Artificial Intelligence (BIGAI)(北京通用人工智能研究院)
AI总结 提出EgoGuide数据收集接口,通过同步腕部和头部/自我中心观察并在线视觉-几何质量引导,结合门控自我中心残差策略,减少所需数据量并提高数据效率。
给AI带来头痛:针对计算机视觉应用的声学对抗攻击
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 研究利用低频声波(<20 kHz)引起相机物理振动,导致AI视觉模型(如YOLO11)误分类、漏检或产生幻觉,并分析了影响攻击效果的因素。
Comments 9 pages, 7 figures, SPIE Defense + Security
HPSv3++:跨扩散模型能力全谱系扩展奖励模型
发表机构 * Tsinghua University(清华大学) ; JD Explore Academy(京东探索研究院) ; Peking University(北京大学) ; Zhejiang University(浙江大学)
AI总结 提出HPSv3++奖励模型框架,通过双维度偏好数据集HPDv3++和两阶段训练(正交梯度投影+无监督引导),提升对各类T2I模型及RL迭代的偏好预测能力,在多个基准上达到最优。
将跨领域动作序列抽象为可解释的工作流
发表机构 * Microsoft Corporation(微软公司)
AI总结 提出WorkflowView框架,利用大语言模型将低层动作序列抽象为高层活动,在三个不同任务中验证了有效性和泛化能力,实现高语义相似度和预测性能。
Comments preprint; 9 pages, 5 figures
哪些方向重要?仿射鲁棒优化的稀疏设计
发表机构 * University of South Florida(南佛罗里达大学)
AI总结 研究有限字典和预算约束下鲁棒优化中不确定性方向的选择问题,提出基于覆盖目标的数据驱动选择规则,证明其单调次模性,给出贪心算法的近似保证和匹配的难度下界。
Comments Accepted at UAI 2026
基于注意力的听觉:面向Transformer音频模型的熵引导可解释性
发表机构 * Florida International University(佛罗里达国际大学) ; University of South Florida(南佛罗里达大学)
AI总结 提出LEAF-X框架,通过熵引导注意力加权、多层注意力展开和因果消融,为Transformer语音识别模型生成稀疏的帧级归因,提升忠实度32%、局部性/稀疏性35-39%。
Comments 17 pages, 3 figures, and 9 tables. Accepted in Interspeech 2026 conference
具有亚线性噪声探测的在线凸优化
发表机构 * Sapienza University of Rome(罗马大学) ; New York University(纽约大学) ; EPFL(瑞士联邦理工学院洛桑分校)
AI总结 研究在线凸优化中利用亚线性噪声成对探测降低遗憾,通过方差缩减和连续指数权重二阶分析获得紧界。
Comments Accepted at COLT '26
从自监督语音模型到混合专家系统以实现鲁棒的防欺骗
发表机构 * Université d'Avignon(阿维尼翁大学) ; Airbus Defence & Space(空中客车防务与航天公司)
AI总结 将自监督语音模型转换为混合专家架构,通过层间门控机制增强泛化能力,在14个欺骗数据集上将宏EER从5.46%降至4.81%。
Comments 8 pages, 3 figures, accepted at Odyssey 2026 (The Speaker and Language Recognition Workshop)
利用深度学习薛定谔桥改进月球地形
发表机构 * H. Milton Stewart School of Industrial and Systems Engineering, Georgia Institute of Technology(佐治亚理工学院H. Milton Stewart工业与系统工程系) ; NASA Goddard Space Flight Center(美国国家航空航天局戈达德太空飞行中心) ; Center for Research and Exploration in Space Science and Technology (CRESST II), University of Maryland, College Park(马里兰大学帕克分校空间科学与技术研究与探索中心(CRESST II)) ; National Institute for Astrophysics (INAF), Astrophysical Observatory of Turin(意大利国家天体物理研究所(INAF)都灵天体物理天文台)
AI总结 提出基于扩散薛定谔桥的生成模型,结合光学影像约束,实现月球地形超分辨率重建,并提供像素级不确定性估计。
用于控制函数工具变量的图扩散残差
发表机构 * School of Computer Science and Engineering, University of Science and Technology of China(中国科学技术大学计算机科学与技术学院)
AI总结 提出自适应各向异性工具热流(A-IHF),一种基于图扩散的残差提取方法,用于灵活控制函数,通过检测处理跳跃并调整图传导性,在合成基准测试中优于多种基线方法。
Comments Submitted to Journal of Machine Learning Research (JMLR). 50 pages, 6 figures
SED: 基于蒸馏的轻量级事件数据显著性预测
发表机构 * i3S/CNRS, Université Côte d’Azur(法国蔚蓝海岸大学i3S/CNRS实验室) ; ETH Zürich(苏黎世联邦理工学院)
AI总结 提出轻量级网络SED,通过知识蒸馏和深度时空块(DSTconv)实现事件数据显著性预测,模型大小减少562倍,参数减少554倍,性能匹配或超越教师模型。
表征AI生成故事中的文化本地化
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出一种方法,通过识别区分国籍的词汇标记并移除后测量叙事相似性,检测AI生成故事中的模板化本地化,发现仅9-17%词汇解释国籍差异,且部分文化标记具有冒犯性。
Comments Accepted to the 4th Workshop on Cross-Cultural Considerations in NLP (C3NLP) Co-located with ACL 2026, San Diego, USA (non-archival)
既非并行也非顺序:DiffusionGemma 实际如何提交令牌
发表机构 * Transformer Lab
AI总结 通过钩取DiffusionGemma 26B的采样器接受步骤,测量其解码顺序,发现解码既非并行也非块自回归,而是呈现部分从左到右的提交偏差,且块大小是测量尺度的伪影而非架构特性。
全身阻抗模型预测控制:浮基平台上的安全人机物理交互
发表机构 * Voryx Robotics
AI总结 提出三层架构的全身阻抗MPC,通过质心MPC规划接触力、优先级WBC层平衡关节力矩、再ceding-horizon QP预测并抑制人机交互扰动,实现浮基机器人零稳态误差安全交互。
潜空间中的月光:贝多芬Op. 27 No. 2的手性与机器学习机制之间的结构对应
发表机构 * Claude Code / Opus 4.6 ; API / Fable 5 ; Independent researcher(独立研究者)
AI总结 通过计算分析贝多芬《月光奏鸣曲》的乐谱,发现其三个乐章分别对应三种不同的机器学习架构,并揭示了四个反直觉发现,包括音乐温度由吞吐量决定、最轻的乐章具有最高不协和度等。