arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.10404 2026-05-12 cs.CV

Position: Life-Logging Video Streams Make the Privacy-Utility Trade-off Inevitable

Tianyuan Zou, Liang Yue, Yang Liu, Ya-Qin Zhang, Sijie Cheng

发表机构 * Institute for AI Industry Research, Tsinghua University, Beijing, China（清华大学人工智能产业研究院）； RayNeo.AI, Shenzhen, China（深圳RayNeo.AI）； Department of Computer Science and Technology, Tsinghua University, Beijing, China（清华大学计算机科学与技术系）

AI总结随着智能眼镜、体戴摄像头等持续运行的硬件设备日益普及，生活日志视频流已成为持续运行人工智能系统的核心组成部分。这类视频流虽能显著提升系统实用性，但也带来了严重的隐私泄露风险，如暴露行为模式、情绪状态和社会互动等敏感信息。现有隐私保护方法要么针对特定攻击，要么导致显著的实用性损失，未能全面考虑数据处理全流程，因此生活日志视频流中的隐私与实用性权衡已成为下一代人工智能系统亟待解决的基础性挑战。

Comments 19 pages, 7 figures

2605.10401 2026-05-12 cs.AI math.OC

LLM4Branch: Large Language Model for Discovering Efficient Branching Policies of Integer Programs

Zhinan Hou, Xingchen Li, Yankai Zhang, Tianxun Li, Keyou You

发表机构 * Department of Automation, BNRist, Tsinghua University, Beijing, China.（自动化系，BNRist，清华大学，北京，中国）

AI总结本文提出了一种基于大语言模型（LLM）的新框架LLM4Branch，用于自动发现整数规划问题中的高效分支策略。该方法通过LLM生成可执行的策略框架，并结合零阶优化方法在少量实例的端到端性能反馈下优化参数，从而提升求解效率。实验表明，LLM4Branch在标准MILP基准测试中达到了基于CPU方法的最先进水平，并能与先进的GPU方法相媲美。

Comments ICML2026 preprint, camera ready in progress

2605.10397 2026-05-12 cs.CV cs.AI

AnomalyClaw: A Universal Visual Anomaly Detection Agent via Tool-Grounded Refutation

Xi Jiang, Yinjie Zhao, Zesheng Yang, Feng Zheng

发表机构 * Department of Computer Science and Engineering, Southern University of Science and Technology (SUSTech), Shenzhen, China（南方科技大学计算机科学与工程系，深圳，中国）； School of EEE, Nanyang Technological University (NTU), Singapore（南洋理工大学电子工程学院，新加坡）； CFAR, Agency for Science, Technology and Research (A*STAR), Singapore（科技研究局（A*STAR）的CFAR，新加坡）

AI总结视觉异常检测在工业检测、医疗影像等领域具有重要意义，但不同领域间的数据模态和标注标准差异导致单一领域训练的模型难以跨域应用。为此，本文提出 AnomalyClaw，一种无需训练的视觉异常检测代理，通过多轮反驳机制提升判断可靠性，结合13种工具进行视觉验证与参考解析。实验表明，AnomalyClaw 在多个跨域数据集上显著优于单步推理方法，并通过自进化机制进一步提升了检测性能。

Comments We release the agent, the benchmark, and the analysis artifacts at https://github.com/jam-cc/AnomalyClaw

2605.10396 2026-05-12 cs.LG cs.NE

Causal Explanations from the Geometric Properties of ReLU Neural Networks

Hector Woods, Philippa Ryan, Rob Alexander

发表机构 * Department of Computer Science University of York（计算机科学系英国约克大学）

AI总结该论文研究了如何从ReLU神经网络的几何特性中生成因果解释，以提高深度神经网络决策过程的可解释性。作者指出，ReLU网络可以被看作是将输入空间划分为多个由凸多面体定义的区域，每个区域对应一个线性函数。基于这一几何特性，论文提出了一种直接从网络结构中提取因果解释的方法，能够更准确地反映网络的行为，从而为自主系统的安全保证提供支持。

Comments 7 pages, 0 figures, Accepted for presentation at the Yorkshire Innovation in Science and Engineering Conference

2605.10394 2026-05-12 cs.CV

Sens-VisualNews: A Benchmark Dataset for Sensational Image Detection

Andreas Goulas, Damianos Galanopoulos, Evlampios Apostolidis, Vasileios Mezaris

发表机构 * IDT-ITI

AI总结本文提出了一项新的任务——煽动性图像检测，旨在判断图像是否包含令人震惊、挑衅或情感强烈的特征，以吸引注意力并引发强烈情绪反应。为此，研究者构建了一个名为Sens-VisualNews的基准数据集，包含9,576张新闻图片，并根据其视觉内容中是否存在各种煽动性概念和事件进行标注。基于该数据集，研究进一步探讨了多种先进多模态大语言模型在零样本和微调设置下的提示敏感性、性能及鲁棒性。

Comments Authors' Accepted Version; Accepted at IEEE ICIP 2026

2605.10393 2026-05-12 cs.LG cs.LO

The Polynomial Counting Capabilities of Message Passing Neural Networks

Marco Sälzer, Pascal Bergsträßer, Anthony W. Lin

发表机构 * RPTU University Kaiserslautern-Landau（科布伦茨-劳恩堡大学）； Max Planck Institute for Software Systems (MPI-SWS)（软件系统研究所（MPI-SWS））

AI总结本文研究了消息传递神经网络（MPNN）在超越线性算术约束的多项式计数能力，重点探讨了其在表达带有多项式计数约束的分级模态逻辑扩展中的条件。作者证明，在轻度假设下，全局多项式计数约束可以通过均值聚合的MPNN进行验证，而局部约束的验证则需要额外条件，如允许求和或最大值聚合，或限制在正则图上。此外，文章还展示了如何通过树状结构图和相似假设，使嵌套模态逻辑公式被均值MPNN所捕获。

2605.10391 2026-05-12 cs.CL cs.AI cs.CV

Phoenix-VL 1.5 Medium Technical Report

Team Phoenix, :, Arka Ray, Askar Ali Mohamed Jawad, Biondi Lee, Elijah Seah, Eva Lim, Fiona Teo, Grace Toh, Guang Xiang Teo, Jun En Tan, Jia Hui Bong, Jiale Wang, Jonathan Ng, Justin Tan, Kai Zhe Yew, Matthew Ong, Shun Yi Yeo, Wen Jett Lam, Wen Xiu Tan, Ze Yu Zhang, Gee Wah Ng, Chee Wee Ang, Mistral AI, :, Adrien Sadé, Guillaume Kunsch, Jia Sin Loh, Nicolas Schuhl, Rupert Menneer, Umar Jamil, Vincent Maladière, Yimu Pan

发表机构 * Mistral AI

AI总结本文介绍了Phoenix-VL 1.5 Medium，一个1230亿参数的本地化多模态、多语言基础模型，专门适配新加坡语境和区域性语言。该模型通过本地化的大规模多模态语料进行持续预训练，并结合新加坡文化、法律等领域的数据进行微调，显著提升了在新加坡相关任务上的表现，同时在通用多模态、多语言和STEM任务上也保持了高水平性能。研究还提出了包含本地化知识评估和机构对齐行为的安全框架，为区域化AI模型开发提供了新思路。

Comments Release page: https://medium.com/htx-ai/introducing-phoenix-vl-1-5-medium-multimodal-intelligence-uniquely-singaporean-ef8214c8cfa1

2605.10388 2026-05-12 cs.CV cs.RO

Temporal Sampling Frequency Matters: A Capacity-Aware Study of End-to-End Driving Trajectory Prediction

Yumao Liu, Tao Liu, Xiangyu Li, Jiaxiang Li, Ke Ma

发表机构 * The Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州））

AI总结本文研究了端到端自动驾驶轨迹预测中时间采样频率对模型性能的影响，挑战了高频率采样必然提升性能的传统假设。通过构建不同频率的训练集，并在固定实验协议下训练和评估相同模型，分析了采样频率与预测性能之间的关系。研究发现，模型和数据集不同会导致频率响应差异，小型模型在中等或较低频率下往往表现最佳，而大模型如AutoVLA在最高频率下效果更优，表明时间采样频率应作为可调参数进行优化，而非固定使用最高频率。

2605.10386 2026-05-12 cs.AI

GuardAD: Safeguarding Autonomous Driving MLLMs via Markovian Safety Logic

Tianyuan Zhang, Peng Yue, Zihao Peng, Jiangfan Liu, Zonghao Ying, Jiakai Wang, Tianlin Li, Jian Yang, Yaodong Yang, Aishan Liu, Xianglong Liu

发表机构 * Beihang University（北航大学）； Zhongguancun Laboratory（中关村实验室）； Peking University（北京大学）

AI总结随着多模态大语言模型（MLLMs）在自动驾驶系统中的广泛应用，其在复杂和危险场景下的安全性问题日益突出。为了解决现有安全机制在动态交通环境中鲁棒性不足的问题，本文提出了一种名为GuardAD的模型无关安全防护框架，通过引入马尔可夫逻辑形式化方法，实现对异构交通参与者安全状态的动态推理与持续诱导。GuardAD不仅能够识别潜在的多步安全隐患，还能通过逻辑驱动的动作修正策略优化模型行为，实验表明其在降低事故率和提升任务性能方面均表现出显著优势。

2605.10384 2026-05-12 cs.AI cs.DC cs.NI

Agentic Performance at the Edge: Insights from Benchmarking

Shiqiang Wang, Herbert Woisetschläger

发表机构 * University of Exeter（埃克塞特大学）； Technical University of Munich（慕尼黑技术大学）

AI总结本文研究了在边缘计算环境中，模型参数规模受限时，智能代理（Agentic AI）任务性能的变化情况。通过引入领域条件评估方法和模型-工具交互分析，研究发现边缘代理的质量并非单纯依赖参数数量，而是与模型选择和工具流程的联合设计密切相关。该工作为在资源受限条件下优化边缘智能系统提供了实用指导和失效模式分析。

Comments Accepted to AutoEdge workshop, co-located with MobiSys 2026

2605.10380 2026-05-12 cs.AI

Agent-X: Full Pipeline Acceleration of On-device AI Agents

Jinha Chung, Byeongjun Shin, Jiin Kim, Minsoo Rhu

发表机构 * KAIST（韩国科学技术院）

AI总结本文提出了一种名为Agent-X的软件框架，旨在加速边缘设备上基于大语言模型（LLM）的智能体的端到端推理过程。该框架通过优化提示生成和引入无需LLM的推测解码机制，有效提升了预填充和解码阶段的效率，在保持精度不变的前提下实现了1.61倍的加速。该研究首次系统性地分析并消除了边缘设备智能体中的延迟瓶颈，具有重要的实际应用价值。

Comments Accepted for publication at MobiSys-2026

2605.10379 2026-05-12 cs.CL

Not All Proofs Are Equal: Evaluating LLM Proof Quality Beyond Correctness

Ivo Petrov, Jasper Dekoninck, Dimitar I. Dimitrov, Martin Vechev

发表机构 * INSAIT（INSAIT研究所）； Sofia University "St. Kliment Ohridski"（索菲亚大学"圣克莱孟·奥赫里迪斯基"）； ETH Zurich（苏黎世联邦理工学院）

AI总结该研究指出，尽管大型语言模型在数学问题求解中能够生成正确的证明，但仅凭正确性不足以衡量证明质量，还需考虑清晰性、简洁性、启发性及可迁移性等因素。为此，研究提出了ProofRank基准，通过五个可扩展的指标评估证明质量，包括简洁性、计算简便性、认知简单性、多样性和适应性。实验发现不同模型在证明质量上存在显著差异，且证明质量与正确性之间存在权衡，表明未来应更注重评估生成证明的实用性。

Comments 9 main text pages, 36 total pages, In proceedings to 2026 NeurIPS Evaluations and Datasets Track

2605.10377 2026-05-12 cs.LG cs.MA

PC3D: Zero-Shot Cooperation Across Variable Rosters via Personalized Context Distillation

Ahmet Onur Akman, Rafał Kucharski

发表机构 * Doctoral School of Exact and Natural Sciences, Jagiellonian University（杰哥利昂大学精确与自然科学博士学院）； Faculty of Mathematics and Computer Science, Jagiellonian University（杰哥利昂大学数学与计算机科学学院）

AI总结本文研究了在团队成员数量不断变化的场景下，如何实现多智能体强化学习中的零样本协作。为此，提出了一种名为PC3D的方法，通过个性化上下文蒸馏，使每个智能体能够从局部交互历史中恢复并利用个性化的协调上下文，从而适应不同规模的团队。实验表明，该方法在多个协作型多智能体基准任务中，无论面对已见还是未见的团队规模，均能取得优于现有方法的性能。

2605.10374 2026-05-12 cs.CV

Halo Separation-guided Underwater Multi-scale Image Restoration

Jiaxin Yang, Honglin Liu, Yongli Wang, Shuyi Cao, Chengcheng Jiang, Jiale Wang

发表机构 * College of Information Science and Technology（信息科学与技术学院）； Dalian Maritime University（大连海事大学）； College of Marine Electrical Engineering（海洋电气工程学院）

AI总结本文针对水下自主水下机器人拍摄图像中因人工光源引起的光晕问题，提出了一种基于迭代结构的单光晕图像校正方法。该方法通过两个子网络分别实现光晕层分离和多尺度图像恢复，提升了水下图像的清晰度和质量。实验使用合成数据集和真实光晕图像进行训练与测试，并引入径向梯度约束以进一步优化光晕消除效果，为水下图像增强提供了更鲁棒的解决方案。

2605.10370 2026-05-12 cs.AI cs.DB cs.DC

Autonomous FAIR Digital Objects: From Passive Assertions to Active Knowledge

Zeyd Boukhers, Oya Beyan, Cong Yang, Christoph Lange

发表机构 * Fraunhofer Institute for Applied Information Technology FIT（弗劳恩霍夫应用信息技术研究所）； University Hospital Cologne UKK（科隆大学医院UKK）； University of Cologne, Faculty of Medicine and University Hospital Cologne（科隆大学医学院及科隆大学医院）； School of Future Science and Engineering, Soochow University（苏州大学未来科学与工程学院）； RWTH Aachen University（亚琛工业大学）

AI总结当前科学知识在网络上以被动断言的形式发布，无法自主验证证据、调和矛盾或随新发现更新可信度。本文提出自主FAIR数字对象（aFDO），通过引入策略层、公告层和协议层，赋予数字对象自主处理信息的能力，从而实现去中心化的、可持续的知识管理。研究基于语义网标准构建了aFDO的理论框架，并在罕见病本体数据集上验证了其有效性，展示了其在处理数据冲突和抵御恶意攻击方面的性能。

2605.10366 2026-05-12 cs.AI

EGL-SCA: Structural Credit Assignment for Co-Evolving Instructions and Tools in Graph Reasoning Agents

Zike Yuan, Yukun Cao, Han Zhang, Jianzhi Yan, Le Liu, Cai ke, Yue Yu, Hui Wang, Ming Liu, Bing Qin

发表机构 * Harbin Institute of Technology（哈尔滨工业大学）； Peng Cheng Laboratory（鹏城实验室）； School of Computer Science and Technology（计算机科学与技术学院）

AI总结本文提出了一种名为EGL-SCA的框架，用于解决图推理智能体在自然语言输入下同时构建结构化图实例、选择计算工具并满足结构化验证的问题。该方法通过一个以验证器为中心的双空间框架，将推理策略与可执行工具协同优化，利用结构化信用分配机制将失败原因精确归因于提示优化或工具合成，从而实现指令与工具的共同进化。实验表明，EGL-SCA在四个图推理基准测试中取得了92.0%的平均成功率，显著优于纯提示和固定工具箱的方法。

2605.10365 2026-05-12 cs.AI

Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

Haonan Dong, Qiguan Feng, Kehan Jiang, Haoran Ye, Xin Zhang, Guojie Song

发表机构 * State Key Laboratory of General Artificial Intelligence（通用人工智能国家重点实验室）； School of Intelligence Science and Technology, Peking University（北京大学智能科学与技术学院）； Peking University School of Software and Microelectronics（北京大学软件与微电子学院）； Peking University School of Psychological and Cognitive Sciences（北京大学心理与认知科学学院）； Key Laboratory of Machine Perception (Ministry of Education), Peking University（北京大学机器感知重点实验室）

AI总结本文提出 Agent-ValueBench，首个专门用于评估智能体价值观的综合性基准，旨在填补现有基准仅限于大型语言模型而无法评估智能体价值观的空白。该基准包含16个领域共394个可执行环境，涵盖28种价值体系和332个维度的4,335个价值冲突任务，每个任务均由专业心理学家精心设计，并配备两条对齐的黄金轨迹供评估使用。通过测试14个主流模型和四种执行框架，研究揭示了智能体价值观在不同模型和执行框架下的表现规律，指出智能体对齐正从传统模型对齐向执行框架对齐和技能引导转变。

2605.10362 2026-05-12 cs.CV

CellDX AI Autopilot: Agent-Guided Training and Deployment of Pathology Classifiers

Alexey Pchelnikov, Aleksei Pchelnikov

发表机构 * HistAI

AI总结 CellDX AI Autopilot 是一个通过人工智能代理实现病理图像分类模型训练与部署的平台，旨在降低计算病理学中对专业技能和计算资源的依赖。该平台提供结构化的代理技能，引导用户完成数据集构建、超参数优化、多策略模型比较及带人工参与的部署流程，并基于包含32,000多例病例和66,000张H&E染色全切片图像的预构建数据集进行训练。其核心贡献在于引入了专为病理任务设计的代理技能架构和多实例学习框架，显著提升了模型训练效率与易用性。

2605.10351 2026-05-12 cs.LG eess.SP

Foundations of Reliable Inference: Reliability-Efficiency Co-Design

Jiayi Huang

发表机构 * The Department of Engineering（工程系）； King’s College London（伦敦国王学院）

AI总结本研究探讨了如何在保证人工智能模型不确定性估计可信度的同时提高推理效率的问题。作者提出了一种统一的框架，从两个角度出发，旨在实现可靠性与计算效率的协同设计。该工作为构建高效且可信的AI推理系统提供了理论基础和方法支持。

Comments PhD Thesis

2605.10349 2026-05-12 cs.CV cs.AI cs.LG

Portable Active Learning for Object Detection

Rashi Sharma, Justin Timothy C. Bersamin, Karthikk Subramanian

发表机构 * Panasonic R&D Center Singapore（松下研发中心新加坡）； Nanyang Technological University（南洋理工大学）

AI总结本文提出了一种名为PAL的便携式主动学习框架，用于提升目标检测任务的标注效率。该方法无需修改检测模型内部结构或训练流程，仅基于模型的推理输出进行数据选择，结合类别级实例不确定性与图像级多样性，有效提升了所选样本的信息量与多样性。实验表明，PAL在多个数据集上均优于现有主动学习方法，显著提高了标签效率和检测精度，为实际应用中的高效目标检测部署提供了实用解决方案。

Comments CVPR 2026(highlight)

2605.10345 2026-05-12 cs.CV

BGG: Bridging the Geometric Gap between Cross-View images by Vision Foundation Model Adaptation for Geo-Localization

Wei Wang, Dou Quan, Ning Huyan, Shuang Wang, Yi Li, Pei He, Licheng Jiao

发表机构 * Key Laboratory of Intelligent Perception and Image Understanding of Ministry of Education of China, Xidian University（中国教育部智能感知与图像理解重点实验室，西安电子科技大学）； School of Telecommunications, Xidian University（西安电子科技大学电信学院）； Department of Automation, Tsinghua University（清华大学自动化系）

AI总结本文提出了一种基于视觉基础模型（VFM）的参数高效适配框架BGG，用于解决跨视角图像（如无人机与卫星图像）之间的几何差异问题，以提升跨视角地理定位（CVGL）的性能。BGG通过多粒度特征增强适配器（MFEA）和频率感知结构聚合（FASA）模块，有效提升了特征的尺度适应性和视角鲁棒性，并增强了局部结构特征，从而在低训练成本下实现了更精确的地理定位。实验表明，BGG在多个数据集上取得了优于现有方法的先进性能。

2605.10343 2026-05-12 cs.CV cs.AI

EvoStreaming: Your Offline Video Model Is a Natively Streaming Assistant

Zichen Wen, Boxue Yang, Junlong Ke, Jiajie Huang, Chenfei Liao, Junxi Wang, Xuyang Liu, Linfeng Zhang

发表机构 * EPIC Lab, Shanghai Jiao Tong University（上海交通大学EPIC实验室）； Tsinghua University（清华大学）； The Hong Kong University of Science and Technology (Guangzhou)（香港科学与技术大学（广州））； Fudan University（复旦大学）

AI总结本文提出EvoStreaming，一种用于将离线视频语言模型（VideoLLM）适配为流式视频助理的自进化框架。研究发现，现有VideoLLM虽具备良好的视觉理解能力，但缺乏在流式场景下决定何时响应的交互策略。EvoStreaming通过模型自身生成数据、标注相关性并制定响应策略，无需外部监督即可合成流式交互轨迹，仅用极少样本便显著提升了模型在流式评估中的表现，同时基本保持其离线性能，为高效适配流式视频助理提供了新路径。

Comments 33 pages, 9 figures

2605.10341 2026-05-12 cs.AI cs.SE

PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents

Bihui Yu, Xinglong Xu, Junjie Jiang, Jiabei Cheng, Caijun Jia, Siyuan Li, Conghui He, Jingxuan Wei, Cheng Tan

发表机构 * University of Chinese Academy of Sciences（中国科学院大学）； Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）； School of Automation and Intelligent Sensing, Shanghai Jiao Tong University（上海交通大学自动化与智能感知学院）

AI总结论文《PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents》提出了一种基于视觉反馈的排版优化方法，用于解决科学文档在从LaTeX源码编译为最终PDF过程中常见的视觉缺陷问题。该方法通过迭代渲染、缺陷检测和源码修正的闭环流程，实现对页面布局、公式排布、表格缩放等问题的自动修复。研究引入了视觉排版优化（VTO）任务，并构建了包含多种缺陷类型的基准数据集PaperFit-Bench，实验表明该方法在多项指标上显著优于现有基线，验证了视觉闭环在提升文档排版质量中的关键作用。

Comments 47 pages, 17 figures, 17 tables

2605.10339 2026-05-12 cs.CL

An Annotation Scheme and Classifier for Personal Facts in Dialogue

Konstantin Zaitsev

发表机构 * HSE University（俄罗斯莫斯科高等经济学院）

AI总结本文提出了一种用于对话中个人事实分类的扩展标注方案和分类器，旨在解决现有方法在结构化存储和对话延续性识别方面的不足。该方案引入了人口统计、拥有物等新类别以及持续时间、有效性等属性，提升了事实管理的结构化程度和分类质量。基于手动标注的2,779条事实，研究构建了一个多头分类器，结合Gemma-300M编码器在宏观F1指标上达到81.6%，显著优于少样本LLM基线模型，且计算资源消耗更低。

2605.10337 2026-05-12 cs.AI eess.SP

CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings

Liuyin Yang, Qiang Sun, Bob Van Dyck, Eva Calvo Merino, Marc M. Van Hulle

发表机构 * Laboratory for Neuro- & Psychophysiology, Department of Neurosciences, KU Leuven（神经与心理生理实验室，神经科学系，比利时鲁文大学）

AI总结该研究提出CORTEG框架，旨在将基于头皮EEG的预训练基础模型迁移至颅内ECoG信号，以提升脑机接口的解码性能。CORTEG结合了电极感知的空间适配器、双流分词器和留一被试法微调策略，实现了跨被试学习和快速个性化校准。实验表明，CORTEG在多个任务中达到或超越了专门方法的性能，尤其在数据量有限的情况下表现突出，为高效、可扩展的颅内脑机接口提供了新思路。

2605.10335 2026-05-12 cs.LG cs.AI cs.CL cs.NA math.NA math.OC

PowerStep: Memory-Efficient Adaptive Optimization via $\ell_p$-Norm Steepest Descent

Yao Lu, Dengdong Fan, Shixun Zhang, Yonghong Tian

发表机构 * Pengcheng Laboratory（鹏城实验室）； Peking University（北京大学）

AI总结本文提出了一种名为 PowerStep 的内存高效的自适应优化算法，旨在解决大规模神经网络训练中传统自适应优化器（如 Adam）所面临的内存开销过大的问题。该方法通过在动量缓冲区上直接应用非线性变换，实现了坐标自适应性，而无需存储二阶矩统计量。实验表明，PowerStep 在保持与 Adam 相当收敛速度的同时，显著降低了优化器的内存占用，并在结合量化技术后进一步提升了内存效率。

2605.10334 2026-05-12 cs.CV

The Alpha Blending Hypothesis: Compositing Shortcut in Deepfake Detection

Andrii Yermakov, Jan Cech, Mario Fritz, Jiri Matas

发表机构 * Czech Technical University in Prague（捷克技术大学）； CISPA Helmholtz Center for Information Security（CISPA海德堡中心）

AI总结近年来，深度伪造检测方法在跨数据集泛化能力上有所提升，但其背后的机制仍不明确。本文提出“Alpha混合假说”，认为当前先进的基于帧的检测器实际上是在搜索Alpha混合痕迹，而非学习语义异常或生成模型的指纹。研究通过实验验证了该假说，并提出了一种基于真实人脸图像和自混合图像增强数据集的检测方法BlenD，在多个合成伪造数据集上取得了最佳的跨数据集泛化性能，且无需在训练中使用明确生成的深度伪造样本。

2605.10332 2026-05-12 cs.AI

EmbodiSkill: Skill-Aware Reflection for Self-Evolving Embodied Agents

Ruofei Ju, Xinrui Wang, Xin Ding, Yifan Yang, Hao Wu, Shiqi Jiang, Qianxi Zhang, Hao Wen, Xiangyu Li, Weijun Wang, Kun Li, Yunxin Liu, Haipeng Dai, Wei Wang, Ting Cao

发表机构 * Nanjing University（南京大学）； Huazhong University of Science and Technology（华中科技大学）； University of Science and Technology of China（中国科学技术大学）； Microsoft Research（微软研究院）； Institute for AI Industry Research (AIR) Tsinghua University（清华大学人工智能产业研究院）

AI总结 EmbodiSkill 是一种用于具身智能体技能自演进的训练-free 框架，旨在解决具身环境中任务失败可能由技能错误或执行失误共同导致的问题。该方法通过技能感知的反思机制，区分任务失败中的技能错误与执行失误，并分别进行针对性的修正与强化。实验表明，EmbodiSkill 能有效提升具身任务的成功率，在 ALFWorld 上实现了高达 93.28% 的任务成功率，显著优于无技能直接使用的大型语言模型。

2605.10319 2026-05-12 cs.CV

LimeCross: Context-Conditioned Layered Image Editing with Structural Consistency

Ryugo Morita, Stanislav Frolov, Brian Bernhard Moser, Ko Watanabe, Riku Takahashi, Issey Sukeda, Andreas Dengel

发表机构 * RPTU Kaiserslautern-Landau \& DFKI GmbH, Kaiserslautern, Germany Faculty of Science ； Engineering, Hosei University, Tokyo, Japan EQUES, Tokyo, Japan

AI总结本文提出了一种名为 LimeCross 的训练-free 上下文条件化分层图像编辑框架，能够在保持未选层不变的前提下，根据文本指令对用户选定的 RGBA 分层进行编辑。该方法通过双流注意力机制利用其他层的上下文信息，保持跨层一致性，并有效防止编辑层污染。研究还引入了 LayerEditBench 数据集与评估协议，实验表明 LimeCross 在分层纯净度和合成真实感方面优于现有方法，为可控生成创作提供了新的分层编辑范式。

2605.10318 2026-05-12 cs.CL

Extending Confidence-Based Text2Cypher with Grammar and Schema Aware Filtering

Makbule Gulcin Ozsoy

发表机构 * Neo4j（Neo4j公司）

AI总结该研究探讨了如何在Text2Cypher任务中利用结构化约束提升生成查询的可靠性。作者提出了一种结合置信度评分、语法验证和模式约束的过滤框架，通过在生成后进行多阶段验证来提高查询的正确性。实验表明，语法和模式感知的过滤分别提升了生成查询的语法有效性和执行质量，但也会增加空预测的数量并降低覆盖率。研究为理解不同约束对生成效果的影响提供了新的视角。

AI 大模型

视觉与机器人

科学与医疗