arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.10414 2026-05-12 cs.LG

Remember to Forget: Gated Adaptive Positional Encoding

Riccardo Ali, Alessio Borgi, Christopher Irwin, Mario Severino, Pietro Liò

AI总结该研究针对现代大语言模型中旋转位置编码（RoPE）在处理超出训练范围的长序列时出现的注意力偏差和检索性能下降问题，提出了一种新的位置编码方法——门控自适应位置编码（GAPE）。GAPE 通过引入内容感知的注意力偏差，在保持旋转几何结构的同时，利用查询门和键门分别抑制无关上下文和保留重要远距离信息，从而提升长上下文下的注意力聚焦能力和模型鲁棒性。实验表明，GAPE 在合成检索和长上下文基准测试中均优于传统旋转位置编码方法。

2605.10410 2026-05-12 cs.LG

Equilibrium Residuals Expose Three Regimes of Matrix-Game Strategic Reasoning in Language Models

Wenhua Nie, Binhan Luo, Zijie Meng, Jyh-Shing Roger Jang, Ching-Wen Ma

AI总结该研究探讨了大型语言模型在矩阵博弈中的战略推理能力，发现模型在去除语义线索后表现显著下降。通过程序生成的零和矩阵博弈实验，研究揭示了模型在不同规模博弈中的三种推理模式，并证明利用收益残差进行训练可以在格式不稳定的条件下提升模型的泛化能力。实验还表明，通过监督微调和残差奖励训练，模型在未见过的较大规模博弈中的成功率大幅提升，揭示了战略推理能力的格式依赖性和改进潜力。

2605.10409 2026-05-12 cs.CV

Progressive Photorealistic Simplification

Adi Rosenthal, Dana Berman, Yedid Hoshen, Ariel Shamir

AI总结本文提出了一种渐进式光栅化简化方法，旨在在保持图像真实感的前提下减少视觉复杂度。该方法通过结合语义理解和生成编辑，利用视觉语言模型识别并优先移除图像中的元素，并通过学习验证器确保简化过程中的真实感和一致性。研究还进一步将该过程蒸馏为一个图像到视频生成模型，能够直接从单张图像生成连贯的简化序列，适用于内容感知去杂、语义分层分解等任务。

2605.10407 2026-05-12 cs.LG

Identified-Set Geometry of Distributional Model Extraction under Top-$K$ Censored API Access

Wenhua Nie, ZiCheng Zhu, Jianan Wu, Binhan Luo, Haoran Zheng, Jyh-Shing Roger Jang

AI总结本文研究了在仅能获取顶部-$K$个logit分数的API访问模式下，对语言模型分布进行恢复的限制。通过分析截断阈值$τ$，作者确定了可兼容的教师分布构成的识别集，并给出了其总变分直径的精确表达式。实验表明，尽管顶部-$K$截断限制了每个位置的分布恢复能力，但并不妨碍对模型能力的提取，揭示了分布恢复与能力迁移之间的分离现象。

2605.10405 2026-05-12 cs.LG

Valid Best-Model Identification for LLM Evaluation via Low-Rank Factorization

Elad Tolochinsky, Yaniv Tenzer, Yaniv Romano

AI总结本文研究如何在有限资源下高效识别性能最佳的大型语言模型（LLM），提出了一种结合多臂老虎机（MAB）算法与低秩分解预测的框架。该方法通过利用低秩分解预测模型得分，减少对低效模型的评估次数，同时引入双重稳健估计器以保证统计有效性，从而在适应性模型选择和无放回采样场景下构建有效的置信区间。实验表明，该方法在实际基准测试中显著减少了评估次数，降低了计算和成本开销，同时仍能准确识别最佳模型。

2605.10404 2026-05-12 cs.CV

Position: Life-Logging Video Streams Make the Privacy-Utility Trade-off Inevitable

Tianyuan Zou, Liang Yue, Yang Liu, Ya-Qin Zhang, Sijie Cheng

AI总结随着智能眼镜、体戴摄像头等持续运行的硬件设备日益普及，生活日志视频流已成为持续运行人工智能系统的核心组成部分。这类视频流虽能显著提升系统实用性，但也带来了严重的隐私泄露风险，如暴露行为模式、情绪状态和社会互动等敏感信息。现有隐私保护方法要么针对特定攻击，要么导致显著的实用性损失，未能全面考虑数据处理全流程，因此生活日志视频流中的隐私与实用性权衡已成为下一代人工智能系统亟待解决的基础性挑战。

Comments 19 pages, 7 figures

2605.10401 2026-05-12 cs.AI math.OC

LLM4Branch: Large Language Model for Discovering Efficient Branching Policies of Integer Programs

Zhinan Hou, Xingchen Li, Yankai Zhang, Tianxun Li, Keyou You

AI总结本文提出了一种基于大语言模型（LLM）的新框架LLM4Branch，用于自动发现整数规划问题中的高效分支策略。该方法通过LLM生成可执行的策略框架，并结合零阶优化方法在少量实例的端到端性能反馈下优化参数，从而提升求解效率。实验表明，LLM4Branch在标准MILP基准测试中达到了基于CPU方法的最先进水平，并能与先进的GPU方法相媲美。

Comments ICML2026 preprint, camera ready in progress

2605.10397 2026-05-12 cs.CV cs.AI

AnomalyClaw: A Universal Visual Anomaly Detection Agent via Tool-Grounded Refutation

Xi Jiang, Yinjie Zhao, Zesheng Yang, Feng Zheng

AI总结视觉异常检测在工业检测、医疗影像等领域具有重要意义，但不同领域间的数据模态和标注标准差异导致单一领域训练的模型难以跨域应用。为此，本文提出 AnomalyClaw，一种无需训练的视觉异常检测代理，通过多轮反驳机制提升判断可靠性，结合13种工具进行视觉验证与参考解析。实验表明，AnomalyClaw 在多个跨域数据集上显著优于单步推理方法，并通过自进化机制进一步提升了检测性能。

Comments We release the agent, the benchmark, and the analysis artifacts at https://github.com/jam-cc/AnomalyClaw

2605.10396 2026-05-12 cs.LG cs.NE

Causal Explanations from the Geometric Properties of ReLU Neural Networks

Hector Woods, Philippa Ryan, Rob Alexander

AI总结该论文研究了如何从ReLU神经网络的几何特性中生成因果解释，以提高深度神经网络决策过程的可解释性。作者指出，ReLU网络可以被看作是将输入空间划分为多个由凸多面体定义的区域，每个区域对应一个线性函数。基于这一几何特性，论文提出了一种直接从网络结构中提取因果解释的方法，能够更准确地反映网络的行为，从而为自主系统的安全保证提供支持。

Comments 7 pages, 0 figures, Accepted for presentation at the Yorkshire Innovation in Science and Engineering Conference

2605.10394 2026-05-12 cs.CV

Sens-VisualNews: A Benchmark Dataset for Sensational Image Detection

Andreas Goulas, Damianos Galanopoulos, Evlampios Apostolidis, Vasileios Mezaris

AI总结本文提出了一项新的任务——煽动性图像检测，旨在判断图像是否包含令人震惊、挑衅或情感强烈的特征，以吸引注意力并引发强烈情绪反应。为此，研究者构建了一个名为Sens-VisualNews的基准数据集，包含9,576张新闻图片，并根据其视觉内容中是否存在各种煽动性概念和事件进行标注。基于该数据集，研究进一步探讨了多种先进多模态大语言模型在零样本和微调设置下的提示敏感性、性能及鲁棒性。

Comments Authors' Accepted Version; Accepted at IEEE ICIP 2026

2605.10393 2026-05-12 cs.LG cs.LO

The Polynomial Counting Capabilities of Message Passing Neural Networks

Marco Sälzer, Pascal Bergsträßer, Anthony W. Lin

AI总结本文研究了消息传递神经网络（MPNN）在超越线性算术约束的多项式计数能力，重点探讨了其在表达带有多项式计数约束的分级模态逻辑扩展中的条件。作者证明，在轻度假设下，全局多项式计数约束可以通过均值聚合的MPNN进行验证，而局部约束的验证则需要额外条件，如允许求和或最大值聚合，或限制在正则图上。此外，文章还展示了如何通过树状结构图和相似假设，使嵌套模态逻辑公式被均值MPNN所捕获。

2605.10391 2026-05-12 cs.CL cs.AI cs.CV

Phoenix-VL 1.5 Medium Technical Report

Team Phoenix, :, Arka Ray, Askar Ali Mohamed Jawad, Biondi Lee, Elijah Seah, Eva Lim, Fiona Teo, Grace Toh, Guang Xiang Teo, Jun En Tan, Jia Hui Bong, Jiale Wang, Jonathan Ng, Justin Tan, Kai Zhe Yew, Matthew Ong, Shun Yi Yeo, Wen Jett Lam, Wen Xiu Tan, Ze Yu Zhang, Gee Wah Ng, Chee Wee Ang, Mistral AI, :, Adrien Sadé, Guillaume Kunsch, Jia Sin Loh, Nicolas Schuhl, Rupert Menneer, Umar Jamil, Vincent Maladière, Yimu Pan

AI总结本文介绍了Phoenix-VL 1.5 Medium，一个1230亿参数的本地化多模态、多语言基础模型，专门适配新加坡语境和区域性语言。该模型通过本地化的大规模多模态语料进行持续预训练，并结合新加坡文化、法律等领域的数据进行微调，显著提升了在新加坡相关任务上的表现，同时在通用多模态、多语言和STEM任务上也保持了高水平性能。研究还提出了包含本地化知识评估和机构对齐行为的安全框架，为区域化AI模型开发提供了新思路。

Comments Release page: https://medium.com/htx-ai/introducing-phoenix-vl-1-5-medium-multimodal-intelligence-uniquely-singaporean-ef8214c8cfa1

2605.10388 2026-05-12 cs.CV cs.RO

Temporal Sampling Frequency Matters: A Capacity-Aware Study of End-to-End Driving Trajectory Prediction

Yumao Liu, Tao Liu, Xiangyu Li, Jiaxiang Li, Ke Ma

AI总结本文研究了端到端自动驾驶轨迹预测中时间采样频率对模型性能的影响，挑战了高频率采样必然提升性能的传统假设。通过构建不同频率的训练集，并在固定实验协议下训练和评估相同模型，分析了采样频率与预测性能之间的关系。研究发现，模型和数据集不同会导致频率响应差异，小型模型在中等或较低频率下往往表现最佳，而大模型如AutoVLA在最高频率下效果更优，表明时间采样频率应作为可调参数进行优化，而非固定使用最高频率。

2605.10386 2026-05-12 cs.AI

GuardAD: Safeguarding Autonomous Driving MLLMs via Markovian Safety Logic

Tianyuan Zhang, Peng Yue, Zihao Peng, Jiangfan Liu, Zonghao Ying, Jiakai Wang, Tianlin Li, Jian Yang, Yaodong Yang, Aishan Liu, Xianglong Liu

AI总结随着多模态大语言模型（MLLMs）在自动驾驶系统中的广泛应用，其在复杂和危险场景下的安全性问题日益突出。为了解决现有安全机制在动态交通环境中鲁棒性不足的问题，本文提出了一种名为GuardAD的模型无关安全防护框架，通过引入马尔可夫逻辑形式化方法，实现对异构交通参与者安全状态的动态推理与持续诱导。GuardAD不仅能够识别潜在的多步安全隐患，还能通过逻辑驱动的动作修正策略优化模型行为，实验表明其在降低事故率和提升任务性能方面均表现出显著优势。

2605.10384 2026-05-12 cs.AI cs.DC cs.NI

Agentic Performance at the Edge: Insights from Benchmarking

Shiqiang Wang, Herbert Woisetschläger

AI总结本文研究了在边缘计算环境中，模型参数规模受限时，智能代理（Agentic AI）任务性能的变化情况。通过引入领域条件评估方法和模型-工具交互分析，研究发现边缘代理的质量并非单纯依赖参数数量，而是与模型选择和工具流程的联合设计密切相关。该工作为在资源受限条件下优化边缘智能系统提供了实用指导和失效模式分析。

Comments Accepted to AutoEdge workshop, co-located with MobiSys 2026

2605.10380 2026-05-12 cs.AI

Agent-X: Full Pipeline Acceleration of On-device AI Agents

Jinha Chung, Byeongjun Shin, Jiin Kim, Minsoo Rhu

AI总结本文提出了一种名为Agent-X的软件框架，旨在加速边缘设备上基于大语言模型（LLM）的智能体的端到端推理过程。该框架通过优化提示生成和引入无需LLM的推测解码机制，有效提升了预填充和解码阶段的效率，在保持精度不变的前提下实现了1.61倍的加速。该研究首次系统性地分析并消除了边缘设备智能体中的延迟瓶颈，具有重要的实际应用价值。

Comments Accepted for publication at MobiSys-2026

2605.10379 2026-05-12 cs.CL

Not All Proofs Are Equal: Evaluating LLM Proof Quality Beyond Correctness

Ivo Petrov, Jasper Dekoninck, Dimitar I. Dimitrov, Martin Vechev

AI总结该研究指出，尽管大型语言模型在数学问题求解中能够生成正确的证明，但仅凭正确性不足以衡量证明质量，还需考虑清晰性、简洁性、启发性及可迁移性等因素。为此，研究提出了ProofRank基准，通过五个可扩展的指标评估证明质量，包括简洁性、计算简便性、认知简单性、多样性和适应性。实验发现不同模型在证明质量上存在显著差异，且证明质量与正确性之间存在权衡，表明未来应更注重评估生成证明的实用性。

Comments 9 main text pages, 36 total pages, In proceedings to 2026 NeurIPS Evaluations and Datasets Track

2605.10377 2026-05-12 cs.LG cs.MA

PC3D: Zero-Shot Cooperation Across Variable Rosters via Personalized Context Distillation

Ahmet Onur Akman, Rafał Kucharski

AI总结本文研究了在团队成员数量不断变化的场景下，如何实现多智能体强化学习中的零样本协作。为此，提出了一种名为PC3D的方法，通过个性化上下文蒸馏，使每个智能体能够从局部交互历史中恢复并利用个性化的协调上下文，从而适应不同规模的团队。实验表明，该方法在多个协作型多智能体基准任务中，无论面对已见还是未见的团队规模，均能取得优于现有方法的性能。

2605.10374 2026-05-12 cs.CV

Halo Separation-guided Underwater Multi-scale Image Restoration

Jiaxin Yang, Honglin Liu, Yongli Wang, Shuyi Cao, Chengcheng Jiang, Jiale Wang

AI总结本文针对水下自主水下机器人拍摄图像中因人工光源引起的光晕问题，提出了一种基于迭代结构的单光晕图像校正方法。该方法通过两个子网络分别实现光晕层分离和多尺度图像恢复，提升了水下图像的清晰度和质量。实验使用合成数据集和真实光晕图像进行训练与测试，并引入径向梯度约束以进一步优化光晕消除效果，为水下图像增强提供了更鲁棒的解决方案。

2605.10370 2026-05-12 cs.AI cs.DB cs.DC

Autonomous FAIR Digital Objects: From Passive Assertions to Active Knowledge

Zeyd Boukhers, Oya Beyan, Cong Yang, Christoph Lange

AI总结当前科学知识在网络上以被动断言的形式发布，无法自主验证证据、调和矛盾或随新发现更新可信度。本文提出自主FAIR数字对象（aFDO），通过引入策略层、公告层和协议层，赋予数字对象自主处理信息的能力，从而实现去中心化的、可持续的知识管理。研究基于语义网标准构建了aFDO的理论框架，并在罕见病本体数据集上验证了其有效性，展示了其在处理数据冲突和抵御恶意攻击方面的性能。

2605.10366 2026-05-12 cs.AI

EGL-SCA: Structural Credit Assignment for Co-Evolving Instructions and Tools in Graph Reasoning Agents

Zike Yuan, Yukun Cao, Han Zhang, Jianzhi Yan, Le Liu, Cai ke, Yue Yu, Hui Wang, Ming Liu, Bing Qin

AI总结本文提出了一种名为EGL-SCA的框架，用于解决图推理智能体在自然语言输入下同时构建结构化图实例、选择计算工具并满足结构化验证的问题。该方法通过一个以验证器为中心的双空间框架，将推理策略与可执行工具协同优化，利用结构化信用分配机制将失败原因精确归因于提示优化或工具合成，从而实现指令与工具的共同进化。实验表明，EGL-SCA在四个图推理基准测试中取得了92.0%的平均成功率，显著优于纯提示和固定工具箱的方法。

2605.10365 2026-05-12 cs.AI

Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

Haonan Dong, Qiguan Feng, Kehan Jiang, Haoran Ye, Xin Zhang, Guojie Song

AI总结本文提出 Agent-ValueBench，首个专门用于评估智能体价值观的综合性基准，旨在填补现有基准仅限于大型语言模型而无法评估智能体价值观的空白。该基准包含16个领域共394个可执行环境，涵盖28种价值体系和332个维度的4,335个价值冲突任务，每个任务均由专业心理学家精心设计，并配备两条对齐的黄金轨迹供评估使用。通过测试14个主流模型和四种执行框架，研究揭示了智能体价值观在不同模型和执行框架下的表现规律，指出智能体对齐正从传统模型对齐向执行框架对齐和技能引导转变。

2605.10362 2026-05-12 cs.CV

CellDX AI Autopilot: Agent-Guided Training and Deployment of Pathology Classifiers

Alexey Pchelnikov, Aleksei Pchelnikov

AI总结 CellDX AI Autopilot 是一个通过人工智能代理实现病理图像分类模型训练与部署的平台，旨在降低计算病理学中对专业技能和计算资源的依赖。该平台提供结构化的代理技能，引导用户完成数据集构建、超参数优化、多策略模型比较及带人工参与的部署流程，并基于包含32,000多例病例和66,000张H&E染色全切片图像的预构建数据集进行训练。其核心贡献在于引入了专为病理任务设计的代理技能架构和多实例学习框架，显著提升了模型训练效率与易用性。

2605.10351 2026-05-12 cs.LG eess.SP

Foundations of Reliable Inference: Reliability-Efficiency Co-Design

Jiayi Huang

AI总结本研究探讨了如何在保证人工智能模型不确定性估计可信度的同时提高推理效率的问题。作者提出了一种统一的框架，从两个角度出发，旨在实现可靠性与计算效率的协同设计。该工作为构建高效且可信的AI推理系统提供了理论基础和方法支持。

Comments PhD Thesis

2605.10349 2026-05-12 cs.CV cs.AI cs.LG

Portable Active Learning for Object Detection

Rashi Sharma, Justin Timothy C. Bersamin, Karthikk Subramanian

AI总结本文提出了一种名为PAL的便携式主动学习框架，用于提升目标检测任务的标注效率。该方法无需修改检测模型内部结构或训练流程，仅基于模型的推理输出进行数据选择，结合类别级实例不确定性与图像级多样性，有效提升了所选样本的信息量与多样性。实验表明，PAL在多个数据集上均优于现有主动学习方法，显著提高了标签效率和检测精度，为实际应用中的高效目标检测部署提供了实用解决方案。

Comments CVPR 2026(highlight)

2605.10345 2026-05-12 cs.CV

BGG: Bridging the Geometric Gap between Cross-View images by Vision Foundation Model Adaptation for Geo-Localization

Wei Wang, Dou Quan, Ning Huyan, Shuang Wang, Yi Li, Pei He, Licheng Jiao

AI总结本文提出了一种基于视觉基础模型（VFM）的参数高效适配框架BGG，用于解决跨视角图像（如无人机与卫星图像）之间的几何差异问题，以提升跨视角地理定位（CVGL）的性能。BGG通过多粒度特征增强适配器（MFEA）和频率感知结构聚合（FASA）模块，有效提升了特征的尺度适应性和视角鲁棒性，并增强了局部结构特征，从而在低训练成本下实现了更精确的地理定位。实验表明，BGG在多个数据集上取得了优于现有方法的先进性能。

2605.10343 2026-05-12 cs.CV cs.AI

EvoStreaming: Your Offline Video Model Is a Natively Streaming Assistant

Zichen Wen, Boxue Yang, Junlong Ke, Jiajie Huang, Chenfei Liao, Junxi Wang, Xuyang Liu, Linfeng Zhang

AI总结本文提出EvoStreaming，一种用于将离线视频语言模型（VideoLLM）适配为流式视频助理的自进化框架。研究发现，现有VideoLLM虽具备良好的视觉理解能力，但缺乏在流式场景下决定何时响应的交互策略。EvoStreaming通过模型自身生成数据、标注相关性并制定响应策略，无需外部监督即可合成流式交互轨迹，仅用极少样本便显著提升了模型在流式评估中的表现，同时基本保持其离线性能，为高效适配流式视频助理提供了新路径。

Comments 33 pages, 9 figures

2605.10341 2026-05-12 cs.AI cs.SE

PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents

Bihui Yu, Xinglong Xu, Junjie Jiang, Jiabei Cheng, Caijun Jia, Siyuan Li, Conghui He, Jingxuan Wei, Cheng Tan

AI总结论文《PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents》提出了一种基于视觉反馈的排版优化方法，用于解决科学文档在从LaTeX源码编译为最终PDF过程中常见的视觉缺陷问题。该方法通过迭代渲染、缺陷检测和源码修正的闭环流程，实现对页面布局、公式排布、表格缩放等问题的自动修复。研究引入了视觉排版优化（VTO）任务，并构建了包含多种缺陷类型的基准数据集PaperFit-Bench，实验表明该方法在多项指标上显著优于现有基线，验证了视觉闭环在提升文档排版质量中的关键作用。

Comments 47 pages, 17 figures, 17 tables

2605.10339 2026-05-12 cs.CL

An Annotation Scheme and Classifier for Personal Facts in Dialogue

Konstantin Zaitsev

AI总结本文提出了一种用于对话中个人事实分类的扩展标注方案和分类器，旨在解决现有方法在结构化存储和对话延续性识别方面的不足。该方案引入了人口统计、拥有物等新类别以及持续时间、有效性等属性，提升了事实管理的结构化程度和分类质量。基于手动标注的2,779条事实，研究构建了一个多头分类器，结合Gemma-300M编码器在宏观F1指标上达到81.6%，显著优于少样本LLM基线模型，且计算资源消耗更低。

2605.10337 2026-05-12 cs.AI eess.SP

CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings

Liuyin Yang, Qiang Sun, Bob Van Dyck, Eva Calvo Merino, Marc M. Van Hulle

AI总结该研究提出CORTEG框架，旨在将基于头皮EEG的预训练基础模型迁移至颅内ECoG信号，以提升脑机接口的解码性能。CORTEG结合了电极感知的空间适配器、双流分词器和留一被试法微调策略，实现了跨被试学习和快速个性化校准。实验表明，CORTEG在多个任务中达到或超越了专门方法的性能，尤其在数据量有限的情况下表现突出，为高效、可扩展的颅内脑机接口提供了新思路。