arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.09352 2026-05-12 cs.AI

The Wittgensteinian Representation Hypothesis: Is Language the Attractor of Multimodal Convergence?

Zhaoyang Zhang, Run Shao, Dongyue Wu, Jiajie Teng, Chao Tao, Jingdong Chen, Haifeng Li

AI总结本文探讨了为何不同模态的独立训练神经网络会收敛到共享表示，并研究了这一收敛的方向性。作者提出了一种基于循环k近邻的定向收敛分析方法，发现非语言模态更倾向于向语言表示的结构靠拢，这一现象在多种模型和尺度下均成立。研究进一步指出，语言表示在表征空间中占据更紧凑的区域，信息瓶颈理论为此提供了理论解释，最终提出了“维特根斯坦表征假设”：语言的语义结构是多模态表征收敛的渐近吸引子。

Comments 22 pages, 11 figures, 6 tables

2605.09350 2026-05-12 cs.AI

CHAINTRIX: A multi-pipeline LLM-augmented framework for automated smart-contract security auditing

Gabriela Dobrita, Simona-Vasilica Oprea, Adela Bara

AI总结智能合约漏洞已导致数十亿美元的损失，但安全审计仍存在成本高、效率低的问题。为解决这一问题，本文提出 Chaintrix，一个结合多管道和大语言模型的自动化智能合约安全审计框架，其核心在于将所有大模型生成的检测结果与确定性的合约结构表示进行比对，以提升准确性。该框架引入了跨合约交互模型（CCIM）对 Solidity 代码进行结构化解析，并通过多阶段的误报过滤机制与结构化验证引擎，显著提升了检测效果，在多个基准测试中表现出色，高危漏洞召回率达71.7%，优于当前最先进的模型基线。

2605.09348 2026-05-12 cs.CL cs.AI cs.DB cs.MM

HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge Graph Question Answering on Household Daily Activities

Shusaku Egami, Aoi Ohta, Tomoki Tsujimura, Masaki Asada, Tatsuya Ishigaki, Ken Fukuda, Masahiro Hamasaki, Hiroya Takamura

AI总结本文提出HOME-KGQA，一个用于家庭日常活动的多模态知识图谱问答新基准数据集。该数据集基于多模态知识图谱构建，包含复杂的多跳自然语言问题及对应的图数据库查询语言，涵盖了多层级时空推理和多模态对齐等更具挑战性的任务。实验表明，现有基于大语言模型的KGQA方法在该数据集上的表现显著下降，突显了现实场景中KGQA系统仍面临诸多挑战。

Comments 12 pages, 4 figures, 7 tables, accepted at LREC2026

2605.09347 2026-05-12 cs.AI cs.LO

Dsat: A Native SAT Solver for Discrete Logic

Yaofang Zhang, Ken Zhou, Adnan Darwiche

AI总结本文提出了一种专为离散逻辑设计的原生SAT求解器Dsat，用于处理变量可取任意离散值的逻辑问题，避免了传统将离散变量二值化为布尔变量的方法所带来的计算和语义挑战。该求解器在设计上借鉴了布尔SAT求解器的机制，如单元归结和子句学习，但直接在离散变量上运行，从而更高效地处理离散逻辑公式。实验表明，Dsat在解决离散CNF问题时相比传统方法具有明显优势。

Comments To Appear at The International Conferences on Theory and Applications of Satisfiability Testing (SAT), 2026

2605.09346 2026-05-12 cs.CL cs.AI

RuPLaR : Efficient Latent Compression of LLM Reasoning Chains with Rule-Based Priors From Multi-Step to One-Step

Xiaocheng Luo, Kang Wang, Zaifu Zhan, Yuechi Zhou, Xiangyu Duan

AI总结本文提出了一种名为 RuPLaR 的新型压缩框架，旨在解决潜空间推理（latent CoT）中多步骤或多模型范式带来的结构复杂性问题。该方法通过引入基于规则的先验分布，引导大语言模型在单一训练阶段自主生成潜空间推理标记，从而消除级联过程和模型间依赖。实验表明，RuPLaR 在保持推理质量的同时显著提升了准确率，并大幅减少了所需标记数量，展现出良好的有效性和可扩展性。

Comments 15 pages, 15 figures

2605.09345 2026-05-12 cs.LG

Selection Plateau and a Sparsity-Dependent Hierarchy of Pruning Features

Guangqi Li, Yongxin Li

AI总结本文研究了一次性神经网络剪枝中的“选择平台”现象，发现所有单调秩权重评分方法在固定稀疏度下会收敛到相同的准确率，与具体形式无关。作者提出了稀疏度-信息-复杂度光谱（SICS）假说，指出不同稀疏度下需要不同复杂度的特征来突破平台，且特征复杂度需与目标稀疏度匹配。实验表明，非单调特征在中等稀疏度下能显著提升剪枝效果，而仅靠梯度或简单高斯特征则效果有限，说明特征复杂度和秩对齐对剪枝性能至关重要。

Comments 22 pages, 3 figures, 5 tables. Empirical study + framework hypothesis on ViT-Small/CIFAR-10. Cross-domain validation (vision token pruning, KV cache compression, MoE routing) and cross-architecture extensions deferred to follow-up work

2605.09344 2026-05-12 cs.RO cs.MA

PECMAN: Perception-enabled Collaborative Multi-Agent Navigation in Unknown Environments

Tianchonghui Fang, Shaunak Roy, Shalabh Gupta

AI总结该研究针对未知动态环境中多智能体协作导航的问题，提出了一种基于感知增强的协同导航方法PECMAN。该方法通过分布式树形结构重构和共享感知策略，使每个智能体能够实时响应环境变化并调整路径，同时将新发现的信息广播给其他智能体，提升整体协同效率。实验表明，PECMAN在多个场景中显著降低了团队完成时间，同时保持了高成功率。

2605.09343 2026-05-12 cs.AI

SKG-VLA: Scene Knowledge Graph Priors for Structured Scene Semantics and Multimodal Reasoning for Decision Making

Zeyu Li, Lei Li

AI总结在大规模投诉处理系统中，决策日益依赖于多源异构证据，如投诉叙述、截图、订单元数据等。为解决现有系统对场景结构、规则知识和跨证据依赖利用不足的问题，本文提出SKG-VLA方法，通过构建场景知识图（SKG）来统一表示投诉场景中的实体、证据、政策条款及关系，并基于该图谱设计数据合成流程和三阶段训练策略，以增强模型的结构化语义理解和多模态决策能力。实验表明，SKG-VLA在政策驱动推理、投诉决策准确性及鲁棒性方面均有显著提升。

2605.09339 2026-05-12 cs.CV cs.AI

Perceptual Asymmetry Between Hue Categories: Evidence from Human Color Categorization

Elnara Kadyrgali, Nuray Toganas, Muragul Muratbekova, Pakizar Shamoi

AI总结人类颜色类别在感知空间中并非均匀分布，但大多数计算颜色模型仍假设颜色表示是固定且均匀的。本文通过分析大规模人类颜色分类数据，扩展了COLIBRI模糊颜色模型，引入了基于模糊隶属函数的定量指标，揭示了色相类别间的感知不对称性。研究发现，黄色类别在色相空间中占据紧凑且明确的区域，而绿色类别则覆盖更广的区间并具有更长的过渡结构，表明人类颜色类别不仅具有模糊性，其几何组织也高度不均匀，为语言颜色分类和感知驱动的颜色建模提供了新的视角。

Comments The paper has been submitted for consideration to ICICS 2026 (International Conference on Informatics and Computer Science)

2605.09337 2026-05-12 cs.LG math.OC

Adversary-Robust Learning from Fully Asynchronous Directional Derivative Estimates

Anik Kumar Paul, Nibedita Roy, Nagesh Talagani, Swetha Ganesh, Gugan Thoppe, Alexandre Reiffers-Masson

AI总结本文提出了一种名为 FAR-SIGN 的异步优化算法，用于在参数服务器-工作节点系统中实现对抗鲁棒学习。该方法通过沿精心设计的方向进行符号梯度更新，并结合双时间尺度机制减少偏差，从而提高鲁棒性。FAR-SIGN 支持一阶和零阶实现，无需服务器端的私有参考数据集，且支持完全异步执行。理论分析表明其几乎必然收敛于光滑非凸目标函数的平稳点，并在实验中表现出优于现有鲁棒聚合方法的准确率和运行效率。

2605.09335 2026-05-12 cs.LG

Functional Graphs for Predicting and Explaining Goal Failure in Sparse Goal-Conditioned RL

Shalley Dash

AI总结该研究探讨了稀疏目标条件强化学习中策略失败的问题，提出通过确定性功能图分析策略行为，揭示出策略中的吸引子和流域结构。研究定义了局部目标支持（LGS）作为衡量策略在局部范围内能否成功达到目标的指标，并发现LGS可以有效诊断目标失败。进一步引入了策略诱导图的分类方法，以识别超出局部支持范围的失败模式，为理解稀疏目标条件强化学习中的失败提供了结构化分析工具。

Comments 9 pages main, 21 pages appendx, 2 figures in main. 8 figures in appendix, Submitted to a conference

2605.09331 2026-05-12 cs.LG

Dimension-Free Saddle-Point Escape in Muon

Yanlin Long, Yufei Gu, Zeke Xie

AI总结本文研究了现代大语言模型训练中因高维平坦马鞍点导致的优化瓶颈问题，分析了新兴优化器Muon在逃离马鞍点的动力学特性。通过扩展广义矩阵扰动理论，提出了一种理论框架，证明Muon通过非线性谱塑形机制有效规避了维度诅咒，实现了维度无关的马鞍点逃离。该方法避免了同向噪声假设和Tracy-Widom边缘奇异性，为非凸优化动力学提供了严格的数学分析和逃逸界限。

Comments 33 pages, 5 figures. Preprint

2605.09330 2026-05-12 cs.LG cs.AI

The Trap of Trajectory: Towards Understanding and Mitigating Spurious Correlations in Agentic Memory

Luoxi Tang, Rupali Rajendra Vaje, Yuqiao Meng, Sakshi Sunil Narkar, Weicheng Ma, Zeyu Ding, Dazheng Zhang, Zhaohan Xi

AI总结该论文研究了智能体记忆（Agentic Memory）中因错误关联导致的推理偏差问题，指出在长期记忆中检索到的信息可能包含误导性证据，从而影响后续决策的准确性。为解决这一问题，研究者提出了CAMEL方法，通过在记忆写入和检索阶段进行校准，有效减少了对虚假关联的依赖，同时保持了模型在正常输入上的性能，并在对抗性攻击下仍表现出鲁棒性。这一方法为构建更可靠、更安全的智能体记忆系统提供了实用的解决方案。

2605.09328 2026-05-12 cs.CV

Noise-Started One-Step Real-World Super-Resolution via LR-Conditioned SplitMeanFlow and GAN Refinement

Wei Zhu, Kai Zhang, Yu Zheng, Lei Luo, Yong Guo, Jian Yang

AI总结该研究提出了一种基于扩散模型的单步真实世界图像超分辨率方法SMFSR，旨在解决传统扩散模型在效率与质量之间的矛盾。该方法在保持噪声起始生成过程的基础上，通过LR条件下的SplitMeanFlow实现从噪声到高分辨率图像的直接映射，并引入GAN优化阶段提升细节真实感和图像自然度。实验表明，SMFSR在保持高效单步推理的同时，达到了当前单步扩散模型在真实世界超分辨率任务中的最优感知质量。

2605.09319 2026-05-12 cs.CV cs.LG

PGID: Progressive Guided Inversion and Denoising for Robust Watermark Detection

Minh Quoc Duong, Chun Tong Lei, Chun Pong Lau

AI总结随着AI生成图像的普及，数字水印技术成为保护知识产权和防止恶意利用的重要手段。然而，现有的语义水印方法依赖扩散模型逆过程进行水印检测，容易受到印痕移除和伪造攻击的影响。本文提出了一种名为PGID的渐进引导逆过程与去噪框架，无需训练即可有效防御这些攻击，通过逐步逆过程和去噪循环将扰动的潜在变量投影回其原始区域，从而恢复被移除的水印并识别伪造实例。

2605.09317 2026-05-12 cs.CL cs.CV cs.LG

Mem-W: Latent Memory-Native GUI Agents

Guibin Zhang, Yaohui Ling, Fanci Meng, Kun Wang, Shuicheng Yan

AI总结本文提出了一种名为 Mem-W 的新型 GUI 智能体，其核心在于将记忆作为智能体连续上下文的一部分，而非传统的外部辅助结构。通过一个共享的轨迹到潜空间压缩器，Mem-W 将历史轨迹和当前会话片段编码为紧凑的记忆标记，并将其与当前 GUI 观测融合为连续的嵌入序列，从而实现对任务进展的统一感知与决策。实验表明，Mem-W 在多个网页和移动端导航任务中显著提升了多种基础模型和增强记忆方法的性能，最高提升达 30.0%，展示了潜空间原生记忆在长时程 GUI 操作中的有效性与扩展性。

2605.09315 2026-05-12 cs.AI cs.CL

Do Self-Evolving Agents Forget? Capability Degradation and Preservation in Lifelong LLM Agent Adaptation

Ye Yu, Xiaopeng Yuan, Haibo Jin, Heming Liu, Yaoning Yu, Haohan Wang

AI总结本文研究了大型语言模型代理在持续适应新任务过程中出现的能力退化问题，指出在工作流、技能、模型和记忆等多个进化维度上，自我演化可能导致已习得能力的逐步丧失。为此，作者提出了能力保持演化（CPE）方法，通过约束演化过程中的破坏性能力漂移，在保持适应性能的同时提升已有能力的稳定性。实验表明，CPE在多个任务场景下有效缓解了能力退化，为构建稳定、长期自我演化的智能代理提供了新思路。

2605.09314 2026-05-12 cs.AI

How LLMs Are Persuaded: A Few Attention Heads, Rerouted

Xiangkun Sun, Lingkai Kong, Aoqi Zhang, Liang Zeng, Tonghan Wang

AI总结该研究探讨了大型语言模型如何被说服放弃事实知识的问题，揭示了其内部的因果机制。研究发现，模型的回答主要由少数中间层注意力头决定，这些注意力头将选项编码为低维多面体的顶点，说服过程实际上是一个从正确答案顶点到目标答案顶点的离散跳跃。通过干预实验，研究进一步确认了说服机制依赖于一个可操控的注意力路由特征，并追踪到输入中的说服关键词所构建的浅层注意力头，为监控和防御此类漏洞提供了新思路。

Comments 9 pages, 9 figures

2605.09312 2026-05-12 cs.CV

Low-Cost Neural Radiance Fields

Alice Huang, Prathamesh Sonawane, Yashdeep Thorat, Yug Rao

AI总结本文研究了如何在计算资源和数据量受限的情况下加速神经辐射场（NeRF）的训练与推理。作者对比了三种加速版NeRF模型，并针对低算力、低数据场景进行了扩展实验，包括引入深度监督损失、简化特征解码网络以及设计不同架构的HashNeRF。实验结果表明，在同等训练时间下，各改进方法未明显优于现有基线，但揭示了哪些改进更适合受限环境，并为未来研究提供了方向。

Comments 7 pages

2605.09311 2026-05-12 cs.LG cs.AI physics.atom-ph physics.chem-ph physics.comp-ph

Teaching Molecular Dynamics to a Non-Autoregressive Ionic Transport Predictor

Jiyeon Kim, Byungju Lee, Won-Yong Shin

AI总结本文研究了如何快速准确地预测离子传输性质这一动态材料属性的问题，提出了一种基于辅助模态学习的非自回归学习框架，通过在训练过程中引入原子轨迹作为辅助信息，使模型在推理阶段无需依赖轨迹数据即可捕捉动态特性。该方法克服了现有自回归模型计算慢、误差累积以及非自回归模型动态信息利用不足的缺陷，在包含轨迹数据的测试集上实现了比自回归模型快200倍的加速，并显著降低了预测误差。

Comments International Conference on Machine Learning (ICML 2026) (to appear) (Please cite our conference version.)

2605.09310 2026-05-12 cs.AI q-fin.PM

Beyond ESG Scores: Learning Dynamic Constraints for Sequential Portfolio Optimization

Xin Li, Yan Ke, Longbing Cao

AI总结本文研究了在可持续投资中如何更有效地将环境、社会和治理（ESG）因素纳入投资组合优化过程。不同于传统方法将ESG视为静态评分，作者提出了一种动态约束学习方法，通过多模态行动条件约束场（MACF）从实时多源数据中学习特定机制的ESG成本，并引入MACF-X适配器将这些约束转化为优化器可识别的接口。该方法在保持良好财务表现的同时，有效降低了ESG预算压力，实验表明其优势依赖于动态证据输入和三头分解结构。

2605.09308 2026-05-12 cs.LG cs.AI

Hierarchical Attention-based Graph Neural Network with Relevance-driven Pruning

Seungwoo Kum

AI总结本文提出了一种基于分层注意力机制的异构图神经网络（HA-HeteroGNN），旨在解决图神经网络在处理异构节点类型时解释性不足以及大规模噪声图中计算开销大的问题。该方法通过统一的可解释性到剪枝的流程，利用双层注意力机制区分传感器级和上下文级的计算，生成节点相关性评分，并以此作为剪枝依据，有效减少了图边数量同时提升了分类准确率。实验表明，该方法在保持高分类性能的同时显著降低了训练时间和推理延迟，验证了其在实际应用中的有效性。

2605.09303 2026-05-12 cs.LG

Path-Dependent Denoising: A Non-Conservative Field Perspective on Order Collapse in Diffusion Language Models

Jeonseong Kim

AI总结扩散语言模型（DLMs）提供了一种不同于自回归生成的结构化生成方式，允许在任意顺序或并行更新标记。然而，实际应用中其解码过程仍高度依赖于顺序，常表现出类似自回归的行为。本文从非保守场视角出发，提出路径依赖去噪的概念，揭示了局部去噪条件与全局顺序之间的兼容性问题，并构建了用于诊断DLM解码是否真正实现无序生成的推理阶段分析框架。

2605.09302 2026-05-12 cs.LG cs.CV

Discrete Langevin-Inspired Posterior Sampling

Chaitanya Amballa, Sattwik Basu, Jorge Vančo Sampedro, Romit Roy Choudhury

AI总结本文研究了在离散状态空间中使用离散扩散模型作为生成先验的逆问题后验采样方法。现有方法多依赖于连续松弛、吉布斯更新或特定退化过程的机制，限制了其可扩展性和通用性。为此，作者提出了一种基于离散朗之万动力学的后验采样器ΔLPS，能够在不离开离散状态空间的前提下，利用梯度信息高效地进行采样，支持所有维度的并行更新，并适用于不同训练方式的离散扩散模型。实验表明，该方法在图像恢复和空间映射等任务中优于现有离散扩散后验采样器，并能与连续扩散方法竞争。

2605.09301 2026-05-12 cs.LG cs.AI

Neural Cluster First, Route Second: One-Shot Capacitated Vehicle Routing via Differentiable Optimal Transport

Samuel J. K. Chin, Maximilian Schiffer

AI总结本文提出了一种基于神经网络的“聚类优先、路径其次”（Neural CFRS）方法，用于解决带容量约束的车辆路径问题（CVRP）。该方法突破了传统自回归解码的限制，采用可微分最优传输层，端到端地处理全局车队容量约束，实现了高效的一次性解码。相比现有方法，Neural CFRS 在保持高参数效率的同时，展现出对大规模和分布外实例的鲁棒性，并在标准基准测试中取得了具有竞争力的优化结果。

Comments 30 pages, 9 figures

2605.09296 2026-05-12 cs.CV cs.AI cs.LG

Micro-Defects Expose Macro-Fakes: Detecting AI-Generated Images via Local Distributional Shifts

Boxuan Zhang, Jianing Zhu, Qifan Wang, Jiang Liu, Ruixiang Tang

AI总结近年来生成模型能够生成高度逼真的图像，使得区分真实图像与AI生成图像变得愈发困难。现有基于预训练特征提取器的检测方法往往过于依赖全局语义信息，忽略了关键的微小缺陷。本文提出了一种基于局部分布差异的检测框架MDMF，通过放大图像中微小的统计不规则性，揭示AI生成图像的宏观分布差异，显著提升了检测性能。实验表明，MDMF在多个基准测试中均优于现有方法，验证了其有效性。

Comments 41 pages, 10 figures

2605.09295 2026-05-12 cs.CL

LEAF-SQL: Level-wise Exploration with Adaptive Fine-graining for Text-to-SQL Skeleton Prediction

Zhao Tan, Xiping Liu, Qing Shu, Qizhi Wan, Dexi Liu, Changxuan Wan

AI总结 LEAF-SQL 是一种用于文本到 SQL 骨架预测的新框架，旨在解决复杂查询生成中的结构探索难题。该方法将骨架预测重构为从粗粒度到细粒度的树搜索过程，通过三级骨架层次结构、骨架生成代理和评估代理的协同工作，实现结构多样化与粒度自适应的搜索。实验表明，LEAF-SQL 显著提升了多种大语言模型在复杂查询任务中的表现，尤其在 BIRD 基准测试中取得了优于现有方法的执行准确率。

2605.09294 2026-05-12 cs.LG cs.AI

Towards Effective Theory of LLMs: A Representation Learning Approach

Muhammed Ustaomeroglu, Guannan Qu

AI总结本文提出了一种名为“表示有效理论”（RET）的框架，用于从大语言模型的隐藏状态轨迹中学习宏观状态，从而以高层次结构描述其计算过程。该方法采用类似BYOL/JEPA的自监督目标，将激活值粗粒化为保留预测与解释相关信息的宏观变量。实验表明，这些宏观变量能够揭示模型推理过程中的“心智状态”轨迹，捕捉高层语义结构，并支持对行为结果的早期预测与可控干预，为理解与引导大语言模型提供了有效的描述方式。

Comments Project webpage: https://ustaomeroglu.github.io/RET/

2605.09292 2026-05-12 cs.AI cs.CY

Beyond Accuracy: Evaluating Strategy Diversity in LLM Mathematical Reasoning

Xia Yang, Xuanyi Zhang, Hao Hu, Feng Ji

AI总结该研究探讨了大语言模型在数学推理任务中除答案准确率之外的策略多样性问题。研究提出了一种基于策略层面的评估框架，利用80道AMC 10/12和AIME题目以及217种AoPS参考策略，分析模型生成策略的多样性与有效性。实验发现，尽管模型在单一解法提示下具有高准确率，但在多策略提示下其策略覆盖范围远低于人类参考水平，且不同模型在几何和数论等领域的策略生成能力存在显著差异。研究还表明，模型虽能生成部分新颖策略，但整体上仍无法全面覆盖人类策略，揭示了当前模型在数学推理灵活性方面的局限性。

2605.09291 2026-05-12 cs.LG stat.AP

dFlowGRPO: Rate-Aware Policy Optimization for Discrete Flow Models

Zhengyan Wan, Yidong Ouyang, Panwen Hu, Qiang Sun

AI总结本文提出了一种名为dFlowGRPO的强化学习框架，用于离散流模型，支持更广泛的概率路径和非掩码源分布。该方法通过推导离散流模型的完整轨迹概率，将去噪过程建模为马尔可夫决策过程，从而在强化学习中结合条件转移率和后验模型的信息。实验表明，dFlowGRPO在文本到图像生成任务中优于现有的GRPO方法，并在理解任务中展现出强大的能力。