arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.12899 2026-05-14 stat.ML cs.LG

Robust Sequential Experimental Design for A/B Testing

Qianglin Wen, Xiangkun Wu, Chengchun Shi, Ting Li, Niansheng Tang, Yingying Zhang, Hongtu Zhu

发表机构 * Yunnan Key Laboratory of Statistical Modeling and Data Analysis（云南统计建模与数据分析重点实验室）； Yunnan University（云南大学）； School of Mathematical Sciences（数学科学学院）； Zhejiang University（浙江大学）； Department of Statistics（统计系）； London School of Economics and Political Science（伦敦政治经济学院）； School of Statistics and Data Science（统计与数据科学学院）； Shanghai University of Finance and Economics（上海财经大学）； East China Normal University（华东师范大学）； University of North Carolina at Chapel Hill（北卡罗来纳大学教堂山分校）

AI总结本文研究了在模型误设情况下A/B测试中鲁棒的序贯实验设计问题，提出了一种统一的框架，适用于上下文 bandit 和动态设置。理论上，该方法能够保证估计处理效应的最坏情况均方误差上界；实验部分在合成数据和某科技公司的实际数据上验证了方法的有效性。

2605.12898 2026-05-14 cs.SI cs.CL cs.CY

When Do LLMs Generate Realistic Social Networks? A Multi-Dimensional Study of Culture, Language, Scale, and Method

Sai Hemanth Kilaru, Sriram Theerdh Manikyala, Raghav Upadhyay, Sri Sai Kumar Ramavath, Srivika Nunavathu, Dalal Alharthi

发表机构 * University of Arizona（亚利桑那大学）

AI总结本文研究了大语言模型（LLMs）在生成现实社会网络时的表现，探讨了文化背景、语言、模型规模和提示方法等因素对其关系生成机制的影响。作者基于同质性和结构平衡理论，提出了四种不同的关系生成机制，并通过大量实验验证了这些机制在不同条件下的表现差异。研究发现，提示方式和文化背景等要素显著影响生成网络的结构特征，且LLM生成的网络在聚类和模块性方面优于传统图模型，但同时也表现出高于现实数据的群体偏差。

2605.12890 2026-05-14 stat.AP cs.LG

Steer-to-Detect: Probing Hidden Representations for Detection of LLM-Generated Texts

Luxu Liang, Xiang Li

发表机构 * Tsinghua University（清华大学）； University of Pennsylvania（宾夕法尼亚大学）

AI总结随着大语言模型（LLM）的快速发展，区分机器生成文本与人类撰写文本变得越来越困难。为了解决这一问题，本文提出了一种名为Steer-to-Detect（S2D）的两阶段检测框架，通过注入引导向量提升冻结的观察模型的隐藏状态表示，从而增强类别可分性，并基于引导后的表示进行假设检验以实现检测。该方法在理论上有严格的误差保证，并在多种场景下表现出色，包括分布外和对抗性扰动情况。

2605.12887 2026-05-14 cs.IR cs.AI

EcoGEO: Trajectory-Aware Evidence Ecosystems for Web-Enabled LLM Search Agents

Hengwei Ye, Jiasheng Mao, Zhenhan Guan, Zheng Tian

发表机构 * ShanghaiTech University（上海科技大学）

AI总结本文提出了EcoGEO，一种面向轨迹的生态系统生成引擎优化方法，用于改进网络增强型大语言模型搜索代理的信息获取过程。与现有基于单页面优化的方法不同，EcoGEO关注代理在搜索过程中的整体浏览轨迹，通过构建协调的证据生态系统，引导代理更有效地发现和验证目标信息。实验表明，该方法在推荐任务中显著优于传统方法，主要得益于对代理浏览路径和证据获取过程的优化设计。

详情

英文摘要

Web-enabled LLM agents are changing how online information influences search outcomes. \ Existing Generative Engine Optimization (GEO) studies mainly focus on individual webpages. \ However, agentic web search is not a single-document setting: an agent may issue queries, crawl pages, follow links, reformulate searches, and synthesize evidence across multiple browsing steps. \ Influence therefore depends not only on page content, but also on how pages are organized, connected, and encountered along the agent's browsing trajectory. \ We study this shift through \textbf{Ecosystem Generative Engine Optimization} (\textbf{EcoGEO}), which treats GEO as an environment-level influence problem for web-enabled LLM agents. \ To instantiate this perspective, we propose \textbf{TRACE}, a \textbf{Trajectory-Aware Coordinated Evidence Ecosystem}. \ Given a recommendation query and a fictional target product, our method builds a controlled evidence environment that coordinates an agent-facing navigation entry page with heterogeneous support pages. \ These pages use shared terminology, internal links, and consistent product attributes to introduce, verify, and reinforce the target product. We evaluate our method on OPR-Bench, a benchmark for open-ended product recommendation. \ Experiments show that it consistently outperforms page-level GEO baselines in final target recommendation. \ Trajectory-level metrics further show increased initial target-result crawls, target-specific follow-up searches, and internal-link crawls, suggesting that the gains come from shaping the agent's evidence-acquisition process rather than merely adding more target-related content. \ Overall, our findings support an ecosystem research paradigm for GEO, where web-enabled LLM agents are studied in relation to the broader evidence environments that guide search, browsing, and answer synthesis.

URL PDF HTML ☆

赞 0 踩 0

2605.12878 2026-05-14 math.OC cs.LG

Adam-SHANG: A Convergent Adam-Type Method for Stochastic Smooth Convex Optimization

Yaxin Yu, Long Chen, Minfu Feng

发表机构 * School of Mathematics（数学学院）； Department of Mathematics（数学系）； University of California, Irvine（加州大学 Irvine 分校）； Sichuan University（四川大学）

AI总结本文提出了一种名为 Adam-SHANG 的自适应优化算法，通过引入李雅普诺夫函数指导，将动量、自适应预处理和曲率感知修正相结合，提升了算法的稳定性。该方法在随机光滑凸优化中证明了期望收敛性，仅需满足一个保守的步长条件，无需对二阶矩序列的全局单调性做假设。此外，文中还提出了一种基于迹比的可计算步长规则，并在非凸场景中进行了验证，实验表明其在深度学习任务中具有良好的训练性能。

Comments 25 pages, 13 figures

2605.12869 2026-05-14 cs.CR cs.AI

Quantifying LLM Safety Degradation Under Repeated Attacks Using Survival Analysis

Zvi Topol

发表机构 * MuyVentive, LLC（MuyVentive公司）

AI总结本文研究了大语言模型（LLM）在持续遭受对抗性攻击下的安全性能退化问题，提出了一种基于生存分析的新评估框架，用于量化模型被越狱攻击的时间动态特性。该方法将越狱时间建模为生存分析中的事件时间，能够估计风险函数、生存曲线及相关风险因素。实验表明，不同模型在面对重复攻击时表现出不同的脆弱性特征，为模型开发者提供了有价值的改进依据。

2605.12863 2026-05-14 cs.PL cs.AI cs.CR

Language-Based Agent Control

Timothy Zhou, Loris D'Antoni, Nadia Polikarpova

发表机构 * Department of Computer Science and Engineering（计算机科学与工程系）

AI总结本文提出了一种基于语言的智能体控制（LBAC）编程模型，旨在通过编程语言和语言安全技术提升智能体应用的控制能力。该模型通过要求智能体生成符合静态类型检查的程序，确保其行为符合用户指定的策略，如访问控制和信息流控制等，并在执行前由类型检查器过滤不安全程序。LBAC在保持高度表达性的同时，实现了对智能体生成行为和开发者编写框架代码的统一策略管理，并通过三个案例验证了其有效性。

2605.12862 2026-05-14 cs.NI cs.LG

NeuroRisk: Physics-Informed Neural Optimization for Risk-Aware Traffic Engineering

Yingming Mao, Ximeng Liu, Jingyi Cheng, Xiyuan Liu, Jiashuai Liu, Yike Liu, Zhen Yao, Yuzhou Zhou, Siyuan Feng, Qiaozhu Zhai, Shizhen Zhao

发表机构 * Xi’an Jiaotong University（西安交通大学）； Shanghai Jiao Tong University（上海交通大学）； Nanyang Technological University（南洋理工大学）； Huawei（华为）； Shanghai Innovation Institute（上海创新研究院）

AI总结在实际的广域网（WAN）中，相关故障是导致可用性下降的主要原因，迫使运营商预留大量安全余量，从而造成容量的严重浪费。为在严格可用性目标下实现高利用率，需要在大量概率性故障场景下进行风险感知的流量工程，但现有方法在运行时难以高效求解。本文提出NeuroRisk，一种基于物理信息的深度展开优化器，通过利用Sort-and-Select结构，结合门控边局部预留和排列不变的梯度对齐提示，有效平衡了模型的表达能力和计算可行性，在实际WAN上的实验表明，NeuroRisk在风险目标上相比求解器实现了数量级的加速，同时保持了较高的优化精度。

2605.12857 2026-05-14 cs.MA cs.AI cs.AR cs.LG

ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation

Zhongkai Yu, Yichen Lin, Chenyang Zhou, Yuwei Zhang, Kun Zhou, Junxia Cui, Haotian Ye, Zhengding Hu, Zaifeng Pan, Ruiyi Wang, Yujie Zhao, Hejia Zhang, Jingbo Shang, Jishen Zhao, Yufei Ding

发表机构 * UCSD（加州大学圣迭戈分校）； Columbia University（哥伦比亚大学）

AI总结现有基于API的智能体系统在RTL代码生成方面与工业实践存在根本性偏差，无法满足芯片厂商的安全要求并难以利用其专有数据。为解决这些问题，本文提出ChipMATE，首个自训练的多智能体RTL生成框架，通过Verilog智能体与Python参考模型智能体的相互验证，无需黄金测试平台即可保证生成代码的正确性。该方法采用回溯推理流程和两阶段训练策略，结合高质量数据生成框架，显著提升了生成效果，在多个评估指标上优于现有模型。

2605.12840 2026-05-14 stat.AP cs.LG

Decision Support for Marketplace Policies under Incomplete Evidence: From Replay to Launch Readiness

Prashant Shekhar, Caroline Howard

发表机构 * Department of Mathematics（数学系）； Embry-Riddle Aeronautical University（埃姆布里-瑞德航空大学）

AI总结本文研究了在实时竞价（RTB）市场中，如何基于不完整证据对定价和分配政策进行决策支持的问题。作者提出了一种支持感知的决策支持系统（DSS），整合了回放、离线评估、保守下界排名、多方面防护机制等多种方法，构建了一个可保留主张的评估流程，输出的是政策是否具备上线条件的分类结果，而非单一性能估计。实验表明，该系统能够识别出具有提升潜力的地板价格策略，并指出在缺乏关键因果证据的情况下，应选择在线验证而非直接部署，从而避免决策过断。

详情

英文摘要

Marketplace platforms routinely evaluate pricing and allocation policies using logged observational data, yet strong offline performance does not imply that a policy is safe to deploy. In real-time bidding (RTB) marketplaces, reserve-price and floor-policy changes affect not only revenue but also fill, advertiser value, budget pacing, and competition across auctions, creating feedback and interference. The central problem is therefore not to estimate whether a policy improves an offline metric, but to determine whether the available evidence justifies direct launch or only further validation. In this regard, we propose a support-aware decision-support system (DSS) that distinguishes promising from actionable evidence. The framework integrates replay, support-aware off-policy evaluation (OPE), conservative lower-bound ranking, multi-sided guardrails, out-of-time validation, sensitivity analysis, and interference-aware validation design into a claim-preserving pipeline that outputs a launch-readiness classification rather than a single performance estimate. Applying the framework to iPinYou-style RTB logs, we identify a margin-gated floor policy as the leading candidate, with a 47.7% replay yield lift, a 45.8% conservative lower-tail lift, and stable out-of-time performance. However, the framework does not recommend direct launch. A decision-rule ablation shows that simplified pipelines select the same policy but incorrectly recommend deployment, leaving key causal assumptions unresolved. In contrast, the proposed DSS selects the same policy but changes the action to online validation, reflecting missing evidence on propensities, bidder response, and interference. Overall, the contribution is a reproducible DSS protocol that prevents decision overclaim under partial identification and converts offline evaluation into an auditable, action-oriented recommendation.

URL PDF HTML ☆

赞 0 踩 0

2605.12832 2026-05-14 stat.AP cs.LG stat.ML

Digital Twins as Synthetic Controls in Single-Arm Trials

Daniele Bertolini, Franklin Fuller, Aaron M. Smith, Jonathan R. Walsh, Run Zhuang

发表机构 * Unlearn.AI, Inc.（Unlearn人工智能公司）

AI总结本文探讨了在单臂试验中使用数字孪生作为合成对照的方法，以评估药物疗效和安全性。研究提出基于结果模型的合成对照能够克服传统数据驱动方法的局限性，提供更稳健的治疗效果估计。文章重点介绍了数字孪生技术，即利用机器学习模型生成的个性化疾病进展预测，并讨论了其在实际应用中的统计方法、样本量计算及与FDA最新指南的兼容性。最后，作者通过重新分析肌萎缩侧索硬化症和亨廷顿病的试验数据，验证了所提方法的有效性。

2605.12814 2026-05-14 cs.SI cs.CL

Linking Extreme Discourse to Structural Polarization in Signed Interaction Networks

Zhijin Guo, Li Zhang, Tyler Bonnet, Janet B. Pierrehumbert, Xiaowen Dong

发表机构 * University of Oxford（牛津大学）； University College London（伦敦大学学院）； Imperial College London（伦敦帝国学院）

AI总结该研究旨在将在线社区中的极端言论与结构化极化现象联系起来，提出了一种基于语言的有符号网络分析框架。通过从大语言模型中获取立场评分，构建连续的有符号边权重，并采用谱分析和划分基础的两种互补指标量化结构极化。实验表明，该方法能更敏感地揭示边权重变化对极化动态的影响，并在Reddit的脱欧讨论中展示了语言特征与结构极化随时间演变的关系。

2605.12780 2026-05-14 stat.ME cs.LG stat.ML

When to Trust Confidence Thresholding: Calibration Diagnostics for Pseudo-Labelled Regression

Marcell T. Kurbucz

发表机构 * Institute for Global Prosperity, The Bartlett, University College London（全球繁荣研究所，巴特利特学院，伦敦大学学院）

AI总结本文研究了在回归分析中使用经过校准的分类器输出作为伪标签时，置信度阈值选择对估计结果的影响。作者提出了一种基于校准的诊断方法，推导出置信度阈值引起的衰减偏差的闭式表达，并表明该偏差可由未标记数据集上的残差得分方差 $V^{*}$ 预测。研究还给出了在有界校准漂移下的敏感性边界，并提出了一个基于 $V^{*}$ 和 $κ$ 的决策规则，帮助实践者判断是否安全使用置信度阈值进行伪标签。

Comments 24 pages, 6 figures, 6 tables

2605.12778 2026-05-14 cs.GR cs.CV

Generative Motion In-betweening by Diffusion over Continuous Implicit Representations

Shiyu Fan, Paul Henderson, Edmond S. L. Ho

发表机构 * School of Computing Science, University of Glasgow（格拉斯哥大学计算机科学学院）

AI总结本文提出了一种基于连续隐式表示的扩散模型新方法，用于生成高质量的运动中间帧。该方法通过在潜在空间中建立隐式神经表示与稀疏时空信息之间的映射，能够在仅有极少关键帧的情况下生成平滑且多样化的运动序列。实验表明，该方法在保持关键帧准确性的同时显著提升了运动生成的质量。

2605.12756 2026-05-14 math.OC cs.AI stat.ML

Uncovering Symmetry Transfer in Large Language Models via Layer-Peeled Optimization

Zhehang Du, Hangfeng He, Weijie Su

发表机构 * The Wharton School, University of Pennsylvania（宾夕法尼亚大学沃顿商学院）； University of Rochester（罗切斯特大学）

AI总结本文研究了大规模语言模型在最小化交叉熵损失进行预训练时，是否会在模型权重和上下文嵌入中诱导出几何结构。通过分析一个约束的逐层剥离优化模型，作者证明了目标下一个词分布中的对称性会以群论意义上的方式转移到模型的最优解中。例如，当目标词具有循环移位对称性时，最优的logit矩阵为循环矩阵，输出投影和上下文嵌入的格拉姆矩阵也呈现出循环几何结构；对于具有对称群不变性的目标分布，最优输出投影矩阵形成等角紧框架，且继承了输入数据中的排列对称性。实验表明，开源大语言模型自然表现出与理论预测一致的对称性，尽管训练过程中并未显式引入相关正则化。

详情

英文摘要

Large language models (LLMs) are pretrained by minimizing the cross-entropy loss for next-token prediction. In this paper, we study whether this optimization strategy can induce geometric structure in the learned model weights and context embeddings. We approach this problem by analyzing a constrained layer-peeled optimization program, which serves as a mathematically tractable surrogate for LLMs by treating the output projection matrix and last-layer context embeddings as optimization variables. Our analysis of this nonconvex optimization program demonstrates that symmetries in the target next-token distributions are transferred to the global minimizers of the layer-peeled model in a precise group-theoretic sense. Specifically, we prove that when the target tokens exhibit a cyclic-shift symmetry (such as the seven days of the week or the twelve months of the year), the optimal logit matrix is exactly circulant, and the Gram matrices of both the output projections and the context embeddings form circulant geometries as well. Next, for exchangeable target distributions invariant under the symmetric group and, more generally, under two-transitive group actions, we show that the global optimal output projection matrix forms a simplex equiangular tight frame, while the optimal logit matrix and context embeddings inherit the permutation symmetries present in the input data. A key technical step is to reduce the constrained nonconvex factorized problem to an explicit logit-level convex characterization for cyclic symmetry and to a symmetry-based lower bound for permutation symmetry, together with a sharp characterization of the optimal factorization. Finally, we empirically demonstrate that open-source LLMs naturally exhibit symmetries consistent with our theoretical predictions, despite being trained without any explicit regularization promoting such geometric structure.

URL PDF HTML ☆

赞 0 踩 0

2605.12753 2026-05-14 eess.IV cs.CV cs.LG

Optimization in Sparse 2D to Dense 3D Weakly Supervised Learning: Application to Multi-Label Segmentation of Large ex vivo MRI Data

Paul Hoareau, Kuan Yi Wang, Brandon Bujak, Roy Sun, Govind Nair, Irene Cortese, Charidimos Tsagkas, Daniel Reich, Julien Cohen-Adad

发表机构 * NeuroPoly Lab, Institute of Biomedical Engineering, Polytechnique Montreal（神经多极实验室，生物医学工程学院，蒙特利尔理工学院）； École Centrale de Lyon（里昂中央理工学院）； Mila - Quebec AI Institute（魁北克人工智能研究所）； Functional Neuroimaging Unit, CRIUGM, University of Montreal（功能神经影像单元，CRIUGM，蒙特利尔大学）； Translational Neuroradiology Section, National Institute of Neurological Disorders and Stroke, National Institutes of Health（转化神经放射学部门，国家神经疾病与中风研究所，国家卫生研究院）； Translational Imaging in Neurology (ThINk) Basel, Department of Biomedical Engineering, Faculty of Medicine, University Hospital Basel and University of Basel（神经学转化成像（ThINk）巴塞尔，生物医学工程系，医学院，巴塞尔大学医院和巴塞尔大学）； Neurologic Clinic and Policlinic, Departments of Medicine, University Hospital Basel, Switzerland（神经科诊所和多科诊所，医学院，巴塞尔大学医院，瑞士）； Research Center for Clinical Neuroimmunology and Neuroscience Basel (RC2NB), University Hospital Basel and University of Basel, Switzerland（临床神经免疫学和神经科学巴塞尔研究中心（RC2NB），巴塞尔大学医院和巴塞尔大学，瑞士）； National Institute of Neurological Disorders and Stroke, National Institutes of Health（国家神经疾病与中风研究所，国家卫生研究院）； Centre de recherche du CHU Sainte-Justine, Université de Montréal, Montreal, QC, Canada（圣朱斯特医院研究中心，蒙特利尔大学，蒙特利尔，魁北克，加拿大）； Quantitative MRI core facility, NINDS, NIH（定量MRI核心设施，NINDS，NIH）； Experimental Immunotherapeutics Unit, Division of Neuroimmunology and Neurovirology, NINDS, NIH（实验免疫治疗单元，神经免疫学和神经病毒学部门，NINDS，NIH）

AI总结该研究针对高分辨率体外MRI数据的多标签分割问题，探讨了在稀疏2D标注下如何优化生成密集3D分割的弱监督学习方法。研究提出了一种基于2D教师网络生成伪标签训练3D学生网络的框架，并系统分析了人类视觉增强、空间增强和软标签正则化对模型性能的影响。结果表明，2D和3D模型在优化策略上存在显著差异，需采用不同的正则化方法以获得最佳分割效果。

Comments 19 pages. Submitted to Machine Learning for Biomedical Imaging (MELBA). Code and models: https://github.com/ivadomed/model_seg_sc-gm-lesion_human_ms_exvivo_t2star

2605.12746 2026-05-14 cs.CR cs.AI

CoT-Guard: Small Models for Strong Monitoring

Nirav Diwan, Han Wang, Berkcan Kapusuzoglu, Ramin Moradi, Supriyo Chakraborty, Giri Iyengar, Sambit Sahu, Huan Zhang, Gang Wang

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； Capital One

AI总结本文提出 CoT-Guard，一种基于 4B 参数的小型模型，用于监控推理过程（CoT）以检测代码生成任务中的隐蔽目标。为解决小型模型在检测隐蔽目标时的不足，研究设计了一种结合监督微调和强化学习的后训练方法，提升模型在领域内和领域外任务中的检测能力。实验表明，CoT-Guard 在多种攻击场景下表现优异，显著优于其他主流大模型，为用户提供了一种高效、低成本的防御方案。

2605.12745 2026-05-14 cs.HC cs.AI

What Do You Think I Think? Accounting for Human Beliefs Using Second-Order Theory of Mind

Patrick Callaghan, Reid Simmons, Henny Admoni

发表机构 * Robotics Institute, Carnegie Mellon University（卡内基梅隆大学机器人研究所）

AI总结该研究探讨了智能体如何理解人类对自身知识的错误信念，并提出了基于二阶心智理论（ToM-2）的模型，以识别和应对人类认知偏差与启发式推理。通过引入I-POMDP框架，智能体能够建模人类的错误信念及其成因，并据此生成适应性的反馈，从而提升交互效果。实验表明，该方法能有效提高人类教师行为的信息量，并获得用户对反馈有用性的积极评价。

Comments To appear in the proceedings of The 2026 Cognitive Science Society Conference

2605.12743 2026-05-14 cs.CR cs.CV

Still Camouflage, Moving Illusion: View-Induced Trajectory Manipulation in Autonomous Driving

Shuo Ju, Qingzhao Zhang, Huashan Chen, Xuheng Wang, Haotang Li, Wanqian Zhang, Feng Liu, Kebin Peng, Sen He

发表机构 * Institute of Information Engineering, Chinese Academy of Sciences（中国科学院信息工程研究所）； The University of Arizona（亚利桑那大学）； Beijing Jiaotong University（北京交通大学）； East Carolina University（东卡罗来纳大学）

AI总结该研究提出了一种新型的物理对抗攻击方法，针对基于视觉的自动驾驶系统，利用视角变化本身作为攻击工具，通过在车辆上部署静态的伪装贴片，使其在相对运动中产生视点依赖的外观变化，从而诱导系统产生错误的轨迹预测。与以往需要多视角鲁棒性或主动干预的攻击方法不同，该方法仅需简单部署，即可在不同场景和感知模型下引发自动驾驶车辆的误判刹车，实验在nuScenes数据集上验证了其高达87.5%的成功率。

2605.12728 2026-05-14 eess.SY cs.AI cs.SE cs.SY

Grid-Orch: An LLM-Powered Orchestrator for Distribution Grid Simulation and Analytics

Boming Liu, Jin Dong, Jamie Lian

发表机构 * Electrification and Energy Infrastructures Division, Oak Ridge National Laboratory（电力化与能源基础设施部门，橡树岭国家实验室）； UT-Battelle, LLC（UT-巴托尔实验室）

AI总结本文提出了一种名为Grid-Orch的框架，通过模型上下文协议（MCP）将大语言模型（LLM）与电力系统仿真相结合，使工程师能够通过自然语言进行复杂的配电网络分析。该框架基于OpenDSS实现，提供了36个领域专用工具，支持多种优化任务和多步骤工程流程，并可通过交互式网页平台进行操作，显著提升了配电分析的效率和可访问性。

2605.12717 2026-05-14 cs.GT cs.AI

The End Justifies the Mean: A Linear Ranking Rule for Proportional Sequential Decisions

Carmel Baharav, Niclas Boehmer, Bailey Flanigan, Maximilian T. Wittmann

发表机构 * MIT, USA（美国麻省理工学院）； Hasso Plattner Institute, University of Potsdam, Germany（德国波茨坦大学哈索·普拉特纳研究院）

AI总结本文研究了在多人参与的决策场景中，如何设计一个公平的线性排序规则，以满足不同群体的偏好比例。研究提出了一种基于角度均值的简单规则，能够实现长期比例公平性，且在批量排序中与传统算术均值相比表现出更好的比例性。实验表明，在意见分歧较大的情况下，该方法显著提升了决策的公平性。

2605.12704 2026-05-14 cs.SC cs.AI cs.LG

FePySR: A Neural Feature Extraction Framework for Efficient and Scalable Symbolic Regression

Zhiming Yu, Wangtao Lu, Xin Lai

发表机构 * School of Mathematical Sciences, Zhejiang University, Hangzhou, Zhejiang, China（浙江大学数学科学学院，杭州，浙江，中国）； Faculty of Medicine and Health Technology, Tampere University, Tampere, Finland（塔尔库大学医学与健康技术学院，塔尔库，芬兰）

AI总结符号回归（SR）的一个基本挑战是从观测数据中高效地恢复复杂的数学表达式。本文提出了一种名为FePySR的两阶段神经特征提取框架，通过在方程搜索前提取有效特征来缩小搜索空间，从而提升符号回归的效率和可扩展性。该方法首先利用异构神经网络将观测数据约束到一组候选表达式，然后在该精简的表达式空间中使用PySR进行结构优化，实验表明FePySR在多个基准测试中优于现有方法，尤其在复杂方程的恢复率和计算效率方面表现突出。

Comments Data and Code Availability: https://github.com/laixn/FePySR

2605.12697 2026-05-14 stat.ML cs.LG math.PR

A Unified Framework for Critical Scaling of Inverse Temperature in Self-Attention

Tomohiro Hayase, Ryo Karakida

发表机构 * AIST（日本产业技术综合研究所）

AI总结本文提出了一种统一的框架，用于确定自注意力机制中逆温度参数的临界缩放规律，以稳定长上下文处理。研究通过分析每个注意力行的间隔计数函数 $N_n$，定义了上尾累积尺度，并证明该尺度决定了softmax集中度的临界逆温度值。该框架统一了先前不同的缩放规律，并为从理论模型到实际Transformer的注意力得分分布提供了直接的诊断方法。

2605.12694 2026-05-14 cs.SE cs.AI cs.PL

Agentic Interpretation: Lattice-Structured Evidence for LLM-Based Program Analysis

Jacqueline L. Mitchell, Chao Wang

发表机构 * University of Southern California, Los Angeles, California, USA（美国南加州大学）

AI总结本文提出了一种名为“代理解释”的新框架，旨在将基于格结构的静态分析方法应用于基于大语言模型（LLM）的程序分析中。该方法将高层次的分析目标分解为局部断言，并在有限高度的格结构中跟踪LLM对每个断言的判断，从而更透明和系统地进行程序分析。通过引入工作列表算法，论文展示了如何逐步推进分析过程，并通过一个具体示例说明该方法在处理依赖第三方组件的代码时的有效性。这一方法提升了LLM在程序分析中的可靠性与可解释性。

Comments 27 pages, 6 figures

2605.12668 2026-05-14 stat.ML cs.LG

Online Conformal Prediction: Enforcing monotonicity via Online Optimization

Eduardo Ochoa Rivera, Ambuj Tewari

发表机构 * University of Michigan（密歇根大学）

AI总结本文研究了在线符合预测问题，旨在在多个置信水平下同时生成具有嵌套结构的有效预测集，以满足不同用户对风险容忍度的异构需求。作者提出了两种新的在线符合预测方法，通过在线优化视角实现预测集的嵌套性，并控制分位数估计误差。实验表明，与现有方法相比，该方法在多个置信水平上实现了稳定的覆盖率、严格的嵌套结构以及更高的统计效率。

2605.12664 2026-05-14 cs.GT cs.LG

Profit Maximization in Bilateral Trade against a Smooth Adversary

Simone Di Gregorio, Paul Dütting, Federico Fusco, Chris Schwiegelshohn

发表机构 * Google Research（谷歌研究）

AI总结本文研究了双边贸易中经纪人在面对平滑对手时如何最大化利润的问题，提出了一种在线学习算法，保证了 $\tilde{O}(\sqrt{T})$ 的遗憾界，这一结果在时间范围 $T$ 上是紧致的，并与随机独立同分布情形下的最小最大率一致。通过将强遗憾保证从独立同分布情形推广到平滑对手情形，显著拓宽了可实现快速收敛率的场景，填补了该基础经济问题中遗憾界研究的重要空白。

2605.11033 2026-05-14 physics.plasm-ph cs.AI

TokaMind for Power Grid: Cross-Domain Transfer from Fusion Plasma

JC Wu, Norton Lee, Kai Siang Chen

发表机构 * TaiScience Research Group（TaiScience研究组）； Fu Jen Catholic University（辅仁大学）； Center for Geometry and Physics（几何与物理中心）； Institute for Basic Science (IBS)（基础科学研究所）

AI总结本文提出了一种多模态变压器基础模型TokaMind，最初在聚变等离子体诊断数据上进行预训练，并在多个跨领域任务中验证其表示能力的可迁移性。研究通过在工业轴承退化、航空发动机退化及电力系统PMU数据集上的实验，揭示了TokaMind在电力系统中表现出色的关键特征，并在严重事件分类任务中取得了较高的F1分数。研究还发现，电力系统事件分类的难度主要由电网拓扑结构决定，而非模型容量，并提出了基于临界减缓指标的改进评估方法。

Comments 8 pages, 5 figures

2605.10005 2026-05-14 cs.PL cs.AI cs.LO cs.SE

Combining Mechanical and Agentic Specification Inference for Move

Wolfgang Grieskamp, Teng Zhang, Vineeth Kashyap

发表机构 * Aptos Labs（Aptos实验室）

AI总结本文介绍了一种用于Move Prover的规范推断工具，该工具结合了Move字节码的最弱前置条件（WP）分析与智能编码代理（如Claude Code）。该方法旨在减少手动编写规范的繁琐工作，通过WP分析提供可靠的机械基础，而AI代理则用于处理WP较弱的部分，如循环不变式和高层次规范。该工具已应用于包含高阶函数、动态分派、全局状态等特性的典型Move代码库中，验证了其有效性和实用性。

2605.08320 2026-05-14 eess.IV cs.CV

Improved monocular depth prediction using distance transform over pre-semantic contours with self-supervised neural networks

Marwane Hariat, Antoine Manzanera, David Filliat

发表机构 * U2IS, ENSTA, Institut Polytechnique de Paris（U2IS、ENSTA、巴黎理工学院）

AI总结本文针对单目深度估计在低纹理区域表现不佳的问题，提出了一种基于预语义轮廓的距离变换方法，结合自监督神经网络提升深度预测的准确性。该方法通过预语义轮廓联合估计深度和相机运动，并利用距离变换增强低纹理区域的判别能力，从而生成更具区分性的输入图像和更有效的损失函数。实验表明，该方法在多个数据集上表现出色，优于现有的自监督深度估计方法。

2605.07147 2026-05-14 cs.LO cs.AI cs.LG

MathlibPR: Pull Request Merge-Readiness Benchmark for Formal Mathematical Libraries

Zixuan Xie, Xinyu Liu, Shangtong Zhang

发表机构 * University of Virginia（弗吉尼亚大学）

AI总结本文提出 MathlibPR，一个基于真实 Mathlib4 拉取请求（PR）历史构建的基准，用于评估大语言模型（LLM）在判断数学库 PR 是否适合合并的能力。研究指出，尽管 LLM 在辅助形式化推理方面取得进展，但尚未有效参与 Mathlib 的贡献过程，而 Mathlib 的增长正受到人工审核流程的限制。通过引入分阶段评估协议，研究发现当前主流 LLM 和 LLM 代理在区分可合并 PR 与仅通过构建但未被合并的 PR 方面仍面临挑战，MathlibPR 为此类评审助手和奖励模型的开发提供了监督信号。

AI 大模型

视觉与机器人

科学与医疗

Robust Sequential Experimental Design for A/B Testing

When Do LLMs Generate Realistic Social Networks? A Multi-Dimensional Study of Culture, Language, Scale, and Method

Steer-to-Detect: Probing Hidden Representations for Detection of LLM-Generated Texts

EcoGEO: Trajectory-Aware Evidence Ecosystems for Web-Enabled LLM Search Agents

Adam-SHANG: A Convergent Adam-Type Method for Stochastic Smooth Convex Optimization

Quantifying LLM Safety Degradation Under Repeated Attacks Using Survival Analysis

Language-Based Agent Control

NeuroRisk: Physics-Informed Neural Optimization for Risk-Aware Traffic Engineering

ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation

Decision Support for Marketplace Policies under Incomplete Evidence: From Replay to Launch Readiness

Digital Twins as Synthetic Controls in Single-Arm Trials

Linking Extreme Discourse to Structural Polarization in Signed Interaction Networks

When to Trust Confidence Thresholding: Calibration Diagnostics for Pseudo-Labelled Regression

Generative Motion In-betweening by Diffusion over Continuous Implicit Representations

Uncovering Symmetry Transfer in Large Language Models via Layer-Peeled Optimization

Optimization in Sparse 2D to Dense 3D Weakly Supervised Learning: Application to Multi-Label Segmentation of Large ex vivo MRI Data

CoT-Guard: Small Models for Strong Monitoring

What Do You Think I Think? Accounting for Human Beliefs Using Second-Order Theory of Mind

Still Camouflage, Moving Illusion: View-Induced Trajectory Manipulation in Autonomous Driving

Grid-Orch: An LLM-Powered Orchestrator for Distribution Grid Simulation and Analytics

The End Justifies the Mean: A Linear Ranking Rule for Proportional Sequential Decisions

FePySR: A Neural Feature Extraction Framework for Efficient and Scalable Symbolic Regression

A Unified Framework for Critical Scaling of Inverse Temperature in Self-Attention

Agentic Interpretation: Lattice-Structured Evidence for LLM-Based Program Analysis

Online Conformal Prediction: Enforcing monotonicity via Online Optimization

Profit Maximization in Bilateral Trade against a Smooth Adversary

TokaMind for Power Grid: Cross-Domain Transfer from Fusion Plasma

Combining Mechanical and Agentic Specification Inference for Move

Improved monocular depth prediction using distance transform over pre-semantic contours with self-supervised neural networks

MathlibPR: Pull Request Merge-Readiness Benchmark for Formal Mathematical Libraries