arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.10671 2026-05-12 cs.LG math.OC stat.ML

Natural Policy Gradient as Doubly Smoothed Policy Iteration: A Bellman-Operator Framework

Phalguni Nanda, Zaiwei Chen

发表机构 * Edwardson School of Industrial Engineering, Purdue University（工业工程学院，普渡大学）

AI总结本文将强化学习中的自然策略梯度算法表示为一种双重平滑策略迭代（DSPI）形式，并将其嵌入到贝尔曼算子的框架中。该框架通过在历史 Q 函数的加权平均上应用正则化贪心步骤来生成策略，涵盖了策略迭代、双平均策略迭代等多种方法。作者证明了 DSPI 在无需修改 MDP 或使用轨迹依赖步长的情况下，具有分布无关的全局几何收敛性，并给出了自然策略梯度和策略双平均方法的迭代复杂度上界。此外，该框架还可扩展至具有线性函数逼近的折扣 MDP 和随机最短路径问题。

2605.10668 2026-05-12 cs.LG math.OC math.ST stat.TH

A Spectral Framework for Closed-Form Relative Density Estimation

Francis Bach

发表机构 * Inria - Ecole Normale Supérieure PSL Research University（Inria-巴黎大学规范大学）

AI总结本文提出了一种用于线性参数化概率模型（包括未归一化和条件模型）中相对对数密度估计的闭式谱框架。该方法通过将KL散度表示为加权卡方散度的积分，将KL估计转化为一系列最小二乘问题，并基于一阶和二阶特征矩导出了显式的谱公式，从而得到闭式散度和对数密度势估计。该框架适用于广泛的f散度，并可与核方法或神经网络特征学习结合，理论证明了估计器的收敛性，并在合成数据上与基于优化的变分方法进行了实验对比。

2605.10663 2026-05-12 cs.AI

Evolving-RL: End-to-End Optimization of Experience-Driven Self-Evolving Capability within Agents

Zhiyuan Fan, Wenwei Jin, Feng Zhang, Bin Li, Yihong Dong, Yao Hu, Jiawei Li

发表机构 * Xiaohongshu Inc.（小红书公司）； School of Computer Science, Peking University（北京大学计算机学院）

AI总结 Evolving-RL 是一种端到端优化框架，旨在提升智能体在部署时通过经验驱动实现自我演进的能力。该方法通过联合优化经验提取与利用过程，使大型语言模型能够更有效地学习和复用历史经验，从而在新任务上表现出更强的适应性。实验表明，Evolving-RL 显著提升了模型在分布外任务中的性能，且其效果依赖于经验提取与利用的协同进化。此外，该方法还作为一种增强型强化学习算法，能够在无需测试时经验积累的情况下提升模型表现。

Comments 17pages, 5 figures

详情

英文摘要

Experience-driven self-evolving agents aim to overcome the static nature of large language models by distilling reusable experience from past interactions, thus enabling adaptation to novel tasks at deployment time. This process places substantial demands on the foundation model's capacities for abstraction, generalization, and in-context learning. However, most existing studies focus primarily on system-level design choices, such as how experience is represented and managed, neglecting the inherent capabilities of the underlying model. While some recent works have started to optimize the experience utilization stage via reinforcement learning, they still fail to treat self-evolution as a unified process to be jointly optimized. To this end, we propose Evolving-RL, an efficient algorithmic framework that jointly improves the experience extraction and utilization capabilities required for self-evolution. Specifically, we center the learning process on experience extraction and evaluation, using the two supervisory signals derived from evaluation to optimize the extractor and solver separately and thus enable their coordinated co-evolution. Experiments on ALFWorld and Mind2Web show that Evolving-RL effectively enhances LLMs' ability to extract and reuse experience, leading to strong performance gains on out-of-distribution tasks (up to 98.7% relative improvement over the GRPO baseline on ALFWorld unseen tasks and 35.8% on Mind2Web), and these gains are fully unlocked only through the coordinated co-evolution of experience extraction and utilization. Furthermore, Evolving-RL inherently functions as an experience-augmented RL algorithm. By internalizing reusable experience patterns directly into model parameters, it achieves remarkable performance gains over standard baselines on both seen and unseen tasks, even in the absence of test-time experience accumulation.

URL PDF HTML ☆

赞 0 踩 0

2605.10661 2026-05-12 cs.CV cs.AI

bViT: Investigating Single-Block Recurrence in Vision Transformers for Image Recognition

Michal Byra, Pawel Olszowiec, Grzegorz Stefanski, Grzegorz Gruszczynski, Alberto Presta

发表机构 * Samsung AI Center（三星人工智能中心）； Institute of Fundamental Technological Research, Polish Academy of Sciences（波兰科学院基础技术研究所）

AI总结本文研究了视觉Transformer（ViT）中是否可以通过单块循环结构替代传统的多层独立参数化结构。提出了一种名为bViT的模型，该模型仅使用一个Transformer块进行重复计算来处理图像，从而在保持深度结构的同时大幅减少参数量。实验表明，在相同训练条件和计算预算下，bViT在ImageNet-1K上达到了与标准ViT相当的性能，且参数数量减少了约一个数量级，展示了循环结构在视觉任务中的有效性与潜力。

Comments 31 pages, 16 figures

2605.10659 2026-05-12 cs.CL cs.AI cs.SI stat.ML

When Can Digital Personas Reliably Approximate Human Survey Findings?

Mumin Jia, Yilin Chen, Divya Sharma, Jairo Diaz-Rodriguez

发表机构 * Department of Mathematics and Statistics（数学与统计学系）； York University（约克大学）； University Health Network（大学健康网络）

AI总结本文探讨了大型语言模型（LLM）生成的数字人像在何种程度上能够可靠地模拟人类在调查中的回答。研究利用LISS调查数据集构建数字人像，并与真实受访者后续的回答进行对比，评估其在不同任务和层次上的表现。结果表明，数字人像在稳定属性和价值观相关的领域表现较好，但在个体预测和多维结构恢复方面仍存在局限，且其效果更多依赖于人类回答的结构而非模型选择。

2605.10655 2026-05-12 cs.LG

BCJR-QAT: A Differentiable Relaxation of Trellis-Coded Weight Quantization

Venugopalan Iyengar

发表机构 * Venugopalan Iyengar

AI总结本文提出了一种名为BCJR-QAT的可微分松弛方法，用于解决网格编码量化（Trellis-Coded Quantization）在量化感知训练（QAT）中的非可微问题。该方法通过引入BCJR前向-后向算法替代非可微的Viterbi算法，实现了对网格路径的软量化，从而支持端到端训练。研究还贡献了高效的实现内核、理论分析以及在大语言模型上的实验验证，表明其在保持2比特每词精度下优于现有方法。

Comments 26 pages, 4 figures, 4 tables. Code at https://github.com/Venugopalan2610/quant-2bit. Model weights and trajectory snapshots at https://huggingface.co/Venugopalan2610/BCJR-QAT-Llama-3.2-1B-2bit

2605.10654 2026-05-12 cs.LG cs.AI

Active Learning for Gaussian Process Regression Under Self-Induced Boltzmann Weights

Jixiang Qing, Henry Moss, Matthias Sachs

发表机构 * MARS: Mathematics for AI in Real-world Systems, School of Mathematical Sciences, Lancaster University（MARS：面向现实世界的AI数学，数学科学学院，兰卡斯特大学）

AI总结本文研究了在由未知函数自身诱导的玻尔兹曼分布下的高斯过程回归主动学习问题，该问题在计算化学中的势能面建模等场景中具有重要意义。为了解决目标分布未知且难以计算配分函数的挑战，作者提出了一种基于高斯过程的获取函数AB-SID-iVAR，能够在不估计配分函数的情况下近似目标分布，并适用于离散和连续输入域。实验表明，该方法在合成数据集和实际任务中均优于现有方法。

2605.10651 2026-05-12 cs.LG cs.AI stat.ML

A Recursive Decomposition Framework for Causal Structure Learning in the Presence of Latent Variables

Zheng Li, Feng Xie, Shenglan Nie, Xichen Guo, Ruxin Wang, Hao Zhang

发表机构 * Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, Shenzhen, China（深圳先进技术研究院，中国科学院，中国深圳）； College of Computer Science and Artificial Intelligence, Fudan University, Shanghai, China（复旦大学计算机科学与人工智能学院，中国上海）

AI总结本文提出了一种名为DiCoLa的递归分解框架，用于在存在潜在变量的情况下进行因果结构学习。该方法通过递归分解全局学习任务为更小的子问题，并通过原理化的重构步骤整合子问题的解，从而恢复全局因果结构。该框架在理论上保证了其正确性和完备性，并在合成数据和真实数据上的实验表明，它显著提升了多种因果发现算法的计算效率。

2605.10650 2026-05-12 cs.LG cond-mat.dis-nn

A Random-Matrix Criterion for Initializing Gated Recurrent Neural Networks

Tommaso Fioratti, Riccardo Marcaccioli, Francesco Casola

发表机构 * Institute of Mathematics, EPFL, 1015 Lausanne, Switzerland（瑞士洛桑联邦理工学院数学研究所）

AI总结本文研究了门控循环神经网络（Gated RNN）中权重初始化对模型性能的影响，提出了一种基于随机矩阵理论的初始化准则。该准则能够有效估计使模型处于临界状态的权重方差阈值，从而在混沌预测任务中实现最佳性能。研究还表明，该准则可作为未来初始化方案设计的重要指导原则。

Comments 10 pages, 5 figures, 2 appendices

2605.10647 2026-05-12 cs.AI cs.CR

diffGHOST: Diffusion based Generative Hedged Oblivious Synthetic Trajectories

Florent Guépin, Cheick Tidiani Cisse, Denis Renaud, François Bidet, Arnaud Legendre

发表机构 * Orange Research（Orange研究院）； Orange Business（Orange公司）

AI总结随着轨迹数据在众多应用中的重要性日益增加，如何在保护隐私的同时利用这些数据成为关键问题。本文提出diffGHOST，一种基于潜在空间分割的条件扩散模型，旨在生成具有实用价值且隐私风险可控的合成轨迹。该方法通过识别并缓解关键样本的记忆效应，有效提升了生成轨迹的隐私保护能力。

2605.10645 2026-05-12 cs.CV

GenMed: A Pairwise Generative Reformulation of Medical Diagnostic Tasks

Hantao Zhang, Weidong Guo, Yuhe Liu, Jiancheng Yang, Sathvik Bhagavan, Danli Shi, Mingda Xu, Pascal Fua

发表机构 * CVLab, École Polytechnique Fédérale de Lausanne (EPFL)（瑞士联邦理工学院（EPFL）计算机视觉实验室）； Fudan University（复旦大学）； Beihang University（北航大学）； ELLIS Institute Finland（芬兰ELLIS研究所）； Aalto University（艾尔沃斯大学）； The Hong Kong Polytechnic University（香港理工大学）

AI总结本文提出了一种基于生成模型的新型医学诊断框架GenMed，通过联合建模输入与输出的联合分布 $P(X,Y)$，将诊断任务重新定义为推理时的输出优化问题。该方法利用扩散模型，在不改变模型结构或重新训练的前提下，实现了对多样化输入条件的灵活梯度引导，有效支持跨模态、少样本和零样本等复杂场景下的医学图像分割任务。实验表明，GenMed 在多种医学影像任务中表现出色，并配套发布了大规模文本-形状数据集以支持相关研究。

2605.10643 2026-05-12 cs.CL cs.LG

A Single-Layer Model Can Do Language Modeling

Zanmin Wang

发表机构 * Proton

AI总结本文研究了如何通过单层结构实现语言建模，提出了一种基于循环机制的 Grounded Prediction Networks（GPN）模型，该模型仅使用一个共享的状态向量和一个递归块进行信息处理。实验表明，即使在参数规模较小的情况下，GPN 也能达到与多层模型相当的性能，并揭示了其状态向量中包含的持久默认标记方向、内容承载窗口以及自发形成的快慢记忆池等结构特征。

Comments 9 pages, 5 figures, 1 table. Code: https://github.com/steve-z-wang/grounded-prediction-network

2605.10642 2026-05-12 cs.LG cond-mat.stat-mech

Composing diffusion priors with explicit physical context via generative Gibbs sampling

Weizhou Wang, Jonathan Weare, Aaron R. Dinner

发表机构 * Department of Chemistry（化学系）； Courant Institute of Mathematical Sciences（数学科学学院）； University of Chicago（芝加哥大学）； New York University（纽约大学）

AI总结本文提出了一种名为GG-PA的训练-free框架，用于在科学采样中结合预训练扩散模型与显式物理背景。该方法通过在扩展状态空间中对联合目标分布进行推理，将学习到的局部先验与物理约束进行组合，并基于吉布斯采样实现精确的分布推断。实验表明，GG-PA能够在无需重新训练的情况下，利用部分先验恢复由物理背景引起的分布变化和系统中的集体行为，展示了其在结合生成模型与物理知识方面的有效性。

Comments 31 pages, 11 figures

2605.10641 2026-05-12 cs.CV cs.AI

LLaVA-CKD: Bottom-Up Cascaded Knowledge Distillation for Vision-Language Models

Nikolaos Gkalelis, Vasileios Mezaris

发表机构 * CERTH-ITI

AI总结本文提出了一种名为LLaVA-CKD的自底向上级联知识蒸馏框架，旨在解决视觉语言模型（VLMs）在实际部署中面临的大规模计算和内存需求问题。该方法通过引入中间容量的教师模型逐步引导学生模型学习，缓解了传统知识蒸馏中师生模型容量差距过大导致的知识迁移效果下降问题。实验表明，该框架在多个标准视觉问答基准测试中取得了当前最优的性能。

Comments Under review

2605.10640 2026-05-12 cs.CL cs.AI

Towards Understanding Continual Factual Knowledge Acquisition of Language Models: From Theory to Algorithm

Haoyu Wang, Yifan Shang, Zhongxiang Sun, Weijie Yu, Xiao Zhang, Jun Xu

发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China（中国人民大学北京校区人工智能学院）； School of Artificial Intelligence（人工智能学院）； Data Science, University of International Business（国际商务大学数据科学）

AI总结本文研究了语言模型在持续预训练过程中如何持续获取和保留事实知识的问题，提出了一个基于单层Transformer的理论框架，用于解释持续事实知识获取（cFKA）的训练动态。研究发现，基于正则化的方法仅影响参数收敛速度，而数据回放方法能够改变收敛动态并稳定已有知识。基于此，作者提出了一种新的生成式数据回放方法STOC，通过选择注意力贡献度高的事实片段来指导回放数据生成，实验表明该方法有效提升了模型的持续知识获取能力。

Comments Accepted by ICML 2026

2605.10639 2026-05-12 cs.AI

Navigating the Sea of LLM Evaluation: Investigating Bias in Toxicity Benchmarks

Regina Gugg, Selina Niederländer, Andreas Stöckl, Martin Flechl

发表机构 * Dynatrace Research, Linz, Austria（奥地利林茨Dynatrace研究机构）； University of Applied Sciences Upper Austria, Hagenberg, Austria（上奥地利应用科学大学哈根贝格分校）

AI总结随着大型语言模型（LLM）在科研和工业中的广泛应用，如何安全部署成为关键挑战，而现有的毒性基准评估体系存在系统性偏差的问题。本文研究了常用评估设置的鲁棒性，揭示了在模型选择、评估指标和任务类型等方面存在的内在偏差，并通过实验发现，当任务从文本生成转向摘要生成时，基准对有害内容的标记倾向显著增加，部分基准在输入数据域变化时也表现出行为不一致。研究强调了构建更全面和稳健的安全评估框架的必要性。

Comments 18 pages, 4 figures

2605.10634 2026-05-12 cs.AI

Teacher-Aware Evolution of Heuristic Programs from Learned Optimization Policies

Minyu Chen, Song Qin, Ling-I Wu, Jianxin Xue, Guoqiang Li

发表机构 * Shenzhen Technology University（深圳科技大学）； Shanghai Polytechnic University（上海理工大学）； Shanghai Jiao Tong University（上海交通大学）

AI总结该研究提出了一种基于“教师感知”的进化框架，用于从学习到的优化策略中演化启发式程序。不同于以往依赖最终性能指标的方法，该方法利用独立训练的优化策略作为行为教师，通过查询其在候选启发式程序访问状态下的动作偏好，提供局部反馈以指导演化过程。实验表明，该方法在调度、路径规划和图优化等任务中优于仅依赖性能驱动的LLM启发式演化方法，且部署时无需神经推理，展示了其高效性和实用性。

Comments 15 pages

2605.10633 2026-05-12 cs.CL cs.AI

Intrinsic Guardrails: How Semantic Geometry of Personality Interacts with Emergent Misalignment in LLMs

Krishak Aneja, Manas Mittal, Anmol Goel, Ponnurangam Kumaraguru, Vamshi Krishna Bonagiri

发表机构 * International Institute of Information Technology, Hyderabad（国际信息研究所，海得拉巴）； Mohamed bin Zayed University of Artificial Intelligence, Abu Dhabi（Mohamed bin Zayed人工智能大学，阿布扎比）

AI总结该研究探讨了大型语言模型（LLMs）在微调过程中出现的有害行为（即“涌现偏差”）与其内在人格语义结构之间的关系。通过映射模型的潜在人格空间，如大五人格、黑暗三联征等，研究发现模型的人格语义几何结构在对齐模型及其微调变体中高度稳定。研究引入了“语义价值向量”等概念，证明这些人格相关方向可作为内在防护机制，有效抑制微调带来的偏差，为跨分布的模型调节提供了新的思路。

Comments 20 pages, 9 figures including appendix

2605.10629 2026-05-12 cs.CV

Product-of-Gaussian-Mixture Diffusion Models for Joint Nonlinear MRI Reconstruction

Laurenz Nagler, Martin Zach, Thomas Pock

发表机构 * Graz University of Technology（格拉茨技术大学）； École Polytechnique Fédérale de Lausanne（洛桑联邦理工学院）； Biomedical Imaging Group and Center for Biomedical Imaging（生物医学成像组和生物医学成像中心）

AI总结本文提出了一种基于高斯混合乘积扩散模型的联合非线性磁共振成像重建方法，旨在解决现有方法中网络结构复杂、时间条件机制不透明以及需要离线估计线圈灵敏度等问题。该方法通过将参数高效的高斯混合扩散模型作为图像先验，并结合经典的线圈灵敏度平滑先验，实现了图像与线圈灵敏度的联合重建。该方法在保持重建质量的同时，提升了对对比度和解剖分布变化以及不同k空间轨迹的鲁棒性。

2605.10628 2026-05-12 cs.CV

Hypergraph-Enhanced Training-Free and Language-Free Few-Shot Anomaly Detection

Guohuan Xie, Xin He, Dingying Fan, Siqi Li, Yun Liu

发表机构 * Nankai University（南开大学）； Tianjin University of Technology（天津工业大学）； Tsinghua University（清华大学）

AI总结本文提出了一种名为HyperFSAD的少样本异常检测框架，该方法无需训练和语言提示，且具备跨领域鲁棒性，有效解决了现有方法对特定任务训练、语言监督和领域适应性的依赖问题。该方法基于DINOv3和超图推理机制，通过稀疏超匹配和双分支图像评分策略，实现了对正常样本的紧凑表征与异常区域的精准识别。实验表明，在六个涵盖工业和医疗场景的数据集上，HyperFSAD在无训练、无语言提示的严格设置下取得了当前最优的检测性能。

2605.10627 2026-05-12 cs.CL cs.AI

Interpretable Coreference Resolution Evaluation Using Explicit Semantics

Bruno Gatti, Giuliano Martinelli, Roberto Navigli

发表机构 * Sapienza NLP Group（萨皮恩扎自然语言处理组）； Sapienza University of Rome（罗马萨皮恩扎大学）

AI总结该论文提出了一种基于显式语义的可解释核心ference解析评估框架，旨在解决传统统计指标（如CoNLL-F1）在诊断模型问题时信息不足的问题。研究通过将概念和命名实体识别（CNER）叠加到核心ference输出上，为名词提及分配语义标签并传播至整个聚类，从而按语义类别计算分类型评估指标。实验表明，该方法能够揭示传统指标难以发现的系统性缺陷，并可用于设计针对性的数据增强策略，提升模型在领域外任务中的表现。

Comments Accepted at main conference for ACL 2026. 19 pages

2605.10624 2026-05-12 cs.AI cs.LG

Hierarchical Causal Abduction: A Foundation Framework for Explainable Model Predictive Control

Ramesh Arvind Naagarajan, Zühal Wagner, Stefan Streif

发表机构 * System Dynamics, Chemnitz University of Technology, Chemnitz, Germany（化学特伦茨大学系统动力学系）； Department of Bioresources, Fraunhofer Institute for Molecular Biology and Applied Ecology（弗劳恩霍夫分子生物学与应用生态学研究所生物资源系）

AI总结本文提出了一种名为分层因果归纳（HCA）的基础框架，用于实现可解释的模型预测控制（MPC）。该方法结合领域知识图谱、KKT乘子优化证据和PCMCI算法进行时间因果发现，从而为非线性MPC的控制动作生成可信且易于人类理解的解释。实验表明，HCA在多个控制应用中显著提升了解释准确性，并且其方法具有跨领域泛化能力，适用于其他基于预测的决策系统。

2605.10621 2026-05-12 cs.LG cs.SY eess.SY

Hierarchical End-to-End Taylor Bounds for Complete Neural Network Verification

Taha Entesari, Mahyar Fazlyab

发表机构 * Johns Hopkins University（约翰霍普金斯大学）

AI总结该论文研究了神经网络的可达性分析问题，旨在计算或界定给定输入域下网络输出的可能范围，以验证学习驱动的物理系统的安全性与鲁棒性。现有方法多依赖于二阶信息的可追踪近似，而本文提出了一种新的验证框架HiTaB，通过利用Hessian矩阵及其Lipschitz常数，系统性地引入更高阶的平滑性信息，构建了统一的零阶、一阶和二阶界框架，并提出了高效的层间曲率传播算法来计算深层网络中Hessian Lipschitz常数的上界，从而获得更紧致和可靠的安全性证明。

2605.10616 2026-05-12 cs.LG cs.CL cs.CV

MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

Alan Arazi, Eilam Shapira, Shoham Grunblat, Mor Ventura, Elad Hoffer, Gioia Blayer, David Holzmüller, Lennart Purucker, Gaël Varoquaux, Frank Hutter, Roi Reichart

发表机构 * Technion – Israel Institute of Technology（技术ion – 以色列理工学院）； Prior Labs（Prior实验室）； NVIDIA ； SODA Team, INRIA Saclay, Palaiseau（SODA团队，INRIA萨克莱，帕莱索）； University of Freiburg（弗赖堡大学）； Probabl ； ELLIS Institute Tübingen（图宾根ELLIS研究所）

AI总结本文提出 MulTaBench，一个包含40个数据集的多模态表格学习基准，涵盖图像-表格和文本-表格任务，旨在评估模型在处理结构化数据与非结构化模态（如文本和图像）结合时的表现。研究发现，针对任务进行嵌入调优能显著提升性能，而现有基准往往忽视任务相关性，导致结果波动较大。MulTaBench 通过强调模态间互补信息的重要性，推动了目标感知表示学习的发展，并为构建多模态表格基础模型提供了新的研究方向。

2605.10615 2026-05-12 cs.CL

Responsible Benchmarking of Fairness for Automatic Speech Recognition

Felix Herron, Ange Richard, François Portet, Alexandre Allauzen, Solange Rossato

发表机构 * MILES Team, LAMSADE, Université Paris Dauphine-PSL（MILES团队，LAMSADE，巴黎第十一大学）； GETALP Team, LIG, Université Grenoble Alpes（GETALP团队，LIG，格勒诺布尔阿尔卑斯大学）； PACTE, Université Grenoble-Alpes（PACTE，格勒诺布尔阿尔卑斯大学）

AI总结本文探讨了自动语音识别（ASR）系统在不同说话人群体间的公平性问题，指出当前研究在评估公平性时方法不一致，可能导致结论偏差。作者结合机器学习公平性、社会学和语音科学的文献，提出了更可靠的公平性基准测试实践，强调应明确评估的公平性假设，并针对具体假设选择合适的度量指标。研究发现，仅基于单一异质群体进行评估可能掩盖实际受到偏见的群体，因此主张对数据中的多维人口统计变量进行细致的交叉分析，以揭示潜在的虚假关联。

Journal ref SPEAKABLE, colocated with LREC 2026

2605.10614 2026-05-12 cs.AI

PRISM: Generation-Time Detection and Mitigation of Secret Leakage in Multi-Agent LLM Pipelines

Riya Tapwal, Abhishek Kumar, Carsten Maple

发表机构 * School of Computing and Electrical Engineering（计算与电子工程学院）； Indian Institute of Technology, Mandi (IIT)（印度理工学院，曼迪（IIT））； The Alan Turing Institute, London（阿兰·图灵研究所，伦敦）； University of Warwick（沃里克大学）

AI总结多智能体大语言模型系统中，一个智能体访问的敏感信息可能通过共享上下文传播到后续输出中，造成秘密泄露风险。为此，研究提出了PRISM，一种生成时实时检测和缓解秘密泄露的防御机制，通过整合多种特征信号计算风险评分，并在生成过程中进行干预。PRISM基于生成动态的变化，如熵坍缩和logit集中度，结合文本结构线索，在泄露发生前进行有效预警，实验表明其在多个攻击场景下表现出优异的检测性能和零泄露率。

详情

英文摘要

Multi-agent LLM systems introduce a security risk in which sensitive information accessed by one agent can propagate through shared context and reappear in downstream outputs, even without explicit adversarial intent. We formalise this phenomenon as propagation amplification, where leakage risk increases across agent boundaries as sensitive content is repeatedly exposed to downstream generators. Existing defences, including prompt-based safeguards, static pattern matching, and LLM-as-judge filtering, are not designed for this setting: they either operate after generation, rely primarily on surface-form patterns, or add substantial latency without modelling the generation process itself. To resolve these issues, we propose PRISM, a real-time defence that treats credential leakage as a sequential risk accumulation problem during generation. At each decoding step, PRISM combines 16 signals spanning lexical, structural, information-theoretic, behavioural, and contextual features into a calibrated risk score, enabling per-token intervention through green, yellow, and red risk zones. Our central observation is that credential reproduction is often preceded by a measurable shift in generation dynamics, characterised by entropy collapse and increasing logit concentration. When combined with text-structural cues such as identifier-pattern detection, these temporal signals provide an early warning of leakage before a secret is fully reconstructed. Across a 2,000-task adversarial benchmark covering 13 attack categories and three pressure levels in a heterogeneous four-agent pipeline, PRISM achieves F1 = 0.832 with precision = 1.000 and recall = 0.712, while producing no observed leakage on our benchmark (0.0% task-level leak rate) and preserving output utility of 0.893. It substantially outperforms the strongest baseline, Span Tagger, which achieves F1 = 0.719 with a 15.0% task-level leak rate.

URL PDF HTML ☆

赞 0 踩 0

2605.10606 2026-05-12 cs.CL cs.AI

Measuring Embedding Sensitivity to Authorial Style in French: Comparing Literary Texts with Language Model Rewritings

Benjamin Icard, Lila Sainero, Alice Breton, Evangelia Zve, Jean-Gabriel Ganascia

发表机构 * LIP6, Sorbonne University, CNRS, France（LIP6，索邦大学，国家科学研究中心，法国）

AI总结本研究探讨了大型语言模型（LLM）在法语中对作者写作风格的嵌入表示敏感性，通过构建受控的文学语料库，量化分析了风格变化对嵌入分散度的影响。研究发现，嵌入能够可靠地捕捉作者的风格特征，并且这些特征在模型重写后依然保留，同时呈现出特定于LLM的模式。该成果为在语言模型时代检测作者模仿提供了新的分析方向。

Comments To appear in the Proceedings of the 6th International Conference on Natural Language Processing for the Digital Humanities (NLP4DH 2026)

2605.10605 2026-05-12 cs.CL

Where do aspectual variants of light verb constructions belong?

Aggeliki Fotopoulou, Eric Laporte, Takuya Nakamura

发表机构 * ILSP, Athena RC LIGM, Univ Gustave Eiffel, CNRS, ESIEE Paris（ILSP、Athena RC、LIGM、法国欧文-埃菲尔大学、CNRS、巴黎ESIEE）

AI总结本文研究轻动词结构的体变体表达，如“take on debt”与“have debt”，探讨其在语义分类中归属模糊的问题。作者分析了这类表达的特性，提出一系列特征以更清晰地区分其属于动词短语、轻动词结构还是组合短语。该研究为自然语言处理中的语义分类提供了更具区分性的判断依据。

Journal ref Proceedings of the 17th Workshop on Multiword Expressions (MWE), August 2021, France, pp.2-12

2605.10604 2026-05-12 cs.LG cs.AI cs.CY

Fairness vs Performance: Characterizing the Pareto Frontier of Algorithmic Decision Systems

Mieke Wilms, Christoph Heitz

发表机构 * Zurich University of Applied Sciences / University of Zurich（应用科学大学苏黎世分校 / 苏黎世大学）； Zurich University of Applied Sciences（应用科学大学苏黎世分校）

AI总结本文研究了算法决策系统中公平性与性能之间的权衡问题，将其建模为多目标优化问题，同时考虑决策者效用和群体公平性。研究发现，帕累托最优决策规则由针对不同群体的确定性阈值规则构成，且帕累托前沿的位置仅依赖于人口特征、效用函数和公平性指标，而与算法技术设计无关。该成果拓展了现有公平性约束分类的最优性定理，适用于更广泛的公平性度量和部分公平性场景，为评估和比较算法决策系统提供了理论基础。

Comments 23 pages, The 2026 ACM conference on Fairness, Accountability, and Transparency (FAccT'26)

详情

DOI: 10.1145/3805689.3812302

英文摘要

Designing fair algorithmic decision systems requires balancing model performance with fairness toward affected individuals: More fairness might require sacrificing some performance and vice versa, yet the space of possible trade-offs is still poorly understood. We investigate fairness in binary prediction-based decision problems by conceptualizing decision making as a multi-objective optimization problem that simultaneously considers decision-maker utility and group fairness. We investigate the set of Pareto-optimal decision rules for arbitrary utility functions for decision maker, arbitrary population distributions, and a wide range of group fairness metrics. We find that the Pareto frontier consists of deterministic, group-specific threshold rules applied to individuals' success probability. This complements existing optimality theorems from literature which, for specific fairness constraints, posit lower-bound threshold rules only. However we also show that, depending on the used fairness metric, the Pareto frontier may include upper-bound threshold rules, thus preferring individuals with lower success probabilities. We show that the location of the Pareto frontier depends only on population characteristics, utility functions and fairness score, but not on the technical design of the algorithm - our findings hold for pre-, in-, and post-processing approaches alike. Our results generalize existing optimality theorems for fairness-constrained classification and extend them to generalized fairness metrics and fairness principles, and to partial fairness regimes. This paper connects formal fairness research with legal and ethical requirements to search for less discriminatory alternatives, offering a principled foundation for evaluating and comparing algorithmic decision systems.

URL PDF HTML ☆

赞 0 踩 0

2605.10601 2026-05-12 cs.AI

The Open-Box Fallacy: Why AI Deployment Needs a Calibrated Verification Regime

Phongsakon Mark Konrad, Tim Lukas Adam, Ane Cathrine Holst Merrild, Riccardo Terrenzi, Rebecca De Rosa, Toygar Tanyel, Serkan Ayvaz

发表机构 * Centre for Industrial Software（工业软件中心）； University of Southern Denmark（南丹麦大学）； ProMake

AI总结本文探讨了在医疗、信贷、就业和司法等敏感领域部署人工智能时，过度依赖模型可解释性来确保安全性的问题。作者指出，应采用“校准验证”机制替代当前做法，强调授权应具有领域限定、独立可核查、发布后监控、责任追溯、可申诉和可撤销等特性。文章提出“验证覆盖率”作为衡量标准，应与模型能力评分一同用于模型卡片、排行榜和监管披露中，以更全面评估AI系统的部署安全性。