arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2504.11837 2026-05-11 cs.CL cs.AI

FiSMiness: A Finite State Machine Based Paradigm for Emotional Support Conversations

Yue Zhao, Qingqing Gu, Xiaoyu Wang, Teng Chen, Zhonglin Jiang, Yong Chen, Luo Ji

AI总结 FiSMiness 是一种基于有限状态机（FSM）的情感支持对话框架，旨在通过结构化状态规划提升对话的长期情感支持效果。该方法利用有限状态机指导大语言模型在对话中逐步推理用户情绪、支持策略及回应内容，从而实现更连贯和有效的对话流程。实验表明，FiSMiness 在多个情感支持数据集上优于多种基线方法，包括直接推理、自修正、思维链、微调及外部辅助方法，展现出更强的性能。

Comments NAACL2025 CMCL Workshop

2504.11101 2026-05-11 cs.CV cs.AI cs.MM

Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR

Yulong Zhang, Tianyi Liang, Xinyue Huang, Erfei Cui, Guoqing Wang, Xu Guo, Chenhui Li, Gongshen Liu

AI总结本文提出了一种名为“共识熵”（Consensus Entropy, CE）的新型度量方法，用于评估多视觉语言模型（VLM）在光学字符识别（OCR）任务中的输出可靠性。该方法通过衡量不同模型之间的输出一致性来估计结果的可信度，正确预测的输出在空间上趋于一致，而错误预测则表现出较大差异。基于CE，作者构建了CE-OCR框架，实现了输出验证、优质结果选择和自适应路由优化，实验表明CE在无需训练和监督的情况下，显著提升了OCR质量，且优于现有方法。

2503.06223 2026-05-11 cs.CV

RedDiffuser: Auditing Multimodal Safety Failures in Vision-Language Models via Reinforced Diffusion

Ruofan Wang, Xingjun Ma

AI总结随着视觉-语言模型（VLMs）在开放环境中广泛应用，确保其在多模态输入下的安全可靠性变得尤为重要。然而，现有评估方法多聚焦于明确的恶意指令，忽视了在有害上下文暴露下模型安全对齐可能失效的问题。为此，本文提出RedDiffuser，一种基于强化学习的框架，利用扩散模型生成语义连贯的视觉输入，系统性地揭示多模态安全漏洞。实验表明，该方法能有效暴露多个开源和商用VLM中的潜在风险，凸显当前系统级安全机制在应对真实多模态威胁时的不足。

2503.05085 2026-05-11 cs.CL cs.SD eess.AS

S2S-Arena: Evaluating Paralinguistic Instruction Following in Speech-to-Speech Models

Feng Jiang, Zhiyu Lin, Yiyang Liu, Liumeng Xue, Fan Bu, Yuhao Du, Xiangying Chen, Benyou Wang, Haizhou Li

AI总结本文提出S2S-Arena，一个专注于评估语音到语音模型在遵循指令时对语用信息（如语调、情感和说话人特征）理解与表达能力的基准。该基准采用四层交互协议和两阶段数据构建流程，生成涵盖百余项真实任务的1,243个语音样本，并引入无参考的配对比较评估框架。实验表明，当前学术与工业系统在复杂语用场景下存在显著性能差距，研究进一步分析了影响表达式指令遵循的关键设计因素，为构建更自然、鲁棒且符合人类沟通习惯的语音代理提供了指导。

Comments Accepted by ACL 2026 main

2503.04638 2026-05-11 cs.LG

No Forgetting Learning: Buffer-free Continual Learning Classification

Mohammad Ali Vahedifar, Qi Zhang

AI总结本文提出了一种无需回放缓冲区的持续学习框架No Forgetting Learning（NFL），旨在解决传统方法中因存储示例而带来的内存开销和隐私问题。该方法通过将网络分解为共享主干和任务特定头，并结合逐步冻结、知识蒸馏和双软目标锚定等策略，实现了对先前任务知识的有效保留与新任务学习的平衡。此外，NFL+引入了欠完备自编码器以增强特征保留和类别不平衡修正，NFL+LoRA则进一步扩展至预训练视觉Transformer，通过低秩子空间更新和Fisher加权正则化，保持了模型内存成本的恒定。实验表明，该方法在多个数据集上表现优异，且模型规模仅为基于缓冲区方法的2.53%。

2503.02107 2026-05-11 cs.RO

Balancing Act: Trading Off Odometry and Map Registration for Efficient Lidar Localization

Katya M. Papais, Daniil Lisus, Cedric Le Gentil, David J. Yoon, Timothy D. Barfoot

AI总结本文研究了如何在激光雷达定位中平衡定位精度与计算效率的问题，提出两种改进方法并分析其性能影响。首先，将两种轻量化的里程计估计器集成到拓扑定位框架中，并与最先进的ICP方法进行对比，揭示了不同方法在速度与精度上的权衡。其次，通过控制定位更新频率并利用里程计估计进行补偿，展示了在保持高精度的同时提升计算效率的可行性。实验表明，与ICP相比，所提方法在减少计算量的同时仍能保持先进水平的定位精度。

Comments 8 pages

2502.17500 2026-05-11 cs.LG cs.AI

Generalized Euler Logarithm and its Applications in Machine Learning: Natural Gradient, Backpropagation, Generalized EG, Mirror Descent and OLPS

Andrzej Cichocki

AI总结本文深入研究了双参数广义欧拉对数及其逆函数的性质，并与多种变形指数函数建立了联系，为广义熵和散度度量提供了一个统一的内核。在算法方面，作者将欧拉对数应用于现代机器学习与优化，提出基于欧拉对数的广义指数梯度和镜像下降方法，并设计了一种适用于深度神经网络的广义交叉熵损失函数，推导了其精确的反向传播公式，并实现了与自然梯度下降的无缝结合。研究展示了如何通过调整两个变形参数，有效分离模型的尾部鲁棒性与局部梯度塑造。

Comments 34 pages, preprint of Journal paper

2501.09189 2026-05-11 cs.LG cs.DS

Testing Noise Assumptions of Learning Algorithms

Surbhi Goel, Adam R. Klivans, Konstantinos Stavropoulos, Arsen Vasilyan

AI总结本文研究了计算学习理论中的一个基本问题：能否高效地检验训练数据是否满足某个噪声模型的假设。作者提出了一种高效的算法，用于测试训练数据中的多种噪声假设，并扩展了现有的可检验学习框架，提出了满足特定条件的测试与学习算法。研究还展示了可检验学习与传统噪声学习之间的本质区别，指出在随机分类噪声下，可检验学习需要超多项式时间，而传统学习却非常简单。

Comments 45 pages, Best Paper Award at Reliable ML workshop at NeurIPS 2025, Accepted to COLT 2026

2411.16748 2026-05-11 cs.CV

Multimodal Diffusion Transformer with Memory Bank for Scalable Long-Duration Talking Video Generation

Haojie Zhang, Zhihao Liang, Ruibo Fu, Bingyan Liu, Zhengqi Wen, Xuefei Liu, Jianhua Tao, Yaling Liang

AI总结长时长说话视频生成面临视频质量、人物肖像一致性、时间连贯性及计算效率等多重挑战。为解决这些问题，本文提出了一种名为 LetsTalk 的扩散变换框架，结合多模态引导和新颖的记忆库机制，有效保持上下文连续性，实现高质量、高效且鲁棒的长时长说话视频生成。该方法引入噪声正则化记忆库以缓解误差累积和采样伪影，并采用深度压缩自编码器和时空感知变换器提升效率与时空建模能力，实验表明其在生成质量、时间一致性及多样性方面均达到新水平。

Comments 16 pages, 25 figures

2410.21438 2026-05-11 cs.CL cs.LG

UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function

Zhichao Wang, Bin Bi, Zixu Zhu, Xiangbo Mao, Jun Wang, Shiyu Wang, Cheng Wang, Dong Nie, Lingzi Hong

AI总结该论文提出了一种统一微调方法UFT，通过隐式奖励函数将监督微调（SFT）与对齐方法（如RLHF、DPO等）整合到单一训练阶段，解决了传统分阶段微调导致的任务性能下降问题。实验表明，UFT在指令调优数据上优于单独使用SFT，并在结合对齐数据时有效防止性能退化，在指令遵循和事实性任务中表现出显著提升。该方法为大语言模型的后训练提供了一个高效且通用的框架。

2410.18715 2026-05-11 cs.CV

ChatSearch: a Dataset and a Generative Retrieval Model for General Conversational Image Retrieval

Zijia Zhao, Longteng Guo, Tongtian Yue, Erdong Hu, Shuai Shao, Zehuan Yuan, Hua Huang, Jing Liu

AI总结本文研究了基于开放域图像的通用对话式图像检索任务，旨在通过人机交互对话检索目标图像。为此，作者构建了一个包含多轮图文对话上下文的检索数据集ChatSearch，并提出了一种端到端训练的生成式检索模型ChatSearcher，该模型能够处理图文交织的输入输出，具备多模态上下文推理能力和利用世界知识进行图像检索的能力。实验表明，该模型在ChatSearch数据集及其他相关任务中均表现出色，有望推动交互式多模态检索系统的研究进展。

2410.01308 2026-05-11 cs.LG cs.AI

How Hard Is It for Message-Passing GNNs to Simulate One Weisfeiler-Lehman Color-Refinement Step?

Guanyu Cui, Yuhe Guo, Zhewei Wei, Hsin-Hao Su

AI总结本文研究了消息传递图神经网络（MPGNNs）模拟Weisfeiler-Lehman（WL）颜色细化步骤所需的计算成本，特别是在无属性图上。研究区分了输入无关和输入相关的模拟方式，发现输入无关的模拟在最坏情况下需要较大的网络深度或消息大小，而输入相关的模拟可以更浅，但参数难以预先确定。研究还表明，当颜色集较大时，使用有限随机性可以显著降低计算成本，而颜色集较小时则需要在层数和消息大小之间进行权衡。

2408.15339 2026-05-11 cs.LG cs.CL

UNA: A Unified Supervised Framework for Efficient LLM Alignment Across Feedback Types

Zhichao Wang, Bin Bi, Can Huang, Shiva Kumar Pentyala, Zixu James Zhu, Sitaram Asur, Na Claire Cheng, Cheng Wan, Dong Nie, Lingzi Hong

AI总结本文提出了一种统一的监督框架UNA，用于高效地对齐大语言模型（LLM）在不同类型的反馈数据上。该框架通过一个通用的隐式奖励函数，能够处理包括二元、成对和基于评分的多种反馈类型，解决了现有方法难以统一处理异构监督信号的问题。实验表明，UNA在经典基准测试中表现出色，验证了其在模型对齐过程中的有效性与优越性。

2408.09929 2026-05-11 cs.LG cs.CV

Data Augmentation of Contrastive Learning is Estimating Positive-incentive Noise

Hongyuan Zhang, Yanchen Xu, Sida Huang, Xuelong Li

AI总结本文研究对比学习中的数据增强与正激励噪声（π-噪声）之间的关系，提出将对比损失转化为辅助高斯分布以量化对比模型的难度，并定义了对比学习中的任务熵这一核心概念。基于理论分析，作者设计了一种生成π-噪声的框架，用于学习有益的数据增强策略，替代传统的预定义增强方法，该方法适用于多种数据类型并兼容现有对比模型，实验表明其能有效生成高质量的数据增强。

Comments Accepted by ICML 2026

2407.04183 2026-05-11 cs.CL cs.AI cs.CY cs.HC

Seeing Like an AI: How LLMs Apply (and Misapply) Wikipedia Neutrality Norms

Joshua Ashkinaze, Ruijia Guan, Laura Kurek, Eytan Adar, Ceren Budak, Eric Gilbert

AI总结本研究探讨了大型语言模型（LLMs）在应用维基百科中立观点（NPOV）政策时的表现，评估了其检测和纠正偏见编辑的能力。实验发现，LLMs在偏见检测任务上表现一般，准确率仅为64%，且存在预测偏差；但在生成任务中表现较好，去除了79%的编辑内容。然而，LLMs的修改往往超出编辑者的中立化范围，导致高召回但低精度。研究还发现，LLMs的改写在公众看来更中立流畅，但可能引入非中立相关的变化，影响编辑者的自主权和审核工作。

Comments Appeared at ICWSM 2026

2310.15288 2026-05-11 cs.AI cs.LG

Active teacher selection for reward learning

Rachel Freedman, Justin Svegliato, Kyle Wray, Stuart Russell

AI总结该研究针对从多个教师获取反馈的奖励学习问题，提出了隐藏效用老虎机（HUB）框架，用于建模教师在理性程度、专业性和成本上的差异。研究设计了主动教师选择（ATS）算法，通过动态选择合适的教师进行查询，显著提升了学习效果，并在论文推荐和疫苗测试等实际场景中验证了方法的有效性。主要贡献包括HUB框架的提出、基于主动学习的ATS算法，以及在现实问题中的应用验证。

2305.18593 2026-05-11 cs.LG cs.AI

On Diffusion Modeling for Anomaly Detection

Victor Livernoche, Vineet Jain, Yashar Hezaveh, Siamak Ravanbakhsh

AI总结本文研究了扩散模型在无监督和半监督异常检测中的应用，提出了一种名为扩散时间估计（DTE）的新方法。该方法通过估计输入数据的扩散时间分布并利用其均值或众数作为异常分数，相比传统的去噪扩散概率模型（DDPM）在计算效率上有了显著提升。实验表明，DTE在多个基准数据集上表现优异，且推理速度比DDPM快得多，为异常检测提供了一种高效且具有竞争力的扩散模型解决方案。

2106.09636 2026-05-11 cs.LG

Multi-Stage Prototype Learning for Interpretable Time Series Classification

Bhavesh Kalisetti, Vincent Wang, Gaurav R. Ghosal, Maryam Bijanzadeh, Reza Abbasi-Asl

AI总结该论文提出了一种多阶段原型学习框架，用于可解释的多元时间序列分类。该方法通过识别各变量内部及跨变量的预测性时间模式，提升模型的可解释性。实验表明，该模型在保持与现有先进方法相当分类精度的同时，提供了层次化的原型解释，有助于理解模型的预测机制。

2605.08072 2026-05-11 stat.ML cs.DS cs.LG math.ST stat.TH

A Note on Non-Negative $L_1$-Approximating Polynomials

Jane H. Lee, Anay Mehrotra, Manolis Zampetakis

AI总结本文研究了在高斯分布下具有非负性的 $L_1$-逼近多项式的存在性，这类多项式在逼近指示函数时不仅满足 $L_1$-范数误差要求，还保证输出非负。作者证明了对于具有有限高斯表面面积（GSA）的集合类，存在次数为 $\tilde{O}(Γ^2/\varepsilon^2)$ 的非负多项式，能够以 $\varepsilon$ 的误差逼近其指示函数。该结果在保持 $L_1$-逼近能力的同时，提供了更强的点态保证，并且与当前最优的无非负性约束的高斯 $L_1$-逼近多项式次数相差仅常数因子。

2605.08035 2026-05-11 eess.SP cs.LG

PropSplat: Map-Free RF Field Reconstruction via 3D Gaussian Propagation Splatting

William Bjorndahl, Maninder Pal Singh, Farhad Nouri, Joseph Camp

AI总结 PropSplat 是一种无需地图的无线传播建模方法，通过3D各向异性高斯原语重建射频场，能够从稀疏的射频测量数据中学习传播环境。该方法利用可学习的路径损耗指数对高斯进行初始化和优化，无需依赖平面图、地形数据库等外部信息。实验表明，PropSplat 在室内外场景中均优于现有方法，实现了更精确的信号强度预测和定位性能，展示了从稀疏测量数据中实现高精度传播建模的可行性。

Comments Accepted for presentation at IEEE DySPAN 2026

2605.08034 2026-05-11 stat.ML cs.LG

Semiparametric Efficient Test for Interpretable Distributional Treatment Effects

Houssam Zenati, Arthur Gretton

AI总结该研究提出了一种名为DR-ME的半参数高效测试方法，用于检测可解释的分布性处理效应。该方法能够在观测数据中识别出处理对结果分布不同位置的影响，而不仅仅是整体差异，通过学习关键结果位置并结合正交的双重稳健核特征，实现了对分布尾部、模式等变化的精确检测。实验表明，DR-ME在控制第一类错误率和检测能力方面表现优异，并能有效定位医学影像研究中的分布性处理效应。

2605.08022 2026-05-11 cs.NE cs.AI cs.LG

Globally Optimal Training of Spiking Neural Networks via Parameter Reconstruction

Himanshu Udupi, Xiaocong Yang, ChengXiang Zhai

AI总结本文研究了脉冲神经网络（SNN）的全局最优训练问题，针对其因脉冲函数非微分性导致的训练困难，提出了一种基于参数重构的训练方法。该方法通过将并行递归阈值网络的凸化理论扩展到SNN，实现了更准确的梯度计算，有效减少了近似误差。实验表明，该算法在多种任务中表现出优越的性能和鲁棒性，为大规模SNN训练提供了新思路。

2605.08006 2026-05-11 math.OC cs.LG stat.ML

Penalty-Based First-Order Methods for Bilevel Optimization with Minimax and Constrained Lower-Level Problems

Yiyang Shen, Yutian He, Weiran Wang, Qihang Lin

AI总结本文研究了一类具有上下层均为极小极大结构的双层优化问题，这类问题在许多新兴应用中具有广泛代表性。为了解决现有方法在处理下层为极小极大问题时的不足，作者提出了一种基于惩罚函数的一阶优化方法，无需假设下层问题强凸，即可高效求解。在确定性设置下，该方法能够以 $\tilde{O}(ε^{-4})$ 的计算复杂度找到 $ε$-KKT 点，并在随机设置下也给出了相应的复杂度分析，显著优于现有结果。

2605.07987 2026-05-11 eess.IV cs.CV

Uncertainty Quantification for Cardiac Shape Reconstruction with Deep Signed Distance Functions via MCMC methods

Jan Verhülsdonk, Thomas Grandits, Francisco Sahli Costabal, Thomas Beiert, Simone Pezzuto, Alexander Effland

AI总结本文提出了一种基于深度符号距离函数（DeepSDF）和马尔可夫链蒙特卡洛（MCMC）方法的概率框架，用于实现具有不确定性感知的心脏形状重建。该方法通过神经网络隐式建模心脏几何结构，能够同时重建左心室和右心室的多表面形态，并在潜在空间中进行贝叶斯推断，以获得最大后验估计和不确定性采样重建结果。实验表明，该方法在公开心脏数据集上实现了高精度重建，并能提供校准良好的不确定性估计。

2605.07986 2026-05-11 cs.HC cs.AI cs.CY

Towards Apples to Apples for AI Evaluations: From Real-World Use Cases to Evaluation Scenarios

Yee-Yin Choong, Kristen Greene, Alice Qian, Meryem Marasli, Ziqi Yang, Sophia Chen, Laura Dabbish, Anand Rao, Hong Shen

AI总结该论文旨在解决AI系统评估中常见的“苹果对橘子”式比较问题，提出通过方法论透明、操作性基础和以用户为中心的设计原则，实现更一致的评估标准。研究设计了一种可重复的流程，通过结构化的AI用例工作表，从领域专家处获取高层次用例，并将其转化为详细的评估场景。该方法在金融服务业进行了验证，展示了从六个典型AI用例生成107个具体场景的过程，并通过多阶段的人机协作流程确保场景符合实际应用需求。

Comments 23 pages, 3 figures

详情

英文摘要

AI measurement science has a wide variety of methodologies and measurements for comparing AI systems, resulting in what often appear to be "apples-to-oranges" comparisons across AI evaluations. To move toward "apples-to-apples" comparisons in real-world AI evaluations, this work advocates for methodological transparency in evaluation scenarios, operational grounding, and human-centered design (HCD) principles. We propose a repeatable process for transforming high-level use cases to detailed scenarios by eliciting use cases from subject matter experts (SMEs) via a structured AI Use Case Worksheet with six key elements: use case, sector, user (direct and indirect), intended outcomes, expected impacts (positive and negative), and KPIs and metrics. We demonstrate utility of the worksheet and process in the U.S. financial services sector. This paper reports on example high-level AI use cases identified by financial services sector SMEs: cyber defense enablement, developer productivity, financial crime aggregation, suspicious activity report (SAR) filing, credit memo generation, and internal call center support. These AI use cases provided are illustrative of the process and not exhaustive. Central to our work is a three-stage expansion pipeline combining LLM prompting with human reviews to generate 107 scenarios from those use cases elicited from SMEs. This process integrates iterative human reviews at every juncture to ensure operational grounding: for scenario titles and descriptions; for core scenario elements like users, benefits and risks, and metrics; and for scenario narratives and evaluation objectives. Human checkpoints ensure scenarios remain reflective of real-world usage and human needs. We describe a validation rubric to assess scenario quality. By defining key scenario components, this work supports a more consistent and meaningful paradigm for human-centered AI evaluations.

URL PDF HTML ☆

赞 0 踩 0

2605.07970 2026-05-11 math.ST cs.LG stat.TH

Linear Response Estimators for Singular Statistical Models

Chris Elliott, Daniel Murfet

AI总结本文研究了一类统计模型在数据扰动下可观测量的响应特性，定义了用于衡量这种响应的“易感度”指标。作者提出了一种针对这些易感度的估计方法，并证明了在数据量趋于无穷大时，这些估计量具有一致性和渐近无偏性。该研究为理解复杂统计模型对数据变化的敏感性提供了理论基础和实用工具。

Comments 24 pages, comments welcome!

2605.07947 2026-05-11 cs.CE cs.AI cs.LG math.OC

Exploring the non-convexity in machine learning using quantum-inspired optimization

Kandula Eswara Sai Kumar, Parth Dhananjay Danve, Abhishek Chopra, Rut Lineswala

AI总结本文研究了现代机器学习中高维非凸优化问题的求解挑战，尤其是存在严重异常值时的结构恢复问题。为此，作者提出了一种基于量子启发进化优化（QIEO）的统一框架，通过量子叠加的概率表示保持全局搜索视角，有效克服传统梯度下降和贪心算法易陷入局部最优的缺陷。实验表明，QIEO在稀疏信号恢复和鲁棒线性回归等任务中，相比现有先进算法具有更高的结构保真度、更低的均方误差和更强的鲁棒性。

2605.07908 2026-05-11 math.ST cs.AI cs.LG stat.TH

Statistical inference with belief functions: A survey

Fabio Cuzzolin

AI总结本文综述了基于信任函数的统计推断方法，重点探讨了在数据不足的情况下如何从统计数据中学习信任度量的问题。文章回顾了该领域的重要研究成果，总结了相关的核心方法与理论进展，为不确定性建模提供了有效的数学框架。

Comments 9 pages, 0 figures

2605.07907 2026-05-11 stat.ML cs.CV cs.LG

Consistency Regularised Gradient Flows for Inverse Problems

Alessio Spagnoletti, Tim Y. J. Wang, Marcelo Pereyra, O. Deniz Akyildiz

AI总结本文提出了一种基于一致性正则化的梯度流方法，用于解决逆问题，通过统一的欧几里得-沃瑟斯坦2梯度流框架，在潜在空间中联合进行后验采样和提示优化，从而减少计算成本并提升重建质量。该方法结合少量步骤的潜在文本到图像模型，避免了通过自动编码器进行反向传播，显著降低了神经函数评估次数，实验表明其在多个经典成像逆问题中达到了最先进的性能。

2605.07896 2026-05-11 cs.CY cs.AI

What if AI systems weren't chatbots?

Sourojit Ghosh, Pranav Narayanan Venkit, Sanjana Gautam, Avijit Ghosh

AI总结本文探讨了人工智能系统日益依赖聊天机器人界面所带来的深远影响，指出这一范式并非中立，而是重塑了社会、经济、法律和环境等多个领域的主导技术配置。研究分析了聊天机器人在复杂或高风险场景中常无法满足用户需求的问题，并揭示了其对工作方式、学习模式和决策过程的改变，可能导致技能退化、知识同质化和对专业知识期望的转变。文章还讨论了聊天机器人普及带来的劳动替代、经济权力集中和环境成本上升等社会影响，呼吁重新思考人工智能的发展方向，强调多样化系统设计、任务专用工具和制度保障的重要性。

Comments Accepted at The 2026 ACM Conference on Fairness, Accountability, and Transparency, June 25--28, 2026, Montreal, QC, Canada