arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2508.21146 2026-05-12 cs.LG stat.ML

Privacy Auditing Synthetic Data Release through Local Likelihood Attacks

Joshua Ward, Chi-Hua Wang, Guang Cheng

AI总结本文研究了合成数据发布中的隐私泄露问题，提出了一种基于局部似然比的新型无模型成员推理攻击方法——生成似然比攻击（Gen-LRA），该方法无需模型访问或知识，通过评估测试样本对合成数据局部似然比估计的影响来检测训练数据是否被泄露。理论分析表明，Gen-LRA 能在局部过拟合条件下有效区分成员与非成员样本，并在多个数据集和模型架构上表现出优于现有方法的性能，突显了生成模型过拟合对隐私安全的潜在威胁。

2508.12776 2026-05-12 cs.LG cs.AI stat.ML

Randomized PCA Forest for Unsupervised Outlier Detection

Muhammad Rajabinasab, Farhad Pakdaman, Moncef Gabbouj, Peter Schneider-Kamp, Arthur Zimek

AI总结本文提出了一种基于随机主成分分析（RPCA）的无监督异常检测方法，利用RPCA森林的内在特性计算异常分数，以实现高效的异常检测。该方法在多个数据集上表现出优于传统及最新方法的性能，同时具有良好的鲁棒性和计算效率，适用于无监督场景下的异常检测任务。

2507.20051 2026-05-12 cs.LG cs.CL cs.DC

$K^4$: Online Log Anomaly Detection Via Unsupervised Typicality Learning

Weicong Chen, Vikash Singh, Zahra Rahmani, Debargha Ganguly, Mohsen Hariri, Vipin Chaudhary

AI总结本文提出了一种名为 $K^4$ 的在线日志异常检测框架，旨在解决现有方法依赖错误解析、检测速度慢及评估方式不现实等问题。$K^4$ 采用无监督学习方式，通过高效的 k 近邻统计将任意日志嵌入转化为四个维度的描述符（精确率、召回率、密度、覆盖率），从而实现无需重新训练即可快速准确地检测异常。该方法在更贴近实际的在线评估中表现出色，取得了当前最先进的性能，检测速度远超现有方法。

2507.11185 2026-05-12 cs.LG cs.AI

Explainable Machine Learning Framework for Cardiovascular Disease Diagnosis and Prognosis

Md. Emon Akter Sourov, Md. Sabbir Hossen, Pabon Shaha, Md. Moradul Siddique, Yadab Sutradhar, Md Sadiq Iqbal

AI总结该研究提出了一种可解释的机器学习框架，用于心血管疾病的诊断与预后评估，旨在提升诊断精度与可靠性。研究结合分类方法检测心脏病和回归方法预测相关风险，并采用SMOTE技术解决数据不均衡问题，使用Heart Disease数据集进行实验。结果表明，随机森林在分类任务中表现优异，线性回归在预测任务中取得高拟合度，同时引入可解释AI方法增强模型结果的可理解性，为临床及时干预提供了有力支持。

Comments This paper has been published at the IEEE SCSE 2026. The final version is available in the IEEE Xplore Digital Library. 2026 IEEE International Research Conference on Smart Computing and Systems Engineering, 2026

详情

DOI: 10.1109/SCSE70081.2026.11499913.

英文摘要

Heart disease continues to pose a critical worldwide health issue, more specifically in areas with insufficient access to healthcare infrastructure and diagnostic systems. Conventional diagnostic approaches often fall short in accurately detecting and managing heart disease risks, resulting in unfavorable outcomes. Machine learning presents a powerful means to boost the precision and reliability of cardiovascular disease prognosis and diagnosis. In this research, we introduced a unified approach incorporating classification techniques for detecting heart disease and regression techniques for forecasting associated risks. The analysis utilized the dataset, named Heart Disease, containing 1,035 instances. To mitigate the problem of data disproportion, the SMOTE was implemented, producing 100,000 additional synthetic samples. Evaluation metrics such as F1-score, recall, precision, accuracy, MAE, RMSE, MSE, and R2 were adopted to evaluate the performance of the models. Among the classification algorithms, Random Forest delivered the most notable results, attaining an accuracy of 0.972 on actual data and 0.976 on artificially generated data. For prediction modeling, for both synthetic and real samples, linear regression produced the best R2 values of 0.992 and 0.984, respectively, along with the least amount of measurement errors. Furthermore, Explainable AI methods were utilized to improve the comprehensibility of the model outcomes. This paper emphasizes the transformative capabilities of machine learning for diagnosing cardiovascular disease and estimating risk levels, thereby supporting timely interventions and enhancing clinical settings.

URL PDF HTML ☆

赞 0 踩 0

2506.16234 2026-05-12 cs.LG

Sequential Causal Discovery with Noisy Language Model Priors

Prakhar Verma, David Arbour, Sunav Choudhary, Harshita Chopra, Arno Solin, Atanu R. Sinha

AI总结该研究探讨了在观测数据中进行因果发现的问题，面对数据分批到达、存在采样偏差以及专家知识稀缺等现实挑战。研究提出了一种混合框架，通过自适应整合序列批次数据与语言模型提供的有噪声的专家知识，并考虑数据和模型引入的偏差，有效提升了因果结构发现的准确性。该方法引入从有向无环图到部分祖先图的表示转换，以处理不确定性，并结合序列优化策略提升模型效率，实验表明其在结构准确性和参数估计方面优于现有方法。

Comments 32 pages, Transactions on Machine Learning Research - TMLR (04/2026)

2502.15075 2026-05-12 cs.LG

Quantize What Counts: More for Keys, Less for Values

Mohsen Hariri, Alan Luo, Weicong Chen, Shaochen Zhong, Tianyi Zhang, Qifan Wang, Xia Hu, Xiaotian Han, Vipin Chaudhary

AI总结大型语言模型（LLM）在推理过程中面临由注意力键值（KV）缓存主导的内存瓶颈。本文提出两个定理，从Transformer模型的内在几何特性出发，为混合精度KV量化提供理论依据，指出键矩阵相比值矩阵具有更高的信息密度，并证明在固定内存预算下优先为键分配更高精度能有效降低量化误差并保持模型精度。实验表明，采用键优先的量化策略（如键4位、值2位）在保持高精度的同时显著节省内存。

2502.01237 2026-05-12 cs.LG

The Differences Between Direct Alignment Algorithms are a Blur

Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov

AI总结本文系统比较了直接对齐算法（DAAs）的性能差异，发现其核心影响因素在于排名目标（成对 vs. 点对），而非之前关注的标量分数（似然 vs. 奇数比）。通过统一训练框架和引入β参数，研究揭示了排名目标是决定对齐质量的主要因素，而具体标量分数的影响相对次要。实验在指令遵循和数学推理任务中验证了这一结论，并指出这一现象与目标在提示偏差中的相互作用有关，强调了对DAAs研究中需进行细致评估的重要性。

2402.02286 2026-05-12 cs.CV cs.AI cs.LG

Attention-Mamba: A Mamba-Enhanced Multi-Scale Parallel Inference Network for Medical Image Segmentation

Yanhua Zhang, Ke Zhang, Jingyu Wang, Gabriella Balestra, Samanta Rosati, Yulin Wu, Wuwei Wang, Valentina Giannini

AI总结本文提出了一种名为Attention-Mamba的新型医学图像分割网络，旨在克服传统U型结构和Transformer模型在多尺度特征处理与计算效率上的不足。该网络通过构建多尺度并行分支，结合Mamba状态空间模型，实现了高效长程依赖建模与多尺度特征融合，并引入递归对齐模块以增强低分辨率特征的空间细节。实验表明，该模型在多个医学影像数据集上取得了优于现有2D CNN、Transformer及基于Mamba的网络的分割性能，同时保持了较高的计算效率。

Comments 14 pages, 9 figures and 8 Tables

详情

英文摘要

U-shaped architectures have long dominated the field of medical image segmentation, while Transformers are widely employed for modeling long-range dependencies. The former typically handles scale variations implicitly by aggregating multi-level features, whereas the efficiency of the latter is constrained by its quadratic computational and memory complexity. In this work, we propose an effective alternative to traditional U-shaped architectures by constructing parallel branches at different levels to obtain multi-scale features and corresponding predictions. Furthermore, we enhance our network by integrating Mamba, a state space model that captures long-range dependencies with linear complexity. First, a dual-path architecture with lateral connections aggregates high-level semantic information and low-level spatial details at each branch. Then, we introduce a Recursive Alignment Module (RAM) that restores spatial details in low-resolution features through stepwise alignment, optimizing them for subsequent global feature learning and multi-scale fusion. We further build parallel Mamba branches upon aligned features to establish hierarchical global representations. Finally, we propose a Mamba-based attention mechanism for adaptive multi-scale prediction fusion; this mechanism utilizes Mamba to enhance information exchange across scales along both the channel and spatial dimensions. Experiments across three imaging modalities (MRI, CT, and dermoscopy) underscore the superior generalization of the proposed network. Compared to state-of-the-art 2D CNN, Transformer, and Mamba-based networks, our model achieves the highest segmentation performance on the Synapse, ACDC, ISIC-2018, and PH2 datasets while maintaining high efficiency, featuring the second-smallest parameters (14.05 M) and moderate computational complexity (8.94 GFLOPs).

URL PDF HTML ☆

赞 0 踩 0

2605.10931 2026-05-12 math.AP cs.LG math.DS

Quantifying Concentration Phenomena of Mean-Field Transformers in the Low-Temperature Regime

Albert Alcalde, Leon Bungert, Konstantin Riedl, Tim Roith

AI总结本文研究了在低温极限下，仅包含编码器的深度Transformer模型中token分布的演化行为，利用平均场连续方程对其进行描述。通过引入多粒子系统收敛分析的思想，论文证明了token分布会迅速集中到由键、查询和值矩阵诱导的投影映射所推动的初始分布上，并在中等时间尺度内保持亚稳态。研究还给出了Wasserstein距离随温度参数和推理时间的变化规律，并通过数值实验验证了理论结果，揭示了在有限温度和长时间演化下系统会进入由值矩阵谱主导的另一阶段。

Comments 30 pages, 10 figures

2605.10910 2026-05-12 quant-ph cs.LG

Equivariant Reinforcement Learning for Clifford Quantum Circuit Synthesis

Richie Yeung, Aleks Kissinger, Rob Cornish

AI总结本文研究了在全连接量子器件上合成克利福德量子线路的问题，将其建模为强化学习任务，通过学习一系列基本克利福德门将给定的辛矩阵表示简化为单位矩阵。提出了一种对量子比特重标等操作具有等变性的新型神经网络架构，能够适用于不同规模的量子系统，无需重新参数化网络。实验表明，该方法在六量子比特线路中接近最优解，并能扩展到三十量子比特的未知克利福德表，其两量子比特门数量优于现有的合成方法。

2605.10848 2026-05-12 cs.IR cs.AI cs.CL

Rethinking Agentic Search with Pi-Serini: Is Lexical Retrieval Sufficient?

Tz-Huan Hsu, Jheng-Hong Yang, Jimmy Lin

AI总结本文探讨了在代理循环中，词法检索器是否足以支持大型语言模型进行深度研究。研究通过将BM25与具有更强推理和工具使用能力的前沿大语言模型结合，引入了配备检索、浏览和阅读工具的搜索代理Pi-Serini。实验表明，合理配置的词法检索器在与更强的LLM配合时，能够有效支持深度研究，其性能优于使用密集检索器的现有搜索代理。

Comments 15 pages, 4 figures

2605.10808 2026-05-12 cs.CR cs.AI

Threat Modelling using Domain-Adapted Language Models: Empirical Evaluation and Insights

Saba Pourhanifeh, AbdulAziz AbdulGhaffar, Ashraf Matrawy

AI总结本文研究了在威胁建模任务中使用领域适配的语言模型的效果，重点分析了领域适应、模型规模、解码策略和提示技术对STRIDE威胁分类的影响。通过在5G安全场景下对8种不同语言模型的52种配置进行系统评估，发现领域适配模型并不总是优于通用模型，且解码策略对输出有效性有显著影响。研究指出，当前大语言模型在结构化威胁建模任务中仍存在根本性限制，提升性能需要更多任务特定推理和更扎实的安全概念基础。

2605.10795 2026-05-12 stat.ML cond-mat.dis-nn cond-mat.stat-mech cs.LG

Factual recall in linear associative memories: sharp asymptotics and mechanistic insights

Alessio Giorlandino, Sebastian Goldt, Antoine Maillard

AI总结本文研究了线性联想记忆网络在存储和检索输入-输出关联时的基本限制，揭示了其存储容量的精确渐进行为及机制。通过引入一个解耦模型，作者证明该模型在存储容量、权重谱和存储机制方面与原模型等价，并利用统计物理工具分析得出其最大存储量与输入维度之间的关系。研究还揭示了最优解如何超越传统赫布学习规则，为理解神经网络的记忆机制提供了新见解。

2605.10794 2026-05-12 cs.CR cs.AI

Can You Keep a Secret? Involuntary Information Leakage in Language Model Writing

Ari Holtzman, Peter West

AI总结本文研究了大型语言模型在写作过程中是否会无意中泄露被要求保密的信息。研究通过给模型设定一个秘密词汇并指示其不得透露，随后让模型创作故事，并由另一模型尝试从故事中识别该秘密词汇。实验发现，尽管秘密词汇未直接出现在输出中，但所有测试的前沿模型均通过主题、意象和场景等主题性线索泄露了秘密，识别准确率远高于随机水平。研究还表明，这种信息泄露具有跨模型可读性，且随模型规模增大而加剧，但在短文本如笑话中则消失。

2605.10779 2026-05-12 cs.CR cs.CL

LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments

Chiyu Zhang, Huiqin Yang, Bendong Jiang, Xiaolei Zhang, Yiran Zhao, Ruyi Chen, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu

AI总结随着基于大语言模型（LLM）的自主代理在真实操作系统环境中广泛应用，行为越狱（行为 jailbreak）成为一种新的安全风险，即攻击者诱导代理执行具有不可逆后果的危险操作系统操作。本文提出 LITMUS，一个用于在真实操作系统环境中评估 LLM 代理行为安全性的基准，通过语义-物理双重验证机制和操作系统级状态回滚解决现有基准的不足。LITMUS 包含 819 个高风险测试用例，覆盖三种攻击范式，并揭示了当前代理在安全意识、执行幻觉和攻击易感性方面的显著缺陷。

2605.10775 2026-05-12 math.OC cs.LG

On the global convergence of gradient descent for wide shallow models with bounded nonlinearities

Romain Petit, Clarice Poon, Gabriel Peyré

AI总结本文研究了宽浅神经网络在梯度下降训练过程中能够收敛到全局最小值的现象，尤其关注具有有界非线性激活函数的模型。作者通过分析训练损失函数的非全局极小点的不稳定性，证明在参数初始分布具有全支撑（如高斯分布）且隐藏单元或注意力头数较多时，连续时间梯度下降只能收敛到全局最小值。研究扩展了现有结果，适用于多头注意力层和输出为向量的两层Sigmoid网络，并完善了对这类模型的“逃逸活跃集”构造，进一步验证了训练动态的稳定性。

2605.10739 2026-05-12 eess.IV cs.AI cs.CV

Geospatial-Temporal Sensemaking of Remote Sensing Activity Detections with Multimodal Large Language Model

David F. Ramirez, Tim Overman, Kristen Jaskie, Andreas Spanias

AI总结本文提出了一种基于Sentinel-2卫星影像的多模态视觉问答数据集SMART-HC-VQA，用于分析人类活动的时空演变。该数据集通过将施工标注、类型标签、时间阶段标签等信息转化为自然语言问答对，构建了一个时序扩展的自动目标识别与视觉问答挑战任务。研究还引入了一种多图像大语言模型训练框架，能够处理多时相遥感影像并进行语义推理，为理解语言引导下的遥感活动提供了可复现的基础。

Comments Accepted to 2026 SPIE Defense + Security, Automatic Target Recognition XXXVI

2605.10738 2026-05-12 math.OC cs.MA cs.RO cs.SY eess.SY

Decentralized Contingency MPC based on Safe Sets for Nonlinear Multi-agent Collision Avoidance

Max Studt, Georg Schildbach

AI总结本文研究了在非线性多智能体系统中，如何在不共享轨迹信息的情况下实现去中心化的避障控制。提出了一种基于安全集的应急模型预测控制（MPC）框架，每个智能体仅依赖于自身状态进行局部优化，通过耦合主轨迹与应急保证机制，确保在滚动时域操作中具有可行的避障动作。该方法引入了一种新颖的几何安全集更新机制，保证了递归可行性与收敛性，并在多种密集和稀疏场景中验证了其有效性。

2605.10721 2026-05-12 physics.soc-ph cs.CL cs.MA

Conformity Generates Collective Misalignment in AI Agents Societies

Giordano De Marzo, Alessandro Bellina, Claudio Castellano, Viola Priesemann, David Garcia

AI总结本研究探讨了人工智能代理群体中因从众行为导致的集体对齐偏差问题。通过模拟多个大型语言模型之间的意见动态，发现个体对齐的AI代理在群体交互中可能因从众效应陷入稳定的非对齐状态。研究利用统计物理工具建立了定量理论，揭示了群体陷入长期非对齐状态的条件及可预测的临界点，表明个体层面的对齐并不能保证群体层面的安全性，突显了评估AI群体行为的重要性。

2605.10713 2026-05-12 stat.ML cs.IT cs.LG math.IT math.ST stat.TH

Price of Quality: Sufficient Conditions for Sparse Recovery using Mixed-Quality Data

Youssef Chaabouni, David Gamarnik

AI总结本文研究了在混合质量数据源下的稀疏恢复问题，即少量高质量低噪声测量与大量低质量高噪声测量共同存在的情况。作者提出了“质量代价”这一概念，给出了信息论和算法层面的样本数量条件，揭示了高质量样本与低质量样本之间的替代关系。研究发现，在无先验信息的设定下，高质量样本的价值有限，而在有先验信息的设定下，其价值可能无限放大；同时，LASSO算法在混合噪声下的恢复阈值与均匀噪声情况一致，表现出对数据异质性的强鲁棒性。该工作首次为混合质量数据下的稀疏恢复提供了理论条件，并揭示了信息论与算法恢复阈值对数据质量变化的不同适应方式。

Comments Published as a conference paper at ICLR 2026

2605.10704 2026-05-12 eess.SP cs.RO

xApp Empowered Resource Management for Non-Terrestrial Users in 5G O-RAN Networks

Mohammed M. H. Qazzaz, Syed Ali Zaidi, Aubida A. Al-Hameed, Abdelaziz Salama, Des Mclernon

AI总结本文提出了一种基于深度强化学习的xApp，用于5G开放无线接入网（O-RAN）中非地面用户设备的资源管理，旨在优化无人机沿预设航线飞行时的切换决策。该方法采用结合迁移学习的双重深度Q网络（DDQN）进行预测性优化，提前预判网络状态，从而降低切换频率和断连概率。实验表明，该框架在保证连接可靠性的同时，显著减少了切换次数，验证了智能学习方法在下一代O-RAN架构中管理无人机移动性的有效性。

2605.10698 2026-05-12 cs.MA cs.AI

The Bystander Effect in Multi-Agent Reasoning: Quantifying Cognitive Loafing in Collaborative Interactions

Dahlia Shehata, Ming Li

AI总结本研究探讨了多智能体系统中协作推理时可能出现的“旁观者效应”，即智能体在社交压力下出现认知懈怠现象。通过在三个数据集上对22,500条确定性轨迹进行评估，研究提出了“交互深度限制”概念，并揭示了模型在内部推理正确但外部输出出现对齐幻觉的问题，表明多智能体协作可能削弱个体推理能力，暴露出系统架构中的潜在缺陷。

2605.10681 2026-05-12 cs.IT cs.LG math.IT

Scalable Mamba-Based Message-Passing Neural Decoder for Error-Correcting Codes

Rostislav Gusev, Nikita Aleksandrov, Artem Solomkin, Dmitry Artemasov

AI总结本文提出了一种基于Mamba的可扩展消息传递神经解码器（MMPD），用于二元线性纠错码的解码。该解码器采用基于 Tanner 图的局部消息传递机制，并结合双向 Mamba 状态空间块以实现高效的长距离信息传播，避免了传统注意力机制的二次复杂度问题。实验表明，MMPD 在 (1056, 880) LDPC 码上相比现有最优解码器 CrossMPT 在相同误码率下实现了 0.45 dB 的性能提升，同时将内存消耗降低了 1.5 倍，且在更长码长上表现更为优越。

Comments This work has been submitted to the IEEE for possible publication

2605.10622 2026-05-12 cs.MM cs.CV

Vocabulary Hijacking in LVLMs: Unveiling Critical Attention Heads by Excluding Inert Tokens to Mitigate Hallucination

Yangneng Chen, Junlin Li, Weijun Yao, Xilai Ma, Guodong Du, Wenya Wang, Jing Li

AI总结大型视觉-语言模型（LVLMs）在多模态任务中表现出色，但其可靠性常因幻觉问题而受到挑战，即生成与视觉输入矛盾的文本。本文提出“词汇劫持”现象，发现某些视觉标记（称为惰性标记）会异常地吸引注意力，并在词汇空间中固定解码为无关词语（劫持锚点），导致语义崩溃。基于此，研究提出了一种无需训练的干预方法HAVAE，通过增强关键注意力头对视觉内容的关注，有效缓解了幻觉问题，同时保持模型整体性能。

Comments Accepted by ACL 2026 Main

2605.10613 2026-05-12 cond-mat.dis-nn cs.LG

Exact Fixed-Point Constraints in Neural-ODEs with Provable Universality

Feliciano Giuseppe Pacifico, Duccio Fanelli, Lorenzo Buffoni, Lorenzo Chicchi, Diego Febbe, Raffaele Marino

AI总结本文提出了一种方法，使神经常微分方程（Neural-ODE）能够在预先设定的固定点处精确地将速度场置零，从而逼近任意速度场。该方法在不改变Neural-ODE表达能力的前提下，严格约束梯度训练过程，并证明了在速度场局部约束下Neural-ODE的通用性。研究还通过两个典型的物理模型验证了该方法的有效性。

Comments 15 pages, 3 figures

2605.10612 2026-05-12 cs.AR cs.LG

Reconfigurable Computing Challenge: Real-Time Graph Neural Networks for Online Event Selection in Big Science

Marc Neu, Frank Baptist, Thomas Lobmaier, Fabio Papagno, Torben Ferber, Jürgen Becker

AI总结该研究针对大型科学实验中实时图神经网络在硬件触发系统中的部署挑战，提出了一种基于FPGA和AI引擎的端到端解决方案，用于Belle II电磁量能器的在线事件选择。通过开发半自动化的设计流程，实现了图神经网络的高效映射与优化，显著提升了处理吞吐量并降低了资源占用。实验结果表明，该方案在保持低延迟的同时，相比纯FPGA方案，吞吐量提升了53%，资源利用率也大幅下降。

Comments Accepted to FCCM Reconfigurable Computing Challenge 2026

2605.10611 2026-05-12 cs.CR cs.AI

Re-Triggering Safeguards within LLMs for Jailbreak Detection

Zheng Lin, Zhenxing Niu, Haoxuan Ji, Yuzhe Huang, Haichang Gao

AI总结本文提出了一种用于检测大型语言模型（LLMs）越狱攻击的提示方法，旨在增强模型的防御能力。研究指出，尽管现有LLMs内置了安全机制，但仍有精心设计的越狱提示能够绕过这些机制，为此，作者引入了一种嵌入扰动方法，通过重新激活模型内部的安全防护机制来实现检测。实验表明，该方法在白盒和黑盒环境下均能有效防御先进的越狱攻击，并对适应性攻击也表现出良好的鲁棒性。

2605.10597 2026-05-12 cs.SE cs.AI

CrackMeBench: Binary Reverse Engineering for Agents

Isaac David, Arthur Gervais

AI总结 CrackMeBench 是一个用于评估语言模型代理在二进制逆向工程任务中表现的基准测试平台，专注于从可执行文件中恢复验证逻辑并生成被程序接受的输入或密钥生成器。该基准采用教育类 CrackMe 风格任务，结合公开和生成的二进制程序，在无网络的 Docker 环境中进行测试，并记录模型的提交结果、耗时、工具使用情况等信息，为衡量从源代码推理到自主二进制分析的能力提供可复现的实验环境。

2605.10590 2026-05-12 stat.ML cs.LG

Amortizing Causal Sensitivity Analysis via Prior Data-Fitted Networks

Emil Javurek, Dennis Frauen, Marie Brockschmidt, Jonas Schweisthal, Stefan Feuerriegel

AI总结该论文提出了一种用于因果敏感性分析的 amortized 方法，旨在在存在未观测混杂因素的情况下，高效估计因果效应的置信区间。研究通过引入基于先验数据拟合的神经网络，将传统的逐实例计算方式转化为上下文学习框架，大幅提升了计算效率。该方法通过构建通用的先验数据集，并利用拉格朗日标量化的优化目标生成训练标签，避免了模型特定的分析推导，同时在标准凸性和线性条件下能够恢复完整的帕累托前沿解。实验表明，该方法在多种数据集和敏感度设置下均表现出显著的加速效果。

2605.10582 2026-05-12 cs.CR cs.AI

Guaranteed Jailbreaking Defense via Disrupt-and-Rectify Smoothing

Zheng Lin, Zhenxing Niu, Haoxuan Ji, Haichang Gao

AI总结本文提出了一种针对大语言模型的保证性防越狱攻击方法，名为“扰乱-修复平滑”（DR-Smoothing）。该方法借鉴对抗防御中的去噪平滑思想，通过两阶段的提示处理流程——先扰乱输入提示，再将其修复为符合分布的形式——在传统平滑防御框架中实现更有效的防御。该方法不仅提升了对越狱攻击的防御成功率，还在无害性与有用性之间取得了更好的平衡，并提供了对通用平滑框架的理论分析与防御成功率的严格界。实验表明，该方法在多种攻击场景下均优于当前最先进的防御技术。