arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.08496 2026-05-12 cs.AI

Latent Personality Alignment: Improving Harmlessness Without Mentioning Harms

Linh Le, David Williams-King, Mohamed Amine Merzouk, Aton Kamanda, Adam Oberman

AI总结当前大型语言模型的对抗鲁棒性方法需要大量有害提示的数据集进行训练，但仍易受新型攻击和分布偏移的影响。本文提出了一种样本高效的防御方法——潜在人格对齐（LPA），通过在抽象人格特质而非具体有害行为上进行训练，实现模型的鲁棒性。LPA 在使用不到100条特质语句和潜在对抗训练的情况下，达到了与使用15万以上示例训练方法相当的攻击成功率，同时保持了优越的实用性，并在六个有害基准测试中显著提升了对未知攻击分布的泛化能力。

Comments published at Trustworthy AI Workshop, ICLR 2026

2605.08495 2026-05-12 cs.LG q-bio.NC

NeuralBench: A Unifying Framework to Benchmark NeuroAI Models

Hubert Banville, Stéphane d'Ascoli, Simon Dahan, Jérémy Rapin, Marlène Careil, Yohann Benchetrit, Jarod Lévy, Saarang Panchavati, Antoine Ratouchniak, Mingfang, Zhang, Elisa Cascardi, Katelyn Begany, Teon Brooks, Jean-Rémi King

AI总结该论文提出了一种名为NeuralBench的统一框架，用于评估处理脑信号的神经AI模型。该框架通过配套的NeuralBench-EEG v1.0基准数据集，系统地测试了多种深度学习模型在36项EEG任务上的表现，并揭示了当前基础模型与任务特定模型性能接近、部分认知解码和临床预测任务仍具挑战性的关键发现。NeuralBench设计灵活，支持新增任务、数据集和成像模态，旨在推动神经影像模型评估标准的统一与社区协作。

Comments 31 pages, 9 figures

2605.08493 2026-05-12 cs.CV

CapCLIP: A Vision-Language Representation Alignment Approach for Wireless Capsule Endoscopy Analysis

Haroon Wahab, Irfan Mehmood, Hassan Ugail

AI总结无线胶囊内镜（WCE）能够非侵入性地观察小肠，但由于每次检查生成的图像量大且成像条件多变，其临床应用受到限制。为解决这一问题，本文提出CapCLIP，一种面向WCE的视觉-语言表征对齐框架，通过将胶囊内镜图像与基于标准化术语和病理感知描述模板的临床文本进行对齐，学习具有语义信息且可迁移的嵌入表示。实验表明，CapCLIP在零样本分类和跨模态检索等任务中显著优于现有方法，展示了语言引导表征学习在提升WCE分析泛化性和语义可解释性方面的潜力。

2605.08489 2026-05-12 cs.RO

LE-PAVD: Learning-Enhanced Physics-Aware Vehicle Dynamics for High-Speed Autonomous Navigation

Musabbir Ahmed Arrafi, Malik Ali, Nicholas M. Stiffler, Krishna Bhavithavya Kidambi

AI总结在高速自动驾驶导航中，精确建模非线性车辆动力学至关重要。本文提出了一种混合模型 LE-PAVD，结合物理先验知识与学习组件，提升了模型的物理一致性和预测精度。该模型引入了负载敏感轮胎力、纵向载荷转移、横向轮胎力效应和受限执行器输入等四个物理模块，并在仿真与真实数据上端到端训练。实验表明，LE-PAVD 在预测误差和推理效率方面均优于现有深度动力学模型，同时在闭环仿真中实现了更快的绕圈时间，且无赛道越界情况。

2605.08482 2026-05-12 cs.LG cs.CL

ShifaMind: A Multiplicative Concept Bottleneck for Interpretable ICD-10 Coding

Mohammed Sameer Syed, Xuan Lu

AI总结本文提出了一种名为ShifaMind的可解释ICD-10编码模型，其核心是引入乘法概念瓶颈（MCB）架构，通过改变瓶颈结构而非压缩宽度来提升模型性能与可解释性。该方法在保留概念接口以便临床解释的同时，利用乘法门控机制增强模型对临床文本的表征能力。实验表明，ShifaMind在MIMIC-IV数据集上取得了与当前最优模型相当甚至更优的编码性能，并在可解释性指标上也表现出显著优势。

2605.08480 2026-05-12 cs.AI

AI-Care: A Conversational Agentic System for Task Coordination in Alzheimer's Disease Care

Preyash Yadav, Michelle Cohn, Priyanka Koppolu, Hritvik Agarwal, Amey Gohil, Tejas Patil, Sasha Pimento, Alyssa Weakley

AI总结 AI-Care 是一个基于对话代理的智能系统，旨在帮助阿尔茨海默病及相关痴呆症患者更便捷地管理日常生活任务，如设置日程提醒和整理待办事项。该系统通过语音优先的聊天机器人进行自然语言交互，降低患者的认知负担，并采用状态化流程控制确保操作安全可靠。研究显示，该系统在初步试点中获得了用户的信任与认可，有效支持了任务协调的完成。

Comments 9 pages, 3 figures

详情

英文摘要

Individuals with Alzheimer's disease (AD) and Alzheimer's disease-related dementia (ADRD) experience memory and thinking changes that impact their ability to use digital daily management tools. For example, adding an event to a digital calendar requires multiple steps that may act as barriers to independent use for individuals with AD/ADRD. This paper presents AI-Care, a conversational agentic artificial intelligence (AI) layer built on top of a remote caregiving platform co-designed with people with AD/ADRD. AI-Care is designed to reduce the cognitive load on individuals with AD/ADRD when managing everyday tasks such as setting calendar reminders and organizing to-do lists through natural-language interaction with a voice-first chatbot. The system uses a LangGraph-based stateful orchestration approach in which each request passes through sanitization, intent classification, context loading, safety checks, deterministic slot collection, tool execution, and response composition. Safety-critical responses, particularly around medications and allergies, are grounded in caregiver-verified records rather than free-form model generation. The system does not make autonomous medical or treatment decisions. Incomplete or ambiguous requests are handled through controlled multi-turn clarification rather than silent failure or guessing. The system supports both typed and spoken input, with voice output through ElevenLabs text-to-speech. Longer responses are chunked before synthesis to avoid rushed playback. A preliminary pilot with four individuals with mild-to-moderate AD/ADRD showed that users found the system trustworthy, competent, and likable, and were able to complete the evaluated coordination tasks through conversation. We describe the design goals, system architecture, safety controls, and findings from this formative evaluation.

URL PDF HTML ☆

赞 0 踩 0

2605.08478 2026-05-12 cs.LG

When Independent Sampling Outperforms Agentic Reasoning

Yihe Dong, Boris Shigida

AI总结本文研究了在固定预算下如何分配推理计算资源以解决编程竞赛问题。通过对比基于代理的推理与重复独立采样（k-shot）方法，研究发现后者在准确率与成本、查询次数之间的权衡上表现更优，且这一优势在不同模型和难度级别下均保持一致。研究还表明，在资源受限的条件下，对于自包含的算法任务，独立采样可能优于更深层次的代理式推理，并提出了预算分配的优化分析及成本最优解的理论证明。

2605.08477 2026-05-12 cs.CL

Do Agents Need to Plan Step-by-Step? Rethinking Planning Horizon in Data-Centric Tool Calling

Naoki Otani, Nikita Bhutani, Hannah Kim, Dan Zhang, Estevam Hruschka

AI总结本文探讨了基于数据密集型任务的大型语言模型代理是否需要逐步规划的问题。研究对比了两种规划方式：全周期规划（FH）和单步规划（SH），发现对于结构明确的任务，FH结合按需重规划可以在保持精度的同时减少计算量。实验表明，FH在不同任务深度、广度和工具鲁棒性下表现优异，且比SH更高效。这一发现挑战了传统上认为逐步执行更必要的假设。

Comments CAIS 2026

2605.08476 2026-05-12 cs.CL

A Computational Operationalisation of Competing Maturational Theories of Syntactic Development via Statistical Grammar Induction

Mila Marcheva, Suchir Salhan, Weiwei Sun

AI总结本文研究儿童在第一语言发展过程中习得的中间句法范畴及其顺序问题，针对不同成熟理论（如自底向上和自内向外）提出的不同预测，利用统计句法归纳方法对这些假设进行计算操作化验证。研究通过固定输入和学习算法，比较不同句法发展顺序对可学习结构的影响，结果表明自底向上的理论在三个评估指标上显著优于自内向外的理论。

Comments In Proceedings of the Annual Meeting of the Cognitive Science Society (CogSci) 2026. Presentation in Rio de Janeiro, Brazil

2605.08472 2026-05-12 cs.AI

Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models

Aswin RRV, Jacob Dineen, Divij Handa, Mihir Parmar, Ben Zhou, Swaroop Mishra, Chitta Baral

AI总结本研究探讨了在大型语言模型中使用强化学习（RL）时，如何通过中期训练阶段引入自生成数据来提升学习效果。研究提出了一种基于乔治·波利亚解题方法的引导式数据生成框架，用于生成训练问题的多种正确解答变体，并在强化学习前进行微调。实验表明，采用该方法初始化的模型在数学推理、代码生成和叙事推理等任务上均取得了显著提升，证明了多解法学习对后续强化学习的积极影响。

2605.08468 2026-05-12 cs.CL cs.AI cs.LG

PYTHALAB-MERA: Validation-Grounded Memory, Retrieval, and Acceptance Control for Frozen-LLM Coding Agents

Mehmet Iscan

AI总结本文提出了一种名为 PYTHALAB-MERA 的轻量外部控制器，用于增强冻结语言模型在代码生成任务中的验证能力。该方法通过引入基于验证的 episodic 记忆、自适应检索与动作选择、延迟奖励分配以及结构化技能复用，提升了代码生成的准确性和鲁棒性。实验表明，在严格的验证环境下，该控制器显著提高了代码通过验证的成功率，优于现有的自优化和 GRACE 扩展方法。

Comments 28 pages, 4 figures, 7 tables; local CLI artifact evaluation

2605.08467 2026-05-12 cs.LG

CUDAHercules: Benchmarking Hardware-Aware Expert-level CUDA Optimization for LLMs

Shiyang Li, Zijian Zhang, Guangyan Sun, Yuebo Luo, Winson Chen, Yanzhi Wang, Mingyi Hong, Caiwen Ding

AI总结本文介绍了CUDAHercules，一个用于评估生成CUDA代码是否达到专家级硬件优化水平的基准测试。该基准覆盖了从单个内核到完整应用的多种场景，并在多代GPU架构上进行测试，通过领域语义验证器确保结果的准确性。实验表明，当前最先进的代码模型在生成可运行的CUDA代码方面表现尚可，但在实现专家级优化策略方面仍有较大差距，说明自动CUDA编程仍面临诸多挑战，需进一步提升硬件推理能力和工具使用水平。

2605.08462 2026-05-12 cs.CL cs.AI

Do Benchmarks Underestimate LLM Performance? Evaluating Hallucination Detection With LLM-First Human-Adjudicated Assessment

I. F. Atasoy, B. Mutlu, E. A. Sezer, A. Wahdan

AI总结该研究探讨了大型语言模型（LLM）在上下文相关任务中的幻觉检测性能，并质疑现有基准是否低估了LLM的表现。通过对比人类标注与Gemini 2.5 Flash和GPT-5 Mini的预测结果，并引入跨文化人类仲裁机制，研究发现模型在提供明确推理时更易获得人类认可，且仲裁后基准数据的准确性显著提升。研究结果表明，在存在歧义的任务中，借助模型辅助的重新评估能够生成更可靠的基准。

Comments Presented at the ROMCIR Workshop at ECIR 2026

2605.08458 2026-05-12 cs.LG q-bio.NC

Neurally-plausible radial basis kernels using distributed Fourier embeddings

Jakeb Chouinard

AI总结本文研究了如何在神经可解释的框架下构建连续的空间表征，重点分析了可用于实现径向基核函数的常见核函数。作者基于空间语义指针框架，探讨了类似网格细胞的表征在生成径向基核函数中的能力与优化性，为物理与感知现象的统一表征提供了新的理论支持。

2605.08454 2026-05-12 cs.LG cs.AI

Recovering Physical Dynamics from Discrete Observations via Intrinsic Differential Consistency

Yuxiang Luo, Andrew Perrault

AI总结本文研究如何从离散观测中恢复连续时间物理动力学，提出了一种基于内在微分一致性的新方法。通过引入半群性质作为全局结构约束，替代传统的局部监督方式，训练一个时间条件化的割线速度场，并利用对称性破裂作为正则化项和推理指导，使模型在不同时间尺度上保持动态一致性。实验表明，该方法在多个微分方程基准测试中显著提升了预测精度并减少了计算量。

2605.08453 2026-05-12 cs.LG cs.AI stat.ML

Sink vs. diagonal patterns as mechanisms for attention switch and oversmoothing prevention

Peter Súkeník, Cristina López Amado, Christoph H. Lampert, Marco Mondelli

AI总结本文研究了sink（汇点）和对角模式在注意力切换和防止过度平滑中的作用。通过分析几何条件，揭示了sink表示所需的嵌入对齐特性，并进一步明确了sink在防止过度平滑中的作用机制，证明了密集注意力在某些条件下比稀疏注意力更易导致平滑，并通过实验验证了这一条件在实际中常被满足。文章还建立了sink与硬注意力切换之间的等价关系，并通过引入自通信机制对硬注意力切换进行了放松，分析了sink与对角模式在表示成本上的差异，解释了为何预训练Transformer更倾向于使用sink结构。这些研究填补了防止过度平滑需求与sink功能之间的差距，并阐明了注意力层在无需token通信时为何可能表现出类似MLP的行为。

2605.08452 2026-05-12 cs.CV

NICE FACT: Diagnosing and Calibrating VLMs in Quantitative Reasoning for Kinematic Physics

Jian Lan, Zhicheng Liu, Xinpeng Wang, Yuhao Zhou, Haokun Chen, Jiancheng Lv, Barbara Plank, Thomas Seidl

AI总结该研究旨在深入理解视觉语言模型（VLMs）在运动学物理定量推理任务中的表现，揭示其是否真正理解物理规律或仅凭猜测得出答案。为此，作者提出了NICE和FACT双诊断框架，其中FACT用于诊断模型在视觉保真度、物理定律理解和时间定位方面的能力，NICE则通过邻域感知校准方法和新指标评估并提升模型置信度的可靠性。实验表明，当前最先进的VLMs在识别视觉前提和应用物理定律方面存在明显不足，该工作为构建更可靠、物理基础更扎实的VLMs提供了标准化的诊断范式。

2605.08451 2026-05-12 cs.LG

RubiConv -- Efficient Boundary-Respecting Convolutions

Linda Friso, Annie Marsden, Xinyi Chen, Arushi Gupta, Peter Bartlett, Mark Braverman, Elad Hazan

AI总结本文提出了一种名为 RubiConv 的新型卷积算法，旨在解决在大规模数据打包场景下传统 FFT 卷积方法难以高效应用的问题。该方法通过实现边界尊重的卷积操作，显著提升了在实际训练中的效率，实验表明其在速度上优于注意力机制和基于标准 FFT 的基线方法。该研究填补了理论效率与实际应用之间的鸿沟，使长序列卷积模型在大规模真实数据处理中具备了可行性。

Comments 19 pages, 12 figures

2605.08450 2026-05-12 cs.LG cs.AI

Zero-shot Imitation Learning by Latent Topology Mapping

Maxwell J. Jacobson, Yexiang Xue

AI总结本文研究了在专家示范有限的情况下，如何实现对新任务的零样本模仿学习。提出了一种名为ZALT的方法，通过识别潜在的枢纽状态并构建其间的转移拓扑，实现了对长时序任务的高效策略规划与适应。该方法能够在无需额外示范的情况下，完成训练时未见过的起点-目标任务，在复杂3D迷宫环境中表现出显著优于现有方法的零样本任务成功率。

2605.08448 2026-05-12 cs.AI cs.CL

LLM-guided Semi-Supervised Approaches for Social Media Crisis Data Classification

Jacob Ativo, Bharaneeshwar Balasubramaniyam, Anh Tran, Khushboo Gupta, Hongmin Li, Doina Caragea, Cornelia Caragea

AI总结本文研究了在社交媒体危机数据分类任务中，利用大语言模型（LLM）引导的半监督学习方法以提升分类性能的问题。作者对比了两种基于LLM的半监督方法——VerifyMatch和LLM引导的共训练（LG-CoTrain），并将其与传统半监督方法进行比较。实验表明，在标签数据有限的情况下，LG-CoTrain表现最优，而随着标签数量增加，自训练方法也展现出较强竞争力，研究还揭示了通过LLM引导的半监督学习，可以将大模型知识迁移至更小、更易部署的模型中，为实际灾害响应应用提供了可行路径。

2605.08447 2026-05-12 cs.CL

Revisiting the syntax of imperatives in Yemeni Arabic: An Agree across phases approach

Mohammed Q. Shormani

AI总结本文重新探讨也门阿拉伯语祈使句的句法结构，提出一种“跨阶段一致”（Agree across phases, AAP）的分析方法。研究认为，该方法能够有效解释简单和复杂祈使句结构，包括A’链结构，强调句法与语篇之间的紧密互动。文章还指出祈使句的主题主语是一个二元代词（2-person pro），而祈使句前的显性代词或名词属于C域元素，充当话题，与代词形成共指关系，这一关系通过匹配机制实现，从而生成局部或非局部的A’链结构。

Comments 33 pages

2605.08445 2026-05-12 cs.AI

Measuring What Matters: Benchmarking Generative, Multimodal, and Agentic AI in Healthcare

Prasanna Desikan, Harshit Rajgarhia, Shivali Dalmia, Ananya Mantravadi

AI总结该论文提出了一种用于评估生成式、多模态和自主型AI在医疗领域表现的基准框架，旨在解决当前医疗AI系统在真实临床任务中可靠性、安全性和临床相关性测量不足的问题。研究指出，现有基准多关注模型的知识水平，而忽视了其在复杂临床工作流中的实际表现，导致模型在实际部署中表现不佳。论文强调需要系统化的评估方法，以准确衡量AI在医疗场景中的实用价值，推动更可靠的临床应用。

2605.06524 2026-05-12 cs.AI

Process Matters more than Output for Distinguishing Humans from Machines

Milena Rmus, Mathew D. Hardy, Thomas L. Griffiths, Mayank Agrawal

AI总结本文探讨了在区分人类与机器时，行为过程比输出结果更具鉴别力。研究引入了包含30项认知任务的CogCAPTCHA30，通过分析任务执行过程中的特征，发现即使在输出匹配的情况下，过程特征仍能更可靠地区分人类与人工智能系统。实验还表明，针对过程进行的微调可以提升机器模仿人类行为的能力，但需要合适的任务特定过程表示作为前提。

详情

英文摘要

Reliable human-machine discrimination is becoming increasingly important as large language models and autonomous agents are deployed in online settings. Existing approaches evaluate whether a system can produce behavior or responses indistinguishable from those of a human, following the emphasis on outputs as a criterion for intelligence proposed by Alan Turing. Cognitive science offers an alternative perspective: evaluating the process by which behavior is produced. To test whether cognitive processes can reliably distinguish humans from machines, we introduce CogCAPTCHA30, a battery of 30 cognitive tasks designed to elicit diagnostic process-level features even when task performance is matched. Across the battery, process-level features provide stronger discriminative signal than performance metrics alone, reliably distinguishing humans from agents even under output matching (mean process-feature classifier AUC = 0.88). To evaluate agentic process differences, we compare off-the-shelf frontier agents (Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro), Centaur (a language model fine-tuned on 10.7M human decisions), and two task-specific fine-tuning approaches applied to Qwen2.5-1.5B-Instruct: action-level supervised fine-tuning (A-SFT) and process-level fine-tuning (P-SFT), which directly optimizes process features. Broad fine-tuning on human decisions improves human-like task processes relative to off-the-shelf agents, while task-specific process-level supervision further improves behavioral mimicry. However, this advantage diminishes under cross-task transfer when supervised process targets do not naturally generalize across tasks. Explicit process-level supervision can improve human behavioral mimicry, but only if appropriate task-specific process representations are available, highlighting process specification as a bottleneck for achieving human-like cognitive processes in machines.

URL PDF HTML ☆

赞 0 踩 0

2605.06375 2026-05-12 cs.LG cs.AI math.ST stat.TH

A Unified Pair-GRPO Family: From Implicit to Explicit Preference Constraints for Stable and General RL Alignment

Hao Yu

AI总结该论文针对基于人类偏好强化学习（RLHF）中的大语言模型对齐问题，提出了一种统一的Pair-GRPO方法家族，旨在解决策略更新不稳定、梯度方向模糊、可解释性差和梯度方差高等问题。研究通过引入Soft-Pair-GRPO和Hard-Pair-GRPO两种变体，分别在保留GRPO结构的基础上引入二元偏好奖励和显式概率约束，理论证明了其梯度稳定性，并提供了单调策略改进、确定梯度方向等理论保证。实验表明，该方法在多个基准任务中优于现有先进方法，显著提升了对齐质量与训练稳定性。

详情

英文摘要

Large language model (LLM) alignment via reinforcement learning from human preferences (RLHF) suffers from unstable policy updates, ambiguous gradient directions, poor interpretability, and high gradient variance in mainstream pairwise preference learning paradigms. To systematically address these limitations, we establish a unified theoretical framework for preference-based RL optimization centered on the Pair-GRPO family, comprising two tightly coupled variants: Soft-Pair-GRPO and Hard-Pair-GRPO. Soft-Pair-GRPO is a minimal modification of Group Relative Policy Optimization (GRPO) that replaces group-normalized scalar rewards with binary pairwise preference rewards, retaining GRPO's clipped surrogate and KL-regularized structure. We prove a critical gradient equivalence theorem: under first-order Taylor expansion around the current policy, Soft-Pair-GRPO's gradient is a positive scalar multiple of standard GRPO's gradient, explaining its empirical stability despite discarding continuous reward magnitudes. Building on this foundation, we propose Hard-Pair-GRPO, an advanced variant introducing explicit local probability constraints and constrained KL-fitting optimization to further suppress gradient noise and global policy drift. We provide comprehensive theoretical guarantees for both variants--including monotonic policy improvement, deterministic gradient direction, gradient-variance reduction, and dynamic step-size convergence. Extensive experiments on standard LLM alignment benchmarks (HH-RLHF,UltraFeedback) and the MuJoCo continuous control task HalfCheetah-v4 demonstrate that our Pair-GRPO family consistently outperforms state-of-the-art baselines in alignment quality, human preference win rate, training stability, and generalization to general reinforcement learning. Ablation studies validate the critical contributions of each core component.

URL PDF HTML ☆

赞 0 踩 0

2605.06356 2026-05-12 cs.CV

SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

YaoYang Liu, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, Long Chen

AI总结本文提出了一种高效高分辨率图像到视频生成方法SwiftI2V，旨在在保持输入图像细节的同时生成逼真的时间动态效果。为了解决现有方法在高分辨率下计算开销大、细节失真等问题，SwiftI2V采用两阶段设计，先生成低分辨率运动参考以降低计算成本，再通过强图像条件引导进行2K分辨率的视频合成，从而在保证生成质量的同时显著提升效率。该方法引入条件分段生成机制，实现可控的分段视频合成，并在2K分辨率的VBench-I2V数据集上取得了与端到端方法相当的性能，同时将GPU时间减少了202倍。

Comments 27 pages, 17 figures

2605.06300 2026-05-12 cs.LG

Region Seeding via Pre-Activation Regularization: A Geometric View of Piecewise Affine Neural Networks

Yi Wei, Xuan Qi, Furao Shen

AI总结该论文研究了深度神经网络中分段仿射激活函数所诱导的输入空间划分结构，提出了一种基于预激活正则化的方法，用于在优化过程中早期生成与数据相关的划分区域。通过理论分析，作者给出了确保神经元切换面接近数据点的充分条件，从而增加局部仿射区域的数量，并基于此设计了一种可插拔的正则化项，有效提升了模型的表达能力和训练性能。实验表明，该方法在多个数据集上均能提高模型的区域数量和整体表现。

2605.06231 2026-05-12 cs.CL

YEZE at SemEval-2026 Task 9: Detecting Multilingual, Multicultural and Multievent Online Polarization via Heterogeneous Ensembling

Fengze Guo, Yue Chang

AI总结本文介绍了我们在SemEval-2026任务9中的系统，旨在检测多语言、多文化和多事件的在线舆论极化，通过三个子任务识别22种语言中的极化社交媒体内容。我们提出了一种异构集成方法，结合了多语言预训练模型XLM-RoBERTa-large和mDeBERTa-v3-base，并探索了多任务学习、基于翻译的数据增强和类别加权等技术以应对严重的类别不平衡问题。研究发现，独立任务建模结合类别加权能更有效地提升分类性能。

Comments Accepted to the SemEval-2026 workshop of the ACL 2026 conference

2605.06226 2026-05-12 cs.AI q-bio.GN

A Versatile AI Agent for Rare Disease Diagnosis and Risk Gene Prioritization

Tianyu Liu, Wangjie Zheng, Rui Yang, Benny Kai Guo Loo, Hui Zhang, Jeffries Lauran, Jianlei Gu, Botao Yu, Weihao Xuan, Kexin Huang, Nan Liu, James Zou, Yonghui Jiang, Hua Xu, Hongyu Zhao

AI总结本文提出了一种多模态AI代理系统Hygieia，用于罕见病的精准诊断和风险基因优先排序。该系统整合了表型特征、基因组数据和临床记录，采用基于路由和知识增强的框架，有效减少错误并针对不同疾病类型定制诊断策略。实验表明，Hygieia在多个诊断基准上达到领先水平，并在实际临床应用中显著提升了诊断准确率和效率，减轻了医生的工作负担。

Comments 32 pages, 6 figures

2605.06225 2026-05-12 cs.LG cs.AI

Memory Inception: Latent-Space KV Cache Manipulation for Steering LLMs

Andy Zeyi Liu, Michael Zhang, Ilana Greenberg, Adam Alnasser, Lucas Baker, John Sous

AI总结本文提出了一种名为“Memory Inception（MI）”的训练-free 方法，通过在特定网络层插入文本衍生的键值（KV）缓存，实现对大语言模型（LLM）的潜空间引导。该方法在保持控制力的同时减少了缓存冗余，相比传统指令提示和激活引导，MI 在结构化引导任务中表现出更优的性能，尤其在持续性或昂贵的引导场景下具有显著优势。

2605.06222 2026-05-12 cs.RO cs.AI

When to Trust Imagination: Adaptive Action Execution for World Action Models

Rui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi

AI总结本文研究了如何在世界动作模型（WAM）中实现自适应动作执行，以解决模型预测与实际物理过程不一致的问题。作者提出了一种名为未来前向动力学因果注意（FFDC）的轻量验证器，通过综合预测动作、视觉动态、真实观测和语言指令，判断模型预测的未来是否依然可信，从而动态调整动作执行的长度。此外，还引入了混合时间步训练方法，提升长时域轨迹的覆盖能力。实验表明，该方法在保持高效执行的同时显著提升了任务成功率和系统鲁棒性。