arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.15100 2026-05-15 cs.AI

Dual-Dimensional Consistency: Balancing Budget and Quality in Adaptive Inference-Time Scaling

Rongman Xu, Yifei Li, Tianzhe Zhao, Yanrui Wu, Bo Li, Hang Yan

AI总结本文研究了在推理时对大语言模型进行适应性扩展时如何平衡计算预算与推理质量的问题。为解决现有方法中宽度与深度优化目标相互独立导致的效率与准确性难以兼顾的问题，作者提出了双维度一致性（DDC）框架，通过结合置信度加权的贝叶斯协议和趋势感知分层剪枝策略，有效集中计算资源于高质量推理路径，从而减少幻觉并加速共识形成。实验表明，该方法在多个基准上显著降低了计算开销，同时保持或超越了现有强基线的准确性。

2605.15088 2026-05-15 cs.CV

SAGE3D: Soft-guided attention and graph excitation for 3D point cloud corner detection

Batuhan Arda Bekar, Can Sarı, Hüseyin Can Gülkan, Barış Özcan

AI总结本文提出SAGE3D，一种基于Transformer的混合模型，用于机载LiDAR点云中的角点检测。该方法采用分层编码-解码架构，通过Set Abstraction层逐步下采样点云，并通过特征传播恢复每个点的预测结果。研究引入了软引导注意力机制和激励图神经网络，前者在训练时将真实角点标签作为先验信息注入注意力计算以提高精度，后者在关键尺度上通过正向消息传递增强高置信度角点的预测，从而提升召回率。

2605.15083 2026-05-15 cs.LG cs.AI

Novel Dynamic Batch-Sensitive Adam Optimiser for Vehicular Accident Injury Severity Prediction

Daniel Asare Kyei, Alimatu Saadia-Yussiff, Maame G. Asante-Mensah, Abdul Lateef-Yussiff, Charles Roland Haruna, Derry Emmanuel

AI总结该研究提出了一种名为DBS-Adam的动态批敏感优化器，用于解决车辆事故伤害严重程度预测中的类别不平衡和序列数据处理问题。DBS-Adam通过计算梯度范数和批次损失的指数移动平均来动态调整学习率，从而提升训练稳定性并加速收敛。实验表明，DBS-Adam在测试集上取得了较高的准确率和精确率，并在与多种先进优化器的对比中表现出显著优势，验证了其在处理不平衡序列数据任务中的有效性。

2605.15081 2026-05-15 cs.CL cs.AI

ML-Embed: Inclusive and Efficient Embeddings for a Multilingual World

Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang

AI总结本文提出了一种名为 ML-Embed 的多语言嵌入框架，旨在解决当前高质量文本嵌入发展中存在的计算成本高、语言覆盖有限和模型透明度不足等问题。基于三维俄罗斯套娃学习（3D-ML）框架，该方法在模型生命周期中实现了全面的效率优化，并通过多语言数据集和参数规模从1.4亿到80亿的模型套件，提升了参数效率和语言包容性。实验表明，ML-Embed 在多个基准测试中表现优异，尤其在低资源语言上取得了显著成果，为构建公平且高效的全球AI系统提供了可复现的解决方案。

2605.15079 2026-05-15 cs.LG cs.DB cs.DL cs.IR

Croissant Baker: Metadata Generation for Discoverable, Governable, and Reusable ML Datasets

Rafi Al Attrach, Rajna Fani, Sebastian Lobentanzer, Joan Giner-Miguelez, Debanshu Das, Varuni H. K., Nobin Sarwar, Rajat Ghosh, Anwai Archit, Surbhi Motghare, Christina Conrad Parry, Luis Oala, Lara Grosso, Joaquin Vanschoren, Steffen Vogler, Sujata Goswami, Eric S. Rosenthal, Marzyeh Ghassemi, Matthew McDermott, Tom Pollard

AI总结本文提出了一种名为 Croissant Baker 的开源工具，用于本地生成符合 Croissant 标准的机器学习数据集元数据，解决了在受控环境和大型本地数据仓库中难以生成标准化元数据的问题。该工具通过模块化的处理器注册机制，直接从数据目录生成验证过的元数据，支持大规模数据集的高效处理。实验表明，Croissant Baker 在多个领域与人工或标准生成的元数据相比，达到了 97-100% 的一致性，具有较高的准确性和实用性。

2605.15077 2026-05-15 cs.CL cs.AI cs.LG

Concurrency without Model Changes: Future-based Asynchronous Function Calling for LLMs

Guangyu Feng, Huanzhi Mao, Prabal Dutta, Joseph E. Gonzalez

AI总结本文提出了一种名为 AsyncFC 的纯执行层框架，旨在在不改变模型结构和函数实现的前提下，实现大型语言模型（LLM）的异步函数调用。该方法通过解耦模型解码与函数执行，使得两者可以并行进行，从而显著降低任务完成的端到端延迟。实验表明，AsyncFC 在多个基准测试中有效提升了任务处理效率，同时保持了任务准确性，并揭示了 LLM 本身具备处理未决执行结果的符号化未来（symbolic futures）的能力。

2605.15074 2026-05-15 cs.RO

SOCC-ICP: Semantics-Assisted Odometry based on Occupancy Grids and ICP

Johannes Scherer, Sebastian Hirt, Henri Meeß

AI总结 SOCC-ICP 是一种基于占用网格和ICP的语义辅助里程计方法，旨在提升自主系统在未知环境中的位姿估计可靠性。该方法将语义占用网格映射与激光雷达扫描对齐结合，每个网格体素编码几何与语义信息，支持基于局部平面性的点对点或点对平面ICP匹配，并通过基于射线投射的自由空间更新过滤动态物体。实验表明，SOCC-ICP 在多种场景下性能优于现有激光雷达里程计方法，且在几何退化环境中仍保持鲁棒性，同时在有语义信息时进一步提升定位精度。

2605.15071 2026-05-15 cs.CV cs.AI cs.CL

On the Cultural Anachronism and Temporal Reasoning in Vision Language Models

Mukul Ranjan, Prince Jha, Khushboo Kumari, Zhiqiang Shen

AI总结该研究指出视觉语言模型在处理文化遗产材料时存在“文化时差”问题，即模型倾向于用不符合历史时期的概念、材料或文化框架来误解历史文物。为此，研究者构建了TAB-VLM基准数据集，包含1600件印度不同时期的文化遗物和600个问题，用于评估模型的时序推理能力。实验表明，即使是最先进的模型在该基准上的表现也有限，揭示了当前视觉语言模型在理解和处理非西方文化历史材料方面仍存在显著不足。

2605.15062 2026-05-15 cs.CV

Computational Imaging Priors for Wireless Capsule Endoscopy: Monte Carlo-Guided Hemoglobin Mapping for Rare-Anomaly Detection

Chengshuai Yang, Lei Xing, Gregory Entin, Roopa Vemulapalli, Lisa Casey, Raiyan Tripti Zaman

AI总结该研究针对胶囊内镜图像中因血红蛋白对比与胆汁和光照衰减混淆而导致的分类性能下降问题，提出了一种基于蒙特卡洛启发的分析先验模型，用于从RGB信号中计算血红蛋白分布，从而提升对罕见血管异常的检测能力。通过在Kvasir-Capsule数据集上的实验，该方法在多个种子设置下均表现出方向一致的AUC提升，尤其在淋巴管扩张等类别上效果显著。研究还展示了该方法可生成可解释的热图，并能在普通三通道RGB输入上运行，具有较好的实用价值。

详情

Comments: 24 pages, 6 figures, 3 tables. Code and trained-model checkpoints at https://github.com/integritynoble/GI_Multi_Task . 6-seed (seeds 41, 42, 43, 44, 45, 47) mean +/- SD ablation as the headline; per-class single-seed=42 analyses in Appendix A

英文摘要

Background. RGB-trained capsule-endoscopy classifiers underperform on small-vessel vascular findings by conflating hemoglobin contrast with bile and illumination falloff. Thus, here we test whether a Monte Carlo-inspired analytic model can compute hemoglobin from RGB signal built upon extracted classifier. Methods. On Kvasir-Capsule (47,238 frames, video-level 70/15/15 split, 11 evaluable classes) we evaluate two software-only configurations against RGB-only EfficientNet-B0 across 6 seeds: (i) a prior P_blood = sigma(alpha * (H_norm - 0.5)) * Phi(r) fused as 2 zero-init auxiliary channels; (ii) a distillation head training a 3-channel RGB backbone to predict P_blood. Significance: paired DeLong, McNemar, bootstrap CIs with Bonferroni correction. Results. Across 6 seeds (n=6,423), the analytic prior provides a small but direction-consistent macro-AUC improvement: RGB-only 0.760 +/- 0.027, input-fusion 0.783 +/- 0.024 (paired Delta = +0.023, sign-positive on 5/6 seeds), distillation 0.773 +/- 0.028. The largest robust per-class lift is on Lymphangiectasia, where AUC rises from RGB 0.238 +/- 0.057 to input-fusion 0.337 +/- 0.019, sign-consistent across all 6 seeds. On rare focal-vascular classes (Angiectasia, Blood - fresh) the prior's per-seed effects are bimodal: seed=42 reaches Angiectasia AUC 0.528 -> 0.916, but the cross-seed mean is 0.646 -> 0.608 with sigma_PI = 0.23 - reported as a high-variance per-seed exemplar. Conclusion. A Monte Carlo-inspired analytic prior provides a small, direction-consistent macro-AUC improvement on Kvasir-Capsule across 6 seeds with the largest robust per-class lift on Lymphangiectasia; the distillation variant runs on plain 3-channel RGB and yields a free interpretability heatmap.

URL PDF HTML ☆

赞 0 踩 0

2605.15055 2026-05-15 cs.LG cs.CV

DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models

Quanhao Li, Junqiu Yu, Kaixun Jiang, Yujie Wei, Zhen Xing, Pandeng Li, Ruihang Chu, Shiwei Zhang, Yu Liu, Zuxuan Wu

AI总结本文提出了一种名为DiffusionOPD的多任务训练框架，用于改进扩散模型的图像生成能力。该方法基于在线策略蒸馏（OPD），通过独立训练任务特定的教师模型，再沿学生的生成轨迹将其知识蒸馏到统一的学生模型中，从而解耦单任务探索与多任务整合，避免了联合优化带来的干扰与不平衡问题。理论分析表明，DiffusionOPD将OPD框架从离散标记扩展到连续状态马尔可夫过程，推导出统一的KL散度目标函数，提升了训练效率和生成质量，并在多个基准测试中取得了优越的性能。

2605.15054 2026-05-15 cs.CV

LATERN: Test-Time Context-Aware Explainable Video Anomaly Detection

Mitchell Piehl, Muchao Ye

AI总结本文提出了一种名为LATERN的上下文感知可解释视频异常检测框架，旨在解决现有视觉语言模型在视频异常检测中缺乏结构化时间上下文的问题。该方法通过引入上下文感知异常评分模块和递归证据聚合模块，将视频异常检测建模为时间证据聚合过程，从而生成更准确且语义连贯的事件级解释。实验表明，LATERN在多个具有挑战性的基准数据集上显著提升了冻结模型在测试时的检测精度和解释一致性。

2605.15051 2026-05-15 cs.LG cs.PF

An Interpretable Latency Model for Speculative Decoding in LLM Serving

Linghao Kong, Megan Flynn, Michael Peng, Nir Shavit, Mark Kurtz, Alexandre Marques

AI总结本文研究了在大语言模型服务系统中，如何通过可解释的延迟模型理解推测解码（SD）的性能表现。作者提出了一种基于Little定律的简单且可解释的延迟模型，用于分析SD在不同负载条件下的行为，并将每个请求的延迟分解为与负载无关和相关的部分。该模型通过大量实验验证，能够准确描述实际延迟，并解释了为何随着服务器负载增加，加速效果会减弱，同时揭示了草案长度、接受率和验证器-草案模型规模对延迟的影响，为实际部署中的SD配置提供了理论指导。

2605.15050 2026-05-15 cs.LG

Separating Intrinsic Ambiguity from Estimation Uncertainty in Deep Generative Models for Linear Inverse Problems

Yuxin Guo, Dongrui Deng, Pulkit Grover

AI总结本文研究了在深度生成模型用于线性逆问题时，如何区分后验不确定性中的内在模糊性与估计不确定性。作者提出了一种结构分解方法，将后验不确定性拆分为可解释的组成部分，从而揭示模型预测中的潜在问题。该方法通过级联结构实现对内在模糊性的分析，并应用于磁共振成像和脑电图源成像等实际任务，提升了模型的可解释性和校准能力。

2605.15049 2026-05-15 cs.RO cs.MA cs.SY eess.SY

A Prototyping Framework for Distributed Control of Multi-Robot Systems

Junaid Ahmed Memon, Allan Andre Do Nascimento, Kostas Margellos, Antonis Papachristodoulou

AI总结本文提出了一种用于多机器人系统分布式控制的原型框架，旨在连接分布式优化算法的理论研究与实际测试。该框架基于单程序多数据（SPMD）范式，在单台计算机上模拟分布式控制，每个核心运行相同算法并进行局部状态和邻近通信。通过非合作博弈论算法在四旋翼无人机位置交换任务中的应用，验证了该框架在不同动态模型下的有效性，包括质点模型、高保真四旋翼模型以及实际硬件测试平台，展示了其低成本且易用的算法验证优势。

2605.15044 2026-05-15 cs.SD cs.AI cs.LG cs.MM eess.AS

SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning

KiHyun Nam, Jungwoo Heo, Siu Bae, Ha-Jin Yu, Joon Son Chung

AI总结随着物理人工智能、对话机器人和无屏可穿戴设备的发展，音频大语言模型需要具备针对说话人的理解能力，以支持用户认证、个性化和上下文感知交互。为此，本文提出 SpeakerLLM，一种专门针对说话人的音频大语言模型框架，能够统一处理单句说话人画像、录音条件理解、双句说话人对比以及基于证据的验证推理。其核心是采用分层说话人分词器，分别捕捉说话人身份和录音条件的多粒度信息，并通过结构化推理轨迹提升验证推理的准确性和可解释性。

详情

英文摘要

As audio-first agents become increasingly common in physical AI, conversational robots, and screenless wearables, audio large language models (audio-LLMs) must integrate speaker-specific understanding to support user authorization, personalization, and context-aware interaction. This requires modeling who is speaking, how the voice sounds, and how recording conditions affect speaker cues. Conventional speaker verification systems provide strong scalar scores but little linguistic evidence, while current audio-LLMs and speaker-aware language models have limited ability to organize speaker information beyond binary labels or descriptive profiles. We present SpeakerLLM, a speaker-specialized audio-LLM framework that unifies single-utterance speaker profiling, recording-condition understanding, utterance-pair speaker comparison, and evidence-organized verification reasoning within a natural-language interface. We construct verification-reasoning targets and a decision-composition policy that separate profile-level evidence from the final same-or-different decision and organize recording condition, profile evidence, and the decision into a structured trace. At its core, SpeakerLLM uses a hierarchical speaker tokenizer designed to capture multiple granularities of speaker evidence. Utterance-level speaker embeddings summarize identity and profile-level cues, whereas frame-level speaker features preserve fine-grained acoustic descriptors. Experiments show that SpeakerLLM-Base improves speaker-profile and recording-condition understanding over general audio-LLMs, while SpeakerLLM-VR preserves strong generated-verdict accuracy and produces decision traces grounded in the supervised verification reasoning schema. We will release the metadata-enriched supervision dataset and target-construction code for reproducibility.

URL PDF HTML ☆

赞 0 踩 0

2605.15042 2026-05-15 cs.CV cs.AI

EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration

Wuyang Li, Yang Gao, Mariam Hassan, Lan Feng, Wentao Pan, Po-Chien Luan, Alexandre Alahi

AI总结 EverAnimate 是一种高效的后训练方法，用于生成高质量的长时域动画视频，能够保持视觉质量和角色身份的一致性。该方法通过引入持久潜空间传播和修复流匹配两种机制，解决了长视频生成中由于分块生成导致的细节退化和语义不一致问题。实验表明，仅需轻量的LoRA调优，EverAnimate 在短时和长时动画生成任务中均优于现有方法，显著提升了图像保真度和视觉质量。

2605.15041 2026-05-15 cs.AI cs.CL

Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use

Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao, Xiaosong Zhang

AI总结本文研究了如何通过案例驱动的方法提升大语言模型在工具使用中的推理与执行能力。提出了一种名为CAST的框架，该框架将历史执行轨迹作为结构化案例，提取案例中的复杂性与失败特征，用于指导模型优化推理策略并避免结构错误。实验表明，CAST在保持执行结构正确性的同时提高了工具使用成功率，并减少了不必要的推理步骤，显著提升了整体性能。

2605.15035 2026-05-15 cs.LG

TopoPrimer: The Missing Topological Context in Forecasting Models

Zara Zetlin, Kayhan Moharreri, Maria Safi

AI总结本文提出了一种名为TopoPrimer的框架，通过将序列群体的全局拓扑结构显式地作为输入引入到任何预测模型中，从而提升预测准确性。该方法基于持续同调和谱丛坐标预计算拓扑信息，能够稳定应对季节性需求高峰，并有效缓解冷启动问题。实验表明，TopoPrimer在多个公开基准数据集上显著提升了预测性能，尤其在复杂和困难场景下表现更为突出。

2605.15034 2026-05-15 cs.CL cs.AI cs.CY cs.MA

AI Knows When It's Being Watched: Functional Strategic Action and Contextual Register Modulation in Large Language Models

Vinicius Covas, Jorge Alberto Hidalgo Toledo

AI总结本研究探讨了大型语言模型（LLM）在感知到社会观察情境时是否会产生系统性的语言适应行为，这一问题对AI治理和审计具有重要意义。基于社会学理论，研究通过控制实验分析了不同观察情境下多智能体辩论系统的行为变化，发现模型在面对人类或AI观察者时会表现出不同的语言风格调整，表明其行为对观察者身份敏感。研究结果为理解LLM作为情境敏感的沟通主体提供了新视角，并对算法审计和AI治理提出了启示。

2605.15024 2026-05-15 cs.CV

HiSem: Hierarchical Semantic Disentangling for Remote Sensing Image Change Captioning

Man Wang, Chenyang Liu, Wenjun Li, Feng Ni, Bing Jia, Baoqi Huang, Riting Xia, Zhenwei Shi

AI总结本文提出了一种名为HiSem的层次化语义解耦网络，用于解决遥感图像变化描述生成中的语义纠缠问题。该方法通过引入双向差分注意力调制模块和层次化自适应语义解耦模块，分别增强时序交互并分离不同粒度的语义表示，从而更准确地区分变化与未变化图像对，并建模细粒度的变化语义。实验表明，HiSem在两个基准数据集上均优于现有方法，在WHU-CDC数据集上BLEU-4指标提升了7.52%，为遥感图像变化描述任务提供了结构化的建模视角。

2605.15019 2026-05-15 cs.CL

From Scenes to Elements: Multi-Granularity Evidence Retrieval for Verifiable Multimodal RAG

Guanhua Chen, Chuyue Huang, Yutong Yao, Shudong Liu, Xueqing Song, Lidia S. Chao, Derek F. Wong

AI总结该论文研究了多模态检索增强生成（RAG）系统在细粒度查询下的证据检索问题，提出了一种多粒度证据检索框架GranuRAG。该方法通过将视觉元素作为基本检索单元，分三个阶段实现元素级检测、跨模态对齐和约束生成，从而提升检索精度与可解释性。实验表明，该方法在真实场景的多模态问答任务中相比多个强基线模型提升了29.2%。

2605.15018 2026-05-15 cs.LG cs.AI

Generalized Priority-Aware Shapley Value

Kiljae Lee, Ziqi Liu, Weijing Tang, Yuan Zhang

AI总结本文提出了一种广义优先感知的夏普利值（GPASV），用于解决机器学习中的价值分配问题。传统方法要求优先级关系为二元且无环，但实际应用中常出现循环或多元比较的情况。GPASV 支持任意有向加权优先图，允许边权重对顺序冲突进行惩罚而非禁止，从而更灵活地建模真实数据中的优先关系。该方法通过公理化定义建立理论基础，并应用于大语言模型集成评估，展示了优先权分配对价值评估结果的重要影响。

2605.15016 2026-05-15 cs.CL cs.AI

COTCAgent: Preventive Consultation via Probabilistic Chain-of-Thought Completion

Zihan Deng, Xiaozhen Zhong, Chuanzhi Xu

AI总结随着大型语言模型在医疗领域的应用，智能临床决策支持系统迅速发展。然而，现有模型在处理纵向电子健康记录（EHR）时存在统计推理不足和时间依赖性建模困难的问题。为此，本文提出COTCAgent，一种基于概率思维链补全的分层推理框架，通过解耦统计计算、特征匹配与语言生成，提升了对长期健康记录的分析能力，并在多个医疗数据集上取得了优于现有方法的性能。

详情

英文摘要

As large language models empower healthcare, intelligent clinical decision support has developed rapidly. Longitudinal electronic health records (EHR) provide essential temporal evidence for accurate clinical diagnosis and analysis. However, current large language models have critical flaws in longitudinal EHR reasoning. First, lacking fine-grained statistical reasoning, they often hallucinate clinical trends and metrics when quantitative evidence is textually implied, biasing diagnostic inference. Second, non-uniform time series and scarce labels in longitudinal EHR hinder models from capturing long-range temporal dependencies, limiting reliable clinical reasoning. To address the above limitations, this work presents the Probabilistic Chain-of-Thought Completion Agent (COTCAgent), a hierarchical reasoning framework for longitudinal electronic health records. It consists of three core modules. The Temporal-Statistics Adapter (TSA) converts analytical plans into executable code for standardized trend output. The Chain-of-Thought Completion (COTC) layer leverages a symptom-trend-disease knowledge base with weighted scoring to evaluate disease risk, while the bounded completion module acquires structured evidence through standardized inquiries and iterative scoring constraints to ensure rigorous reasoning. By decoupling statistical computation, feature matching, and language generation, the framework eliminates reliance on complex multi-modal inputs and enables efficient longitudinal record analysis with lower computational overhead. Experimental results show that COTCAgent powered by Baichuan-M2 achieves 90.47% Top-1 accuracy on the self-built dataset and 70.41% on HealthBench, outperforming existing medical agents and mainstream large language models. The code is available at https://github.com/FrankDengAI/COTCAgent/.

URL PDF HTML ☆

赞 0 踩 0

2605.15015 2026-05-15 cs.AI cs.CL cs.HC

Small, Private Language Models as Teammates for Educational Assessment Design

Chris Davis Jaldi, Anmol Saini, Shan Zhang, Noah Schroeder, Cogan Shimizu, Eleni Ilkou

AI总结本研究探讨了小型私有语言模型（SLMs）在教育评估设计中的应用，旨在弥补大型语言模型（LLMs）在隐私和资源限制方面的不足。通过系统对比LLMs与SLMs在生成评估题目时的表现，研究采用可复现的教育学导向指标评估生成质量，并分析模型评分与专家评分的一致性与偏差。结果表明，SLMs在关键教育质量维度上表现优异，支持本地化部署，但模型评分仍存在系统性不一致和偏差，突显了人机协同在教育评估流程中的必要性。

2605.15012 2026-05-15 cs.LG cs.AI cs.CL

Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance

Kai Yan, Alexander G. Schwing, Yu-Xiong Wang

AI总结本文提出了一种名为FEST的新型可验证奖励强化学习算法，旨在解决在复杂任务中样本效率低的问题。该方法通过随机选取少量示范数据进行指导，仅需128个示例即可取得优异效果，显著减少了对大量监督数据的依赖。研究发现，结合监督信号、策略梯度信号以及对少量示范数据的衰减权重是实现高性能的关键。实验表明，FEST在多个基准上优于传统方法，即使使用更少的监督数据也能达到相近甚至更好的性能。

2605.15009 2026-05-15 cs.LG

DeepTokenEEG Enhancing Mild Cognitive Impairment and Alzheimers Classification via Tokenized EEG Features

Thinh Nguyen-Quang, Minh Long Ngo, Ngoc-Son Nguyen, Nguyen Thanh Vinh, Huy-Dung Han, Bui Thanh Tung, Nguyen Quang Linh, Khuong Vo, Manoj Vishwanath, Hung Cao

AI总结该研究提出了一种名为DeepTokenEEG的轻量高效模型，用于阿尔茨海默病（AD）及轻度认知障碍的分类。该模型通过时空分词器提取EEG信号在时域和频域中的AD相关生物标志物，仅使用0.29百万参数即可实现高精度分类。实验表明，该方法在特定频段上达到100%的最高准确率，相较现有方法提升了1.41-15.35%，展现出在AD早期检测和筛查中的应用潜力。

2605.15000 2026-05-15 cs.CL cs.AI

Quantifying and Mitigating Premature Closure in Frontier LLMs

Rebecca Handler, Suhana Bedi, Nigam Shah

AI总结该研究探讨了前沿大语言模型（LLMs）在面对不确定信息时过早得出结论的问题，即“过早闭合”现象，特别是在医疗任务中可能带来的风险。研究通过结构化和开放式的医学任务评估了五种前沿模型，发现它们在缺乏足够信息时仍频繁给出确定性回答，错误率较高。尽管安全导向的提示策略能部分缓解这一问题，但模型仍存在显著的过早闭合行为，表明当前医疗大语言模型在判断何时不应作答方面仍需改进。

2605.14995 2026-05-15 cs.AI cs.CL cs.LG cs.SI

Explainable Detection of Depression Status Shifts from User Digital Traces

Loris Belcastro, Francesco Gervino, Fabrizio Marozzo, Domenico Talia, Paolo Trunfio

AI总结本文提出了一种可解释的框架，用于从用户的数字痕迹（如社交媒体帖子、聊天记录等）中检测和分析抑郁状态的变化。该方法结合多个基于BERT的模型提取情感、情绪和抑郁严重程度等多维度信号，并通过时间聚合构建用户轨迹，识别有意义的状态变化点。同时引入大语言模型生成简洁的人类可读报告，提升结果的可解释性。实验表明，该方法在两个社交媒体数据集上表现出更高的历史覆盖度、时间连贯性和变化点敏感性，为心理健康状态的动态分析提供了有力支持。

2605.14991 2026-05-15 cs.CV cs.AI

Predicting Response to Neoadjuvant Chemotherapy in Ovarian Cancer from CT Baseline Using Multi-Loss Deep Learning

Francesco Pastori, Francesca Fati, Marina Rosanu, Luigi De Vitis, Lucia Ribero, Gabriella Schivardi, Giovanni Damiano Aletti, Nicoletta Colombo, Jvan Casarin, Francesco Multinu, Elena De Momi

AI总结该研究旨在通过术前增强CT影像预测卵巢癌患者对新辅助化疗的反应，以帮助早期识别无效治疗的患者。研究提出了一种基于多损失深度学习的非侵入性框架，利用自动提取的3D病灶掩膜，结合部分微调的图像编码器和注意力机制进行特征聚合与分类。实验在包含280例患者的回顾性队列上验证，模型在测试集上实现了ROC-AUC为0.73、F1得分为0.70，表明其具备一定的临床预测能力，为影像驱动的患者分层提供了可靠基础。

2605.14990 2026-05-15 cs.CV

Characterizing the visual representation of objects from the child's view

Jane Yang, Tarun Sepuri, Alvin Wei Ming Tan, Khai Loong Aw, Michael C. Frank, Bria Long

AI总结该研究探讨了儿童在日常生活中如何通过视觉经验学习物体类别表征，并分析了来自BabyView数据集的大量第一人称视频数据。研究利用监督检测模型从数百万帧画面中提取常见物体类别，发现儿童接触到的物体类别分布极不均衡，且物体呈现方式多变，如角度异常、场景杂乱或部分遮挡。尽管如此，检测到的物体类别在高层次类别（如动物、食物）中仍表现出较强的聚类结构，这一现象在自监督模型的高维嵌入中也得到验证，表明儿童的视觉学习具有高度鲁棒性和效率。