arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.05686 2026-05-15 cs.AI

Attractor Geometry of Transformer Memory: From Conflict Arbitration to Confident Hallucination

Qiyao Liang, Risto Miikkulainen, Ila Fiete

AI总结该研究探讨了语言模型在生成过程中可能出现的两种失败模式：知识冲突和自信幻觉，并揭示了它们在隐藏状态空间中的统一几何解释。研究发现，模型中学习到的事实形成吸引子盆地，冲突源于工作记忆干扰正确吸引子的收敛，而幻觉则源于缺乏对应吸引子导致隐藏状态自由漂移。通过几何边距指标，研究成功区分了正确回忆与幻觉，并验证了该结构特性不依赖于微调，且随着模型规模增大，自信幻觉的比例呈指数增长。

Comments 9 pages, 6 figures, plus appendices

详情

英文摘要

Language models draw on two knowledge sources: facts baked into weights (parametric memory, PM) and information in context (working memory, WM). We study two mechanistically distinct failure modes--conflict, when PM and WM disagree and interfere; and hallucination, when the queried fact was never learned. Both produce confident output regardless, making output-based monitoring blind by design. We show both failures share a unified geometric account. In the hidden-state space of autoregressive generation, learned facts form attractor basins. Conflict is basin competition: WM disrupts convergence to the correct basin without raising output entropy. Hallucination is basin absence: the hidden state drifts freely when no memorized basin exists. The frozen LM head, designed for next-token prediction, cannot distinguish these cases and fires confidently either way. We verify this account in a controlled synthetic task-entity identifiers mapped to unique codes with PM installed via LoRA adapters--where ground truth is exact and component roles can be causally isolated through targeted adapter placement. Geometric margin--the hidden state's distance to the nearest memorized basin--reads this geometry directly and separates correct recall from hallucination far more cleanly than output entropy, with zero false refusals where entropy-based detection cannot avoid rejecting the vast majority of correct outputs. The separation holds on natural-language factual queries from the pretrained model with no adaptation, confirming attractor geometry is structural rather than a fine-tuning artifact. The fraction of confident hallucinations follows a scaling law $C = \exp(-c/\barΔ)$, growing with scale even as overall error rates fall. Hidden states reliably encode epistemic state; the frozen output head systematically erases it--and this erasure worsens with scale.

URL PDF HTML ☆

赞 0 踩 0

2605.04554 2026-05-15 cs.CV

InterMesh: Explicit Interaction-Aware End-to-End Multi-Person Human Mesh Recovery

Kaili Zheng, Kaiwen Wang, Xun Zhu, Chenyi Guo, Ji Wu

AI总结该论文提出了一种名为InterMesh的端到端多人人体网格恢复框架，旨在更准确地建模人类与环境及彼此之间的交互关系。与现有基于DETR的方法不同，InterMesh通过引入人类-物体交互检测器，显式地将交互语义信息融入人体网格恢复过程，从而提升姿态和形状估计的准确性。研究设计了轻量的模块以高效整合交互信息，并在多个数据集上验证了方法的有效性，显著提升了在复杂交互场景下的恢复性能。

Comments 13 pages, 10 figures

2605.04474 2026-05-15 cs.LG

Geometry-Aware Neural Optimizer for Shape Optimization and Inversion

Guoze Sun, Tianya Miao, Haoyang Huang, Huaguan Chen, Han Wan, Rui Zhang, Hao Sun

AI总结本文提出了一种几何感知神经优化器（GANO），旨在解决偏微分方程控制系统的形状优化与反演问题。GANO 通过统一几何表示、场级预测和自动优化的端到端可微框架，克服了传统方法中梯度不可用、参数化受限以及优化不稳定等问题。该方法利用去噪机制和几何感知代理模型实现稳定的几何更新，并支持部件级控制与高效几何处理，实验表明其在多个基准测试中表现出优越的精度和可控性。

Comments To appear in ICML2026

2605.04236 2026-05-15 cs.LG

Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals

Roberto E. Medina

AI总结该研究提出了一种名为DASE的自适应停止机制，用于改进大型语言模型集成中的推理过程，通过在证据积累过程中自动识别预算并生成校准的提交信号，以提升整体准确性。DASE能够在早期达成共识时提前提交结果，并在证据碎片化时采用全局频率策略，从而在多个基准测试中表现出显著的性能提升。研究还发现，自适应停止策略对准确性的影响远大于注入带宽，并揭示了注入方法在准确性与推理成本之间存在倒U型关系。

2605.04215 2026-05-15 cs.LG cs.AI

Predict-then-Diffuse: Adaptive Response Length for Compute-Budgeted Inference in Diffusion LLMs

Michael Rottoli, Subhankar Roy, Stefano Paraboschi

AI总结扩散式大语言模型（D-LLMs）在生成任务中具有高并行性和优越的GPU利用率，但其固定响应长度的限制导致计算资源浪费或输出截断的问题。为此，本文提出“Predict-then-Diffuse”框架，通过一个自适应响应长度预测器（AdaRLP）先估计输入对应的最优响应长度，再进行扩散生成，从而在保证输出质量的同时减少冗余计算。实验表明，该方法在多个数据集上有效降低了计算成本，且对数据分布的偏态具有鲁棒性。

2605.03823 2026-05-15 cs.LG cs.IT math.IT math.ST stat.TH

Realizable Bayes-Consistency for General Metric Losses

Dan Tsir Cohen, Steve Hanneke, Aryeh Kontorovich

AI总结本文研究了在可实现设定下，使用一般度量损失进行学习时的强泛化贝叶斯一致性问题，扩展了传统二分类和回归问题的相关结果。作者给出了假设类满足何种条件时，存在一种分布无关的学习规则，使其风险几乎必然收敛到类内最优风险（即零）。主要贡献在于提出了一种基于组合障碍的精确刻画，引入了无限非递减 $(γ_k)$-Littlestone 树的概念，从而将经典 Littlestone 树结构推广到度量损失场景。

Comments 14 pages. To appear in Proceedings of the 43rd International Conference on Machine Learning (ICML 2026); v2: fixed abstract metadata rendering

2605.03596 2026-05-15 cs.AI cs.CL cs.DB cs.LG

Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

Zirui Tang, Xuanhe Zhou, Yumou Liu, Linchun Li, Yukai Wu, Weizheng Wang, Hongzhang Huang, Wei Zhou, Jun Zhou, Jiachen Song, Shaoli Yu, Jinqi Wang, Zihang Zhou, Hongyi Zhou, Yuting Lv, Jinyang Li, Jiashuo Liu, Ruoyu Chen, Chunwei Liu, GuoLiang Li, Jihua Kang, Fan Wu

AI总结 Workspace-Bench 1.0 是一个用于评估 AI 智能体在工作空间任务中处理大规模文件依赖关系能力的基准。该研究构建了包含多种文件类型和真实工作场景的复杂工作空间，并设计了大量任务来测试智能体的跨文件检索、上下文推理和适应性决策能力。实验表明，当前主流 AI 模型在该基准上的表现仍远低于人类水平，突显了在真实工作场景中实现可靠工作空间学习的挑战。

Comments 30 pages, 16 figures

2605.02438 2026-05-15 cs.CV cs.LG

Mixture Prototype Flow Matching for Open-Set Supervised Anomaly Detection

Fuyun Wang, Yuanzhi Wang, Xu Guo, Sujia Huang, Tong Zhang, Dan Wang, Hui Yan, Xin Liu, Zhen Cui

AI总结本文研究开放集监督异常检测（OSAD）问题，旨在利用有限的异常监督信息识别未见过的异常样本。为了解决现有基于原型的方法在建模正常数据时忽略多模态特性导致决策边界模糊的问题，提出了一种混合原型流匹配（MPFM）框架，通过连续变换将正常特征分布映射到结构化的高斯混合原型空间。该方法引入高斯混合先验建模速度场，并结合互信息最大化正则化器提升原型区分度，实验表明其在多种基准数据集上均取得领先性能。

Comments Accepted by ICML 2026

2605.02398 2026-05-15 cs.AI cs.CL cs.LG

The Compliance Trap: How Structural Constraints Degrade Frontier AI Metacognition Under Adversarial Pressure

Rahul Kumar

AI总结随着前沿AI模型被用于高风险决策流程，其在对抗性压力下保持元认知稳定性的能力成为关键的安全要求。本文研究了模型在面对强制合规指令时出现的元认知崩溃现象，并提出了“合规陷阱”这一新概念，指出模型性能的严重下降并非源于威胁内容本身，而是由强制性指令引发的认知边界突破所致。通过大规模实验，作者发现大多数模型在对抗性条件下表现出显著的性能下降，而Anthropic的 Constitutional AI 由于对齐训练表现出较强的免疫能力。

Comments 9 pages, 2 figures, 3 tables. Code: https://github.com/rkstu/schema-compliance-trap Dataset: https://huggingface.co/datasets/lightmate/schema-compliance-trap

2605.01758 2026-05-15 cs.AI

Catching the Infection Before It Spreads: Foresight-Guided Defense in Multi-Agent Systems

Yue Ma, Ziyuan Yang, Yi Zhang

AI总结该研究针对多智能体系统中感染式越狱攻击的问题，提出了一种无需训练的前瞻性引导本地净化（FLP）框架。该方法通过模拟未来交互轨迹，结合多角色模拟策略，检测并消除智能体中的感染行为，有效降低了感染传播率。实验表明，FLP能将最大累计感染率从超过95%降至5.47%以下，同时保持交互多样性，显著优于现有方法。

Comments 12 pages

详情

英文摘要

Large multimodal model-based Multi-Agent Systems (MASs) enable collaborative complex problem solving through specialized agents. However, MASs are vulnerable to infectious jailbreak, where compromising a single agent can spread to others, leading to widespread compromise. Existing defenses counter this by training a more contagious cure factor, biasing agents to retrieve it over virus adversarial examples (VirAEs). However, this homogenizes agent responses, providing only superficial suppression rather than true recovery. We revisit these defenses, which operate globally via a shared cure factor, while infectious jailbreak arise from localized interaction behaviors. This mismatch limits their effectiveness. To address this, we propose a training-free Foresight-Guided Local Purification (FLP) framework, where each agent reasons over future interactions to track behavioral evolution and eliminate infections. Specifically, each agent simulates future behavioral trajectories over subsequent chat rounds. To reflect diversity in MASs, we introduce a multi-persona simulation strategy for robust prediction across interaction contexts. We then use response diversity as a diagnostic signal to detect infection by analyzing inconsistencies across persona-based predictions at both retrieval-result and semantic levels. For infected agents, we apply localized purification: recent infections are mitigated via immediate album rollback, while long-term infections are handled using Recursive Binary Diagnosis (RBD), which recursively partitions the image album and applies the same diagnosis strategy to localize and eliminate VirAEs. Experiments show that FLP reduces the maximum cumulative infection rate from over 95% to below 5.47%. Moreover, retrieval and semantic metrics closely match benign baselines, indicating effective preservation of interaction diversity.

URL PDF HTML ☆

赞 0 踩 0

2605.01725 2026-05-15 cs.CV cs.AI

Motion-Aware Caching for Efficient Autoregressive Video Generation

Jing Xu, Yuexiao Ma, Xuzhe Zheng, Xing Wang, Shiwei Liu, Chenqian Yan, Xiawu Zheng, Rongrong Ji, Fei Chao, Songwei Liu

AI总结本文研究了如何通过运动感知的缓存机制提升自回归视频生成的效率。现有方法依赖于粗粒度的块级缓存跳过，无法准确捕捉像素级别的动态变化，导致生成质量下降。为此，作者提出了MotionCache，通过帧间差异作为像素运动的轻量代理，结合粗到细的策略，在保证生成质量的前提下显著提升了生成速度。实验表明，MotionCache在多个先进模型上实现了最高达6.28倍的加速，同时保持了高质量的生成效果。

Comments 20 pages

2604.28130 2026-05-15 cs.CV

MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons

Kehong Gong, Zhengyu Wen, Dao Thien Phong, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Guanli Hou, Dongze Lian, Xiaoyu He, Mingyuan Zhang, Hanwang Zhang

AI总结本文提出了一种端到端的任意骨骼运动捕获框架 MoCapAnything V2，解决了传统分阶段方法在关节位置与旋转映射上的不确定性问题。通过引入目标资产的参考姿态-旋转对，明确旋转坐标系，使旋转预测更加精确并易于学习。该方法直接从视频中预测关节位置，无需依赖网格中间表示，提升了鲁棒性与效率，并在多个数据集上显著降低了旋转误差，推理速度也比基于网格的方法快约20倍。

Comments Project page: https://animotionlab.github.io/MoCapAnythingV2/

2604.27263 2026-05-15 cs.CL

Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

Théo Gigant, Bowen Peng, Jeffrey Quesnelle

AI总结本文研究了子词分词在大语言模型训练中的具体作用，通过构建一个可控的字节级预训练框架，将子词分词的效果进行解耦和分析。研究从样本吞吐量、词汇规模扩展以及子词边界的语言先验等多个维度提出并验证了相关假设，揭示了子词模型优于原始字节模型的关键原因，并为未来字节级和子词模型的预训练提供了改进方向。

Comments 14 pages, 7 figures

2604.22050 2026-05-15 cs.LG cs.CL

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

Mohamed Ali Souibgui, Jan Fostier, Rodrigo Abadía-Heredia, Bohdan Denysenko, Christian Marschke, Igor Peric

AI总结 LayerBoost 是一种层感知的注意力缩减方法，旨在提升大语言模型的推理效率。该方法通过对预训练模型进行系统性敏感性分析，识别出对性能影响较大的关键层，并根据不同层的敏感程度分别采用标准注意力、线性滑动窗口注意力或完全移除注意力机制，从而在保持模型性能的同时降低计算复杂度。实验表明，LayerBoost 在高并发场景下可将推理延迟减少高达68%，且在多个基准测试中表现出与原始模型相当或接近的性能，显著优于现有的注意力线性化方法。

2604.21809 2026-05-15 cs.LG cs.AI q-bio.QM stat.ML

Quotient-Space Diffusion Models

Yixian Xu, Yusong Wang, Shengjie Luo, Kaiyuan Gao, Tianyu He, Di He, Chang Liu

AI总结本文提出了一种名为商空间扩散模型（Quotient-Space Diffusion Models）的生成模型框架，旨在有效处理和利用系统中的对称性。该方法通过在去除对称冗余的商空间上进行生成过程，使模型能够在保持目标对称分布的前提下，更灵活地学习生成过程。该框架在分子结构生成任务中进行了实例化，相比等变扩散模型和基于对齐的方法，表现出更优的性能，为生成模型中的对称性处理提供了新的解决方案。

Comments ICLR 2026 Oral Presentation; 43 pages, 5 figures, 6 tables; ICLR 2026 Camera Ready version

2604.19092 2026-05-15 cs.RO cs.AI

RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation

Feng Jiang, Yang Chen, Kyle Xu, Yuchen Liu, Haifeng Wang, Zhenhao Shen, Jasper Lu, Shengze Huang, Yuanfei Wang, Chen Xie, Ruihai Wu

AI总结 RoboWM-Bench 是一个专注于机器人操作任务的基准，用于评估视频世界模型在生成行为是否具备物理可执行性。该基准通过将生成的视频转化为可执行的动作序列，并在物理仿真环境中验证其可行性，从而系统评估模型在真实机器人操作中的表现。研究发现，视觉合理性与物理可执行性并不总是一致，突显了在复杂操作任务中进行具身化评估的重要性。

2604.17548 2026-05-15 cs.LG math.AT stat.ML

Contraction and Hourglass Persistence for Learning on Graphs, Simplices, and Cells

Mattie Ji, Indradyumna Roy, Vikas Garg

AI总结该论文研究了如何在图、单纯复形和胞腔网络上进行学习的拓扑方法，提出了收缩同调（Contraction Homology）和小时glass持续性（Hourglass Persistence）的概念，以改进传统持续同调在图神经网络中的应用。通过结合包含和收缩操作，小时glass持续性提升了模型的表达能力、可学习性和稳定性，并设计了高效的算法，能够在多种现实图数据集上取得优于传统方法的实验结果。

Comments 31 pages, 6 figures, 4 algorithms, 2 tables. Accepted at ICLR 2026

2604.16744 2026-05-15 cs.CL cs.AI cs.HC

Evaluating Adaptive Personalization of Educational Readings with Simulated Learners

Ryan T. Woo, Anmol Rao, Aryan Keluskar, Yinong Chen

AI总结本文提出了一种基于理论支持的模拟学习者框架，用于评估教育阅读材料的自适应个性化效果。该方法从开放教材中构建学习目标和知识组件本体，通过浏览器工具进行管理，并生成匹配的阅读与评估对。实验结果表明，自适应阅读在计算机科学中显著提升了学习效果，在无机化学中效果不明确，在普通生物学中则无明显提升甚至略有负面影响。

2604.16325 2026-05-15 cs.LG cs.AI

UniMamba: A Unified Spatial-Temporal Modeling Framework with State-Space and Attention Integration

Xingsheng Chen, Xianpei Mu, Deyu Yi, Yilin Yuan, Xingwei He, Bo Gao, Regina Zhang, Pietro Lio, Siu-Ming Yiu

AI总结多变量时间序列预测在能源、金融和环境监测等领域具有重要意义，但其复杂的时序依赖关系和变量间交互带来诸多挑战。为此，本文提出UniMamba，一个融合状态空间模型与注意力机制的统一时空预测框架，既保持了高效的计算性能，又能够捕捉显式的时序模式。该方法通过结合Mamba变体编码层、时空注意力层和前馈时序动态层，有效建模了全局时间依赖和变量间关系，在多个公开数据集上的实验表明，UniMamba在预测精度和计算效率方面均优于现有先进模型。

Comments The authors wish to withdraw this preprint due to a lack of consensus regarding the final authorship list and the order of authors

2604.10892 2026-05-15 cs.RO cs.MA

HECTOR: Human-centric Hierarchical Coordination and Supervision of Robotic Fleets under Continual Temporal Tasks

Shen Wang, Yinhang Luo, Jie Li, Meng Guo

AI总结本文提出了一种以人类为中心的分层协调与监督框架HECTOR，用于在持续变化和不确定的时间任务下管理大规模机器人集群。该方法包含三个层次：人机双向交互协议、任务滚动分配机制以及团队内部动态协调，支持操作员在不同粒度上进行任务调整与监督，从而提升计算效率并减轻人工负担。实验表明，该框架在异构机器人集群和复杂环境任务中表现出良好的适应性和有效性。

2604.09304 2026-05-15 cs.CV

GeRM: A Generative Rendering Model From Physically Realistic to Photorealistic

Jiayuan Lu, Rengan Xie, Xuancheng Jin, Zhizhen Wu, Qi Ye, Tian Xie, Hujun Bao, Rui Wang. Yuchi Huo

AI总结本文提出了一种名为GeRM的生成渲染模型，旨在弥合基于物理的渲染（PBR）与照片级真实感渲染（PRR）之间的差距。该模型通过学习分布转移向量（DTV）场，结合多条件ControlNet和残差感知转移机制，实现了从物理真实到视觉真实的可控图像生成。研究还引入了一个多智能体视觉语言框架，构建了用于监督转移过程的专家引导数据集P2P-50K，实验表明GeRM在多种应用场景中均优于现有先进方法。

2604.08991 2026-05-15 cs.CV cs.AI

PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos

Zhiyu Zhou, Peilin Liu, Ruoxuan Zhang, Luyang Zhang, Cheng Zhang, Hongxia Xie, Wen-Huang Cheng

AI总结本文提出PinpointQA，首个用于室内视频中小物体中心空间理解的数据集与基准，旨在评估模型在视频中精确定位目标物体并描述其位置的能力。该数据集基于ScanNet++和ScanNet200构建，包含1024个场景和10,094个问答对，涵盖四个逐步增加难度的任务，实验表明主流多模态大语言模型在该基准上仍存在明显性能差距，而通过PinpointQA进行微调可显著提升模型表现。

2604.06757 2026-05-15 cs.CV

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

Junchao Yi, Rui Zhao, Jiahao Tang, Weixian Lei, Linjie Li, Qisheng Su, Zhengyuan Yang, Lijuan Wang, Xiaofeng Zhu, Alex Jinpeng Wang

AI总结 FlowInOne 提出了一种统一的多模态生成框架，将文本描述、空间布局和编辑指令等不同模态的信息转化为单一的视觉表示，从而实现以图像输入、图像输出为特点的生成流程。该方法通过一个统一的流匹配模型消除了跨模态对齐和任务特定结构的限制，将文本到图像生成、布局引导编辑和视觉指令遵循等任务整合到同一范式下。研究还构建了大规模视觉提示数据集 VisPrompt-5M 和评估基准 VP-Bench，实验表明 FlowInOne 在多项任务中达到当前最优性能，为完全以视觉为中心的生成建模奠定了新基础。

2604.02482 2026-05-15 cs.LG

SEDGE: Structural Extrapolated Data Generation

Kun Zhang, Jiaqi Sun, Yiqing Li, Ignavier Ng, Namrata Deka, Shaoan Xie

AI总结本文提出了一种名为SEDGE的框架，用于在训练数据之外生成符合新规格的数据，其核心在于对数据生成过程做出合理假设。该方法在特定保守假设下保证了生成数据分布的近似可识别性，并指出在无此类假设时分布的不可识别性。研究通过结构化优化策略和扩散后验采样等算法实现了有效外推数据生成，并在合成数据和图像生成任务中验证了其有效性。

2603.29665 2026-05-15 cs.CL

Near-Miss: Latent Policy Failure Detection in Agentic Workflows

Ella Rabinovich, David Boaz, Naama Zwerdling, Ateret Anaby-Tavor

AI总结在代理工作流中，基于大语言模型的系统虽然能够达到预期的最终状态，但可能在执行过程中绕过必要的策略检查，从而产生潜在的策略失效问题。本文提出了一种新的度量方法，用于检测代理对话轨迹中的隐性策略失败，该方法基于ToolGuard框架，分析代理在调用工具时的决策是否充分合理。实验表明，即使最终结果正确，仍有8%至17%的轨迹存在此类潜在失败，揭示了当前评估方法的局限性。

Comments GEM@ACL2026, 13 pages

2603.28205 2026-05-15 cs.CL

Beyond Cosine Similarity: Zero-Initialized Residual Complex Projection for Aspect-Based Sentiment Analysis

Yijin Wang, Fandi Sun, Haoyu Wen

AI总结本文针对基于方面的情感分析（ABSA）中实值嵌入空间中的表示纠缠和负样本碰撞问题，提出了一种新的框架，包含零初始化残差复投影（ZRCP）和反碰撞掩码角度损失。该方法将文本特征映射到复语义空间，利用相位分离情感极性，同时通过幅度正则化保持方面类别的结构一致性，并引入反碰撞掩码以增强对立极性之间的判别性。实验表明，该方法在ASAP数据集上取得了当前最优的Macro-F1分数。

2603.23129 2026-05-15 cs.LG

Polaris: A Gödel Agent Framework for Small Language Models through Experience-Abstracted Policy Repair

Aditya Kakade, Vivek Srivastava, Shirish Karande

AI总结本文提出了一种名为Polaris的框架，用于实现小型语言模型的递归自我改进。该框架通过经验抽象策略修复机制，将模型在任务中的失败转化为可复用的策略更新，从而在不改变模型参数的前提下提升其政策层面的表现。研究通过元推理机制，使模型能够解释自身错误并提出具体的策略修订，最终在多个基准测试中实现了显著的性能提升。

Comments Accepted to ACL 2026 (Findings). 33 pages

2603.22586 2026-05-15 cs.LG

A Foundation Model for Instruction-Conditioned In-Context Time Series Tasks

Anish Saha, Konstantin Shmakov

AI总结本文提出了一种名为iAmTime的时间序列基础模型，旨在通过指令条件化的提示学习实现对上下文任务的适应。该模型采用隐式元学习方法，在历史和未来变量之间建立结构化提示，结合分层多尺度变换编码器和任务条件化补丁解码器，以捕捉时间动态和协变量特征，并实现对多种任务（如预测、分类、异常检测等）的零样本适应。实验表明，iAmTime在多个基准测试中优于现有时间序列基础模型，表现出良好的泛化能力和任务适应性。

2603.21250 2026-05-15 cs.AI

Graph of States: Solving Abductive Tasks with Large Language Models

Yu Luo, Rongchen Gao, Lu Teng, Xidao Wen, Jiamin Jiang, Qingliang Zhang, Yongqian Sun, Shenglin Zhang, Jiasong Feng, Tong Liu, Wenjie Zhang, Dan Pei

AI总结本文研究了大型语言模型在归纳和演绎推理之外的第三类逻辑推理——溯因推理中的应用。针对现有框架在结构化状态表示和显式状态控制方面的不足，作者提出了一种名为Graph of States（GoS）的神经符号框架，通过因果图编码逻辑依赖关系，并利用状态机控制推理过程的合法转移，从而将无约束的探索转化为有导向的搜索。实验表明，GoS在两个真实数据集上显著优于现有方法，为复杂溯因任务提供了稳健的解决方案。

2603.21174 2026-05-15 cs.CL

Explainable Semantic Textual Similarity via Dissimilar Span Detection

Diego Miguel Lozano, Daryna Dementieva, Alexander Fraser

AI总结本文提出了一种新的可解释语义文本相似度（STS）方法，通过检测文本对中语义差异的片段（Dissimilar Span Detection, DSD）来增强模型的可解释性。研究引入了用于该任务的语义相似性数据集（SSD），并评估了多种基于语言模型和解释性方法的基线模型。实验表明，尽管大型语言模型和监督模型表现最佳，但整体任务难度较高，而DSD在特定任务如释义检测中可提升性能。

Comments Accepted at LREC 2026