arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2603.02676 2026-05-12 cs.CL cs.AI

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong, Muhammad Ravi Shulthan Habibi, Samuel Cahyawijaya

AI总结该研究针对大语言模型在多语言推理任务中受内容效应影响的问题，提出了一种通过显式结构抽象将三段论转化为规范逻辑表示，并结合确定性解析以判断推理有效性的新方法。该方法在SemEval-2026任务11的多语言基准测试中表现优异，各项子任务均进入前五，显著减少了内容偏差，为复杂微调或激活层干预提供了有效的替代方案。

2603.01743 2026-05-12 cs.CV

Action-Guided Attention for Video Action Anticipation

Tsung-Ming Tai, Sofia Casarin, Andrea Pilzer, Werner Nutt, Oswald Lanz

AI总结视频中对未来动作的预测具有挑战性，因为已观测到的帧仅能提供过去活动的证据，需要推断潜在意图以预测未来动作。现有基于Transformer的方法依赖像素表示的点积注意力，缺乏高层语义，难以有效建模视频序列。为此，本文提出了一种动作引导注意力（AGA）机制，利用预测的动作序列作为查询和键来引导序列建模，从而增强对过去关键时刻的关注，并通过门控函数与当前帧嵌入结合，提升了模型对潜在意图的理解和泛化能力。实验表明，AGA在EPIC-Kitchens-100数据集上具有良好的泛化性能，并可通过后训练分析揭示模型学习到的动作依赖关系和反事实证据，提供可解释的预测依据。

Comments Accepted by ICLR 2026

2602.22088 2026-05-12 cs.RO

Force Policy: Learning Hybrid Force-Position Control Policy under Interaction Frame for Contact-Rich Manipulation

Hongjie Fang, Shirun Tang, Mingyu Mei, Haoxiang Qin, Zihao He, Jingjing Chen, Ying Feng, Chenxi Wang, Wanxi Liu, Zaixing He, Cewu Lu, Shiquan Wang

AI总结该研究针对复杂接触场景下的机器人操作任务，提出了一种名为Force Policy的混合力-位姿控制策略。通过引入物理基础的交互坐标系，将力控制与运动执行解耦，并从示范数据中恢复该坐标系，从而实现全局视觉引导与局部高频率力反馈的协同控制。实验表明，该方法在接触建立、力控制精度和新物体泛化能力方面均优于现有方法，显著提升了操作的稳定性和执行质量。

Comments accepted by RSS 2026

2602.16596 2026-05-12 cs.LG cs.CR math.ST stat.ML stat.TH

Sequential Membership Inference Attacks

Thomas Michel, Debabrota Basu, Emilie Kaufmann

AI总结本文研究了针对现代动态AI模型的序列成员推理攻击（SeMI），旨在通过利用模型更新序列信息，提高隐私审计的准确性。作者提出了一种最优攻击方法SeMI*，能够通过控制插入时间并分析模型序列中的统计特性，更有效地识别目标样本是否被包含在训练数据中。实验表明，与仅依赖最终模型的基线方法相比，SeMI攻击在多种数据集和基于（差分隐私）随机梯度下降训练的模型上表现出更高的攻击效果和更严格的隐私评估能力。

Comments 32 pages, 14 figures

2602.13759 2026-05-12 cs.LG cs.NA math.NA math.OC

Discrete Double-Bracket Flows for Isotropic-Noise Invariant Eigendecomposition

ZhiMing Li, JiaHe Feng

AI总结本文研究了在存在各向同性噪声的流形观测下，如何在特殊正交群 $SO(n)$ 上进行特征分解的问题。作者提出了一种离散双括号流方法，其生成元为反对称矩阵，能够排除噪声对特征空间动态的影响，从而实现对噪声水平的不变性。该方法在保证稳定性的同时，仅依赖于信号的迹自由部分，显著提升了算法在高噪声环境下的鲁棒性和收敛性。

Comments 75 pages, 9 figures

2602.13486 2026-05-12 cs.LG cs.AI cs.DC

Preventing Rank Collapse in Federated Low-Rank Adaptation with Client Heterogeneity

Fei Wu, Jia Hu, Geyong Min, Shiqiang Wang

AI总结该论文研究了联邦低秩适配（FedLoRA）中由于客户端异构性导致的秩崩溃（rank collapse）问题，即全局更新能量过度集中于最低共享秩，影响模型性能。通过理论分析，作者揭示了秩崩溃的根本原因是聚合权重与客户端贡献之间的不匹配，并提出了一种基于秩划分的聚合方法raFLoRA，有效缓解了秩崩溃现象，提升了模型在异构环境下的性能和鲁棒性。

2602.12606 2026-05-12 cs.LG

RelBench v2: A Large-Scale Benchmark and Repository for Relational Data

Justin Gu, Rishabh Ranjan, Charilaos Kanatsoulis, Haiming Tang, Martin Jurkovic, Valter Hudovernik, Mark Znidar, Pranshu Chaturvedi, Parth Shroff, Fengyu Li, Jure Leskovec

AI总结 RelBench v2 是一个用于关系深度学习的大规模基准测试平台和数据集仓库，新增了四个涵盖学术出版、企业资源规划、消费平台和临床记录的大型关系数据集，总数据量超过2200万行。该版本引入了新的自动补全任务，要求模型在尊重时间约束的前提下直接预测关系表中的缺失属性值，并整合了多个外部基准和评估框架，显著扩展了其应用范围。实验表明，关系深度学习模型在补全、预测和推荐任务中均优于单表基线模型，凸显了显式建模关系结构的重要性。

Comments Published at ICLR 2026. Website: https://relbench.stanford.edu

2602.11665 2026-05-12 cs.LG math.OC

Fully First-Order Algorithms for Online Bilevel Optimization

Tingkai Jia, Cheng Chen

AI总结本文研究了仅使用一阶oracle的非凸-强凸在线双层优化问题，提出了一种完全基于一阶信息的算法，避免了传统超梯度下降方法中所需的Hessian-向量乘积计算，从而降低了计算成本。通过将原问题转化为带有不等式约束的单层在线优化问题，并构造拉格朗日函数序列，作者设计了一种新的全一阶算法，并给出了理论保证，证明其在总迭代次数为$O(T\log T)$时具有$O(1 + V_T + H_{2,T})$的遗憾界。此外，作者还提出了一个改进版本，消除了对$H_{2,T}$的依赖，并在随机设置下建立了相应的遗憾界。

Comments make a lot of improvements

2602.09524 2026-05-12 cs.CV

HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

Han Zhou, Yuxuan Gao, Yinchao Du, Xuezhe Zheng

AI总结本文提出了一种名为HLGFA的高-低分辨率引导特征对齐框架，用于无监督工业异常检测。该方法通过建模正常样本在高分辨率和低分辨率表示之间的跨分辨率特征一致性来学习正常模式，而非依赖像素级重建。通过条件调制和门控残差修正，利用高分辨率中的结构和细节先验指导低分辨率特征的优化，从而在推理阶段通过跨分辨率对齐的破坏来检测异常。实验表明，HLGFA在标准数据集上取得了优异的性能，显著优于基于重建和基于特征的现有方法。

Comments 14 pages, 6 figures, references added

2602.09520 2026-05-12 cs.LG cs.DC

Rashomon Sets and Model Multiplicity in Federated Learning

Xenia Heilmann, Luca Corbucci, Mattia Cerrato

AI总结本文研究了联邦学习中模型的多重性问题，提出了联邦学习环境下的“拉什莫农集”概念，以揭示在隐私保护和数据异构条件下，不同客户端可能存在的多种性能相近但决策边界不同的模型。研究首次将拉什莫农集扩展到联邦学习场景，区分了全局、部分共识和个体三个层面的定义，并提出了在隐私约束下估计模型多重性的方法，进一步设计了一个感知模型多重性的联邦学习流程，实验表明该方法有助于客户端选择更符合本地数据和公平性需求的模型。

Comments Accepted at ACM FAccT 2026

详情

英文摘要

The Rashomon set captures the collection of models that achieve near-identical empirical performance yet may differ substantially in their decision boundaries. Understanding the differences among these models, i.e., their multiplicity, is recognized as a crucial step toward model transparency, fairness, and robustness, as it reveals decision boundaries instabilities that standard metrics obscure. However, the existing definitions of Rashomon set and multiplicity metrics assume centralized learning and do not extend naturally to decentralized, multi-party settings like Federated Learning (FL). In FL, multiple clients collaboratively train models under a central server's coordination without sharing raw data, which preserves privacy but introduces challenges from heterogeneous client data distribution and communication constraints. In this setting, the choice of a single best model may homogenize predictive behavior across diverse clients, amplify biases, or undermine fairness guarantees. In this work, we provide the first formalization of Rashomon sets in FL.First, we adapt the Rashomon set definition to FL, distinguishing among three perspectives: (I) a global Rashomon set defined over aggregated statistics across all clients, (II) a t-agreement Rashomon set representing the intersection of local Rashomon sets across a fraction t of clients, and (III) individual Rashomon sets specific to each client's local distribution.Second, we show how standard multiplicity metrics can be estimated under FL's privacy constraints. Finally, we introduce a multiplicity-aware FL pipeline and conduct an empirical study on standard FL benchmark datasets. Our results demonstrate that all three proposed federated Rashomon set definitions offer valuable insights, enabling clients to deploy models that better align with their local data, fairness considerations, and practical requirements.

URL PDF HTML ☆

赞 0 踩 0

2602.09514 2026-05-12 cs.CL cs.AI

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou

AI总结 EcoGym 是一个用于评估大型语言模型在交互式经济环境中进行长期计划与执行能力的通用基准。该基准包含三个多样化环境，支持无界时间范围内的决策，并基于商业相关指标进行评估，以检验模型在长期战略一致性和鲁棒性方面的能力。实验表明，现有主流模型在高层次策略或高效行动执行方面均存在显著不足，EcoGym 为研究经济场景下的可控性与效用权衡提供了开放、可扩展的测试平台。

Comments update

2602.09317 2026-05-12 cs.LG cs.AI stat.ML

SnareNet: Flexible Repair Layers for Neural Networks with Hard Constraints

Ya-Chi Chu, Alkiviades Boukas, Madeleine Udell

AI总结 SnareNet 是一种用于神经网络的可控修复架构，旨在解决模型输出违反物理、操作或安全约束的问题。其核心方法是在网络中引入可微分的修复层，通过在约束空间中进行迭代调整，使输出满足用户指定的约束条件。该方法采用自适应松弛训练策略，确保端到端训练的稳定性，并在多个基准任务中表现出更高的目标优化质量与更强的约束满足能力，尤其在处理非凸约束时具有显著优势。

2602.08616 2026-05-12 cs.LG cs.AI

Breaking the Grid: Distance-Guided Reinforcement Learning in Large Discrete Action Spaces

Heiko Hoppe, Fabian Akkerman, Wouter van Heeswijk, Maximilian Schiffer

AI总结该论文研究了在超大规模离散动作空间中高效应用强化学习的问题，提出了一种名为距离引导强化学习（DGRL）的新方法。该方法结合采样动态邻域和基于距离的更新策略，将策略优化转化为稳定的回归任务，有效降低了梯度方差与动作空间规模之间的依赖。实验表明，DGRL在多种结构化环境中相比现有方法性能提升了最高66%，同时加快了收敛速度并降低了计算复杂度。

Comments 31 pages, 8 figures

2602.07144 2026-05-12 cs.LG cs.AI stat.ML

BONSAI: Bayesian Optimization with Natural Simplicity and Interpretability

Samuel Daulton, David Eriksson, Maximilian Balandat, Eytan Bakshy

AI总结 BONSAI 是一种面向默认配置的贝叶斯优化方法，旨在在优化过程中尽量减少对默认参数的偏离，从而提升结果的可解释性与实用性。该方法通过控制获取函数的损失，有效剪枝低影响的参数变化，并兼容多种获取函数如预期改进和上置信界。理论分析表明，BONSAI 在保证优化性能的同时，能够以零获取成本恢复关键参数坐标，优于现有稀疏贝叶斯优化方法，并在多个实际应用中验证了其在减少非默认参数数量方面的显著优势。

Comments 32 pages

详情

英文摘要

Bayesian optimization (BO) is a popular technique for sample-efficient optimization of black-box functions. In many applications, the parameters being tuned come with a carefully engineered default configuration, and practitioners only want to deviate from this default when necessary. Standard BO, however, does not aim to minimize deviation from the default and, in practice, often pushes weakly relevant parameters to the boundary of the search space. This makes it difficult to distinguish between important and spurious changes and increases the burden of vetting recommendations when the optimization objective omits relevant operational considerations. We introduce BONSAI, a default-aware BO policy that prunes low-impact deviations from a default configuration while explicitly controlling the loss in acquisition value. BONSAI is compatible with a variety of acquisition functions, including expected improvement and upper confidence bound (GP-UCB). We theoretically bound the regret incurred by BONSAI, showing that, under certain conditions, it enjoys the same no-regret property as vanilla GP-UCB. Moreover, assuming known ARD lengthscales -- the same assumption underlying GP-UCB regret bounds -- BONSAI provably recovers the relevant-coordinate set at zero acquisition cost, yielding a method that matches the GP-UCB regret rate while recovering the minimal-$\ell_0$ solution -- a guarantee not provided by prior sparse-BO methods. Across many real-world applications, we empirically find that BONSAI substantially reduces the number of non-default parameters in recommended configurations while maintaining competitive optimization performance, with little effect on wall time -- averaging only $1.5\times$ the candidate-generation cost of standard BO, compared to $7$-$34\times$ on average for prior sparse-BO methods (IR, ER, and SEBO).

URL PDF HTML ☆

赞 0 踩 0

2602.07052 2026-05-12 cs.CV eess.IV

Markerless Head Tracking for Accurate and Accessible Neuronavigation

Ziye Xie, Oded Schlesinger, Raj Kundu, Jessica Y. Choi, Pablo Iturralde, Dennis A. Turner, Stefan M. Goetz, Guillermo Sapiro, Angel V. Peterchev, J. Matias Di Martino

AI总结本文提出了一种无需标记的头部分位追踪方法，用于提高神经导航的精度和可及性。该方法利用低成本的可见光和红外摄像头，结合立体视觉和深度传感技术，通过算法建模面部几何结构来替代传统依赖物理标记的系统。实验结果表明，该方法在50名受试者上的追踪误差中位数仅为2.32毫米和2.01度，精度足以满足经颅磁刺激等临床需求，并显著优于以往无标记方法。

2602.06457 2026-05-12 cs.LG math.OC

Achieving Better Local Regret Bound for Online Non-Convex Bilevel Optimization

Tingkai Jia, Haiguang Wang, Cheng Chen

AI总结本文研究在线双层优化问题，旨在改进其局部遗憾界。作者提出了两种优化算法，分别针对标准和窗口平均的双层局部遗憾，建立了最优的遗憾界，并引入了自适应迭代策略和基于窗口的分析方法，提升了算法的理论保证和实际效果。实验验证了理论分析的正确性，并展示了所提方法的有效性。

Comments add a synthetic experiment

2602.06286 2026-05-12 cs.AI

When Agents Say One Thing and Do Another: Validating Elicited Beliefs from LLMs

Khurram Yamin, Jingjing Tang, Santiago Cortes-Gomez, Amit Sharma, Eric Horvitz, Bryan Wilder

AI总结该研究探讨了大型语言模型（LLMs）在决策过程中是否表现出一致的信念体系，并提出了一种基于决策理论的框架，通过同时获取模型的概率判断和决策行为，检验两者之间的一致性。研究发现，尽管模型的信念与其决策存在细微差异，但最强的模型在这些差异上表现较小，表明其信念在一定程度上可以被视为近似合理的决策依据。

2602.04811 2026-05-12 cs.CL cs.AI cs.LG

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

Jiarui Yuan, Tailin Jin, Weize Chen, Zeyuan Liu

AI总结 SE-Bench 是一个用于评估智能体自我进化能力的基准环境，通过隐藏 NumPy 库及其 API 文档并随机化标识符，迫使模型在无文档支持的情况下学习和应用新知识。该研究揭示了自我进化中的三个关键问题：开放书籍训练的悖论、强化学习的局限性以及自我博弈在知识内化中的有效性。SE-Bench 为研究智能体长期学习与知识内化提供了严谨的测试平台。

Comments Under review

2602.04549 2026-05-12 cs.CV

Nix and Fix: Targeting 1000x Compression of 3D Gaussian Splatting with Diffusion Models

Cem Eteke, Enzo Tartaglione

AI总结该论文提出了一种名为NiFi的方法，旨在通过扩散模型实现对3D高斯溅射（3DGS）的极端压缩，压缩率可高达1000倍。该方法通过引入基于扩散模型的单步蒸馏技术，有效修复压缩过程中产生的伪影，从而在极低比特率下仍能保持优异的视觉质量。研究在压缩效率与感知质量之间取得了显著平衡，为3D内容在带宽受限场景下的应用提供了新的解决方案。

2602.04054 2026-05-12 cs.LG cs.CV

SEIS: Subspace-based Equivariance and Invariance Scores for Neural Representations

Huahua Lin, Katayoun Farrahi, Xiaohao Cai

AI总结本文提出了一种基于子空间的等变与不变性评分（SEIS），用于分析神经网络在几何变换下的特征表示，无需标签或明确的变换信息即可区分等变性与不变性。研究发现，卷积编码器在深度上表现出从强等变性向不变性过渡的趋势，而分割解码器在后续层中等变性有恢复现象。此外，数据增强和多任务学习能够同时增强等变性与不变性，而基于Transformer和MLP-Mixer的模型则展现出不同的几何特性。

2602.03677 2026-05-12 cs.CL

Instruction Anchor: Dissecting the Mechanistic Dynamics of Modality Arbitration

Yu Zhang, Mufan Xu, Xuefeng Bai, Kehai Chen, Pengfei Zhang, Yang Xiang, Min Zhang

AI总结该研究探讨了多模态大语言模型中根据用户指令选择性利用多模态信息的机制。通过分析注意力层的信息流动，发现指令标记在模态仲裁中起到结构锚点的作用，浅层注意力层负责聚合多模态信息至指令标记，而深层注意力层则根据指令意图选择性强化相关模态。实验表明，仅干预少量关键注意力头即可显著影响模态遵循能力，验证了该机制的有效性，为提升模型在指令引导下的多模态整合能力提供了理论依据。

Comments Modality Following

2602.03190 2026-05-12 cs.LG cs.AI cs.CL

PrAg-PO: Prompt Augmented Policy Optimization for Robust and Diverse Mathematical Reasoning

Wenquan Lu, Hai Huang, Enqi Liu, Randall Balestriero

AI总结该研究提出了一种名为PrAg-PO的策略优化方法，旨在提升大语言模型在数学推理任务中的鲁棒性和多样性。通过在训练过程中混合使用不同的提示模板并结合特定模板的格式奖励，PrAg-PO鼓励模型在多样化的指令和输出格式下生成推理过程，从而增强推理的多样性和稳定性。实验表明，与现有方法相比，PrAg-PO在多个数学基准测试中取得了更高的推理准确率，并有效避免了训练过程中的早期崩溃问题。

2602.02821 2026-05-12 cs.CL cs.IT math.IT

When Efficient Communication Explains Convexity

Ashvin Ranjan, Shane Steinert-Threlkeld

AI总结本文从高效沟通的角度探讨语言多样性背后的成因，重点关注语义类型学中意义表达的规律。研究通过信息瓶颈（IB）方法，分析了沟通需求分布的凸性与沟通最优性之间的关系，并发现凸性在驱动这一关联中起关键作用。该成果不仅验证了高效沟通能解释语义类型学现象，还进一步揭示了其背后的决定性因素。

2602.02494 2026-05-12 cs.LG q-bio.NC

MEG-XL: Data-Efficient Brain-to-Text via Long-Context Pre-Training

Dulhan Jayalath, Oiwi Parker Jones

AI总结本文提出了一种名为MEG-XL的脑到文本接口模型，旨在解决瘫痪患者因缺乏大量训练数据而难以使用现有系统的问题。该模型通过长上下文预训练，每个样本使用长达2.5分钟的MEG信号进行训练，相比以往方法提升了数十到数百倍的上下文长度，从而更有效地捕捉神经活动的长期依赖关系。实验表明，MEG-XL在少量数据下即可达到与传统监督方法相当甚至更优的解码性能，证明了长上下文预训练在脑机接口任务中的有效性。

Comments Published as a conference paper at ICML 2026. 19 pages, 8 figures, 5 tables

2602.02045 2026-05-12 cs.LG

Outlier-robust Diffusion Posterior Sampling for Bayesian Inverse Problems

Yiming Yang, Xiaoyuan Cheng, Yi He, Kaiyu Li, Wenxuan Yuan, Zhuo Sun

AI总结该论文研究了在贝叶斯反问题中扩散模型对异常值的鲁棒性问题，指出观测似然的误设会显著影响恢复性能，尤其是在存在异常值的情况下。为解决这一问题，作者提出了鲁棒扩散后验采样方法，该方法在理论上保证了对线性反问题的异常值鲁棒性，并与现有梯度基后验采样方法兼容。实验表明，该方法在科学反问题和自然图像任务中均表现出更强的鲁棒性和性能提升。

2602.01977 2026-05-12 cs.CL

Beyond Local Edits: Embedding-Virtualized Knowledge for Broader Evaluation and Preservation of Model Editing

Shuainan Liu, Xuanang Chen, Ben He, Le Sun

AI总结该论文提出了一种名为Embedding-Virtualized Knowledge（EVK）的新方法，用于更全面地评估和保留大型语言模型的编辑效果。通过在嵌入空间中引入可控扰动，EVK能够探索超出显式数据标注的更广泛知识区域，并构建了基于嵌入层面的评估基准EVK-Bench，以量化编辑引起的潜在知识偏移。此外，论文还提出了一种可插拔的EVK-Align模块，能够在编辑过程中约束嵌入层面的知识偏移，有效提升知识保留效果，同时保持编辑准确性。

Comments We voluntarily withdraw this manuscript. Extensive post-submission testing shows the method lacks the originally reported generality and effectiveness. The benchmark metrics originally designed are inadequate for assessing existing model editing algorithms. To avoid misleading the community, we have decided to withdraw this paper and will not release an updated version.

2602.01442 2026-05-12 cs.LG cs.AI cs.CL

Hidden Heroes and Gradient Bloats: Layer-Wise Redundancy Inverts Attribution in Transformers

Donald Ye

AI总结该研究揭示了基于梯度的归因方法在Transformer模型中存在系统性偏差，即高估早期层的“梯度膨胀”组件，而低估晚期层的“隐藏英雄”组件。通过因果实验发现，梯度归因无法准确反映各组件的因果重要性，导致归因排名与实际功能影响严重不符。研究指出，这种偏差源于梯度方法难以检测组件间的冗余关系，进而对模型解释和电路级分析提出了新的挑战。

Comments 9 pages, 6 figures, under review at ICML 2026 Workshop on Mechanistic Interpretability

2602.01219 2026-05-12 cs.LG cs.CV

Mixture-of-Top-k Attention: Efficient Attention via Scalable Fast Weights

Qishuai Wen, Zhiyuan Huang, Xianghan Meng, Wei He, Chun-Guang Li

AI总结本文提出了一种名为Mixture-of-Top-k Attention（MiTA）的高效注意力机制，旨在解决传统Transformer中自注意力机制在处理长序列时的可扩展性问题。该方法通过引入少量关键查询，动态选择最相关的k个键值对作为可变形的专家模块，并将宽隐层压缩为共享专家，从而在保持模型表达能力的同时提升计算效率。实验表明，MiTA在视觉任务中表现出优越的性能和效率，并展现出如自动剪枝和易于泛化等新特性。

Comments Code is available at https://github.com/QishuaiWen/MiTA

2602.01194 2026-05-12 cs.CV

EMFormer: Efficient Multi-Scale Transformer for Accumulative Context Weather Forecasting

Hao Chen, Tao Han, Jie Zhang, Song Guo, Fenghua Ling, Lei Bai

AI总结本文提出了一种高效多尺度变换器EMFormer，用于提升长期天气预测的准确性与效率。该方法通过单次卷积提取多尺度特征，结合累积上下文微调策略和动态复合损失函数，有效缓解了长期预测中的灾难性遗忘和误差累积问题。实验表明，EMFormer在天气预测和极端事件检测中表现出色，并在视觉基准任务上展现出良好的泛化能力，同时相比传统多尺度模块计算效率提升了5.69倍。

Comments This paper has been accepted by ICML2026

2602.01015 2026-05-12 cs.CL cs.CY

Large Language Models as Students Who Think Aloud: Overly Coherent, Verbose, and Confident

Conrad Borchers, Jill-Jênn Vie, Roger Azevedo

AI总结本研究探讨了大语言模型（LLMs）在模拟学习者推理和元认知判断方面的局限性，通过分析630条多步骤化学问题的“大声思考”语料，评估了LLMs在问题解决过程中的表现。研究发现，尽管GPT-4.1生成的推理流畅且上下文恰当，但其推理过于连贯、冗长且缺乏变化，与真实学习者的思维过程存在显著差异。研究认为，这种差异源于LLM训练数据中缺乏真实学习过程中的情感表达和工作记忆限制，揭示了当前LLMs在模拟学习方面存在的认识局限。

Comments Manuscript under review