arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2602.11824 2026-05-12 cs.AI cs.LG

Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models

Jialin Wu, Wei Shi, Han Shen, Peigui Qi, Kunsheng Tang, Zhicong Huang, Binghao Wang, Zhou Yang

AI总结尽管大视觉语言模型（LVLMs）具备强大的能力，但常常出现物体幻觉问题。为了解决这一问题，本文提出了一种无需训练的框架REVIS，通过潜空间几何方法提取纯净的视觉信息，并在抑制发生的特定网络深度进行稀疏干预，从而有效恢复视觉信息并减少计算成本。实验表明，REVIS在标准基准上将物体幻觉率降低了约19%，同时保持了模型的通用推理能力。

Comments Accepted by ICML 2026

2602.11181 2026-05-12 cs.CL

Code Mixologist : A Practitioner's Guide to Building Code-Mixed LLMs

Himanshu Gupta, Pratik Jayarao, Chaitanya Dwivedi, Neeraj Varshney

AI总结本文探讨了代码混合（Code-Mixing）和代码转换（Code-Switching）在大型语言模型（LLMs）中的挑战，指出尽管多语言建模取得进展，但模型在混合语言场景下仍存在语法、事实性和安全性方面的系统性退化。研究提出了一个统一的分类体系，涵盖数据、建模和评估等多个维度，并总结出一套实用指南，帮助构建和评估具备代码混合能力的LLMs。同时，文章分析了当前评估方法的不足，指出了现有基准的局限性，并探讨了代码混合可能被用于绕过模型安全机制等新兴安全问题。

Comments 8 pages main paper, 13 pages total

2602.10356 2026-05-12 cs.CL

Autonomous Continual Learning for Environment Adaptation of Computer-Use Agents

Tianci Xue, Zeyi Liao, Tianneng Shi, Zilu Wang, Kai Zhang, Dawn Song, Yu Su, Huan Sun

AI总结本文研究了计算机使用代理（CUA）在高度多样和动态的现实数字环境中持续学习适应的问题，核心挑战在于如何在无需人工标注数据的情况下获得高质量的训练数据。为此，作者提出了ACuRL框架，通过自主课程强化学习实现零人工数据下的持续环境适应，结合任务生成器和自动评估器CUAJudge，有效提升了代理在环境内和跨环境中的学习性能，并在多个任务上取得了显著的性能提升。

Comments 28 pages, 10 figures

2602.09534 2026-05-12 cs.CV

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

Jiayi Lyu, Leigang Qu, Wenjing Zhang, Hanyu Jiang, Kai Liu, Zhenglin Zhou, Xiaobo Xia, Jian Xue, Tat-Seng Chua

AI总结本文提出了一种名为 AUHead 的新方法，用于生成具有真实情感表达的说话人视频。该方法通过解耦音频与细粒度情感单元（Action Units, AUs）的控制，实现了对情绪表达的精确调控。研究采用两阶段框架，第一阶段利用大语言模型生成 AUs 序列，第二阶段基于 AUs 驱动的扩散模型生成高质量的视频，有效提升了情感真实性和视觉一致性。

Comments https://openreview.net/forum?id=dmzlAUkulz&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DICLR.cc%2F2026%2FConference%2FAuthors%23your-submissions) Accepted at the 14th International Conference on Learning Representations (ICLR 2026)

2602.09016 2026-05-12 cs.CV

Raster2Seq: Polygon Sequence Generation for Floorplan Reconstruction

Hao Phung, Hadar Averbuch-Elor

AI总结本文提出了一种名为 Raster2Seq 的方法，用于从栅格化的平面图图像中重建结构化的矢量图形表示。该方法将平面图重建视为序列到序列的任务，将房间、窗户和门等元素表示为包含几何和语义信息的带标签多边形序列。通过引入基于可学习锚点的自回归解码器，模型能够根据图像特征和已生成的顶点预测下一个顶点，从而更有效地生成复杂且具有多样多边形结构的平面图。实验表明，该方法在多个标准数据集上取得了最先进的性能，并在更具挑战性的数据集上也表现出良好的泛化能力。

Comments Accepted to SIGGRAPH 2026. Project page: https://cornell-vailab.github.io/Raster2Seq/

2602.06733 2026-05-12 cs.LG cs.AI cs.MA

Pairwise is Not Enough: Hypergraph Neural Networks for Multi-Agent Pathfinding

Rishabh Jain, Keisuke Okumura, Michael Amir, Pietro Lio, Amanda Prorok

AI总结多智能体路径规划（MAPF）是一个典型的多智能体协作问题，要求多个智能体在不发生碰撞的情况下分别到达目标位置。现有基于图神经网络（GNN）的方法通常仅限于两两之间的信息传递，难以有效捕捉多智能体之间的高阶交互，导致在密集环境中表现不佳。为此，本文提出了一种新的超图注意力网络 HMAGAT，通过有向超图上的注意力机制显式建模群体动态，有效缓解了注意力稀释问题，并在更少的训练数据和更少参数的情况下取得了优于现有最优方法的性能。

Comments Published at ICLR 2026

2602.06382 2026-05-12 cs.RO

Now You See That: Learning End-to-End Humanoid Locomotion from Raw Pixels

Wandong Sun, Yongbo Su, Leoric Huang, Alex Zhang, Dwyane Wei, Mu San, Daniel Tian, Ellie Cao, Baoshi Cao, Yang Liu, Finn Yan, Ethan Xie, Zongwu Xie

AI总结该研究旨在解决基于视觉的人形机器人行走任务中面临的仿真到现实的迁移难题和复杂地形适应问题。为应对感知噪声和多地形学习目标冲突的挑战，作者提出了一种端到端的视觉驱动框架，包含高保真深度传感器仿真和视觉感知行为蒸馏方法，以提升现实环境中的鲁棒性；同时引入地形特定的奖励塑造与多评判器学习机制，增强机器人在不同地形下的适应能力。实验表明，该方法在多种人形机器人平台上表现出优异的通用性和应对复杂任务的能力。

2602.05946 2026-05-12 cs.LG stat.ML

f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

Rajdeep Haldar, Lantao Mei, Guang Lin, Yue Xing, Qifan Song

AI总结本文研究了如何通过基于散度的强化学习算法实现大语言模型的一般对齐，包括基于可验证奖励的强化学习（RLVR）等场景。作者提出了 $f$-GRPO 和 $f$-HAL 两种方法，分别用于基于策略的奖励优化和结合策略与偏好监督的混合对齐损失，证明了它们能够估计奖励对齐与不对齐分布之间的 $f$-散度，并在实验中展示了其在数学推理任务和安全对齐中的优越性。

2602.05243 2026-05-12 cs.LG cs.CV

CORP: Closed-Form One-shot Representation-Preserving Structured Pruning for Transformers

Boxiang Zhang, Baijian Yang

AI总结本文提出CORP，一种无需梯度或微调的闭式单次结构化剪枝方法，用于在Transformer模型中去除多层感知机和注意力子结构。该方法将结构化剪枝建模为表示恢复问题，通过闭式岭回归推导出补偿模型权重的解析解，从而在保持高精度的前提下实现模型的高效压缩。实验表明，CORP在ImageNet数据集上对DeiT模型进行大量剪枝后仍能保持较高的分类准确率。

2602.05214 2026-05-12 cs.LG

Disentangled Representation Learning via Flow Matching

Jinjin Chi, Taoping Liu, Mengtao Yin, Ximing Li, Yongcheng Jing, Jialie Shen, Leszek Rutkowski, Dacheng Tao

AI总结本文提出了一种基于流匹配的解耦表征学习框架，将解耦问题转化为在紧凑潜在空间中学习条件流的过程。为实现显式的语义对齐，作者引入了一个非重叠正则化项，以抑制不同因素间的干扰并减少信息泄露。实验表明，该方法在多个数据集上均优于现有基线，取得了更高的解耦度评分以及更好的可控性和样本保真度。

2602.03916 2026-05-12 cs.CV cs.CE cs.CL cs.LG

SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?

Azmine Toushik Wasi, Wahid Faisal, Abdur Rahman, Mahfuz Ahmed Anik, Munem Shahriar, Mohsin Mahmud Topu, Sadia Tasnim Meem, Rahatun Nesa Priti, Sabrina Afroz Mitu, Md. Iqramul Hoque, Shahriyar Zaman Ridoy, Mohammed Eunus Ali, Majd Hawasly, Mohammad Raza, Md Rizwan Parvez

AI总结 SpatiaLab 是一个用于评估视觉语言模型（VLMs）在真实场景中空间推理能力的综合性基准。该研究指出，现有模型在处理复杂的空间关系、深度感知、导航和三维几何等问题时仍存在显著不足。SpatiaLab 包含 1400 个视觉问答对，涵盖六个主要类别及 30 种任务类型，实验表明当前最先进的 VLMs 在空间推理任务上的表现远低于人类。

Comments Accepted to ICLR 2026 (https://openreview.net/forum?id=fWWUPOb0CT). 92 Pages. 42 Figures and 29 Tables

详情

Journal ref: ICLR 2026

英文摘要

Spatial reasoning is a fundamental aspect of human cognition, yet it remains a major challenge for contemporary vision-language models (VLMs). Prior work largely relied on synthetic or LLM-generated environments with limited task designs and puzzle-like setups, failing to capture the real-world complexity, visual noise, and diverse spatial relationships that VLMs encounter. To address this, we introduce SpatiaLab, a comprehensive benchmark for evaluating VLMs' spatial reasoning in realistic, unconstrained contexts. SpatiaLab comprises 1,400 visual question-answer pairs across six major categories: Relative Positioning, Depth & Occlusion, Orientation, Size & Scale, Spatial Navigation, and 3D Geometry, each with five subcategories, yielding 30 distinct task types. Each subcategory contains at least 25 questions, and each main category includes at least 200 questions, supporting both multiple-choice and open-ended evaluation. Experiments across diverse state-of-the-art VLMs, including open- and closed-source models, reasoning-focused, and specialized spatial reasoning models, reveal a substantial gap in spatial reasoning capabilities compared with humans. In the multiple-choice setup, InternVL3.5-72B achieves 54.93% accuracy versus 87.57% for humans. In the open-ended setting, all models show a performance drop of around 10-25%, with GPT-5-mini scoring highest at 40.93% versus 64.93% for humans. These results highlight key limitations in handling complex spatial relationships, depth perception, navigation, and 3D geometry. By providing a diverse, real-world evaluation framework, SpatiaLab exposes critical challenges and opportunities for advancing VLMs' spatial reasoning, offering a benchmark to guide future research toward robust, human-aligned spatial understanding. SpatiaLab is available at: https://spatialab-reasoning.github.io/.

URL PDF HTML ☆

赞 0 踩 0

2602.03783 2026-05-12 cs.LG cs.AI cs.CL

Efficient Estimation of Kernel Surrogate Models for Task Attribution

Zhenshuo Zhang, Minxuan Duan, Hongyang R. Zhang

AI总结本文研究如何量化不同训练任务对目标任务性能的影响，即任务归因问题。传统方法如留一法重新训练计算开销大，而现有线性代理模型无法捕捉非线性任务交互。为此，作者提出基于核方法的代理模型，能够更有效地表示二阶任务交互，并设计了一种基于梯度的高效估计方法，无需重复训练即可获得高精度的代理模型。实验表明，核代理模型在多个任务场景中显著优于线性模型和影响函数方法，提升了任务归因的准确性和可扩展性。

Comments 27 pages. Appeared in ICLR 2026

详情

英文摘要

Modern AI agents such as large language models are trained on diverse tasks -- translation, code generation, mathematical reasoning, and text prediction -- simultaneously. A key question is how to quantify the influence of each individual training task on performance on a target task, a problem we refer to as task attribution. The direct approach, leave-one-out retraining, measures the effect of removing each task, but is computationally infeasible at scale. An alternative approach that builds surrogate models to predict the performance on a target task for any subset of training tasks has emerged in the recent literature. Prior work focuses on linear surrogate models, which capture first-order relationships but miss nonlinear interactions such as XOR-type effects. In this paper, we first consider a unified task-weighting framework for analyzing task-attribution methods and establish a new connection between linear surrogate models and influence functions via a second-order analysis. Then, we introduce kernel surrogate models, which more effectively represent second-order task interactions. To efficiently learn the kernel surrogate, we develop a gradient-based estimation procedure that leverages a first-order approximation of pretrained models; empirically, this yields accurate surrogate estimates with less than $2\%$ relative error without repeated retraining. Experiments across multiple settings -- including mathematical reasoning in transformers, in-context learning, and multi-objective reinforcement learning -- demonstrate the effectiveness of kernel surrogate models. They achieve a $25\%$ higher correlation with the leave-one-out ground truth than linear surrogates and influence-function baselines, enabling more accurate and scalable task attribution. When used for downstream data selection, kernel surrogate models further yield a $40\%$ improvement in the aforementioned settings.

URL PDF HTML ☆

赞 0 踩 0

2602.01687 2026-05-12 cs.CL cs.AI

Functional Subspace, where language models can use vector algebra to solve problems

Jung H. Lee, Sujith Vijayan

AI总结该研究探讨了大型语言模型（LLMs）在执行任务时是否利用子空间和向量代数进行操作。研究通过分析模型在上下文学习中的功能模块和残差流，发现LLMs能够创建子空间以积累证据，并通过简单的代数运算在这些子空间中解决任务。这一发现为理解LLMs的工作机制和潜在能力提供了新的视角。

Comments page 20, 7 main figures, 8 supplementary figures

2602.00986 2026-05-12 cs.CL

Sparse Reward Subsystem in Large Language Models

Guowei Xu, Mert Yuksekgonul, James Zou

AI总结近期研究表明，大语言模型的隐藏状态中编码了与奖励相关的信息，如答案正确性和模型置信度。本文发现这些信息主要集中在隐藏状态中一小部分神经元上，并通过简单探针识别出两类神经元：价值神经元和多巴胺神经元，分别编码状态价值和时间差分误差。这一发现揭示了大语言模型中存在一个稀疏的奖励子系统，为理解模型内部奖励机制提供了新的视角，并展示了其在模型置信度预测和推理搜索引导中的应用。

2602.00953 2026-05-12 cs.LG

SAGE: Agentic Framework for Interpretable and Clinically Translatable Computational Pathology Biomarker Discovery

Sahar Almahfouz Nasser, Juan Francisco Pesantez Borja, Jincheng Liu, Sandeep Manandhar, Shikhar Shiromani, Mohammad Tanvir Hasan, Zenghan Wang, Suman Ghosh, Jinchu Li, Xuejian Xu, Aniket Ramkrishnan Iyer, Naoto Tokuyama, Twisha Shah, Tilak Pathak, Soundharya Kumaresan, Yohei Abe, Himanshu Maurya, Anant Madabhushi

AI总结 SAGE 是一种用于可解释且具有临床转化潜力的计算病理学生物标志物发现的智能代理框架。该方法通过知识图谱引导的假设生成、基于辩论的多代理新颖性评估以及端到端的自动化验证流程，将生物标志物的发现过程建立在坚实的生物学证据之上。研究的核心贡献在于将原本依赖直觉和文献浏览的标志物发现过程转化为结构化、可追溯的推理流程，从而提升其临床可信度和可应用性。

2602.00877 2026-05-12 cs.RO

Learning When to Jump for Off-road Navigation

Zhipeng Zhao, Taimeng Fu, Shaoshu Su, Qiwei Du, Ehsan Tarkesh Esfahani, Karthik Dantu, Souma Chowdhury, Chen Wang

AI总结本文研究了越野导航中如何通过控制速度实现安全跳跃以克服障碍的问题。为了解决现有方法忽视运动动态特性的不足，作者提出了基于运动感知的可通行性（MAT）表示方法，将地形代价建模为速度的高斯函数。该方法通过感知预测地形参数，并在规划过程中高效更新不同速度下的地形代价，从而实现敏捷的越野导航。实验表明，MAT在保证安全性的前提下显著提升了导航性能，减少了75%的路径绕行。

2602.00678 2026-05-12 cs.RO

Toward Reliable Sim-to-Real Predictability for MoE-based Robust Quadrupedal Locomotion

Tianyang Wu, Hanwei Guo, Yuhang Wang, Junshu Yang, Xinyang Sui, Jiayi Xie, Xingyu Chen, Zeyang Liu, Xuguang Lan

AI总结该研究旨在解决基于混合专家（MoE）架构的四足机器人在复杂地形中从仿真到现实的可靠迁移问题。研究提出了一种统一框架，结合了鲁棒多地形表示的MoE运动策略和用于评估仿真到现实迁移能力的RoboGauge预测评估系统。通过仅依靠本体感觉信息，该方法在多种未知复杂地形中实现了稳定且高效的运动，并在高速测试中达到了4米/秒的速度，展示了其优越的性能和泛化能力。

Comments Accepted at Robotics Science and Systems (RSS), 2026. Project Page: https://robogauge.github.io/complete/

2602.00318 2026-05-12 cs.LG cs.AI cs.CR

Optimal Transport-Guided Adversarial Attacks on Graph Neural Network-Based Bot Detection

Kunal Mukherjee, Zulfikar Alom, Tran Gia Bao Ngo, Cuneyt Gurcan Akcora, Murat Kantarcioglu

AI总结随着社交媒体上机器人账户的增多，基于图神经网络（GNN）的机器人检测方法受到越来越多关注。然而，现有攻击方法在面对现实场景中的领域特定和时间约束时效果有限。为此，本文提出BOCLOAK方法，通过结合最优运输理论，系统评估GNN在边编辑和节点注入攻击下的鲁棒性，并在满足现实约束条件下实现高效的攻击，显著提升了攻击成功率，同时大幅降低了计算资源消耗，为对抗攻击与现实机器人检测之间的桥梁提供了轻量且原理清晰的框架。

Comments Accepted to Proceedings of the Forty-Third International Conference on Machine Learning (ICML) 2026

2601.23273 2026-05-12 cs.CL

UPA: Unsupervised Prompt Agent via Tree-Based Search and Selection

Siran Peng, Weisong Zhao, Tianyu Fu, Chenxu Zhao, Tianshuo Zhang, Haoyuan Zhang, Xiangyu Zhu, Minghui Wu, Zhen Lei

AI总结本文提出了一种无需监督奖励信号的提示优化方法UPA，通过树结构搜索与选择实现结构化提示空间的探索。UPA利用大型语言模型进行细粒度、位置偏差校正的成对比较，结合基于Bradley-Terry-Luce模型的两阶段框架，分别进行局部比较的贝叶斯聚合与全局竞赛式比较，从而在无监督环境下有效识别最优提示。实验表明，UPA在多个任务中优于现有方法，验证了其在无监督场景下的有效性。

2601.22320 2026-05-12 cs.LG stat.ML

Matrix Factorization for Practical Continual Mean Estimation Under User-Level Differential Privacy

Nikita P. Kalinin, Ali Najar, Valentin Roth, Christoph H. Lampert

AI总结本文研究了在用户级差分隐私保护下的连续均值估计问题，即在数据向量依次到达的情况下，如何持续准确地估计累积均值。为了解决这一问题，作者采用近似差分隐私框架，并结合矩阵分解机制，提出了一种专门用于均值估计的矩阵分解方法，该方法在保证隐私的同时，能够显著降低均值估计的均方误差，提升了实际应用中的估计精度与效率。

2601.21699 2026-05-12 cs.CL

Can David Beat Goliath? On Multi-Hop Reasoning with Resource-Constrained Agents

Hojae Han, Heeyun Jung, Jongyoon Kim, Seung-won Hwang

AI总结本文研究了在资源受限条件下，如何提升多跳推理代理的训练效率与效果。作者提出了一种名为 David-GRPO 的新方法，通过引入专家引导和证据引导的探索策略，有效利用小批量数据进行强化学习，从而提高推理深度和证据覆盖度。实验表明，在相同低预算条件下，该方法在多个多跳问答基准测试中优于现有强化学习基线。

Comments Preprint

2601.18823 2026-05-12 cs.LG

VAE with Hyperspherical Coordinates: Improving Anomaly Detection from Hypervolume-Compressed Latent Space

Alejandro Ascarate, Leo Lebrat, Rodrigo Santa Cruz, Clinton Fookes, Olivier Salvado

AI总结本文研究了如何通过引入超球坐标系改进变分自编码器（VAE）在异常检测中的性能。传统VAE在高维潜在空间中难以有效检测异常，因为潜在向量倾向于分布在超球体的“赤道”区域，导致检测困难。作者提出将潜在变量表示为超球坐标，从而压缩潜在空间体积并增强后验分布的表达能力，最终在多个真实世界和标准数据集上显著提升了无条件和有条件异常检测的效果。

2601.15065 2026-05-12 cs.CV

Enhancing Few-Shot Out-of-Distribution Detection via the Refinement of Foreground and Background

Tianyu Li, Zongqian Wu, Songyue Cai, Ping Hu, Xiaofeng Zhu

AI总结该论文针对少样本分布外检测（Few-Shot OOD Detection）中前景-背景分解方法的不足，提出了一种新的即插即用框架。该方法通过自适应背景抑制和可混淆前景修正两个核心模块，分别优化背景区域的分类熵权重和修正与其它类别相似的前景区域，从而提升检测性能。实验表明，该框架有效提升了现有方法在少样本场景下的分布外检测能力。

Comments arXiv preprint arXiv:2601.15065 (2026)

2601.11258 2026-05-12 cs.LG cs.AI cs.CL

Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Pingzhi Tang, Yiding Wang, Muhan Zhang

AI总结大型语言模型（LLMs）面临“知识截止”问题，即其固定参数难以直接吸收新信息。尽管监督微调（SFT）常用于更新模型知识，但往往无法有效提升模型对新知识的运用能力。本文提出参数技能迁移（PaST）框架，通过从源领域提取领域无关的技能向量，并在轻量级SFT后将其线性注入目标模型，实现高效且有效的知识适应。实验表明，PaST在问答和工具使用等任务中均取得显著提升，展示了其良好的可扩展性和跨领域迁移能力。

2601.02954 2026-05-12 cs.SD cs.AI

The World is Not Mono: Enabling Spatial Understanding in Large Audio-Language Models

Yuhuan You, Lai Wei, Xihong Wu, Tianshu Qu

AI总结这篇论文提出了一个名为“The World is Not Mono (TWNM)”的框架，旨在增强大型音频-语言模型对声音事件空间位置的理解能力。研究通过引入基于物理原理的First-Order Ambisonics（FOA）模拟，结合多通道音频学习空间感知表示，并融合语义特征，从而实现对声音场景的多层次分析。该方法在构建的基准测试中表现出色，显著提升了模型在空间定位、场景推理等任务上的性能。

Comments 25 pages, 4 figures

2601.02950 2026-05-12 cs.AI

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal

AI总结当前大型语言模型的推理系统通常独立处理每个查询，忽略了不同实例之间的共享推理模式和一致性约束等有价值的信息。本文提出了一种无需训练的Batch-of-Thought（BoT）方法，通过联合处理相关查询实现跨实例学习，从而提升推理质量并降低计算成本。实验表明，BoT在多个模型和基准测试中显著提高了准确性和置信度校准，同时减少了高达61%的推理成本。

2512.24863 2026-05-12 cs.CL cs.AI cs.CY

Big AI is accelerating the metacrisis: What can we do?

Steven Bird

AI总结当前世界正面临生态、意义和语言危机的叠加，即“元危机”，而大型人工智能（Big AI）正在加剧这一趋势。研究指出，尽管大型语言模型（LLM）的开发初衷具有公共利益导向，但其工程化应用却加剧了财富和权力的不平等，并对地球生态和人类生存构成威胁。文章呼吁自然语言处理领域从业者共同探索替代方案，推动以人类福祉和地球生命为中心的可持续发展路径。

Comments 12 pages, 2 figures, to appear in Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026), San Diego, July 2026

2512.19219 2026-05-12 cs.CV cs.AI

Selective LoRA for Visual Tokens and Attention Heads

Tiange Luo, Lajanugen Logeswaran, Jaekyeom Kim, Justin Johnson, Honglak Lee

AI总结本文提出了一种面向视觉任务的参数高效微调方法Image-LoRA，针对视觉语言模型（VLM）输入的异构性，将LoRA的更新限制在视觉token和部分注意力头的值路径上，从而减少可训练参数和计算量。该方法在视觉定位任务中表现优异，尤其在视觉token占比高的情况下，与标准LoRA相比具有更优的性能与效率平衡，并在多个任务上验证了其通用性和文本处理的稳定性。

2512.18928 2026-05-12 cs.LG

The Ensemble Schr{ö}dinger Bridge filter for Nonlinear Data Assimilation

Hui Sun

AI总结本文提出了一种新的非线性最优滤波方法，称为集合薛定谔桥非线性滤波器。该方法结合了标准的预测步骤与基于扩散生成模型的分析步骤，实现了完整的滤波更新过程，无需引入结构模型误差，且无需训练、无需求导、高度并行化。数值实验表明，该算法在高度非线性动力系统和观测过程下表现出色，包括高达40维以上的混沌系统，并在多种非线性程度的测试中优于经典的集合卡尔曼滤波和粒子滤波方法。

2512.18880 2026-05-12 cs.CL cs.AI cs.CY

Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou

AI总结本文探讨了大型语言模型（LLMs）是否能够准确估计学生在学习任务中的困难程度，这是教育评估中的关键问题。研究通过大规模实证分析发现，尽管LLMs在解决问题方面表现出色，但它们在模拟学生认知困难方面存在系统性偏差，且模型规模的扩大并不一定能提升难度估计的准确性。研究还指出，模型在预测自身局限性方面存在严重不足，表明当前模型的通用解题能力并不等同于对人类认知挑战的理解。

Comments ACL2026, camera-ready