arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2604.12812 2026-05-12 cs.AI

DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding

Hao Yan, Yuliang Liu, Xingchen Liu, Yuyi Zhang, Minghui Liao, Jihao Wu, Wei Chen, Xiang Bai

AI总结现有多模态大语言模型在处理长文档理解任务时，随着文档长度增加性能显著下降。为解决这一问题，本文提出了一种结构化的分析、定位与推理工作流，通过两阶段训练框架提升模型对关键证据的定位能力和推理准确性，并引入证据引导的资源分配策略以应对多页文档的训练内存限制。实验表明，DocSeeker 在领域内和领域外任务中均表现出优越性能，能够从短文档训练稳健推广到超长文档，并与视觉检索增强生成系统具有良好兼容性。

Comments CVPR 2026 Highlight

2604.12027 2026-05-12 cs.RO

3DRO: Lidar-level SE(3) Direct Radar Odometry Using a 2D Imaging Radar and a Gyroscope

Cedric Le Gentil, Daniil Lisus, Timothy D. Barfoot

AI总结本文提出了一种基于2D成像雷达和陀螺仪的三维直接雷达里程计方法3DRO，用于实现SE(3)空间中的六自由度运动估计。该方法在保留DRO框架中2D速度估计的基础上，结合陀螺仪在SO(3)上的三维旋转测量，实现了高精度的三维位姿估计。实验表明，该方法在Boreas-RT数据集上达到了与激光雷达相当的里程计精度。

Comments Accepted for presentation at the ICRA 2026 Workshop on Radar in Robotics (poster: https://drive.google.com/file/d/1P_iBrGxPiZL644B-dHxbvdY-UJUzd4Kp/view )

2604.11808 2026-05-12 cs.CV

Pair2Scene: Learning Local Object Relations for Procedural Scene Generation

Xingjian Ran, Shujie Zhang, Weipeng Zhong, Li Luo, Bo Dai

AI总结生成高保真度的室内3D场景由于数据稀缺和复杂空间关系建模的困难，仍是一个重大挑战。本文提出Pair2Scene，一种基于局部物体关系学习的程序化场景生成框架，通过结合局部规则、场景层次结构和物理算法，有效捕捉支撑关系和功能关系两种关键物体间交互模式。该方法利用自建的3D-Pairs数据集进行训练，在推理阶段通过递归应用模型并结合碰撞感知的拒绝采样，生成符合物理和语义合理性的复杂场景，显著优于现有方法。

Comments ICML 2026

2604.11087 2026-05-12 cs.LG

CausalGaze: Unveiling Hallucinations via Counterfactual Graph Intervention in Large Language Models

Linggang Kong, Lei Wu, Yunlong Zhang, Xiaofeng Zhong, Zhen Wang, Yongjie Wang, Yao Pan

AI总结尽管大语言模型（LLMs）取得了突破性进展，但幻觉问题仍然是其在高风险领域应用的关键瓶颈。为了解决现有方法依赖静态信号、忽视因果机制的问题，本文提出CausalGaze，一种基于结构因果模型的新型幻觉检测框架，通过反事实干预揭示模型内部的因果推理路径，提升模型可解释性。实验表明，CausalGaze在多个数据集和主流模型上均表现出优越的检测性能，尤其在TruthfulQA数据集上实现了3.3%的AUROC提升。

Comments Accepted as ACL2026 Findings

2604.08178 2026-05-12 cs.AI

Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling

Jiaxuan Wang, Yulan Hu, Wenjin Yang, Zheng Pan, Xin Li, Lan-Zhe Guo

AI总结本文提出Plan-RewardBench，一个用于评估智能体轨迹级奖励模型（RM）性能的基准，旨在解决当前在工具集成环境中缺乏专门评估RM能力的挑战。该基准涵盖四个任务类别，包含经过验证的正向轨迹和具有混淆性的负向轨迹，通过多种方式生成以测试模型区分能力。实验表明，现有奖励模型在处理长轨迹任务时表现显著下降，突显了在智能体系统中进行轨迹级奖励建模的必要性。

Comments accepted to ACL 2026 main conference

2604.08153 2026-05-12 cs.RO

Semantic-Aware UAV Command and Control for Efficient IoT Data Collection

Assane Sankara, Daniel Bonilla Licea, Hajar El Hammouti

AI总结本文研究了如何利用语义感知的无人机指挥与控制（C&C）技术，提高从物联网设备中高效采集图像数据的效率。提出了一种结合语义通信与无人机轨迹控制的框架，通过深度联合源信道编码生成图像的语义压缩表示，并采用基于双重深度Q学习的自适应飞行策略优化无人机轨迹，以最大化图像重建质量。实验表明，该方法在设备覆盖范围和语义重建质量方面优于传统方法。

Comments Accepted for publication at the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). v2: added clarification on the DDQN implementation and TSP algorithm

2604.06774 2026-05-12 cs.LG cs.AI math.FA

Sparse-Aware Neural Networks for Nonlinear Functionals: Mitigating the Exponential Dependence on Dimension

Jianfei Li, Shuo Huang, Han Feng, Ding-Xuan Zhou, Gitta Kutyniok

AI总结本文研究了如何利用稀疏性来解决函数空间中非线性泛函学习的高维难题。作者提出了一种结合卷积架构与全连接网络的框架，通过有限样本提取稀疏特征并有效逼近非线性泛函。该方法基于通用离散化技术，证明了稀疏近似器能够从离散样本中稳定恢复函数，并适用于确定性和随机采样方案，从而在多种函数空间中提升了逼近效率并降低了样本需求，为缓解高维学习中的维度灾难提供了新的理论见解。

2604.06473 2026-05-12 cs.LG

MICA: Multivariate Infini Compressive Attention for Time Series Forecasting

Willa Potosnak, Nina Żukowska, Michał Wiliński, Dan Howarth, Ignacy Stępka, Mononito Goswami, Artur Dubrawski

AI总结本文提出了一种名为MICA的多变量时间序列预测模型，旨在解决Transformer在处理高维时间序列时因跨通道注意力机制导致的计算复杂度过高的问题。MICA通过将高效的压缩注意力机制从序列维度扩展到通道维度，实现了对通道间依赖关系的建模，同时保持计算复杂度随通道数和上下文长度线性增长。实验表明，MICA在多个预测基准上显著降低了预测误差，并在多变量预测任务中优于现有深度Transformer和MLP模型，验证了其在可扩展性方面的优势。

2604.05064 2026-05-12 cs.LG cs.AI

Dynamic Linear Coregionalization for Realistic Synthetic Multivariate Time Series

Annita Vapsi, Penghang Liu, Saheed Obitayo, Aakriti, Manoj Cherukumalli, Prathamesh Patil, Amit Varshney, Nicolas Marchesotti, Elizabeth Fons, Vamsi K. Potluru, Manuela Veloso

AI总结该研究针对时间序列基础模型训练中合成数据缺乏真实多变量间动态相关性的不足，提出了一种动态线性共区域化模型DynLMC，能够生成具有时变相关结构和跨通道滞后关系的多变量时间序列。实验表明，使用DynLMC生成的数据对基础模型进行微调，能在多个基准任务中显著提升零样本预测性能，验证了动态建模在提升模型泛化能力中的重要性。

Comments ICLR 2026 Workshop on Time Series in the Age of Large Models

2604.03928 2026-05-12 cs.LG cs.AI cs.CV stat.ML

Supervised Dimensionality Reduction Revisited: Why LDA on Frozen CNN Features Deserves a Second Look

Indar Kumar, Girish Karhana, Sai Krishna Jasti, Ankit Hemant Lade

AI总结本文重新审视了在冻结的预训练卷积神经网络特征上应用监督降维方法的有效性，特别是线性判别分析（LDA）。研究对比了多种降维策略在多个视觉任务上的表现，发现LDA在粗粒度分类任务中能显著提升分类准确率并大幅降低特征维度，但在细粒度任务中效果较差。实验表明，LDA在类间结构较明显时表现优异，而对需要细微区分的任务则可能适得其反，为冻结特征分类流程中的降维应用提供了实用指导。

Comments 11 pages, 5 figures, 5 tables. Code available at https://github.com/IndarKarhana/lda-image-classification

2604.03883 2026-05-12 cs.LG cs.AI cs.SY eess.SY stat.ML

Regime-Calibrated Fleet Repositioning with a Spatial Queue-Regret Decomposition

Indar Kumar, Akanksha Tiwari

AI总结本文研究了网约车和自动驾驶按需出行运营商在未完全观测未来需求前对闲置运力进行再分配的问题，提出了一种基于历史需求模式校准的预测-优化方法。核心方法包括训练一个能减少需求误差、接单位置偏差和排队短缺风险的相似性门控，并构建了空间排队遗憾分解模型，以稳定队列代理模型分析需求场误差对等待时间的影响。实验表明，该方法在纽约市多个场景中有效降低了平均等待时间，优于传统调优方法和分布型基线。

Comments 13 pages, 4 figures, 8 tables. Code: https://github.com/IndarKarhana/regime-calibrated-dispatch

2604.02151 2026-05-12 cs.LG

Auction-Based Online Policy Adaptation for Evolving Objectives

Guruprerana Shabadi, Kaushik Mallik

AI总结本文研究了多目标强化学习中目标动态变化的问题，提出了一种基于拍卖机制的在线策略适应框架。该方法为每个目标设计一个局部策略，并通过拍卖机制协调策略执行，策略根据当前状态的紧急程度进行竞标，最高出价者决定动作选择，从而实现目标间的动态权衡。当目标发生变化时，系统只需增减对应策略即可快速适应，且同类型目标可复用参数化策略，提升运行时适应效率。实验表明，该方法在多个任务中优于传统单一策略方法。

Comments 22 pages, 8 figures

详情

英文摘要

We consider multi-objective reinforcement learning problems where objectives come from an identical family -- such as the class of reachability objectives -- and may appear or disappear at runtime. Our goal is to design adaptive policies that can efficiently adjust their behaviors as the set of active objectives changes. To solve this problem, we propose a modular framework where each objective is supported by a selfish local policy, and coordination is achieved through a novel auction-based mechanism: policies bid for the right to execute their actions, with bids reflecting the urgency of the current state. The highest bidder selects the action, enabling a dynamic and interpretable trade-off among objectives. Going back to the original adaptation problem, when objectives change, the system adapts by simply adding or removing the corresponding policies. Moreover, as objectives arise from the same family, identical copies of a parameterized policy can be deployed, facilitating immediate adaptation at runtime. We show how the selfish local policies can be computed by turning the problem into a general-sum Markov game, where the policies compete against each other to fulfill their own objectives. To succeed, each policy must not only optimize its own objective, but also reason about the presence of other goals and learn to produce calibrated bids that reflect relative priority. Under mild assumptions, we prove the existence of Nash equilibria where dishonest bidding leads to suboptimal outcome, and the most urgent objectives win control automatically. In our implementation, the policies are trained concurrently using proximal policy optimization (PPO). We evaluate on two Atari games and a gridworld-based path-planning task with dynamic targets. Our method achieves substantially better performance than monolithic policies trained with PPO.

URL PDF HTML ☆

赞 0 踩 0

2604.01824 2026-05-12 cs.CV

STRIVE: Structured Spatiotemporal Exploration for Reinforcement Learning in Video Question Answering

Emad Bahrami, Olga Zatsarynna, Parth Pathak, Sunando Sengupta, Juergen Gall, Mohsen Fayyaz

AI总结 STRIVE 是一种用于视频问答的结构化时空强化学习框架，旨在解决现有方法在奖励方差低、策略更新不稳定的问题。该方法通过构建输入视频的多个时空变体，并在文本生成和视觉变体之间进行联合归一化，从而丰富奖励信号并提升策略更新的稳定性。此外，STRIVE 引入了基于重要性的采样机制，确保探索过程语义相关且保持时间覆盖，实验表明其在多个视频推理基准上优于现有强化学习方法。

2603.28254 2026-05-12 cs.LG stat.ML

MuonEq: Balancing Before Orthogonalization with Lightweight Equilibration

Da Chang, Qiankun Shi, Lvgang Zhang, Yu Li, Ruijie Zhang, Yao Lu, Yongxiang Liu, Ganzhao Yuan

AI总结本文提出了一种名为MuonEq的轻量级预正交化均衡方法，用于改进矩阵参数优化中的正交化更新策略。该方法在正交化之前对动量矩阵进行行或列归一化，从而提升正交化过程中的几何特性，改善训练效果。实验表明，MuonEq在多个大规模语言模型的预训练任务中表现优于原有方法，具有更快的收敛速度和更低的验证困惑度。

2603.27977 2026-05-12 cs.AI

SARL: Label-Free Reinforcement Learning by Rewarding Reasoning Topology

Yifan Wang, Bolian Li, David Cho, Ruqi Zhang, Fanping Sui, Ananth Grama

AI总结该研究提出了一种无需标签的强化学习框架SARL，旨在提升大型推理模型的通用推理能力。不同于传统方法关注推理结果，SARL通过奖励推理过程的结构拓扑，引导模型学习更合理、连贯的推理路径。实验表明，SARL在多个数学和开放性任务中均优于现有无监督强化学习方法，且训练过程更加稳定和具有探索性。

2603.25561 2026-05-12 cs.LG

An Integrative Genome-Scale Metabolic Modeling and Machine Learning Framework for Predicting and Optimizing Single-Cell Protein Production in Saccharomyces cerevisiae

Neha K. Nair, Aaron D'Souza

AI总结本研究提出了一种结合基因组规模代谢模型（GEM）与机器学习的计算框架，用于预测和优化酿酒酵母中单细胞蛋白（SCP）的产量。通过整合Yeast9代谢模型与随机森林、变分自编码器和贝叶斯优化等方法，研究识别了影响SCP合成的关键代谢反应，并实现了生物量通量的显著提升。该框架为SCP生产提供了系统性的预测与优化策略，具有重要的工业应用价值。

Comments 22 pages, 7 figures, and 4 tables

2603.25074 2026-05-12 cs.CV

Z-Erase: Enabling Concept Erasure in Single-Stream Diffusion Transformers

Nanxiang Jiang, Zhaoxin Fan, Baisen Wang, Daiheng Gao, Junhang Cheng, Jifeng Guo, Yalan Qin, Yeying Jin, Hongwei Zheng, Faguo Wu, Wenjun Wu

AI总结 Z-Erase 是一种针对单流扩散变压器（如 Z-Image）设计的概念擦除方法，旨在从文本到图像模型中安全地去除不需要的概念。该方法提出了流解耦概念擦除框架和拉格朗日引导的自适应擦除调制算法，有效解决了单流模型中直接应用传统擦除方法导致的生成崩溃问题，并在多项任务中取得了最先进的性能。

2603.21362 2026-05-12 cs.AI cs.CL

AdaRubric: Task-Adaptive Rubrics for Reliable LLM Agent Evaluation and Reward Learning

Liang Ding

AI总结 AdaRubric 是一种任务自适应的评估框架，旨在解决大语言模型代理评估中任务相关性不足的问题。该方法通过从任务描述中自动生成任务特定的评估标准，结合置信度加权的分项评分和密集奖励信号生成，提升了评估的准确性和可靠性。实验表明，AdaRubric 在多个基准上显著优于现有方法，并且能够零样本推广到新领域和多模态代理任务。

Comments KnowFM @ ACL 2026

2603.21357 2026-05-12 cs.AI cs.CL

AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling

Liang Ding

AI总结本文提出了一种名为 AgentHER 的方法，通过将 hindsight experience replay（HER）应用于大语言模型代理的自然语言轨迹，将失败的轨迹重新标记为替代目标的正确示例，从而提升训练效率。该方法采用四阶段流程，将废弃的失败轨迹转化为监督微调、直接偏好优化和 ShareGPT 的训练数据，显著提高了模型在 WebArena 和 ToolBench 任务上的性能。实验表明，AgentHER 在多个模型上实现了更高的样本效率和性能提升，并通过鲁棒性机制有效降低了标签噪声。

2603.16869 2026-05-12 cs.CV

SegviGen: Repurposing 3D Generative Model for Part Segmentation

Lin Li, Haoran Feng, Zehuan Huang, Haohua Chen, Wenbo Nie, Shaohua Hou, Keqing Fan, Pan Hu, Sheng Wang, Buyu Li, Lu Sheng

AI总结本文提出了一种名为SegviGen的框架，通过重用预训练的3D生成模型，实现高效的3D部件分割。该方法利用生成模型中编码的结构先验知识，通过独特的部件着色策略引导分割过程，避免了传统方法中多视角不一致和边界模糊的问题。实验表明，SegviGen在交互式分割和全分割任务中分别优于现有最佳方法40%和15%，且仅需极少量的标注数据，展示了预训练3D生成模型在部件分割任务中的强大迁移能力。

Comments Project page: https://fenghora.github.io/SegviGen-Page/

2603.14937 2026-05-12 cs.LG cs.CL

LLM as Graph Kernel: Rethinking Message Passing on Text-Rich Graphs

Ying Zhang, Hang Yu, Haipeng Zhang, Peng Di

AI总结本文研究了如何在富含文本信息的图中更有效地进行结构关系推理，提出了一种将大语言模型（LLM）作为图核的新方法。核心方法RAMP通过原始文本锚定的消息传递机制，将LLM直接作为图的聚合算子，避免了传统方法对文本信息的压缩与丢失。该方法在统一生成框架下处理判别和生成任务，实验表明其在图传播与深度文本推理之间取得了良好效果，为LLM在图学习中的应用提供了新思路。

Comments 23 pages, 5 figures

2603.14107 2026-05-12 cs.LG cs.AI cs.CE cs.ET cs.NE

ST-ResGAT: Explainable Spatio-Temporal Graph Neural Network for Road Condition Prediction and Priority-Driven Maintenance

Mohsin Mahmud Topu, Azmine Toushik Wasi, Mahfuz Ahmed Anik, MD Manjurul Ahsan

AI总结本文提出了一种名为ST-ResGAT的可解释时空图神经网络，用于预测道路状况并制定优先级驱动的维护策略。该方法结合残差图注意力编码与GRU时间聚合，能够准确预测路面退化情况，并直接生成符合ASTM标准的维护优先级。实验表明，ST-ResGAT在真实数据集上取得了优异的预测性能，同时通过图解释技术验证了模型决策与工程理论的一致性，为高风险、低资源地区的智能基础设施管理提供了实用且可持续的解决方案。

Comments 40 Pages. 10 Tables. 8 Figures

详情

DOI: 10.1093/iti/liag006
Journal ref: Intelligent Transportation Infrastructure, 2026

英文摘要

Climate-vulnerable road networks require a paradigm shift from reactive, fix-on-failure repairs to predictive, decision-ready maintenance. This paper introduces ST-ResGAT, a novel Spatio-Temporal Residual Graph Attention Network that fuses residual graph-attention encoding with GRU temporal aggregation to forecast pavement deterioration. Engineered for resource-constrained deployment, the framework translates continuous Pavement Condition Index (PCI) forecasts directly into the American Society for Testing and Materials (ASTM)-compliant maintenance priorities. Using a real-world inspection dataset of 750 segments in Sylhet, Bangladesh (2021-2024), ST-ResGAT significantly outperforms traditional non-spatial machine learning baselines, achieving exceptional predictive fidelity (R2 = 0.93, RMSE = 2.72). Crucially, ablation testing confirmed the mathematical necessity of modeling topological neighbor effects, proving that structural decay acts as a spatial contagion. Uniquely, we integrate GNNExplainer to unbox the model, demonstrating that its learned priorities align perfectly with established physical engineering theory. Furthermore, we quantify classification safety: achieving 85.5% exact ASTM class agreement and 100% adjacent-class containment, ensuring bounded, engineer-safe predictions. To connect model outputs to policy, we generate localized longitudinal maintenance profiles, perform climate stress-testing, and derive Pareto sustainability frontiers. ST-ResGAT therefore offers a practical, explainable, and sustainable blueprint for intelligent infrastructure management in high-risk, low-resource geological settings.

URL PDF HTML ☆

赞 0 踩 0

2603.13131 2026-05-12 cs.AI

MineEvolve: Self-Evolution with Accumulated Knowledge for Long-Horizon Embodied Minecraft Agents

Zhengwei Xie, Zhisheng Chen, Ziyan Weng, Jinhan Li, Chenglong Li, Zikai Xiao, Jingwei Song, Jinhao Jing, Vireo Zhang, Kun Wang

AI总结本文提出了一种名为 MineEvolve 的知识驱动型自进化框架，旨在提升长时域环境下 Minecraft 代理的自主学习与任务执行能力。该框架通过将执行过程中的反馈转化为结构化的行为知识，帮助代理在遇到失败或停滞时自动调整策略，从而逐步优化其行为。实验表明，MineEvolve 显著提升了多种语言模型规划器在长时域任务中的表现，尤其在依赖关系复杂的任务中效果更为明显。

2603.07686 2026-05-12 cs.RO cs.CV

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao

AI总结该论文提出了一种名为UniUncer的统一动态静态不确定性框架，用于端到端自动驾驶系统，旨在提升系统对环境不确定性的感知与应对能力。该方法通过将确定性模型转换为概率回归模型，同时引入不确定性融合模块和不确定性感知门控机制，实现了对静态地图元素和动态交通参与者不确定性的联合建模与利用。实验表明，UniUncer在多个基准数据集上有效提升了轨迹预测和驾驶决策的性能，且计算开销极小。

Comments Accepted ICRA 2026

2603.02678 2026-05-12 cs.LG cs.ET cs.HC stat.ME stat.ML

Causal Discovery Should Embrace the Wisdom of the Crowd

Ryan Feng Lin, Yuantao Wei, Huiling Liao, Xiaoning Qian, Shuai Huang

AI总结本文提出了一种基于“群体智慧”的因果学习新范式，主张通过整合多人提供的分散且可能带有噪声的因果知识来构建全局因果结构。研究引入了众包平台、专家知识获取与聚合技术以及大语言模型辅助的信息获取等手段，构建了一个涵盖知识获取、建模、聚合与优化的群体因果学习框架。该方法为因果学习提供了新的研究方向，同时也带来了跨学科合作的机遇与挑战。

2603.00918 2026-05-12 cs.CV cs.AI

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

Seungwook Kim, Minsu Cho

AI总结本文提出了一种名为SOLACE的后训练框架，用于提升文本到图像生成的质量。该方法通过模型自身对生成图像进行重噪声处理，并衡量其恢复噪声的准确性，从而生成内在的自信信号作为强化学习的奖励，无需外部奖励模型或人工标注。实验表明，SOLACE在组合生成、文本渲染和图文对齐等方面均取得了一致性提升，并能与外部奖励结合实现互补改进。

Comments 22 pages, accepted to CVPR 2026. Project page https://wookiekim.github.io/SOLACE/

2603.00166 2026-05-12 cs.CV cs.AI

Exploring the AI Obedience: Why is Generating a Pure Color Image Harder than CyberPunk?

Hongyu Li, Kuan Liu, Yuan Chen, Juntao Hu, Huimin Lu, Guanjie Chen, Xue Liu, Guangming Lu, Hong Huang

AI总结本文探讨了生成式AI在执行简单任务时表现出的“简洁性悖论”，即模型在生成复杂场景时表现优异，却难以完成如生成纯色图像等简单任务。研究提出“AI服从性”概念，构建了一个分层评估框架，并设计了首个系统性基准Violin，用于评估模型从概率近似到像素级确定性的转换能力。实验表明，闭源模型在确定性任务上的表现优于开源模型，且其性能与自然图像生成能力存在相关性，为理解模型指令对齐问题提供了基础框架和工具。

2602.22508 2026-05-12 cs.AI

Metacognitive Behavioral Tuning of Large Language Models for Multi-Hop Question Answering

Ik-hwan Kim, Hyeongrok Han, Mingi Jung, Sangwon Yu, Jinseok Hong, Sang Hun Kim, Yoonyoung Choi, Sungroh Yoon

AI总结本文研究了大语言模型在多跳问答任务中即使已有正确中间结论仍会给出错误答案的问题，认为其根源在于模型自我调节能力不足。为此，提出了一种名为“元认知行为调优”（MBT）的后训练框架，通过注入五阶段元认知结构来增强推理过程的自我调控能力。实验表明，MBT在多个基准数据集上取得了最高的准确率-效率得分，同时显著缩短了推理轨迹长度并减少了冗余，验证了其结构先验的有效性。

Comments 41 pages

2602.21581 2026-05-12 cs.CV

MultiAnimate: Pose-Guided Image Animation Made Extensible

Yingcheng Hu, Haowen Gong, Chuanguang Yang, Zhulin An, Yongjun Xu, Songhua Liu

AI总结本文提出了一种可扩展的多角色图像动画框架 MultiAnimate，旨在解决基于姿势引导的多角色视频生成中身份混淆和不合理遮挡的问题。该方法基于现代扩散变换器（DiT），引入了身份分配器和身份适配器两个关键组件，用于捕捉个体位置信息和角色间空间关系，从而提升模型的灵活性和泛化能力。实验表明，该方法在多角色图像动画任务中取得了优于现有扩散模型的最先进性能。

Comments CVPR2026 Accepted. Project page at https://hyc001.github.io/MultiAnimate/

2602.17283 2026-05-12 cs.CL cs.AI

Towards Cross-lingual Values Judgment: A Consensus-Pluralism Perspective

Yukun Chen, Xinyu Zhang, Boyi Deng, Jialong Tang, Yu Wan, Fei Huang, Yuxi Zhou, Baosong Yang, Yiming Li

AI总结随着大语言模型在全球范围内的广泛应用，现有对其多语言能力的评估体系主要关注事实任务表现，忽视了跨语言内容深层价值观判断的能力。为此，本文从文化多样性和学科复杂性两个核心挑战出发，提出了一种两阶段的人机协作标注框架，构建了首个跨语言价值观判断基准X-Value，包含14种语言的4750个问答对及12项细粒度标注元数据，系统评估了17个大语言模型在跨语言价值观判断任务中的表现，揭示了其在不同类别和语言间的性能差异，突显了提升模型价值观判断能力的迫切性。