arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.13370 2026-05-14 cs.LG cs.CL

Phasor Memory Networks: Stable Backpropagation Through Time for Scalable Explicit Memory

Sungwoo Goo, Hwi-yeol Yun, Sangkeun Jung

AI总结本文提出了一种名为“Phasor Memory Network（PMNet）”的新架构，旨在解决显式记忆模型在语言建模中因反向传播时梯度不稳定而导致的训练困难问题。该方法通过引入单位相位动力学和分层可学习锚点，结构化地稳定了记忆模块的更新过程，从而在无需特殊初始化的情况下保持梯度稳定性。实验表明，PMNet在合成复制粘贴任务中能够实现几乎100%的精确记忆检索，并在参数规模仅为Mamba模型三分之一的情况下，展现出相当的长上下文处理能力，为可扩展序列建模提供了理论支撑。

2605.13368 2026-05-14 cs.CL

What Does LLM Refinement Actually Improve? A Systematic Study on Document-Level Literary Translation

Shaomu Tan, Dawei Zhu, Ke Tran, Michael Denkowski, Sony Trenous, Bill Byrne, Leonardo Ribeiro, Felix Hieber

AI总结本文系统研究了迭代自修正策略在文学翻译中的实际效果，探讨了不同粒度和策略对翻译质量的影响。研究发现，先进行文档级机器翻译，再进行片段级修正能带来稳定且显著的提升，而文档级修正效果较弱且不可靠。实验还表明，通用的修正提示优于特定错误修正和评估后修正方法，且修正主要提升了流畅性、风格和术语，对内容准确性提升有限。这些发现揭示了当前修正方法的机制及其局限性。

2605.13366 2026-05-14 cs.CV cs.LG

Neural Surrogate Forward Modelling For Electrocardiology Without Explicit Intracellular Conductivity Tensor

Shaheim Ogbomo-Harmitt, Cesare Magnetti, Jakub Grzelak, Oleg Aslanidi

AI总结该研究针对无创心脏电生理学中的正向建模问题，提出了一种无需显式输入细胞内导电张量的深度学习方法，用于直接从左心房细胞内电位预测远场心电图。该方法通过深度学习模型学习电位与心电图之间的映射关系，避免了传统物理模型中难以测量的导电张量带来的结构误差。实验表明，该模型在仅使用74个受试者数据训练的情况下，取得了较高的预测精度（R²为0.949 ± 0.037），展示了其在改善房颤无创评估中的潜力。

Comments Accepted into the 9th International Conference on Computational and Mathematical Biomedical Engineering (CMBE2026)

2605.13352 2026-05-14 cs.LG

GeoFlowVLM: Geometry-Aware Joint Uncertainty for Frozen Vision-Language Embedding

Mayank Nautiyal, Li Ju, Andreas Hellander, Ekta Vats, Prashant Singh

AI总结 GeoFlowVLM 是一种后处理方法，旨在为冻结的视觉-语言嵌入模型引入几何感知的联合不确定性估计。该方法通过黎曼流匹配在超球面乘积空间上学习配对嵌入的联合分布，从而同时捕捉跨模态的模糊性（aleatoric uncertainty）和训练分布外的不确定性（epistemic uncertainty）。该模型能够生成条件检索熵和边际典型性分数，分别用于衡量模糊性和知识不确定性，并在多个检索和零样本分类任务中表现出良好的校准性能。

2605.13349 2026-05-14 cs.CV

Drag within Prior Distribution: Text-Conditioned Point-Based Image Editing within Distribution Constraints

Haoyang Hu, Masataka Seo, Yen-Wei Chen

AI总结本文研究了在扩散模型框架下，如何在保持图像语义一致性和分布约束的前提下，实现基于文本条件的点编辑。为了解决传统点编辑方法中轨迹模糊、编辑范围过大导致的不自然伪影等问题，作者引入了基于CLIP的引导机制和先验保持损失函数，确保编辑过程在扩散先验分布范围内进行。同时，提出了一种方向加权的点追踪机制，提升了细粒度编辑的准确性和生成质量。

Comments ICASSP 2026 oral

2605.13346 2026-05-14 cs.LG

Contextual Bandits for Resource-Constrained Devices using Probabilistic Learning

Marco Angioli, Kevin Johansson, Antonello Rosato, Amy Loutfi, Denis Kleyko

AI总结本文研究了在资源受限设备上高效部署上下文多臂老虎机算法的问题，提出了一种基于概率更新规则的高维上下文多臂老虎机方法（probabilistic HD-CB）。该方法通过随机更新部分向量分量并结合时间衰减更新概率，避免了传统高维方法中因累积操作导致的精度问题和溢出风险，同时降低了计算和存储开销。实验表明，该方法在相同精度下性能优于二值化高维方法，且在少量比特数下接近原高维方法的性能。

2605.13345 2026-05-14 cs.AI cs.MA

Multi-Agent Systems in Emergency Departments: Validation Study on a ED Digital Twin

Markus Wenzel, Tobias Strapatsas, Jessika Kress, Dorothea Sauer, Nele Gessler, Horst K. Hahn

AI总结该研究针对急诊科在患者护理和资源管理方面面临的挑战，提出了一种结合离散事件仿真（DES）和基于代理的模型（ABM）的混合仿真方法，用于构建高度可配置的急诊科数字孪生系统。通过验证模型在不同规模、患者流量和人员配置下的表现，并与实际数据对比，证明了该模型能够有效模拟真实急诊环境下的运行动态。此外，研究还引入了一个基于时间事件记录的多智能体系统，可自主探索资源分配策略，为急诊科资源优化提供了有力的仿真工具。

2605.12088 2026-05-14 cs.CV

UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation

Yiyan Xu, Qiulin Wang, Wenjie Wang, Yunyao Mao, Xintao Wang, Pengfei Wan, Kun Gai, Fuli Feng

AI总结本文研究了多参考图像生成问题，即在文本指令引导下生成图像并忠实保留多个参考图像中的主体身份和外观细节。现有方法通常将语义和外观特征分离处理，导致模型难以正确关联主体与对应参考图像的细节，从而引发属性泄露和跨参考混淆。为此，作者提出UniCustom框架，在视觉语言模型编码前融合ViT和VAE特征，使模型能够同时学习主体语义和外观信息，并通过两阶段训练策略和槽位绑定正则化进一步提升生成质量。实验表明，UniCustom在多个基准上显著优于现有方法。

详情

英文摘要

Multi-reference image generation aims to synthesize images from textual instructions while faithfully preserving subject identities from multiple reference images. Existing VLM-enhanced diffusion models commonly rely on decoupled visual conditioning: semantic ViT features are processed by the VLM for instruction understanding, whereas appearance-rich VAE features are injected later into the diffusion backbone. Despite its intuitive design, this separation makes it difficult for the model to associate each semantically grounded subject with visual details from the correct reference image. As a result, the model may recognize which subject is being referred to, but fail to preserve its identity and fine-grained appearance, leading to attribute leakage and cross-reference confusion in complex multi-reference settings. To address this issue, we propose UniCustom, a unified visual conditioning framework that fuses ViT and VAE features before VLM encoding. This early fusion exposes the VLM to both semantic cues and appearance-rich details, enabling its hidden states to jointly encode the referred subject and corresponding visual appearance with only a lightweight linear fusion layer. To learn such unified representations, we adopt a two-stage training strategy: reconstruction-oriented pretraining that preserves reference-specific appearance details in the fused hidden states, followed by supervised finetuning on single- and multi-reference generation tasks. We further introduce a slot-wise binding regularization that encourages each image slot to preserve low-level details of its corresponding reference, thereby reducing cross-reference entanglement. Experiments on two multi-reference generation benchmarks demonstrate that UniCustom consistently improves subject consistency, instruction following, and compositional fidelity over strong baselines.

URL PDF HTML ☆

赞 0 踩 0

2605.12072 2026-05-14 cs.CV

PairDropGS: Paired Dropout-Induced Consistency Regularization for Sparse-View Gaussian Splatting

Hantang Li, Qiang Zhu, Xiandong Meng, Xingtao Wang, Debin Zhao, Xiaopeng Fan

AI总结 PairDropGS 是一种基于配对 dropout 的一致性正则化方法，旨在提升稀疏视角下高斯溅射（Gaussian Splatting）的重建稳定性与质量。该方法通过从共享高斯场中构造配对的 dropout 子集，并引入低频一致性正则化，以保持场景布局和粗略几何结构的稳定性，同时避免对高频细节的过度约束。此外，PairDropGS 还采用渐进式一致性调度策略，增强训练过程中的鲁棒性，实验表明其在多个基准数据集上均取得了优于现有方法的重建效果。

Comments 11 pages,8 figures

2605.11726 2026-05-14 cs.LG

Block-R1: Rethinking the Role of Block Size in Multi-domain Reinforcement Learning for Diffusion Large Language Models

Yan Jiang, Ruihong Qiu, Zi Huang

AI总结本文研究了在多领域扩散大语言模型（dLLMs）的强化学习（RL）后训练中，块大小对性能的影响，并从领域冲突的角度出发，提出了块大小冲突的概念。研究构建了一个新的数据集Block-R1-41K和基准Block-R1，用于支持单领域和跨领域的RL后训练，并提出了一种基于样本级最优块大小的跨领域训练方法。实验覆盖了13个数据集、7种最新RL算法和多种dLLM模型，验证了方法的有效性。

2605.11231 2026-05-14 cs.LG cs.AI

LiBaGS: Lightweight Boundary Gap Synthesis for Targeted Synthetic Data Selection

Abhishek Moturu, Anna Goldenberg, Babak Taati

AI总结本文提出了一种名为LiBaGS的轻量级合成数据选择方法，旨在针对特定任务选择具有代表性的合成样本以补充训练分布的不足。该方法结合了决策边界距离、预测不确定性、真实数据密度和支撑有效性等多个指标，以筛选出信息量大且贴近真实数据流形的样本。通过边界间隙分配规则和边际价值停止准则，LiBaGS能够高效地选择稀疏但真实的边界邻域样本，提升模型在下游任务中的准确率。

2605.10556 2026-05-14 cs.CV cs.LG

EnergyLens: Interpretable Closed-Form Energy Models for Multimodal LLM Inference Serving

Vittorio Palladino, Gianluca Palermo, Michael E. Papka, Zhiling Lan

AI总结随着大语言模型架构日益多样化，并在异构加速器上处理多模态工作负载，优化推理能耗已成为与延迟和吞吐量同样关键的问题。现有方法要么将延迟作为能耗代理，要么依赖数据密集的黑箱模型，均难以适应不同的并行策略。本文提出EnergyLens，通过符号回归从性能剖析数据中推导出一个包含12个参数的闭式能耗模型，能够准确描述系统特性如并行度、批大小和序列长度对能耗的影响，其预测结果具有物理可解释性，并且仅需少量的剖析样本即可实现高精度的配置选择和跨硬件平台的泛化能力。

Comments 10 pages

2605.10415 2026-05-14 cs.CL

Aligning LLM Uncertainty with Human Disagreement in Subjectivity Analysis

Junyu Lu, Deyi Ji, Xuanyi Liu, Lanyun Zhu, Bo Xu, Liang Yang, Xian-Sheng Hua, Hongfei Lin

AI总结本文研究了在主观性分析任务中如何使大语言模型的不确定性与人类判断的分歧相一致。传统方法使用聚合标签训练模型，忽略了低一致性样本的内在不确定性，导致模型预测过于自信。为此，作者提出了一个两阶段的DPUA框架，通过感知人类分歧并调整模型不确定性，既保持了任务性能，又提升了模型在边界样本上的可靠性与分布外泛化能力。

2605.09505 2026-05-14 cs.AI

EpiGraph: Building Generalists for Evidence-Intensive Epilepsy Reasoning in the Wild

Yuyang Dai, Zheng Chen, Jathurshan Pradeepkumar, Yasuko Matsubara, Jimeng Sun, Yasushi Sakurai, Yushun Dong

AI总结该研究提出了EpiGraph，一个大规模的癫痫知识图谱和评估基准，旨在提升基于证据的临床推理能力。EpiGraph整合了48,166篇同行评审论文和七项临床资源，构建了一个包含24,324个实体和32,009个证据支持三元组的异构图谱，并基于此定义了五个临床任务用于评估模型性能。实验表明，结合EpiGraph的大型语言模型在多项任务中表现显著提升，尤其在药理基因组学推理方面提升了30%至41%，验证了结构化知识对增强临床推理能力的有效性。

2605.09415 2026-05-14 cs.AI

Strategic commitments shape collective cybersecurity under AI inequality

Adeela Bashir, Zia Ush Shamszaman, Zhao Song, Matjaz Perc, The Anh Han

AI总结随着人工智能在网络安全中的广泛应用，攻防双方的力量对比正在发生变化。本文研究了在AI防御工具获取不均的情况下，资源有限的防御者难以有效保护系统所带来的安全风险，并提出通过引入有承诺的防御者和针对性补贴，可以显著提升整体防御能力并增强系统韧性。研究还表明，这种策略不仅能提高防御者的安全收益，还能有效抑制攻击者的获利空间，为AI驱动环境下的网络安全政策制定提供了理论支持。

Comments 26 pages, 16 figures

2605.09134 2026-05-14 cs.AI cs.SE

BoostAPR: Boosting Automated Program Repair via Execution-Grounded Reinforcement Learning with Dual Reward Models

Yuanhao Li, Hongbo Wang, Xiaotang Shang, Xunzhu Tang, Yiming Cao, Xuhong Chen

AI总结 BoostAPR 是一种基于执行引导的强化学习框架，旨在解决程序修复中反馈稀疏和奖励粒度过粗的问题。该方法通过三个阶段进行优化：首先在带有推理轨迹的执行验证演示上进行监督微调，然后从执行结果中训练双奖励模型，分别用于评估序列级和行级的修复效果，最后通过PPO算法进行优化，将行级奖励重新分配给关键的代码修改区域。实验表明，BoostAPR 在多个基准测试中取得了优异的修复效果，并展现出良好的跨语言泛化能力。

Comments 21 pages, 2 figures. Accepted at ICML 2026

2605.09020 2026-05-14 cs.CV

The Direct Integration Theorem: A Rigorous Framework for Consistent Discrete Solutions of the Inverse Radon Problem

Mikhail G. Mozerov

AI总结本文提出了一种新的直接积分定理（DIT），作为经典中心切片定理（CST）的非平凡推论，为连续域到离散域的数学一致转换提供了严谨的框架，解决了计算断层成像中的根本性难题。该方法无需传统 ramp 滤波和频率域插值，避免了零频奇点和谱失真等问题，并实现了基于采样参数和网格几何的准精确重建。实验表明，该方法在图像方差保持、重建质量及重投影保真度方面优于传统滤波反投影（FBP）方法，显著提升了图像的统计特性还原能力。

Comments Submitted to IEEE TPAMI. Code and data available at https://github.com/Mozerov-iitp/radon-dit/

2605.07653 2026-05-14 cs.CV eess.IV

Aquatic Neuromorphic Optical Flow

Pei Zhang, Yunkai Liang, Kaiqiang Wang

AI总结本文研究了水下环境中基于神经形态视觉的光流估计问题，提出了一种基于脉冲神经网络的自监督框架，能够从异步事件流中高效估计逐像素光流，有效克服了水下数据稀缺的瓶颈。该方法在保证视觉和定量性能的同时，显著提升了计算效率，为资源受限的水下边缘平台提供了轻量、实时且低成本的感知解决方案。

Comments This work is under review. Project page: https://github.com/pz-even/event_underwater_optical_flow

2605.06651 2026-05-14 cs.AI

AI co-mathematician: Accelerating mathematicians with agentic AI

Daniel Zheng, Ingrid von Glehn, Yori Zwols, Iuliya Beloshapka, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Bogdan Georgiev, Tatiana Schmidt, Andrew Cowie, Fernanda Viegas, Dimitri Kanevsky, Vineet Kahlon, Hartmut Maennel, Sophia Alj, George Holland, Alex Davies, Pushmeet Kohli

AI总结本文介绍了“AI co-mathematician”，一个辅助数学家进行开放式研究的智能工作平台。该系统通过异步、状态化的交互方式，支持数学研究中的各个环节，如想法生成、文献检索、计算探索和定理证明，并能有效管理不确定性、追踪失败假设并生成原生数学成果。实验表明，该系统不仅提升了数学研究效率，还在多个难题求解基准测试中取得了优异成绩。

Comments 23 pages; several citations added

2605.04557 2026-05-14 cs.CV cs.AI

Efficient Geometry-Controlled High-Resolution Satellite Image Synthesis

Vlad Vasilescu, Daniela Faur, Teodor Costachioiu

AI总结本文研究了如何高效生成受几何控制的高分辨率卫星图像，以解决该类图像稀缺且成本高昂的问题，这对土地覆盖分类、变化检测和灾害监测等任务的模型开发与测试造成阻碍。作者提出了一种基于现有预训练扩散模型的方法，通过引入窗口交叉注意力模块，仅利用跳跃连接特征实现对生成过程的控制，方法简洁高效。实验表明，该方法在性能上与现有控制技术相当，且在几何控制图对齐方面表现更优，同时指出现有评估方法的局限性，强调了对齐评估一致性的重要性。

Comments 2026 IEEE International Geoscience and Remote Sensing Symposium (IGARSS)

2605.02752 2026-05-14 cs.CV

Does it Really Count? Assessing Semantic Grounding in Text-Guided Class-Agnostic Counting

Giacomo Pacini, Luca Ciampi, Nicola Messina, Nicola Tonellotto, Giuseppe Amato, Fabrizio Falchi

AI总结本文研究了开放世界文本引导的类别无关计数（CAC）任务中语义对齐的问题，指出当前模型在理解文本提示与视觉场景之间关系时存在不足，导致计数结果不可靠。为此，作者提出了一种新的评估框架PrACo++，包含负标签测试和干扰项测试等新协议，并构建了包含多类别标注的MUCCA数据集。实验表明，尽管现有模型在标准指标上表现良好，但在语义理解与对齐方面仍存在明显缺陷，突显了构建更具语义感知能力模型的重要性。

Comments Code available at https://github.com/ciampluca/PrACo

详情

英文摘要

Open-world text-guided class-agnostic counting (CAC) has emerged as a flexible paradigm for counting arbitrary object classes by using natural language prompts. However, current evaluation protocols primarily focus on standard counting errors within single-category images, overlooking a fundamental requirement: the ability to correctly ground the textual prompt in the visual scene. In this paper, we show that several state-of-the-art CAC models often struggle to determine which object class should be counted based on the given prompt, revealing a misalignment between textual semantics and visual object representations. This limitation leads to spurious counting responses and reduced reliability in real-world scenarios. To systematically address these limitations, we propose a new evaluation framework focused on model robustness and trustworthiness. Our contribution is two-fold: (i) we introduce PrACo++ (Prompt-Aware Counting++), a novel test suite featuring two dedicated evaluation protocols -- the negative-label test and the distractor test -- paired with new specialized metrics; and (ii) we present the MUCCA (MUlti-Category Class-Agnostic counting) evaluation dataset, a new collection of real-world images featuring multiple annotated object categories per scene, unlike existing CAC benchmarks that typically include a single category per image. Our extensive experimental evaluation of 10 state-of-the-art methods shows that, despite strong performance under standard counting metrics, current models exhibit significant weaknesses in understanding and grounding object class descriptions. Finally, we provide a quantitative analysis of how semantic similarity between prompts influences these failures. Overall, our results underscore the need for more semantically grounded architectures and offer a reliable framework for future assessment in open-world text-guided CAC methods.

URL PDF HTML ☆

赞 0 踩 0

2605.02521 2026-05-14 cs.CV

MooD: Perception-Enhanced Efficient Affective Image Editing via Continuous Valence-Arousal Modeling

Xinyi Yin, Yiduo Wang, Tingqi Hu, Meicong Si, Yunyun Shi, Shi Chen, Hao Wang, Junxiao Xue, Xuecheng Wu

AI总结本文提出MooD，一种基于连续愉悦-唤醒（Valence-Arousal）模型的感知增强型高效情感图像编辑框架，旨在解决现有情感图像编辑方法在推理效率和连续情感建模方面的不足。MooD通过引入VA感知检索策略和融合视觉迁移与感知增强语义引导，实现了细粒度且高效的可控情感编辑。同时，为弥补现有数据集对自然场景覆盖不足的问题，研究者构建了涵盖多场景的AffectSet数据集，进一步提升了模型的性能与泛化能力。

2605.02350 2026-05-14 cs.LG

A Near-optimal SQ Lower Bound for Smoothed Agnostic Learning of Boolean Halfspaces

Tim Sinen

AI总结本文研究了在均匀边际分布下，对布尔半空间进行平滑无误学习的复杂度问题。作者在输入坐标独立翻转的概率为 $σ$ 的模型下，证明了 $L^1$ 多项式回归的运行时间和样本复杂度为 $\tilde{O}(n^{O(\log(1/\varepsilon)/σ)})$，并给出了几乎匹配的统计查询复杂度下界 $n^{Ω(\log(1+σ/\varepsilon^2)/σ)}$。该结果补充了近期在高斯边际分布下连续情况的相关研究。

Comments Fixed several typos and minor proof issues

2604.28045 2026-05-14 cs.CV

TAFA-GSGC: Group-wise Scalable Point Cloud Geometry Compression with Progressive Residual Refinement

Xiumei Li, Alexander Kopte, André Kaup

AI总结本文提出了一种名为TAFA-GSGC的可扩展点云几何压缩方法，能够在单一比特流和单一训练模型下实现多质量解码。该方法结合了分层残差细化与通道组熵编码，并引入了目标对齐特征聚合模块以减少增强残差中的跨层冗余。实验表明，TAFA-GSGC在保持良好压缩效率的同时，支持多达9个解码质量等级，并在D1-PSNR和D2-PSNR指标上分别实现了4.99%和5.92%的比特率降低。

Comments Accepted at IEEE International Conference on Image Processing (ICIP) 2026

2604.26070 2026-05-14 cs.LG math.OC math.ST q-bio.QM stat.TH

Observable Neural ODEs for Identifiable Causal Forecasting in Continuous Time

Jennifer Wendland, Nicolas Freitag, Maik Kschischo

AI总结该论文研究了连续时间因果推理中的可识别性问题，针对存在隐藏混杂因素的动态决策场景，提出了可观测神经ODE（ObsNODE）模型。通过将控制理论中的可观测性概念与因果可识别性联系起来，论文推导出一种连续时间调整公式，并设计了能够从观测数据中重构潜在状态的神经ODE模型，从而实现对不同干预路径下结果的预测。实验表明，该方法在合成癌症数据、基于MIMIC-IV的半合成数据和真实脓毒症数据上均表现出优越的性能。

Comments 20 pages, 5 figures

2604.25774 2026-05-14 cs.CL cs.AI

CGU-ILALab at FoodBench-QA 2026: Comparing Traditional and LLM-based Approaches for Recipe Nutrient Estimation

Wei-Chun Chen, Yu-Xuan Chen, I-Fang Chung, Ying-Jia Lin

AI总结本文研究了如何从非结构化的菜谱文本中准确估计营养成分这一挑战性问题，比较了基于传统方法和大语言模型（LLM）的多种技术。研究发现，传统方法如TF-IDF在推理速度上有优势，但效果有限；而基于LLM的少样本推理和混合方法在营养估计准确性上表现最佳，主要得益于其对模糊术语和非标准单位的处理能力。然而，这类方法也带来了更高的计算延迟，突显了实时性与精度之间的实际部署权衡。

Comments Accepted by the Third Workshop on Patient-oriented Language Processing (CL4Health) at LREC 2026

2604.23018 2026-05-14 cs.CV cs.AI cs.LG

AmaraSpatial-10K: A Spatially and Semantically Aligned 3D Dataset for Spatial Computing and Embodied AI

Mohammad Sadegh Salehi, Alex Perkins, Igor Maurell, Ashkan Dabbagh, Raymond Wong

AI总结该研究提出了一个名为 AmaraSpatial-10K 的三维数据集，旨在解决现有大规模三维资产在空间计算和具身人工智能应用中的部署难题。该数据集包含超过 10,000 个经过优化的合成三维资产，每个资产都具备精确的度量尺度、确定的锚点、分离的物理材质贴图以及多句文本元数据，便于直接使用。研究还引入了一套可复用的评估体系，显著提升了三维资产在图像检索、物理模拟和跨模态对齐等方面的性能。

2604.22686 2026-05-14 cs.CV

SS3D: End2End Self-Supervised 3D from Web Videos

Marwane Hariat, Gianni Franchi, David Filliat, Antoine Manzanera

AI总结本文提出 SS3D，一种基于 SfM 的大规模自监督预训练方法，用于从单目视频中进行端到端的三维估计。该方法在一个前向传播过程中联合预测深度、相机运动和内参，并通过统一的单检查点评估协议进行训练和评估。为了解决网络视频中多视角可观测性弱和数据异构性强的问题，作者引入了多视角信号代理（MVS）用于过滤和课程采样，并通过专家训练蒸馏到单一学生模型中，显著提升了模型性能。

2604.21496 2026-05-14 cs.AI cs.CL cs.CY

How English Print Media Frames Human-Elephant Conflicts in India

Bonala Sai Punith, Salveru Jayati, Garima Shakya, Shubham Kumar Nigam

AI总结本文研究了印度英语印刷媒体如何报道人象冲突（HEC），通过分析2022年1月至2025年9月期间1968篇新闻文章中的28986个句子，揭示了媒体在报道中普遍使用恐惧和攻击性语言，可能加剧公众对大象的敌意，影响人与野生动物的共存努力。研究采用结合长上下文变换器、大语言模型和领域特定词典的多模型情感分析框架，量化情感倾向、提取关键语句并识别语言模式，为负责任的野生动物报道提供了可扩展的方法支持。

2604.21360 2026-05-14 cs.CV

Prototype-Based Test-Time Adaptation of Vision-Language Models

Zhaohong Huang, Yuxin Zhang, Wenjing Liu, Fei Chao, Rongrong Ji

AI总结本文提出了一种基于原型的测试时适配（PTA）方法，用于提升视觉-语言模型在测试阶段的性能。该方法通过构建类特定的知识原型来累积测试样本的信息，并根据每个样本的零样本分类置信度对原型进行自适应加权，从而提升模型对新数据的适应能力。与基于缓存的适配方法相比，PTA无需维护和检索缓存，显著提高了推理效率，同时在多个图像识别和点云分析基准测试中取得了优于现有方法的性能。