arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.13753 2026-05-14 cs.LG cs.CV

Min Generalized Sliced Gromov Wasserstein: A Scalable Path to Gromov Wasserstein

Ashkan Shahbazi, Xinran Liu, Ping He, Soheil Kolouri

AI总结本文提出了一种名为 min Generalized Sliced Gromov-Wasserstein（min-GSGW）的新型方法，用于高效求解 Gromov-Wasserstein（GW）问题。该方法通过引入表达能力强的广义切片算子，学习输入度量之间的耦合非线性切片，从而在原始空间中直接最小化 GW 目标函数。min-GSGW 具有刚体运动不变性，适用于几何匹配和形状分析任务，并在多个实验中表现出比现有方法更低的计算成本和更优的几何对应结果。

2605.13751 2026-05-14 cs.RO cs.SE cs.SY eess.SY

Learning Responsibility-Attributed Adversarial Scenarios for Testing Autonomous Vehicles

Yizhuo Xiao, Haotian Yan, Ying Wang, Zhongpan Zhu, Yuxin Zhang, Xintao Yan, Mustafa Suphi Erden, Cheng Wang

AI总结该研究旨在为自动驾驶系统（ADS）建立可信的安全保障，通过区分系统缺陷与不可避免的交通冲突，生成具有责任归属的对抗场景。提出的方法CARS结合上下文感知的对抗体选择与闭环模拟优化的生成对抗策略，能够生成物理可行且责任可追溯的碰撞场景。该框架在多国交通环境下表现出色，能够有效发现符合法规要求的高责任归属碰撞场景，为自动驾驶系统的可解释性验证提供了新的方向。

2605.13746 2026-05-14 cs.CV cs.AI

Weakly-Supervised Spatiotemporal Anomaly Detection

Urvi Gianchandani, Praveen Tirupattur, Mubarak Shah

AI总结本文研究了弱监督下的时空异常检测问题，仅使用视频级别的标签进行训练，无需逐帧标注。核心方法是通过提取正常和异常视频片段的特征，并利用多实例排序损失（MIL）对时空区域进行异常评分，同时考虑了异常在时间和空间上的局部性。该方法在包含时空标注的UCF Crime2Local数据集上进行了验证，取得了有效结果。

2605.13744 2026-05-14 cs.CV

Aligning Network Equivariance with Data Symmetry: A Theoretical Framework and Adaptive Approach for Image Restoration

Feiyu Tan, Qi Xie, Zongben Xu, Deyu Meng

AI总结图像修复是一个固有病态的逆问题，而嵌入几何对称先验的等变网络可以缓解这一问题并提升性能。然而，现有研究对网络等变性与数据对称性的关系理解仍停留在启发式层面，缺乏系统理论框架来量化对称性、选择变换群或评估模型与数据的对齐程度。本文从优化角度出发，首次提出了在数据集层面可量化的非严格对称性定义，并将其作为约束构建图像修复逆问题，揭示了数据对称性、模型等变性与泛化能力之间的内在联系，同时提出了一个样本自适应的等变网络，能够动态对齐每个样本的内在对称性，实验表明该方法在超分辨率、去噪和去雨任务中显著优于传统方法。

Comments 30 pages, 9 figures, Supplementary Material can be found at https://github.com/tanfy929/SA-Conv

详情

英文摘要

Image restoration is an inherently ill posed inverse problem. Equivariant networks that embed geometric symmetry priors can mitigate this ill posedness and improve performance. However, current understanding of the relationship between network equivariance and data symmetry remains largely heuristic. Particularly for real world data with imperfect symmetry, existing research lacks a systematic theoretical framework to quantify symmetry, select transformation groups, or evaluate model data alignment. To bridge this gap, we conduct an analysis from an optimization perspective and formalize the intrinsic relationship among data symmetry priors, model equivariance, and generalization capability. Specifically, we propose for the first time a quantifiable definition of non strict symmetry at the dataset level (rather than sample level) and use it as a constraint to formulate the restoration inverse problem. We then show that the equivariance for restoration models can be naturally derived from this inverse problems incorporated the proposed symmetry constraints, and that the equivariance error of the optimal restoration operator is strictly bounded by the data symmetry error and the discretization mesh size. Furthermore, by analyzing the network's empirical risk, we demonstrate that aligning equivariance with data symmetry optimizes the bias variance trade off, minimizing the total expected risk. Guided by these insights, we propose a Sample Adaptive Equivariant Network that uses a hypernetwork and transformation learnable equivariant convolutions to dynamically align with each sample's inherent symmetry. Extensive experiments on super resolution, denoising, and deraining validate our theoretical findings and show significant superiority over standard baselines and traditional equivariant models. Our code and supplementary material are available at https://github.com/tanfy929/SA-Conv.

URL PDF HTML ☆

赞 0 踩 0

2605.13741 2026-05-14 cs.RO cs.CV

LEXI-SG: Monocular 3D Scene Graph Mapping with Room-Guided Feed-Forward Reconstruction

Christina Kassab, Hyeonjae Gil, Matías Mattamala, Ayoung Kim, Maurice Fallon

AI总结本文提出LEXI-SG，首个仅依赖RGB相机输入的单目三维场景图映射系统，能够在开放词汇场景中实现高精度、可扩展的密集地图重建。该方法利用开放词汇基础模型的语义先验，将场景划分为房间，并在每个房间完全观测后进行前馈重建，从而避免了滑动窗口尺度不一致的问题。通过基于房间的因子图优化，实现了全局对齐与局部地图一致性的保持，同时自然地构建了语义场景图的层次结构，并支持开放词汇的对象分割与跟踪。实验表明，LEXI-SG在轨迹估计、密集重建和开放词汇分割方面均表现出色。

2605.13740 2026-05-14 cs.LG

Learning POMDP World Models from Observations with Language-Model Priors

Valentin Six, Frederik Panse, Mathis Fajeau, Lancelot Da Costa, Mridul Sharma, Alfonso Amayuelas, Tim Z. Xiao, David Hyland, Philipp Hennig, Bernhard Schölkopf

AI总结该研究探讨了如何利用语言模型先验知识从观察数据中学习部分可观测马尔可夫决策过程（POMDP）世界模型，以减少对环境交互的依赖。提出了一种名为 Pinductor 的方法，通过语言模型从少量观察-动作轨迹中生成候选 POMDP 模型，并通过迭代优化信念状态下的似然分数进行模型精炼。实验表明，Pinductor 在样本效率上优于传统表格型 POMDP 方法，并且性能随着语言模型能力的提升而增强，为在部分可观测环境下高效学习世界模型提供了新思路。

2605.13737 2026-05-14 cs.AI cs.CL

Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs

Trung Nguyen Quang, Yiming Gao, Fanyi Pu, Kaichen Zhang, Shuo Sun, Ziwei Liu

AI总结本文研究了全模态大语言模型在处理文本前提与实际感知内容矛盾的问题时存在的“表示-行为鸿沟”。作者构建了一个名为IMAVB的基准数据集，用于评估模型在检测感知与文本前提冲突方面的能力，并发现模型在隐藏状态中能够准确编码矛盾信息，但在输出行为上却表现出拒绝能力不足或过度拒绝的问题。研究还提出了一种基于探针引导的对数几率调整方法，有效提升了模型的拒绝行为，表明全模态模型的瓶颈在于信息翻译而非感知能力。

2605.13731 2026-05-14 cs.LG cs.HC

Distinguishing performance gains from learning when using generative AI

Lixiang Yan, Samuel Greiff, Jason M. Lodge, Dragan Gašević

AI总结本文探讨了在教育中使用生成式人工智能（AI）所带来的绩效提升是否真正促进了高质量的学习。研究指出，尽管生成式AI能提高学习者的表现，但其使用可能并未有效促进深层次的认知和元认知加工过程。文章的核心方法通过实证分析揭示了AI辅助学习中的潜在认知局限，并强调了在教育应用中需关注学习深度与质量的提升。

2605.13730 2026-05-14 cs.LG cs.AI cs.CV

Robust and Explainable Bicuspid Aortic Valve Diagnosis Using Stacked Ensembles on Echocardiography

Christos Chrysanthos Nikolaidis, Vasileios Sachpekidis, Nikolas Moustakidis, Theofilos Moustakidis, Pavlos S. Efraimidis

AI总结该研究旨在利用超声心动图图像可靠诊断二叶式主动脉瓣（BAV），解决因操作者经验和图像质量差异导致的诊断不一致性问题。研究提出了一种基于视频集成的可解释人工智能模型，通过分析常规获取的左心室长轴视图动态影像，实现了对BAV与三叶式主动脉瓣（TAV）的准确分类。模型在90例患者数据上表现出优异的分类性能，并通过Grad-CAM和SHAP值提供了可解释的诊断依据，有助于提升临床诊断的透明度和可追溯性。

2605.13729 2026-05-14 cs.CV cs.AI

Coordinating Multiple Conditions for Trajectory-Controlled Human Motion Generation

Deli Cai, Haoyang Ma, Changxing Ding

AI总结本文研究了在文本描述和空间轨迹双重条件下生成真实人体运动的问题，现有方法在条件冲突和运动表示冗余方面存在不足，导致生成质量下降或轨迹控制不稳定。为此，作者提出了一种解耦框架 CMC，通过分治策略将任务分为轨迹控制和运动补全两个阶段，分别确保轨迹准确跟踪和生成完整运动。此外，引入选择性补全机制以缓解数据不足带来的过拟合问题，实验表明 CMC 在多个数据集上取得了优越的控制精度和运动质量。

2605.13725 2026-05-14 cs.AI cs.SI

ScioMind: Cognitively Grounded Multi-Agent Social Simulation with Anchoring-Based Belief Dynamics and Dynamic Profiles

Yitian Yang, Yiqun Duan, Linghan Huang, Yiqi Zhu, Francesco Bailo, Chunmeizi Su, Huaming Chen

AI总结 ScioMind 是一个基于认知机制的多智能体社会模拟框架，旨在提升基于大语言模型的社会意见动态研究的真实性。该框架结合结构化意见演化与基于LLM的智能体推理，引入记忆锚定的信念更新规则、分层记忆架构以及基于语料库的动态智能体画像，以更真实地模拟人类在社会互动中的信念变化与行为特征。实验表明，ScioMind 在意见极化、多样性、轨迹稳定性等方面表现出更符合现实的模拟效果，为社会模拟提供了新的认知基础设计思路。

2605.13724 2026-05-14 cs.CV cs.AI

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

Yuchao Gu, Guian Fang, Yuxin Jiang, Weijia Mao, Song Han, Han Cai, Mike Zheng Shou

AI总结本文提出 AnyFlow，一种基于流图的任意步数视频扩散模型蒸馏框架，旨在解决一致性蒸馏模型在测试时分配更多采样步数时性能下降的问题。AnyFlow 通过将蒸馏目标从终点一致性映射转换为任意时间区间的流图转移学习，优化完整的 ODE 采样轨迹，并引入流图反向模拟方法，提升采样效率并减少测试时误差。实验表明，AnyFlow 在少量步数生成任务中性能优于或匹配现有方法，同时支持任意步数的灵活扩展。

Comments Project page at https://nvlabs.github.io/AnyFlow/

2605.13717 2026-05-14 cs.LG stat.ML

Tight Sample Complexity Bounds for Entropic Best Policy Identification

Amer Essakine, Claire Vernade

AI总结本文研究了在熵风险度量下有限时间风险敏感强化学习中的最优策略识别问题。作者针对现有样本复杂度上界与下界之间存在的指数级差距，提出了一种基于前向模型并结合KL散度探索奖励的算法，通过利用指数效用函数的平滑性质，改进了集中性分析，从而消除了原有的指数因子，使得样本复杂度达到理论下界，填补了该问题的空白。

2605.13713 2026-05-14 cs.CV eess.IV

Learning to Optimize Radiotherapy Plans via Fluence Maps Diffusion Model Generation and LSTM-based Optimization

Isabella Poles, Simon Arberet, Riqiang Gao, Martin Kraus, Marco D. Santambrogio, Florin C. Ghesu, Ali Kamen, Dorin Comaniciu

AI总结本文提出了一种基于扩散模型和LSTM的端到端优化方法，用于放射治疗计划的生成。该方法通过分布匹配的扩散模型生成临床可行的射线强度图，并利用LSTM模块学习梯度更新动态，从而快速优化剂量分布。实验表明，该方法在提升计划效率、灵活性和机器可执行性方面优于现有方法。

Comments Early Accept at MICCAI 2026

2605.13711 2026-05-14 cs.LG

MILM: Large Language Models for Multimodal Irregular Time Series with Informative Sampling

Hsing-Huan Chung, Shijun Li, Yoav Wald, Xing Han, Suchi Saria, Joydeep Ghosh

AI总结该研究提出了一种名为MILM的多模态不规则时间序列语言模型，用于处理来自异构数值和文本通道的异步、不规则采样数据，例如医疗中的电子健康记录。MILM通过将时间序列表示为XML格式的有序三元组，并采用两阶段微调策略，分别学习采样模式和观测值的联合建模，从而提升分类性能。实验表明，MILM在多个医疗数据集上取得了最佳或次优结果，并在值缺失场景下表现出更强的鲁棒性。

2605.13709 2026-05-14 cs.CL cs.AI cs.LG

Children's English Reading Story Generation via Supervised Fine-Tuning of Compact LLMs with Controllable Difficulty and Safety

Qian Shen, Fanghua Cao, Min Yao, Shlok Gilda, Bonnie J. Dorr, Walter L. Leite

AI总结该研究旨在生成适合儿童阅读的英文故事，同时控制难度和确保安全性。研究通过监督微调方法，对三个参数规模为8B的紧凑型大语言模型进行训练，使其能够生成符合儿童阅读水平的故事。实验表明，经过适当微调的8B模型在难度控制方面优于零样本使用的更大模型，且几乎不存在安全问题，为教育场景中低成本、高效生成儿童读物提供了可行方案。

Comments Comments: 15 pages, 4 figures. Author Two and Author Three contributed equally. Accepted by the 21st Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2026), ACL 2026

2605.13702 2026-05-14 cs.AI

Adaptive mine planning under geological uncertainty: A POMDP framework for sequential decision-making

Hamza Khalifi, Jef Caers, Yassine Taha, Mostafa Benzaazoua, Abdellatif Elghali

AI总结本文提出了一种基于部分可观察马尔可夫决策过程（POMDP）的框架，用于在地质不确定性下进行自适应矿山规划。该方法通过逐步更新对地质条件的信念，动态调整开采和运输决策，从而替代传统的固定计划模式。研究引入了一种结合模拟退火和集合平滑技术的混合架构，有效提升了计算可行性，并在实际铜金露天矿案例中显著提高了净现值，展示了该方法在应对不确定性方面的优越性和鲁棒性。

2605.13695 2026-05-14 cs.CL cs.AI

RTLC -- Research, Teach-to-Learn, Critique: A three-stage prompting paradigm inspired by the Feynman Learning Technique that lifts LLM-as-judge accuracy on JudgeBench with no fine-tuning

Andrea Morandi

AI总结该研究提出了一种名为RTLC的三阶段提示范式，灵感来源于费曼学习法，旨在提升大语言模型作为评判者的准确性，无需微调。RTLC通过“研究—教学—批判”三个阶段，引导模型生成多个候选判断并进行交叉对比，最终输出优化后的评判结果。实验表明，在JudgeBench基准上，RTLC显著提升了模型的判断准确率，优于传统的自洽投票和零样本方法，展示了其在开放生成评估中的有效性。

2605.13692 2026-05-14 cs.LG cs.CC

Polyhedral Instability Governs Regret in Online Learning

Yuetai Li, Fengqing Jiang, Yichen Feng, Kaiyuan Zheng, Luyao Niu, Bhaskar Ramasubramanian, Basel Alomair, Linda Bushnell, Radha Poovendran

AI总结本文研究了在线学习中组合动作决策问题的遗憾界，指出这类问题的遗憾主要由多面体结构的不稳定性决定，即活动区域变化的次数。作者提出了一种基于区域切换次数和区域顶点数的遗憾界分析方法，并在全信息反馈和固定划分假设下，证明了遗憾的渐进界。该结果适用于在线凸优化和在线子模-凹博弈等场景，并通过实验验证了理论分析的有效性。

2605.13690 2026-05-14 cs.LG cs.AI

The WidthWall: A Strict Expressivity Hierarchy for Hypergraph Neural Networks

Fengqing Jiang, Yuetai Li, Yichen Feng, Kaiyuan Zheng, Luyao Niu, Bhaskar Ramasubramanian, Basel Alomair, Linda Bushnell, Radha Poovendran

AI总结该研究探讨了超图神经网络（HGNN）在表达复杂高阶交互结构方面的能力，指出模型的表达能力取决于其能够检测和计数的局部结构模式。通过引入同态密度的概念，研究建立了以超树宽度为指标的严格表达能力层次，并揭示了一个“宽度墙”现象：当结构模式的宽度超过一定阈值时，任何固定深度的HGNN都无法有效表示这些结构。该成果为15种HGNN架构提供了统一的理论分析，并在真实超图数据集上验证了宽度墙对模型性能的预测作用。

2605.13688 2026-05-14 cs.CV cs.LG

MedCore: Boundary-Preserving Medical Core Pruning for MedSAM

Cenwei Zhang, Suncheng Xiang, Lei You

AI总结 MedCore 是一种针对 MedSAM 的结构化剪枝框架，旨在在保持医学图像分割边界精度的前提下显著压缩模型规模。该方法通过保留两种关键结构实现高效剪枝：一种是在 SAM 到 MedSAM 适配过程中变得重要的结构，另一种是具有高边界影响力的结构。实验表明，MedCore 在多项息肉分割基准测试中大幅减少了参数和计算量，同时保持了较高的 Dice 和边界指标，验证了其在医学图像分割中的有效性与可靠性。

Comments 3 figures, 17 pages

2605.13687 2026-05-14 cs.LG cs.AI stat.ML

A Hierarchical Language Model with Predictable Scaling Laws and Provable Benefits of Reasoning

Jason Gaitonde, Frederic Koehler, Elchanan Mossel, Joonhyung Shin, Allan Sly

AI总结本文提出了一类具有层次结构的合成语言，并通过树上的广播过程生成，从而能够精确分析上下文长度和推理在自回归生成中的作用。研究引入了一种精确的$k$-gram假设来替代传统变换器模型，并通过实验证明其有效性。研究发现，在特定语言模型下，若上下文长度不足，生成结果将偏离真实语言分布，而具备推理能力的模型仅需对数长度的内存即可精确生成符合真实语言的序列，展现出指数级的性能提升。

2605.13686 2026-05-14 cs.CV cs.AI

Cross Modality Image Translation In Medical Imaging Using Generative Frameworks

Giulia Romoli, Alessia Capoccia, Filippo Ruffini, Francesco Di Feola, Luca Boldrini, Arturo Chiti, Renato Cuocolo, Tugba Akinci D'Antonoli, Fatemeh Darvizeh, Marcello Di Pumpo, Bradley J. Erickson, Liu Fang, Deborah Fazzini, Paola Feraco, Fabrizia Gelardi, Francesco Gossetti, Ana Isabel Hernáiz Ferrer, Michail E. Klontzas, Seyedmehdi Payabvash, Katrine Riklund, Sara N. Strandberg, Valerio Guarrasi, Paolo Soda

AI总结本文研究了医学影像中跨模态图像翻译的问题，旨在从源影像模态生成目标模态的图像，无需额外采集。作者提出了一种可复现、标准化的评估框架，对七种生成模型在多个临床任务和数据集上的性能进行了系统比较，发现基于生成对抗网络（GAN）的模型整体表现优于潜在生成模型，其中SRGAN在多项任务中表现最优。实验还揭示了模型在小病灶生成和定量指标与临床偏好之间的差异，表明合成影像在临床判别上已接近真实影像。

2605.13684 2026-05-14 cs.LG cs.IT math.IT

Scale-Sensitive Shattering: Learnability and Evaluability at Optimal Scale

Shashaank Aiyer, Yishay Mansour, Shay Moran, Han Shao, Tom Waknine

AI总结本文研究了实值函数类在最优尺度下表现出一致收敛和可学习性的条件。通过建立一个尺度敏感的PAC学习基本定理，作者证明了统一收敛、可学习性以及fat-shattering维数的有限性在特定尺度下是等价的，解决了关于学习性尺度的长期疑问，并改进了已有上界结果。研究还给出了关于fat-shattering尺度的精确度量熵界，并应用于积分概率度量的估计问题，揭示了其可估性与弱可评估性的二元性。

Comments 32 pages, 1 figure

2605.13681 2026-05-14 cs.LG stat.ML

Sampling from Flow Language Models via Marginal-Conditioned Bridges

Iskander Azangulov, Leo Zhang

AI总结本文研究了如何从流语言模型（FLMs）中进行有效的采样，提出了一种基于边缘条件桥接的采样方法。与传统方法不同，该方法在每一步反向采样时，根据FLM的边缘后验分布生成干净的one-hot端点，并通过解析的Ornstein-Uhlenbeck桥接过程生成连续状态，从而更准确地保留语言模型的结构特性。该方法无需额外训练，能够自然地支持温度缩放和核截断等解码控制，实验表明其在生成质量与多样性之间取得了更好的平衡。

2605.13678 2026-05-14 cs.LG

Three-Stage Learning Unlocks Strong Performance in Simple Models for Long-Term Time Series Forecasting

Zhenan Yu, Guangxin Jiang, Jin Yang

AI总结本文提出了一种名为STAIR的三阶段训练框架，旨在在不引入复杂结构模块的情况下，充分发挥简单时间映射模型在长期时间序列预测中的潜力。STAIR通过共享时间映射学习变量间的通用动态，再逐个变量进行微调以捕捉特定模式，最后通过残差学习引入跨变量信息，逐步增强模型灵活性。实验表明，STAIR在九个长期预测基准上表现优异，验证了其在保持模型简洁性的同时实现高性能的有效性。

2605.13675 2026-05-14 cs.CV cs.LG q-bio.NC

Characterizing Universal Object Representations Across Vision Models

Florian P. Mahner, Johannes Roth, Ka Chun Lam, Michael F. Bonner, Francisco Pereira, Martin N. Hebart

AI总结本研究探讨了不同架构、目标函数和数据集训练的深度神经网络在视觉表征上的收敛现象，旨在揭示模型实际收敛于哪些视觉属性以及影响这一收敛的因素。通过将162个多样化视觉模型的对象相似性结构分解为少量非负维度，并分析这些维度在模型间的重复出现情况，研究发现部分维度具有跨模型的普遍性，且更易解释、更受图像语义属性驱动。研究还表明，模型的普遍性维度与灵长类动物视觉皮层活动和人类相似性判断的预测能力更强，暗示了这种普遍性可能反映了与生物视觉相关的表征特性。

2605.13673 2026-05-14 cs.LG

Graph Neural Networks with Triangle-Based Messages for the Multicut Problem

Jannik Irmai, Lucas Fabian Naumann, Bjoern Andres

AI总结本文研究了用于多割问题的图神经网络方法，该问题是一个计算复杂度高的组合优化问题，在生物信息学、数据挖掘和计算机视觉等领域有广泛应用。作者提出了一种改进的图神经网络架构，其特征仅分配给边，并基于图中的三角形结构进行消息传递，以更好地适应多割问题的目标函数和约束条件。实验表明，该方法在保证运行时间可行的前提下，优于现有的启发式求解器，在部分实例中甚至能秒级找到最优解，而精确求解器则需要数小时。

Comments 21 pages, 5 figures

2605.13670 2026-05-14 cs.CV

Pattern-Enhanced RT-DETR for Multi-Class Battery Detection

Xu Zhong, Enyuan Hu

AI总结本文针对多类别电池检测任务，提出了一种基于模式增强的RT-DETR方法PaQ-RT-DETR，通过引入基于模式的动态查询生成机制，有效缓解了查询激活不平衡问题，同时保持了较低的计算开销。研究在包含约8,591张标注图像的公开数据集上系统比较了多种检测模型，结果表明PaQ-RT-DETR-X在整体mAP@50指标上优于基线模型，尤其在数据稀缺的电池类别上表现突出，为电池相关工业应用中的目标检测模型选择提供了实用指导。

Comments 4 pages, 3 figures

2605.13667 2026-05-14 cs.CV

SceneGraphVLM: Dynamic Scene Graph Generation from Video with Vision-Language Models

Vladislav Makarov, Mark Gizetdinov, Dmitry Yudin

AI总结 SceneGraphVLM 是一种基于视觉语言模型的紧凑方法，用于从图像和视频中生成结构化的场景图。该方法通过高效的 TOON 格式序列化图结构，并采用两阶段训练策略，结合监督微调和强化学习，以提升关系覆盖率和精确度，同时避免生成不相关对象和关系。在视频处理中，模型可通过前一帧生成的场景图提供轻量级的短期上下文，无需跟踪或后处理。实验表明，SceneGraphVLM 在多个数据集上实现了高质量与生成速度的良好平衡，并显著提升了场景图生成的精确度。