arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.10614 2026-05-12 cs.AI

PRISM: Generation-Time Detection and Mitigation of Secret Leakage in Multi-Agent LLM Pipelines

Riya Tapwal, Abhishek Kumar, Carsten Maple

AI总结多智能体大语言模型系统中，一个智能体访问的敏感信息可能通过共享上下文传播到后续输出中，造成秘密泄露风险。为此，研究提出了PRISM，一种生成时实时检测和缓解秘密泄露的防御机制，通过整合多种特征信号计算风险评分，并在生成过程中进行干预。PRISM基于生成动态的变化，如熵坍缩和logit集中度，结合文本结构线索，在泄露发生前进行有效预警，实验表明其在多个攻击场景下表现出优异的检测性能和零泄露率。

详情

英文摘要

Multi-agent LLM systems introduce a security risk in which sensitive information accessed by one agent can propagate through shared context and reappear in downstream outputs, even without explicit adversarial intent. We formalise this phenomenon as propagation amplification, where leakage risk increases across agent boundaries as sensitive content is repeatedly exposed to downstream generators. Existing defences, including prompt-based safeguards, static pattern matching, and LLM-as-judge filtering, are not designed for this setting: they either operate after generation, rely primarily on surface-form patterns, or add substantial latency without modelling the generation process itself. To resolve these issues, we propose PRISM, a real-time defence that treats credential leakage as a sequential risk accumulation problem during generation. At each decoding step, PRISM combines 16 signals spanning lexical, structural, information-theoretic, behavioural, and contextual features into a calibrated risk score, enabling per-token intervention through green, yellow, and red risk zones. Our central observation is that credential reproduction is often preceded by a measurable shift in generation dynamics, characterised by entropy collapse and increasing logit concentration. When combined with text-structural cues such as identifier-pattern detection, these temporal signals provide an early warning of leakage before a secret is fully reconstructed. Across a 2,000-task adversarial benchmark covering 13 attack categories and three pressure levels in a heterogeneous four-agent pipeline, PRISM achieves F1 = 0.832 with precision = 1.000 and recall = 0.712, while producing no observed leakage on our benchmark (0.0% task-level leak rate) and preserving output utility of 0.893. It substantially outperforms the strongest baseline, Span Tagger, which achieves F1 = 0.719 with a 15.0% task-level leak rate.

URL PDF HTML ☆

赞 0 踩 0

2605.10606 2026-05-12 cs.CL cs.AI

Measuring Embedding Sensitivity to Authorial Style in French: Comparing Literary Texts with Language Model Rewritings

Benjamin Icard, Lila Sainero, Alice Breton, Evangelia Zve, Jean-Gabriel Ganascia

AI总结本研究探讨了大型语言模型（LLM）在法语中对作者写作风格的嵌入表示敏感性，通过构建受控的文学语料库，量化分析了风格变化对嵌入分散度的影响。研究发现，嵌入能够可靠地捕捉作者的风格特征，并且这些特征在模型重写后依然保留，同时呈现出特定于LLM的模式。该成果为在语言模型时代检测作者模仿提供了新的分析方向。

Comments To appear in the Proceedings of the 6th International Conference on Natural Language Processing for the Digital Humanities (NLP4DH 2026)

2605.10605 2026-05-12 cs.CL

Where do aspectual variants of light verb constructions belong?

Aggeliki Fotopoulou, Eric Laporte, Takuya Nakamura

AI总结本文研究轻动词结构的体变体表达，如“take on debt”与“have debt”，探讨其在语义分类中归属模糊的问题。作者分析了这类表达的特性，提出一系列特征以更清晰地区分其属于动词短语、轻动词结构还是组合短语。该研究为自然语言处理中的语义分类提供了更具区分性的判断依据。

2605.10604 2026-05-12 cs.LG cs.AI cs.CY

Fairness vs Performance: Characterizing the Pareto Frontier of Algorithmic Decision Systems

Mieke Wilms, Christoph Heitz

AI总结本文研究了算法决策系统中公平性与性能之间的权衡问题，将其建模为多目标优化问题，同时考虑决策者效用和群体公平性。研究发现，帕累托最优决策规则由针对不同群体的确定性阈值规则构成，且帕累托前沿的位置仅依赖于人口特征、效用函数和公平性指标，而与算法技术设计无关。该成果拓展了现有公平性约束分类的最优性定理，适用于更广泛的公平性度量和部分公平性场景，为评估和比较算法决策系统提供了理论基础。

Comments 23 pages, The 2026 ACM conference on Fairness, Accountability, and Transparency (FAccT'26)

详情

DOI: 10.1145/3805689.3812302

英文摘要

Designing fair algorithmic decision systems requires balancing model performance with fairness toward affected individuals: More fairness might require sacrificing some performance and vice versa, yet the space of possible trade-offs is still poorly understood. We investigate fairness in binary prediction-based decision problems by conceptualizing decision making as a multi-objective optimization problem that simultaneously considers decision-maker utility and group fairness. We investigate the set of Pareto-optimal decision rules for arbitrary utility functions for decision maker, arbitrary population distributions, and a wide range of group fairness metrics. We find that the Pareto frontier consists of deterministic, group-specific threshold rules applied to individuals' success probability. This complements existing optimality theorems from literature which, for specific fairness constraints, posit lower-bound threshold rules only. However we also show that, depending on the used fairness metric, the Pareto frontier may include upper-bound threshold rules, thus preferring individuals with lower success probabilities. We show that the location of the Pareto frontier depends only on population characteristics, utility functions and fairness score, but not on the technical design of the algorithm - our findings hold for pre-, in-, and post-processing approaches alike. Our results generalize existing optimality theorems for fairness-constrained classification and extend them to generalized fairness metrics and fairness principles, and to partial fairness regimes. This paper connects formal fairness research with legal and ethical requirements to search for less discriminatory alternatives, offering a principled foundation for evaluating and comparing algorithmic decision systems.

URL PDF HTML ☆

赞 0 踩 0

2605.10601 2026-05-12 cs.AI

The Open-Box Fallacy: Why AI Deployment Needs a Calibrated Verification Regime

Phongsakon Mark Konrad, Tim Lukas Adam, Ane Cathrine Holst Merrild, Riccardo Terrenzi, Rebecca De Rosa, Toygar Tanyel, Serkan Ayvaz

AI总结本文探讨了在医疗、信贷、就业和司法等敏感领域部署人工智能时，过度依赖模型可解释性来确保安全性的问题。作者指出，应采用“校准验证”机制替代当前做法，强调授权应具有领域限定、独立可核查、发布后监控、责任追溯、可申诉和可撤销等特性。文章提出“验证覆盖率”作为衡量标准，应与模型能力评分一同用于模型卡片、排行榜和监管披露中，以更全面评估AI系统的部署安全性。

2605.10598 2026-05-12 cs.AI

Budget-Efficient Automatic Algorithm Design via Code Graph

Maxime Bouscary, Manxi Wu, Saurabh Amin

AI总结该研究提出了一种基于代码图的高效自动算法设计方法，旨在解决现有方法在计算资源利用上的低效问题。通过将算法表示为有向无环图，并利用大语言模型生成局部代码修正，而非完整算法，从而更高效地探索算法空间并实现更优的搜索效率。实验表明，该方法在相同计算预算下优于传统方法，并揭示了上下文丰富性对模型性能的影响条件。

2605.10593 2026-05-12 cs.AI cs.CL cs.HC cs.SE

LLARS: Enabling Domain Expert & Developer Collaboration for LLM Prompting, Generation and Evaluation

Philipp Steigerwald, Mara Stieler, Jennifer Burghardt, Eric Rudolph, Jens Albrecht

AI总结 LLARS 是一个开源平台，旨在促进领域专家与开发者在构建基于大语言模型（LLM）的系统时的协作。该平台集成了协作提示工程、批量生成和混合评估三个紧密关联的模块，支持实时协作、可控成本的输出生成以及结合人类与LLM评估者的多维度评估方法。研究显示，LLARS 能有效提升跨学科协作效率，简化工作流程并提高模型-提示组合的优化效果。

Comments Accepted at IJCAI-ECAI 2026 Demonstrations Track. Demo video: https://youtu.be/3QaKouwr4gU

2605.10588 2026-05-12 cs.CV

Thinking with Novel Views: A Systematic Analysis of Generative-Augmented Spatial Intelligence

Yanbing Zhang, Bo Wang, Jianhui Liu, Nan Jiang, Jiaxiu Jiang, Haoze Sun, Yijun Yang, Shenghe Zheng, Lin Song, Haoyang Huang, Nan Duan, Wenbo Li

AI总结当前大型多模态模型（LMMs）在需要视角依赖理解的空间推理任务中表现不佳，主要受限于单一静态视角的观察。为此，研究提出了一种名为“Thinking with Novel Views（TwNV）”的新范式，通过在推理过程中引入生成新视角的合成图像，提升模型对空间关系的理解能力。实验表明，TwNV在多个空间子任务和不同架构的LMM上均显著提升了性能，验证了新视角生成在增强模型空间智能方面的有效性。

Comments Submitted to NeurIPS 2026

2605.10586 2026-05-12 cs.CV

CausalGS: Learning Physical Causality of 3D Dynamic Scenes with Gaussian Representations

Nengbo Lu, Minghua Pan

AI总结本文提出了一种名为CausalGS的框架，旨在仅从多视角视频中学习复杂三维动态场景的物理因果关系，无需依赖显式先验知识。其核心是一个逆物理推理模块，通过联合推断场景的初始速度场和内在材料属性，将动态过程分解为两个因素进行建模，并利用可微分物理模拟器进行物理正则化的学习。实验表明，CausalGS在长期未来帧外推和新视角插值任务中均优于现有方法，展示了其从视觉观测中自主学习物理属性交互和因果关系的能力。

Comments ICMR2026 Accepted

2605.10585 2026-05-12 cs.LG

Controllability in preference-conditioned multi-objective reinforcement learning

Pau de las Heras Molins, Beyazit Yalcinkaya, Lasse Peters, David Fridovich-Keil, Georgios Bakirtzis

AI总结本文研究了偏好条件下的多目标强化学习中的可控性问题，即用户偏好变化是否能可靠地引导智能体行为变化。作者指出，现有评估指标无法有效衡量这一特性，导致智能体可能对偏好输入不敏感。为此，本文提出了一种新的评估指标，以更准确地衡量偏好条件智能体的可控性，从而推动多目标强化学习中偏好适应能力的进一步发展。

2605.10579 2026-05-12 cs.CL

VISTA: A Generative Egocentric Video Framework for Daily Assistance

Yu-Hsiang Liu, Yu-Chien Tang, An-Zi Yen

AI总结本文提出了一种名为VISTA的生成式第一人称视频框架，旨在为日常辅助任务中的AI代理提供高质量的训练与评估数据。该框架通过五步脚本生成流程结合因果逆向推理，生成多样且逻辑严谨的干预场景，涵盖反应式和主动式两种代理自主级别。VISTA支持用户自定义和优化场景，为日常任务提供可扩展且可控的视频基准，为真实环境中AI代理的训练与评估提供了替代方案。

Comments pre-print

2605.10576 2026-05-12 cs.CV cs.AI

SenseBench: A Benchmark for Remote Sensing Low-Level Visual Perception and Description in Large Vision-Language Models

Chen Zhong, Xiao An, Jiaxing Sun, Zihan Gui, Guangyi Yang, Wei He

AI总结本文提出 SenseBench，首个专门用于评估大语言视觉模型在遥感低级视觉感知与描述能力的基准测试平台。该研究针对当前图像质量评估方法无法准确描述遥感退化现象的问题，构建了包含6大类22个细粒度退化类型的10,000余个精心标注样本，并设计了感知与描述两种评估协议，揭示了现有模型在遥感领域存在的领域偏差、多退化混淆等关键问题，为推动遥感低级视觉感知模型的发展提供了有力支持。

2605.10572 2026-05-12 cs.LG

Online Sharp-Calibrated Bayesian Optimization

Marshal Arijona Sinaga, Julien Martinelli, Teemu Turpeinen, Samuel Kaski

AI总结本文研究了在线贝叶斯优化中如何同时实现不确定性估计的尖锐性与校准性的问题。作者提出了一种新的在线尖锐校准贝叶斯优化算法（OSCBO），通过将核超参数选择建模为约束在线学习问题，实现了对高斯过程模型不确定性的自适应优化。该方法在保持子线性遗憾界的同时，在多个合成与实际基准测试中表现出优异的性能。

2605.10569 2026-05-12 cs.AI

Deep Arguing

Adam Gould, Francesca Toni

AI总结本文提出了一种名为“Deep Arguing”的新型神经符号方法，旨在提升深度学习模型在多模态数据分类任务中的可解释性。该方法将深度神经网络与论证构建和推理相结合，使模型能够生成支持预测结果的论证结构，并通过可微分的论证语义进行训练，从而同时学习特征表示和论证交互。实验表明，该方法在保持预测性能的同时，能够提供具有说服力的案例解释，提升了模型的可解释性和推理能力。

2605.10567 2026-05-12 cs.CV

VeloGauss: Learning Physically Consistent Gaussian Velocity Fields from Videos

Nengbo Lu, Bin Zhao

AI总结本文提出了一种名为 VeloGauss 的方法，旨在仅从动态多视角视频中联合建模三维场景的几何、外观和物理信息，而无需依赖任何物理先验。该方法通过引入物理编码和粒子动力学系统，学习每个高斯粒子的运动场，并结合全局物理约束以确保场景的物理一致性。实验表明，VeloGauss 在新视角插值和未来帧外推任务中均取得了优于现有方法的性能。

Comments ICME2026 Accepted

2605.10564 2026-05-12 cs.CV cs.RO

DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving

Lingjun Zhang, Changjie Wu, Linzhe Shi, Jiangyang Li, Jiaxin Liu, Lei Yang, Hang Zhang, Mu Xu, Hong Wang

AI总结本文提出了一种名为DeepSight的端到端自动驾驶世界模型，通过在鸟瞰图（BEV）空间中并行预测连续未来帧的潜在语义特征，实现了对长期未来世界状态的建模。该方法还引入了一种高效且自适应的文本推理机制，结合额外的社会知识和推理能力，以提升复杂长尾场景下的驾驶性能。实验表明，该方法在闭合回路 Bench2drive 基准测试中达到了最先进的效果。

Comments ICML 2026

2605.10563 2026-05-12 cs.CL cs.AI

ThreatCore: A Benchmark for Explicit and Implicit Threat Detection

Davide Bruni, Carlo Bardazzi, Maurizio Tesconi

AI总结 ThreatCore 是一个用于细粒度威胁检测的公开基准数据集，旨在区分明确威胁、隐含威胁和非威胁内容，解决了当前自然语言处理中威胁检测定义不统一、缺乏标准化的问题。该数据集通过整合多个公开资源并基于统一的威胁定义进行系统性重新标注，揭示了现有标签的显著不一致性，并通过人工验证的合成样本来增强对隐含威胁的覆盖。实验表明，隐含威胁比明确威胁更难检测，而引入语义角色标注作为中间表示有助于提升模型性能，凸显了ThreatCore在推动细粒度威胁检测研究中的重要价值。

2605.10560 2026-05-12 cs.CL

ICT-NLP at SemEval-2026 Task 3: Less Is More -- Multilingual Encoder with Joint Training and Adaptive Ensemble for Dimensional Aspect Sentiment Regression

Liyuan Huang, Jiawei He, Wutao Shen, Lin Li, Jin Zhang

AI总结本文介绍了我们在SemEval-2026任务3（维度方面情感回归）中的系统设计，提出了一种轻量且资源高效的多语言解决方案，完全基于预训练编码器，无需依赖大语言模型或外部语料。我们采用联合多语言和多领域训练策略以提升跨语言迁移能力并缓解数据稀疏问题，引入了有界回归变换以提高训练稳定性并约束预测范围，同时通过子集搜索实现自适应集成以降低预测方差。实验结果表明，我们的系统在多个语言数据集上表现优异，取得了多项前列成绩。

2605.10555 2026-05-12 cs.AI

Agent-First Tool API: A Semantic Interface Paradigm for Enterprise AI Agent Systems

Kai Pan

AI总结随着AI代理从研究原型转向企业级生产系统，其使用的工具接口仍基于以人类为中心的CRUD范式。本文提出了一种名为“Agent-First Tool API”的语义接口范式，通过六动词语义协议、标准化工具契约和双层治理管道，解决了传统API与自主代理需求之间的五大架构不匹配问题。该方法在实际多租户SaaS平台中得到验证，显著提升了任务成功率并减少了人工干预，证明了其在企业AI代理系统中的有效性与优越性。

2605.10551 2026-05-12 cs.LG

It's All Connected: Topology-Aware Structural Graph Encoding Improves Performance on Polymer Prediction

H. Ibrahim Erdogan, Punith Raviswamy, Nikita Agrawal, Yannik Köster, Stefan Zechel, Ulrich S. Schubert, Ruben Mayer, Christopher Kuenneth

AI总结该研究针对聚合物性质预测中图神经网络（GNN）面临的数据稀缺和结构复杂性问题，提出了一种基于分子质量分布的拓扑感知图构建方法，直接编码聚合物链尺度的结构信息。通过结合丰富的化学特征描述符和自监督预训练策略，该方法在仅有381个聚合物样本的数据集上显著提升了预测性能，相比传统重复单元图方法，其均方根误差降低了5.1%。实验表明，图构建方式与预训练策略的结合是性能提升的关键，且方法适用于多种GNN架构。

Comments 9 pages, 4 figures

2605.10547 2026-05-12 cs.LG

PhysEDA: Physics-Aware Learning Framework for Efficient EDA With Manhattan Distance Decay

Zetao Yang

AI总结本文提出了一种基于物理先验知识的高效电子设计自动化（EDA）学习框架PhysEDA，旨在解决传统注意力机制和强化学习方法在EDA任务中面临的计算复杂度高和数据稀缺导致的过拟合问题。该方法通过引入曼哈顿距离衰减的物理特性作为归纳偏置，设计了具有线性复杂度的物理结构化线性注意力模块，并结合基于势能的奖励塑造策略，有效提升了模型在跨尺度迁移和稀疏奖励场景下的性能。实验表明，PhysEDA在多个EDA任务中实现了显著的性能提升和计算效率优化。

Comments 9 pages, 4 figures, plus appendix. Code and data to be released upon publication

2605.10546 2026-05-12 cs.LG

Higher Resolution, Better Generalization: Unlocking Visual Scaling in Deep Reinforcement Learning

Raphael Trumpp, Ömer Veysel Çağatan, Barış Akgün, Marco Caccamo

AI总结本文研究了深度强化学习中视觉输入分辨率对策略学习的影响，指出当前常用的方法往往过度降低图像分辨率，而高分辨率输入在适当网络架构支持下能显著提升性能和泛化能力。研究发现，传统Impala编码器在分辨率提升时参数量呈二次增长，限制了性能提升，而改用全局平均池化后的Impoola架构则能有效解耦参数量与分辨率，实现跨不同分辨率和网络宽度的性能提升，最高可提升28%。实验表明，高分辨率有助于策略更精确地感知小物体或远距离目标，为视觉强化学习的可扩展性提供了新方向。

2605.10544 2026-05-12 cs.CL

Where Does Long-Context Supervision Actually Go? Effective-Context Exposure Balancing

Jinchang Zhu, Jindong Li, Chengyu Zou, Rong Fu, Chao Wang, Haowei He, Menglin Yang

AI总结本文研究了长上下文适应中监督分配的问题，指出当前方法在训练过程中未能有效提升目标标记的长上下文监督。为此，作者提出了EXACT方法，通过逆频率分配权重，增强对长有效上下文目标的监督。实验表明，EXACT在多个模型配置上显著提升了长上下文推理性能，同时保持了标准任务的表现，验证了监督分配对长上下文适应的关键作用。

2605.10541 2026-05-12 cs.AI cs.LG

Bridging Sequence and Graph Structure for Epigenetic Age Prediction

Yao Li, Xikun Zhang, Xiaotao Shen, Sonika Tyagi, Xin Zheng, Jiaxing Huang, Feng Xia

AI总结本文研究了如何结合DNA甲基化位点的序列信息与图结构，以更准确地预测表观遗传年龄。作者提出了一种统一的序列-图整合框架，通过轻量级的门控调制机制，将八维DNA序列统计特征与图卷积相结合，从而更有效地建模甲基化信号。该方法在3,707个血液甲基化样本上的测试表现优于现有最佳图模型，表明结合生物信息的统计特征在该任务中比基于卷积神经网络的序列编码更具优势。

2605.10537 2026-05-12 cs.CL

Mela: Test-Time Memory Consolidation based on Transformation Hypothesis

Lungchuan Chen

AI总结本文提出了一种基于记忆巩固理论的测试时记忆整合方法Mela，其核心是引入分层记忆模块（HMM），该模块包含两个不同更新频率的子模块，分别生成抽象的高层表示和细粒度的 episodic 细节表示，并在推理时动态组合形成最终记忆输出。通过将HMM集成到Transformer解码器中，Mela实现了在测试阶段进行在线记忆整合的增强语言模型，在不同规模的语言建模任务中均优于传统Transformer基线，并在固定预训练上下文长度下表现出对更长上下文的更好适应性。

2605.10536 2026-05-12 cs.LG cs.AI

HH-SAE: Discovering and Steering Hierarchical Knowledge of Complex Manifolds

Honghan Wu, Tianyan Wang, Jiacong Mi, Zhoyang Jiang, Yunsoo Kim

AI总结本文提出了一种名为HH-SAE的混合分层自编码器，用于解决高维关键领域中语义创新被密集背景信息掩盖的“特征密度冲突”问题。该方法通过将流形分解为上下文、原子和复合三个层次，实现了对复杂结构知识的发现与引导。实验表明，HH-SAE在跨领域零样本检测等任务中表现出色，并在知识引导的合成任务中显著提升了性能，验证了其在高精度高风险环境中的有效性。

2605.10533 2026-05-12 cs.LG

ConfoundingSHAP: Quantifying confounding strength in causal inference

Marie Brockschmidt, Santo M. A. R. Thies, Maresa Schröder, Dennis Frauen, Valentyn Melnychuk, Maximilian Muschalik, Eyke Hüllermeier, Stefan Feuerriegel

AI总结在因果推断中，混杂变量会影响处理分配和结果，但在观察性研究中，处理分配机制未知，难以确定哪些协变量是混杂变量。本文提出ConfoundingSHAP，一种基于Shapley值的方法，用于量化每个协变量的混杂强度。该方法通过设计专门的Shapley博弈模型，区别于传统SHAP用于解释处理效应异质性的应用，并结合可扩展的TabPFN估计方法，避免了对大量调整集的重复拟合，有效提升了因果推断中对混杂变量识别的实用性与效率。

2605.10531 2026-05-12 cs.AI

A Reflective Storytelling Agent for Older Adults: Integrating Argumentation Schemes and Argument Mining in LLM-Based Personalised Narratives

Jayalakshmi Baskar, Vera C. Kaelin, Kaan Kilic, Helena Lindgren

AI总结本研究探讨了基于知识驱动的大型语言模型（LLM）讲故事能否支持老年人与数字伴侣进行有目的的叙事互动。为解决LLM在幻觉和透明度方面的局限性，研究提出了一种结合知识图谱、用户建模、论证理论和论证挖掘的反思式叙事代理，用于引导和审查叙事生成过程。实验结果显示，该系统生成的叙事在文化认同性和个人相关性方面受到用户认可，而基于论证的叙事目的和幻觉风险指标对叙事质量和用户接受度有显著影响。

Comments Submitted to ACM Transactions on Intelligent Systems and Technology (TIST)

2605.10529 2026-05-12 cs.AI cs.LG

PrimeKG-CL: A Continual Graph Learning Benchmark on Evolving Biomedical Knowledge Graphs

Yousef A. Radwan, Yao Li, Qing Qing, Ziqi Xu, Xingtong Yu, Jiaxing Huang, Renqiang Luo, Xikun Zhang

AI总结该研究提出了一个名为 PrimeKG-CL 的持续图学习基准，专门用于评估在动态演变的生物医学知识图谱上的学习方法。该基准基于九个权威生物医学数据库构建，包含真实的时序快照和多模态节点特征，并设计了多种任务和测试划分方式，以更贴近实际场景。实验表明，解码器选择与持续学习策略之间存在显著交互影响，且多模态特征对任务性能有明显提升，而某些现有方法在大规模数据下难以有效运行。

详情

英文摘要

Biomedical knowledge graphs underwrite drug repurposing and clinical decision support, yet the upstream ontologies they depend on update on independent cycles that add millions of edges and deprecate hundreds of thousands more between releases. Yet existing continual graph learning has been studied almost exclusively on synthetic random splits of static, generic KGs, a regime that cannot reproduce the asynchronous, structured evolution real biomedical KGs undergo. To this end, we introduce PrimeKG-CL, a CGL benchmark built from nine authoritative biomedical databases (129K+ nodes, 8.1M+ edges, 10 node types, 30 relation types) with two genuine temporal snapshots (June 2021, July 2023; 5.83M edges added, 889K removed, 7.21M persistent), 10 entity-type-grouped tasks, multimodal node features, and a per-task persistent/added/removed test stratification. On three tasks (biomedical relationship prediction, entity classification, KGQA), we evaluate six CL strategies across four KGE decoders, plus LKGE, an LLM-RAG agent, and CMKL. We find that decoder choice and continual learning strategy interact strongly: no single strategy performs best across all decoders, and mismatched combinations can significantly degrade performance. Moreover, only DistMult exhibits a clear separation between persistent and deprecated knowledge, indicating that standard metrics conflate retention of still-valid facts with failure to forget outdated ones; this effect is absent under RotatE. In addition, multimodal features improve entity-level tasks by up to 60%, and a recent CKGE framework (IncDE) failed to scale to our 5.67M-triple base task across five attempts up to 350GB RAM. Data, pipeline, baselines, and the stratified split are released openly. Dataset:huggingface.co/datasets/yradwan147/PrimeKGCL|Code:github.com/yradwan147/primekg-cl-neurips2026

URL PDF HTML ☆

赞 0 踩 0

2605.10523 2026-05-12 cs.CV

Improving Human Image Animation via Semantic Representation Alignment

Chang Liu, Mengting Chen, Yixuan Huang, Haoning Wu, Chen Ju, Shuai Xiao, Jinsong Lan, Yanfeng Wang

AI总结本文研究如何通过语义表示对齐来提升人体图像动画生成的质量，解决在生成长视频或复杂动作时出现的肢体扭曲和面部失真问题。提出了一种名为 SemanticREPA 的新方法，通过结构对齐模块和身份对齐模块，分别对齐视频潜在表示中的结构信息与深度特征、生成视频的身份特征与人脸识别特征，从而提升生成结果的结构稳定性和身份一致性。该方法在复杂动作生成和角色一致性方面表现出色，为人体动画生成提供了更高质量和更灵活的解决方案。

Comments Accepted by CVPR 2026 workshop