V2V-Bench: A Comprehensive Benchmark for Video-to-Video Generation Evaluation
V2V-Bench:视频到视频生成评估的综合基准
发表机构 * arXiv.org ; cs.CV(计算机视觉)
AI总结 针对视频到视频生成评估中现有指标无法同时衡量编辑指令遵循和帧级对应的问题,提出包含11个维度、5个类别的V2V-Bench基准,评估三个模型并验证其与人类判断高度相关。
V2V-Bench:视频到视频生成评估的综合基准
发表机构 * arXiv.org ; cs.CV(计算机视觉)
AI总结 针对视频到视频生成评估中现有指标无法同时衡量编辑指令遵循和帧级对应的问题,提出包含11个维度、5个类别的V2V-Bench基准,评估三个模型并验证其与人类判断高度相关。
在突然完全旋翼故障下保持完整六自由度驱动:使用双轴倾斜六旋翼的被动容错飞行控制
发表机构 * Tsinghua University(清华大学)
AI总结 本文针对双轴倾斜过驱动六旋翼在突发完全旋翼故障下,提出两种无需故障检测的被动容错控制方案,实现完整六自由度轨迹跟踪,并通过仿真和实验验证其鲁棒性。
持续学习基准:评估现实世界有状态环境中的前沿AI系统
发表机构 * UC Berkeley(伯克利大学) ; Snorkel AI ; University of Wisconsin-Madison(威斯康星大学麦迪逊分校)
AI总结 提出首个专家验证的持续学习基准CL-Bench,涵盖六个领域,通过增益指标隔离在线学习能力,发现现有系统存在过拟合和知识复用不足问题。
面向长时域任务的安全具身AI:机器人操作跨层分析
发表机构 * UNIST InnoCORE AI-Space Solar Initiative(UNIST创新核心人工智能空间太阳能计划) ; Ulsan National Institute of Science and Technology (UNIST)(乌山国立科学技术研究院) ; Automation and Systems Research Institute(自动化与系统研究所) ; Department of Electrical and Computer Engineering(电气与计算机工程系) ; Interdisciplinary Program in Artificial Intelligence(人工智能跨学科项目) ; LG Electronics(LG电子)
AI总结 本文从具身AI视角,系统综述长时域机器人操作中的安全问题,按干预时机(规划时、策略时、执行时)组织文献,分析证据强度,并指出当前安全保证的不足与未来方向。
CoFi-UCGen:无标签先验的粗到细无监督条件生成
发表机构 * Department of Electronic Information Engineering, Beihang University(信息工程系,北航) ; School of Cyber Science and Technology, Beihang University(网络安全科学与技术学院,北航) ; College of Electronic Science, National University of Defense Technology(电子科学学院,国防科技大学) ; Institute of Artificial Intelligence, Beihang University(人工智能研究院,北航)
AI总结 提出粗到细的无监督条件生成框架CoFi-UCGen,通过对抗语义互学习理论和位编码实现无标签条件下的全局与细粒度语义解耦,并利用扩散模型层次调制机制控制生成。
与“敌人”编码:人类开发者能否检测到AI代理的破坏行为?
发表机构 * Northeastern University(东北大学)
AI总结 通过大规模用户实验,研究人类开发者在长时间编码任务中检测AI代理恶意代码插入的能力,发现94%的开发者未能识别破坏,并分析其原因,提出安全监控设计建议。
FIDES: 通过深层证据信号实现RAG中检索-记忆冲突的忠实推理
发表机构 * Binjiang Institute of Zhejiang University(浙江大学滨江研究院) ; Zhejiang University(浙江大学) ; Guangzhou University(广州大学) ; GenTel.io
AI总结 针对检索增强生成中检索证据与参数记忆冲突导致模型忽略上下文的问题,提出无训练解码器FIDES,通过融合输出表面、隐藏表示和预测轨迹三种内部信号,在token级别动态调整干预强度,显著提升上下文忠实度。
面向工程可靠裂缝表示与拓扑保持的土木基础设施多任务裂缝基础模型
发表机构 * NDSU(内达苏大学)
AI总结 提出 CrackGeoFM 多任务框架,结合冻结视觉基础骨干与裂缝专用适配模块,实现掩码预测、骨架重建和不确定性估计,在20个数据集上达到最优分割、拓扑保持和校准不确定性。
Q-GNN: 具有类型感知的查询条件图神经网络用于知识图谱补全
发表机构 * College of Intelligence and Computing, Tianjin University(智能与计算学院,天津大学)
AI总结 提出Q-GNN,通过融合查询实体的结构上下文和语义类型信息,增强图神经网络在知识图谱补全中的推理能力。
StableRCA:鲁棒的图无关机制级根因分析
发表机构 * Department of Computer Science, Tsinghua University(清华大学计算机科学系) ; Bosch Center for Artificial Intelligence(博世人工智能中心) ; Computer Science Department, TU Darmstadt(图尔恩大学计算机科学系)
AI总结 提出StableRCA框架,通过估计局部马尔可夫边界并检测条件分布偏移,避免全局图发现,实现鲁棒的机制级根因分析。
ShotCrop$^3$:将人物中心图像裁剪为电影级三镜头构图
发表机构 * Huawei Noah’s Ark Lab(华为诺亚实验室) ; Sun Yat-sen University(中山大学)
AI总结 提出三镜头构图任务,通过三阶段训练流程(思维链微调、半监督微调和组相对策略优化)从单张人物中心图像生成远景、中景和特写三张裁剪图,并附带简短描述,以支持视觉叙事。
答案存在驱动RAG重写收益
发表机构 * Ant Group(蚂蚁集团)
AI总结 通过受控干预审计,发现检索增强问答中重写器带来的性能提升主要由黄金答案字符串出现在重写上下文中驱动,而非证据质量改善。
LLM在Lean中数学形式化的评估
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; University of Washington(华盛顿大学)
AI总结 本研究通过pass@k和refine@k指标在miniF2F和miniCTX子集上比较了多种大语言模型在Lean 4中生成形式化证明的能力,发现Gemini 3.1 Pro和Claude Opus 4.7性能最佳,而NVIDIA Nemotron 3 Super和GPT-OSS 120B在考虑成本时效率最高。
当新生成器到来:基于岭特征迁移的终身机器生成文本归因
发表机构 * Wuhan University(武汉大学) ; Ant Group(蚂蚁集团) ; The Hong Kong University of Science and Technology (Guangzhou)(香港科学与技术大学(广州)) ; Institute of Deep Perception Technology, JITRI(感知技术研究院,JITRI)
AI总结 针对终身机器生成文本归因中持续适应新生成器与保留旧知识难以平衡的问题,提出轻量级分析更新框架RidgeFT,通过协方差校准和固定随机特征实现无需示例回放的闭式更新。
自承诺延迟:一种用于提示隐式劫持的无奖励探针
发表机构 * Stanford University(斯坦福大学) ; Tsinghua University(清华大学)
AI总结 提出自承诺延迟指标,通过测量推理上下文对模型自身最终答案的承诺时机,无需奖励信号即可检测提示隐式劫持,在GSM8K数据集上达到AUROC 0.878-0.926。
KV-Control: 用于轨迹控制文本到运动的参数高效K/V注入
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Tsinghua University(清华大学)
AI总结 提出KV-Control,一种紧凑的注意力侧控制接口,通过部分标记化运动基元和轨迹编码器注入键/值记忆,实现精确的轨迹控制而不覆盖预训练的文本条件运动先验。
AdaPlanBench: 在世界约束和用户约束下评估大语言模型智能体的自适应规划能力
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 针对现有基准未充分探索渐进揭示的双重约束下的自适应规划问题,提出动态交互基准AdaPlanBench,通过307个家务任务和可扩展的约束构建流程,评估LLM智能体在交互中根据反馈迭代调整计划的能力。
名字里有什么?LLM在药理学中的形态捷径
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Northeastern University(东北大学) ; MD Anderson Cancer Center(MD安德森癌症中心)
AI总结 研究LLM在药理学中依赖词缀线索进行推理的形态捷径行为,通过虚构药物名称实验和归因框架揭示其机制及安全风险。
安全悖论:增强的安全意识如何使LLM易受后验攻击
发表机构 * Singapore University of Technology and Design(新加坡科技设计大学) ; Nanyang Technological University(南洋理工大学)
AI总结 本文揭示安全对齐增强的LLM因内部安全评估能力而面临后验攻击漏洞,通过实验和理论分析证明安全判断能力越强越易被利用,并提出因果干预验证。
通过局部梯度冲突解决的多语言微调
发表机构 * Singapore University of Technology and Design(新加坡科技设计大学) ; Salesforce AI Research(Salesforce人工智能研究) ; Nanyang Technological University(南洋理工大学)
AI总结 提出Bucket-Level MOO框架,将多语言微调重构为多目标优化问题,通过局部梯度冲突解决提升多语言性能。
皮肤之下是什么?估算猪体况
发表机构 * arXiv.org ; cs.CV(计算机视觉)
AI总结 提出PigFormer系统,利用RGB-D深度图像通过两阶段流程(几何前端和切片注意力编码器)预测猪的皮下背膘厚度、腰肌深度和总组织厚度,实现非接触式体况监测。
LLM持续预训练中最优超参数的可预测缩放定律
发表机构 * MeiTuan(美团) ; University of Chinese Academy of Sciences(中国科学院大学) ; Harbin Institute of Technology(哈尔滨工业大学)
AI总结 本文发现持续预训练中学习率和批大小等最优超参数遵循稳定可预测的缩放定律,并提出一个两阶段框架,通过小规模代理模型和状态感知预测,将超参数搜索开销降低90%且性能相当或更优。
跨时代自适应展开优化用于强化学习后训练
发表机构 * Department of Industrial Engineering & Decision Analytics, Hong Kong University of Science and Technology(工业工程与决策分析系,香港科学与技术大学)
AI总结 针对提示词训练信号差异大的问题,提出CERO方法,通过贝叶斯估计提示词成功概率并利用Fenchel对偶优化自适应分配展开预算,在固定总预算下提升样本效率。
从预测到自我:最小神经系统中能动性的发展条件
发表机构 * Independent Researcher(独立研究者)
AI总结 通过40个逐步增加的实验,研究最小GRU系统如何区分自我与世界因果影响,发现四个严格顺序的发展条件,并提出能动性增益作为度量指标。
修正思维,而非动作:通过知识缺口定位实现可解释的AI辅助
发表机构 * University of Tokyo(东京大学) ; National Institute of Information and Communications Technology(信息与通信技术国家研究所)
AI总结 提出SENSEI框架,通过结构化知识表示推断用户误解并提供针对性建议,在长时任务中实现零样本组合泛化,纠正90%的学生误解。
通过平滑激活函数缓解深度神经网络一致收敛中的维度灾难
发表机构 * Department of Statistics, The Pennsylvania State University(宾夕法尼亚州立大学统计学系)
AI总结 本文通过分析平滑激活深度神经网络,建立了统一收敛的理论框架,证明其能够通过自适应利用目标函数的低维层次组合结构来缓解维度灾难。
审计示范策展指标:仅动作评分器在降低模仿策略的结构缺陷上失败
发表机构 * Aarav Bedi
AI总结 本研究构建受控测试平台,注入两类示范缺陷(细微扰动和结构错误),审计七种策展指标,发现仅动作指标无法检测结构错误,且部分指标评分倒置,而状态轨迹指标能部分检测但下游性能恢复有限。
HDST-GNN:用于无人机航拍图像多目标跟踪的异质动态时空图神经网络
发表机构 * Phillip Jiang(菲利普·姜)
AI总结 针对无人机航拍中目标小、密集、遮挡导致身份切换的问题,提出异质动态时空图神经网络HDST-GNN,通过高度自适应边构建、异质节点表示和遮挡门控时序聚合提升跟踪性能。
BMCR: 基于强化学习的自适应主干模块组合用于遥感目标检测
发表机构 * College of Electronic Science and Technology, National University of Defense Technology(电子科学与技术学院,国防科技大学)
AI总结 提出BMCR方法,通过强化学习动态组合CNN和ViT的模块化主干,解决遥感目标检测中不同复杂度输入的自适应特征提取问题,在多个数据集上取得领先性能。
UltraVR:面向证据推理的诊断性超分辨率图像VQA基准
发表机构 * University of British Columbia(不列颠哥伦比亚大学) ; Vector Institute(向量研究所) ; BC Cancer Agency(不列颠哥伦比亚癌症中心) ; The Hong Kong Polytechnic University(香港理工大学)
AI总结 提出UltraVR基准,通过结构化思维链标注诊断视觉语言模型在超分辨率图像上的证据推理能力,发现模型在证据定位和局部感知环节错误集中。