Symbolic and Abstractive Reasoning with Complex Visual Queries
复杂视觉查询的符号与抽象推理
发表机构 * Zhejiang University(浙江大学) ; Nanjing University(南京大学) ; Ant Group(蚂蚁集团)
AI总结 提出复杂视觉查询(CVQ)概念,通过多模态知识图谱合成数据集,并设计两阶段训练框架,提升多模态大语言模型的符号与抽象推理能力。
复杂视觉查询的符号与抽象推理
发表机构 * Zhejiang University(浙江大学) ; Nanjing University(南京大学) ; Ant Group(蚂蚁集团)
AI总结 提出复杂视觉查询(CVQ)概念,通过多模态知识图谱合成数据集,并设计两阶段训练框架,提升多模态大语言模型的符号与抽象推理能力。
单无人机和双无人机仅方位目标定位中的轨迹优化
发表机构 * College of Aerospace Science and Engineering, National University of Defense Technology(国防科技大学航天科学与工程学院) ; Hunan Key Laboratory of Image Measurement and Visual Navigation(湖南省图像测量与视觉导航重点实验室)
AI总结 提出基于Fisher信息矩阵的轨迹优化方法,通过谱加权目标函数和交叉角正弦项改善观测几何,结合改进粒子群算法,显著降低定位误差。
通过粒子模拟的策略学习实现挖掘机自主障碍物移除
发表机构 * Nara Institute of Science and Technology(奈良先端科学技术大学院大学) ; Public Works Research Institute(土木研究所)
AI总结 提出一种基于粒子模拟的课程学习框架,通过RGB-D感知和参数化轨迹输出,实现挖掘机在不同埋深条件下自主移除地面障碍物,并在真实12吨挖掘机上验证了鲁棒性。
Claude Code驱动的Argoverse 2挑战赛场景挖掘
发表机构 * Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出四阶段管道:Claude Code自主生成代码、迭代训练集筛选、语义代码审查和场景级验证,用于Argoverse 2场景挖掘挑战。
CANS: 通过合作自教神经外科加速多用户协同边缘推理
发表机构 * Harbin Institute of Technology Shenzhen(哈尔滨工业大学(深圳)) ; Politecnico di Milano(米兰理工大学) ; Harbin Institute of Technology(哈尔滨工业大学) ; Fudan University(复旦大学) ; Shanghai Academy of Artificial Intelligence for Science(上海人工智能科学研究院)
AI总结 提出CANS框架,利用FedLinUCB-DW算法让异构设备自适应学习最优DNN分区,通过共享在线推理反馈和离线经验加速多用户边缘协同推理,显著降低延迟。
视觉-语言引导的高光谱目标跟踪:语义融合与上下文模板更新
发表机构 * China University of Mining and Technology(中国矿业大学) ; University of Ottawa(渥太华大学)
AI总结 提出VLHTrack框架,通过语言引导波段选择模块缓解光谱冗余,利用多模态融合模块整合视觉与语言特征,并采用动态模板更新策略应对目标形变,在HOT2023/2024上超越现有方法。
用于低空无人机视频语义分割的零参数几何门控以实现时间稳定性
发表机构 * Beihang University(北京航空航天大学) ; Northeastern University(东北大学) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; Beijing Institute of Technology(北京理工大学)
AI总结 提出零参数几何门控,利用RANSAC单应性内点比率在16x16网格上路由区域,结合语义相似性传播实现时间稳定分割,在合成UAVid上提升mIoU达4.91%。
扩散语言模型中不变性与独立性解码的统一能量
发表机构 * National University of Singapore(新加坡国立大学) ; Stanford University(斯坦福大学) ; City University of Hong Kong(香港城市大学)
AI总结 针对扩散语言模型并行生成文本时与自回归模型的性能差距,提出统一能量(Uni-E)方法,通过不变能量和独立能量解决模型容量、依赖性和不变性问题,无需采样即可精确计算,并能纠正分布偏移。
SEF-CLGC在SemEval-2026任务11中的应用:逻辑符号对语言模型性能的影响
发表机构 * Université Côte d’Azur, Inria, CNRS, I3S, Sophia Antipolis, France(蔚蓝海岸大学, 法国国家信息与自动化研究所, 法国国家科学研究中心, 信息与系统科学实验室, 索菲亚安蒂波利斯, 法国) ; Data ScienceTech Institute, Paris, France(数据科学技术学院, 巴黎, 法国)
AI总结 本文提出SEF-CLGC管道,结合形式逻辑符号与小语言模型,在SemEval-2026任务11中评估推理性能,最佳模型在降低内容偏差的同时达到27.80%的内容分数。
OmniGen-AR: 自回归任意到图像生成
发表机构 * Institute of Trustworthy Embodied AI, Fudan University(复旦大学可信具身人工智能研究所) ; Shanghai Collaborative Innovation Center of Intelligent Visual Computing(上海智能视觉计算协同创新中心) ; Bytedance Seed(字节跳动Seed) ; The University of Hong Kong(香港大学)
AI总结 提出统一自回归框架OmniGen-AR,通过共享视觉分词器和解耦因果注意力,支持文本、空间信号和视觉上下文等多种条件输入,在多项基准上达到最优或竞争性能。
Ultra Flash: 将实时流式视频生成扩展到高分辨率
发表机构 * JD Explore Academy(京东探索研究院) ; USTC(中国科学技术大学) ; PKU(北京大学) ; THU(清华大学) ; BUAA(北京航空航天大学) ; FDU(复旦大学) ; HKUST(香港科技大学) ; HKU(香港大学) ; CUHK(香港中文大学)
AI总结 提出Ultra Flash级联框架,通过架构保持的超分辨率训练、因果流式潜在上采样器和高分辨率解码器、以及级联优化方案,在单GPU上实现1K分辨率约30 FPS和2K分辨率约18 FPS的实时高分辨率流式视频生成。
CAMF-Det: 面向无人机平台的激光雷达-相机闭合感知多模态融合3D目标检测
发表机构 * School of Electronics and Information Engineering, Harbin Institute of Technology(哈尔滨工业大学电子与信息工程学院)
AI总结 针对无人机俯视场景中树冠遮挡导致的多模态信息退化问题,提出基于比尔-朗伯定律的闭合感知融合框架CAMF-Det,通过显式建模双模态遮挡强度并注入检测流程,在自建数据集上实现困难级别mAP_BEV提升9.43%和4.88%。
通过视觉语言模型从自我中心视觉解码行人过街意图
发表机构 * Technical University of Denmark(丹麦技术大学) ; University of Helsinki(赫尔辛基大学) ; Delft University of Technology(代尔夫特理工大学)
AI总结 利用视觉语言模型(VLM)将行人过街意图预测转化为视觉问答任务,通过参数高效微调并结合自我运动、车辆运动和眼动等上下文线索,在自我中心视频上实现了14.5%的准确率提升,创下新纪录。
DiffSight-Former:建模结构差异和时间动态用于青光眼进展预测
发表机构 * The University of Sydney(悉尼大学) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 提出DiffSight-Former框架,通过时间变异特征提取、多结构差异建模和时间感知Transformer,从序列眼底图像中预测青光眼进展,在SIGF和GRAPE数据集上取得高AUC和灵敏度。
事件相机的绝对位姿与速度估计的几何框架
发表机构 * National University of Defense Technology(国防科技大学) ; independent researcher(独立研究者)
AI总结 提出利用3D直线及其触发事件的几何约束,通过线性与多项式求解器同时估计事件相机的绝对位姿和速度,最少仅需三个对应关系,在精度和效率上超越现有方法。
Claw-R1:面向智能体强化学习的步骤级数据中间件系统
发表机构 * State Key Laboratory of Cognitive Intelligence, University of Science and Technology of China(中国科学技术大学认知智能国家重点实验室)
AI总结 提出Claw-R1系统,通过网关服务器和数据池组件,将智能体交互步骤转化为结构化数据资产,支持实时检查、质量筛选和训练批次配置,解决智能体强化学习中数据生命周期管理问题。
从USD场景到知识图谱:基于LLM的零样本本体接地
发表机构 * Technical University of Berlin(柏林工业大学) ; Fraunhofer FOKUS(弗劳恩霍夫开放通信系统研究所)
AI总结 研究利用大语言模型(LLM)零样本地将3D场景对象自动映射到本体类别,无需训练,在厨房场景中达到90-96%准确率,并揭示语义线索是关键。
视觉语言模型助力视觉数据中的隐私信息去标识化
发表机构 * Arizona State University(亚利桑那州立大学) ; University of North Carolina at Chapel Hill(北卡罗来纳大学教堂山分校) ; North Carolina State University(北卡罗来纳州立大学)
AI总结 提出VisShield框架,通过专用指令微调数据集OPTIC和训练策略,使视觉语言模型精准定位并掩码敏感文本,有效保护医学图像等视觉数据中的隐私信息。
晚期融合足矣:面向视觉饱和的多模态大语言模型的双路径视觉令牌路由
发表机构 * School of Mechanics and Engineering Science, Peking University(北京大学力学与工程科学学院) ; Department of Automation, Tsinghua University(清华大学自动化系)
AI总结 针对多模态大语言模型中视觉令牌在深层饱和的问题,提出双路径视觉令牌路由(DPVR-LF),在饱和点将视觉令牌路由至单层可训练分支,仅最后层融合,以约3%可训练参数保持性能并减少计算。
复杂约束与超越:RLVR的专家评分标准
发表机构 * Surge AI
AI总结 提出专家设计的评分标准作为评估和训练信号,通过复杂指令遵循和企业智能体任务验证,在RL训练中显著提升模型性能。
利用相干伊辛机优化基于能量的神经网络训练
发表机构 * School of Artificial Intelligence, Beijing Normal University(北京师范大学人工智能学院) ; Laboratory for Advanced Computing and Intelligence Engineering, Information Engineering University(信息工程大学先进计算与智能工程实验室) ; China Mobile (Suzhou) Software Technology Company Limited(中移(苏州)软件技术有限公司) ; School of Science, Beijing University of Posts and Telecommunications(北京邮电大学理学院)
AI总结 本文利用相干伊辛机结合平衡传播训练基于能量的神经网络,并通过Adam优化器加速收敛,展示了在深层架构和卷积操作上的可扩展性,为下一代AI硬件提供了物理框架。
MAAM:面向中文歧视性语言检测的锚点保留压缩与上下文校准
发表机构 * School of Economics and Finance, Shanghai International Studies University(上海外国语大学国际金融贸易学院)
AI总结 提出MAAM框架,通过保留歧视相关语义锚点并结合上下文先验校准,在轻量级模型上提升中文歧视性语言检测的准确性和校准性,同时构建首个中文LGBT歧视语料库ChLGBT。
将平衡传播与伊辛机混合以实现高效的基于能量的学习
发表机构 * School of Artificial Intelligence, Beijing Normal University(北京师范大学人工智能学院) ; Laboratory for Advanced Computing and Intelligence Engineering, Information Engineering University(信息工程大学先进计算与智能工程实验室) ; School of Physical Science and Technology, Beijing University of Posts and Telecommunications(北京邮电大学物理科学与技术学院)
AI总结 提出一种受伊辛动力学启发的平衡传播框架,通过扩展相空间动力学替代耗散Hopfield松弛,加速收敛、提高噪声鲁棒性,并在MNIST等数据集上实现与反向传播相当的性能。
HDRAgent: 一种用于多曝光HDR成像的智能体框架
发表机构 * School of Computer Science, Northwestern Polytechnical University(西北工业大学计算机学院) ; Shenzhen Research Institute, Northwestern Polytechnical University(西北工业大学深圳研究院) ; Zhejiang University(浙江大学) ; Camera Group, DJI(大疆相机部门)
AI总结 提出首个智能体驱动的HDR成像框架HDRAgent,通过细粒度上下文知识匹配、感知-失真反馈机制和智能体引导的生成对齐策略,自适应选择重建策略,减少复杂动态场景中的鬼影和局部伪影。
面向复杂查询的驾驶视频检索与结构化对齐
发表机构 * NEC Laboratories, America(美国NEC实验室) ; University of California, Riverside(加州大学河滨分校)
AI总结 提出STRIVE-D框架,通过弱监督领域视频校准规则、融合视觉语言与关键词检索信号,在驾驶视频检索中实现高达84%的top-1准确率提升。
通过贝叶斯VAR和椭圆Black-Litterman解决投资组合优化中的市场机制变化和重尾收益问题
发表机构 * University of Liverpool(利物浦大学) ; Xi'an Jiaotong-Liverpool University(西交利物浦大学)
AI总结 提出BAVAR-BLED算法,结合贝叶斯平均向量自回归和椭圆分布Black-Litterman模型,在TD3架构下自适应分配资产,在道琼斯工业平均指数成分股上实现夏普比率1.72和总收益57.26%。
LAEI: 面向鲁棒无人机蜂群操作的分层自主边缘智能框架
发表机构 * Korea University(高丽大学)
AI总结 提出分层自主边缘智能框架,通过机载学习策略与轻量级任务级监督结合,实现无人机蜂群在通信受限、环境不确定和组件故障下的可扩展协调,显著降低任务完成时间并提高效率。
稳定基于策略的蒸馏用于多模态大语言模型推理的全局归一化
发表机构 * OPPO AI Center(OPPO AI中心)
AI总结 针对策略蒸馏中异常状态导致梯度不稳定的问题,提出全局归一化蒸馏策略优化(GNDPO),通过将KL分数转化为批次级相对优势来稳定优化,提升多模态推理任务的训练鲁棒性和性能。
基于平移光流与不确定性掩膜的自主FPV飞行
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 提出利用平移光流和不确定性掩膜增强FPV四旋翼自主飞行,在仿真和真实森林环境中实现高达13.91 m/s和11.79 m/s的飞行速度,成功率93.3%。
DynaOD: 基于离散到连续时间语义建模的动态起讫点流量生成
发表机构 * Department of Electronic Engineering, BNRist, Tsinghua University(清华大学电子工程系,BNRist) ; Tsinghua Shenzhen International Graduate School(清华大学深圳国际研究生院) ; Zhongguancun Academy(中关村学院)
AI总结 提出DynaOD框架,通过离散方向趋势和连续时间演化双视角建模时间语义,以轻量即插即用方式调节预训练静态OD生成器,实现无历史观测的动态OD流生成,在预测精度和分布保真度上优于基线。