P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning
P3D-Bench:用于参数化3D生成与结构推理的多模态大语言模型基准
发表机构 * Nanjing University(南京大学) ; Envision
AI总结 提出P3D-Bench基准,通过参数化3D程序评估多模态大语言模型在几何精度、语义对齐和装配一致性上的表现,涵盖文本到3D、图像到3D和装配3D三类任务。
P3D-Bench:用于参数化3D生成与结构推理的多模态大语言模型基准
发表机构 * Nanjing University(南京大学) ; Envision
AI总结 提出P3D-Bench基准,通过参数化3D程序评估多模态大语言模型在几何精度、语义对齐和装配一致性上的表现,涵盖文本到3D、图像到3D和装配3D三类任务。
RoboNaldo:通过运动引导课程强化学习实现精准、稳定且强力的人形足球射门
发表机构 * The University of Hong Kong(香港大学) ; The Chinese University of Hong Kong(香港中文大学) ; Archon Robotics
AI总结 提出三阶段运动引导课程强化学习框架RoboNaldo,从单一人踢参考逐步优化射门性能,在仿真中射门误差降低48.6%、速度提升2.96倍,真实机器人上3米外平均射门误差0.73-0.86米,触球后球速达13.10米/秒。
建模复杂行为:视觉语言模型中的多人格组合与动态切换
发表机构 * Xi'an Jiaotong University(西安交通大学) ; Beihang University(北京航空航天大学)
AI总结 本研究在视觉语言模型中引入显式人格条件,建立包括单人格、多人格和人格切换的系统评估框架,发现人格提示可提升图像描述但损害精确推理任务,并观察到多特质组合与动态切换中的平衡与残留效应。
Workflow-GYM:面向真实世界专业领域的长周期计算机使用代理任务评估
发表机构 * ByteDance Seed(字节跳动Seed) ; M-A-P ; Humanlaya
AI总结 提出Workflow-GYM基准,评估AI代理在专业软件中执行长周期、高价值工作流的能力,发现最强模型成功率仅略超30%,揭示当前代理在长周期工作流一致性方面的严重不足。
超越大语言模型强化学习中的统一令牌级信任区域
发表机构 * Tencent Hunyuan(腾讯混元)
AI总结 针对PPO风格信任区域在自回归生成中的位置无关问题,提出CPPO方法,通过位置加权阈值和累积前缀预算动态调整令牌级约束,提升训练稳定性和推理准确性。
K-Forcing:通过前推语言建模进行联合下一K词解码
发表机构 * DAMO Academy, Alibaba Group(阿里巴巴达摩院) ; Hupan Lab(湖畔实验室) ; Zhejiang University(浙江大学) ; The Hong Kong University of Science and Technology(香港科技大学)
AI总结 提出K-Forcing范式,通过前推映射将自回归模型蒸馏为单次前向传播生成多个未来词,实现2.4-3.5倍加速,质量损失小。
SCAIL-2:通过端到端上下文条件统一受控角色动画
发表机构 * Z.ai ; Tsinghua University(清华大学)
AI总结 提出SCAIL-2框架,通过端到端上下文条件统一受控角色动画,绕过中间表示直接利用驱动视频,并合成MotionPair-60K数据集,采用上下文掩码和模式RoPE实现统一,结合Bias-Aware DPO减少误差,显著优于现有方法。
READER: 基于提取表示的鲁棒证据作者身份解码
发表机构 * National University of Singapore(新加坡国立大学) ; Xidian University(西安电子科技大学) ; Tsinghua University(清华大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 针对黑盒LLM来源识别问题,提出READER框架,通过冻结代理LLM读取隐藏作者证据,利用贝叶斯证据累积实现多查询归因,在Agent500数据集上显著优于基线方法。
空间选择性自训练用于无监督建筑变化检测
发表机构 * School of Information and Communication Engineering, University of Electronic Science and Technology of China(电子科技大学信息与通信工程学院) ; Chengdu Yaguang Electronic Co., Ltd.(成都亚光电子股份有限公司) ; Laboratory of Intelligent Collaborative Computing, University of Electronic Science and Technology of China(电子科技大学智能协同计算实验室) ; School of Civil Engineering, University of Khartoum(喀土穆大学土木工程学院) ; National Energy Research Center, Ministry of Higher Education and Scientific Research(高等教育部和科学研究部国家能源研究中心)
AI总结 提出SST-CD框架,利用空间选择性自训练和局部一致性准则,从无标签双时相遥感图像中学习建筑变化检测器,在三个数据集上超越现有无监督方法。
Pre-AF 13:从出院报告中挖掘的可解释房颤风险评分
发表机构 * National Medical Research Center of Cardiology named after Academician E.I. Chazov(国家医学研究中心心脏病学以E.I. Chazov院士命名) ; Skolkovo Institute of Science and Technology (Skoltech)(斯科尔科沃科学技术研究所) ; Artificial Intelligence Research Institute (AIRI)(人工智能研究所) ; University of Mannheim(曼海姆大学) ; Russian Center for Scientific Information (RCSI)(俄罗斯科学信息中心) ; Institute of Cyber Intelligence Systems, National Research Nuclear University MEPhI(网络智能系统研究所,国家研究核大学MEPhI) ; M.V. Lomonosov Moscow State University(莫斯科国立罗蒙诺索夫大学) ; Institute for Information Transmission Problems of the Russian Academy of Sciences (Kharkevich Institute)(俄罗斯科学院信息传输问题研究所(Kharkevich研究所)) ; Ivannikov Institute for System Programming of the Russian Academy of Sciences (ISP RAS)(俄罗斯科学院伊万尼科夫系统编程研究所) ; Federal Research Center "Computer Science and Control" of the Russian Academy of Sciences (FRC CSC RAS)(俄罗斯科学院联邦研究中心“计算机科学与控制”) ; Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)(穆罕默德·本·扎耶德人工智能大学)
AI总结 利用NLP从出院报告中提取特征,构建可解释ML模型预测心血管病患者房颤风险,Pre-AF 13模型优于现有临床评分。
面向敏捷目标拦截的升力翼四旋翼平面扇形视线制导
发表机构 * School of Automation Science and Electrical Engineering, Beihang University(北京航空航天大学自动化科学与电气工程学院) ; Research and Development Department, China Academy of Launch Vehicle Technology(中国运载火箭技术研究院研发部)
AI总结 提出平面扇形视线(PS-LOS)制导框架,通过非对称约束释放机动性,使升力翼四旋翼在仅用单目相机的情况下实现远程自主拦截敏捷目标,实验验证了高达138米距离的成功拦截。
CoCoSI: 面向空间智能的协作认知地图构建
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Cornell University(康奈尔大学)
AI总结 提出一种即插即用的多智能体框架,通过协作构建结构化认知地图作为空间记忆,无需修改架构或额外训练即可增强预训练多模态大模型的空间理解能力。
WeaveBench: 面向混合接口的长期、真实世界计算机使用代理基准
发表机构 * Zhejiang University(浙江大学) ; Microsoft Research Asia(微软亚洲研究院) ; Tsinghua University(清华大学)
AI总结 提出WeaveBench基准,包含114个跨8个真实工作领域的长期混合接口任务,要求代理结合GUI和CLI/代码操作,最佳PassRate仅41.2%,揭示现有评估的不足。
经验造就熟练:通过自进化技能记忆实现可泛化的医疗智能体推理
发表机构 * Fudan University(复旦大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Shanghai Innovation Institute(上海创新研究院) ; Huazhong University of Science and Technology(华中科技大学)
AI总结 提出SkeMex框架,通过技能记忆实现医疗智能体后部署自进化,无需更新模型权重,在临床任务中优于现有记忆型智能体。
TORL-VLA:触觉引导的在线强化学习用于接触丰富操作
发表机构 * Meituan(美团) ; Beijing Institute of Technology(北京理工大学) ; Beihang University(北京航空航天大学) ; State Key Lab of Multimodal Artificial Intelligence Systems, Institute of Automation, CAS(中国科学院自动化研究所多模态人工智能系统国家重点实验室) ; China University of Mining and Technology (Beijing)(中国矿业大学(北京))
AI总结 提出TORL-VLA框架,结合触觉反馈与在线强化学习,通过触觉导出的力矩感知VLA预测参考动作,并利用轻量在线RL模块优化动作,解决接触条件变化时的策略适应问题,在长时接触任务中提升成功率和执行效率。
通过时序图学习识别足球比赛中控球阶段的意图驱动方法
发表机构 * Technical University of Munich(慕尼黑工业大学)
AI总结 提出基于时序图注意力网络(T-GAN)的框架,从时空追踪数据中识别足球比赛控球阶段,实现战术意图(入侵空间、保持控球、得分)和六个子阶段的分类,F1分数达0.87(意图级)和0.79(得分阶段)。
Transformer表示在层间的轨迹几何
发表机构 * MetriQual ; London, UK(英国伦敦) ; Athens, GR(希腊雅典)
AI总结 通过计算轨迹长度、曲率等几何指标,发现语义相关提示在中间层收敛、推理任务曲率更大、歧义token轨迹分叉,并揭示三层结构。
Graph2Idea:基于检索增强的图结构上下文科学想法生成
发表机构 * Southwest Petroleum University(西南石油大学) ; Sichuan Police College(四川警察学院)
AI总结 提出Graph2Idea框架,利用知识图谱将检索文献转化为结构化三元组,提取图衍生上下文,通过两阶段生成过程提高科学想法的新颖性、质量和可行性。
从反问题到神经算子:数据驱动模型的预测、机制与泛化
发表机构 * University of Colorado Boulder(科罗拉多大学博尔德分校)
AI总结 本文从哲学视角统一反问题、稀疏辨识、神经常微分方程和神经算子等数据驱动建模策略,指出它们仅在输入-输出关系的模型类假设上不同,并论证只有某些模型能发现机制并实现泛化。
MB-Loc:室外LiDAR场景中的多平面鸟瞰图定位
发表机构 * Indian Institute of Technology Jodhpur(印度理工学院焦特布尔分校)
AI总结 提出MB-Loc框架,通过将LiDAR扫描投影为2.5D多平面鸟瞰图表示,结合KL正则化隐瓶颈和3D空间增强,实现轻量级、视角鲁棒的场景坐标回归定位,在NCLT数据集上达到实时推理并超越现有方法。
GEAR-VLA:学习几何感知的动作表示以实现可泛化的机器人操作
发表机构 * Anhui University(安徽大学) ; University of Science and Technology of China(中国科学技术大学) ; iFLYTEK(科大讯飞)
AI总结 提出GEAR-VLA框架,通过粗到细的动作学习、语义对齐的3D集成和具身规范化,学习统一的几何感知动作表示,实现跨物体、背景和机器人的泛化操作。
CoVEBench: 视频编辑模型能处理复杂指令吗?
发表机构 * Nanjing University(南京大学) ; Kuaishou Technology(快手科技)
AI总结 提出CoVEBench基准,包含416个源视频和626条多点编辑指令,通过MLLM评估指令遵循度和保真度,揭示当前模型在组合编辑中常遗漏编辑或破坏保留约束。
GENERIC-FNO:将能量守恒和熵产生嵌入傅里叶神经算子
发表机构 * University of Illinois at Chicago(伊利诺伊大学芝加哥分校) ; Georgia Tech Research Institute(佐治亚理工学院研究所)
AI总结 提出GENERIC-FNO,首个在函数空间直接嵌入非平衡热力学完整GENERIC结构的神经算子,通过秩一投影精确满足退化条件,实现能量守恒与熵产生,在超分辨率下保持结构保证。
改写以翻译,翻译以奖励:机器翻译中源端改写的强化学习
发表机构 * Institute of Science Tokyo(东京科学大学) ; Preferred Networks Inc(Preferred Networks 公司) ; Nara Institute of Science and Technology(奈良先端科学技术大学院大学)
AI总结 提出RLSR框架,通过强化学习训练源端改写模型,以翻译质量提升为奖励,无需为每个MT模型调提示,在6个MT模型和16个语言对上超越无改写和同规模提示基线,与235B LLM提示基线性能相当。
MemToolAgent概述:一个简单的餐厅预订场景,其中代理检索相似记忆,接收关于无效时间格式的反馈,并生成反思以更新其记忆
发表机构 * AWS AI ; University of Washington(华盛顿大学)
AI总结 提出MemToolAgent框架,通过记忆管理提升大语言模型代理的工具使用能力,包含记忆提取和动态检索模块,在三个基准上分别提升29%、80%和17%。
ResearchClawBench: 端到端自主科学研究基准
发表机构 * Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 提出ResearchClawBench基准,包含10个领域40个任务,通过多模态评分标准评估自主科研能力,最强智能体仅得21.5分,揭示当前系统在实验协议、证据匹配和科学核心方面的不足。
DEFINED: 辩论场景中细粒度创造力评估的数据高效计算框架
发表机构 * Nanjing University ; Shanghai Innovation Institute ; East China Normal University
AI总结 提出DEFINED框架,通过层次化八维指标体系、预训练语言模型和混合粒度训练策略,在辩论场景中实现数据高效的细粒度创造力自动评估,优于现有方法。
论在线策略蒸馏的几何结构
发表机构 * HKUST ; UT Austin ; Zhejiang University ; Hong Kong PolyU ; USTC ; BUPT ; Nankai University ; BIT
AI总结 本文通过参数空间诊断,揭示在线策略蒸馏(OPD)的更新轨迹具有松弛离主成分、子空间锁定等独特几何特性,表明其并非介于SFT和RLVR之间的中间方法。
面向事件鲁棒的声学场景分类
发表机构 * Xi'an Jiaotong-Liverpool University ; Zhongdian Zhiheng Information Technology Service Co., Ltd ; China Telecom Jiangsu Branch ; Nanjing University of Posts and Telecommunications
AI总结 针对现有声学场景分类系统在未知声音事件下性能下降的问题,提出事件移位声学场景数据集ESAS,通过大语言模型注入前景事件模拟真实环境,评估并推动事件鲁棒ASC研究。
ActionMap: 基于体素动作热图的机器人策略学习
发表机构 * National University of Singapore ; NVIDIA
AI总结 提出ActionMap,一种将动作空间建模为体素热图的动作解码器,替代现有VLA模型中的单点预测器,在LIBERO仿真和真实Franka操作中提升性能和数据效率。