Action-Effect Memory Pretraining for Robot Manipulation
动作-效应记忆预训练用于机器人操作
发表机构 * Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; Shenzhen University(深圳大学)
AI总结 提出AEM框架,通过视觉-动作历史掩码建模学习紧凑时间表征,提升机器人操作在部分可观测环境下的性能,优于单帧预训练和帧堆叠方法。
动作-效应记忆预训练用于机器人操作
发表机构 * Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; Shenzhen University(深圳大学)
AI总结 提出AEM框架,通过视觉-动作历史掩码建模学习紧凑时间表征,提升机器人操作在部分可观测环境下的性能,优于单帧预训练和帧堆叠方法。
学会适应:基于表示的多任务技能迁移强化学习
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; Harvard School of Engineering and Applied Sciences(哈佛大学工程与应用科学学院)
AI总结 提出RepMT-SAC框架,通过谱MDP分解捕获可迁移动力学,实现任务无关核心与最小任务特定调整的价值函数结构,在四旋翼轨迹跟踪任务上零样本性能提升30%。
Comments 8 pages, 4 figures, 1 table
重新设计正则化以实现有效的策略平滑
发表机构 * National Institute of Informatics (NII)(国立信息学研究所) ; The Graduate University for Advanced Studies (SOKENDAI)(综合研究大学院大学)
AI总结 针对强化学习中策略平滑问题,本文指出现有正则化实现的理论与实践差异,提出改进方案,在多个任务和算法中实现平滑运动并提升控制性能,并在四足机器人仿真到现实迁移中验证了平滑性对目标速度突变鲁棒性的提升。
Comments submitted to RA-L
基于自回归策略的实时执行
发表机构 * Korea Institute of Science and Technology(韩国科学技术研究院) ; Seoul National University(首尔大学) ; Google Research(谷歌研究院)
AI总结 通过异步推理和约束解码实现自回归策略的实时执行,在保证低延迟的同时提升任务完成速度,实验表明其性能优于流匹配策略。
RoboNaldo:通过运动引导课程强化学习实现精准、稳定且强力的人形足球射门
发表机构 * The University of Hong Kong(香港大学) ; The Chinese University of Hong Kong(香港中文大学) ; Archon Robotics
AI总结 提出三阶段运动引导课程强化学习框架RoboNaldo,从单一人踢参考逐步优化射门性能,在仿真中射门误差降低48.6%、速度提升2.96倍,真实机器人上3米外平均射门误差0.73-0.86米,触球后球速达13.10米/秒。
WOMBET:基于世界模型的经验迁移实现鲁棒且样本高效的强化学习
发表机构 * Hybrid Robotics, UC Berkeley(混合机器人技术,伯克利大学)
AI总结 提出WOMBET框架,通过源任务中学习世界模型并生成不确定性惩罚的离线数据,再结合自适应采样进行在线微调,实现鲁棒且样本高效的强化学习迁移。
Comments 13 pages, 6 figures, 8th Annual Learning for Dynamics & Control Conference (L4DC)
G-MAPP: 基于GPU加速的多智能体规划与感知用于反应式运动生成
发表机构 * Department of Electrical, Computer, and Biomedical Engineering, Toronto Metropolitan University(多伦多都会大学电气、计算机与生物医学工程系) ; Munich Institute of Robotics and Machine Intelligence (MIRMI), Technical University of Munich (TUM)(慕尼黑工业大学慕尼黑机器人与机器智能研究所) ; Institute for Experiential Robotics, Northeastern University(东北大学体验式机器人研究所) ; Idiap Research Institute(Idiap 研究所) ; EPFL(瑞士联邦理工学院洛桑) ; CHART Group at the School of Computer Science, University of Nottingham(诺丁汉大学计算机科学学院 CHART 小组) ; Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出GPU加速的框架,通过并行状态探索和紧密耦合感知-动作循环,实现非结构化环境中的实时反应式运动生成,在7自由度机器人上达到5倍加速并成功避障。
Comments The implementation is available at: https://github.com/chart-research/g-mapp
Stubborn: 一种用于人形机器人鲁棒运动跟踪与摔倒恢复的流线型统一强化学习框架
发表机构 * Southern University of Science and Technology(南方科技大学)
AI总结 提出Stubborn框架,通过非对称Actor-Critic架构、偏航对齐表示、伯努利概率终止机制和自适应采样策略,统一实现人形机器人的运动跟踪与摔倒恢复,在性能与鲁棒性上超越现有方法。
基于李雅普诺夫监督的物理信息神经网络校正层的欠驱动航天器MPC控制
AI总结 针对欠驱动航天器姿态控制,提出一种分层架构,结合非线性模型预测控制、物理信息神经网络和李雅普诺夫监督机制,在不确定性下降低稳态误差并保持鲁棒性。
Comments Accepted at SPAICE (AI in and for Space) 2026
PolyFlow: 安全高效的多面体约束流匹配,具有约束嵌入和无投影更新
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出PolyFlow,一种将约束直接嵌入模型和流动力学的多面体约束流匹配框架,通过离散时间流公式和无投影架构消除离散化误差并严格满足任意多面体约束,在规划与控制任务中实现零约束违反并降低推理延迟。
Comments 30 pages, 12 figures, Accepted to ICML 2026
基于李雅普诺夫的PI类控制用于四轮独立驱动与转向机器人的鲁棒轨迹跟踪:设计与实验验证
发表机构 * Faculty of Mechanical Engineering and Naval Architecture, University of Zagreb(Zagreb大学机械工程与造船工程学院) ; Regional Centre of Excellence for Robotic Technology (CRTA)(机器人技术卓越研究中心) ; Croatian Academy of Sciences and Arts(克罗地亚科学院)
AI总结 提出一种基于李雅普诺夫的PI类控制器,结合模型前馈补偿,实现四轮独立驱动与转向机器人的鲁棒轨迹跟踪,并通过实验验证其优于PI和滑模控制器。
Comments This work has been submitted to the IEEE for possible publication
使用信号时序逻辑的字典序最小违规运动规划
AI总结 提出一种将字典序多目标优化转化为单目标标量优化的方法,通过非均匀量化和位移扩展MPPI求解器,并引入结合时空违规的谓词鲁棒性度量,实现可解释且可扩展的字典序STL最小违规运动规划。
Comments Submitted to the IEEE Open Journal of Intelligent Transportation Systems (under review)
EgoEngine:从自我中心人类视频到高保真灵巧机器人演示
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Tsinghua University(清华大学)
AI总结 提出EgoEngine框架,通过视觉和动作桥接,将自我中心人类视频转化为高保真机器人数据,首次实现零样本灵巧策略学习。
Sparse2Act: 学习跨域机器人操作的动作对齐稀疏3D表示
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校) ; University of California, San Diego(加州大学圣迭戈分校) ; University of Utah(犹他大学)
AI总结 提出Sparse2Act框架,通过动作对齐的掩码稀疏3D编码预训练,实现跨域机器人操作,在LIBERO-10上达86.9%成功率,并支持域迁移和sim-to-real。
面向杂乱环境中的可靠顺序物体抓取:RGMC 2025 亚军方案
发表机构 * School of Mechanical Engineering, Zhejiang University(浙江大学机械工程学院)
AI总结 针对杂乱环境中的顺序物体抓取任务,提出集成硬件-软件流水线,结合多功能夹爪设计与物体分布及遮挡关系新表示,实现高效识别、搜索与顺序抓取,获RGMC 2025亚军。
Comments First, Second and Third Coauthor contributed equally to this work
EmbodiSteer: 用关节空间引导的具身无关视觉运动策略实现零样本跨具身部署
发表机构 * Department of Automation, Tsinghua University(清华大学自动化系) ; Beijing Key Laboratory of Embodied Intelligence Systems(北京具身智能系统重点实验室) ; Institute for Embodied Intelligence and Robotics, Tsinghua University(清华大学具身智能与机器人研究所)
AI总结 提出EmbodiSteer框架,通过前向运动学和雅可比更新将推理时的扩散采样提升到目标机器人关节空间,并加入全身碰撞感知引导,实现零样本、具身感知的部署,在模拟和物理机器人上显著降低碰撞率并提高任务成功率。
Comments The first two authors contribute equally
FTP-1:一种跨触觉传感器的通用基础触觉策略,用于密集接触操作
发表机构 * Tsinghua University(清华大学) ; Shanghai Qi Zhi Institute(上海期智研究院) ; Sharpa ; Shanghai Jiao Tong University(上海交通大学) ; University of California, Berkeley(加州大学伯克利分校) ; ETH Zurich(苏黎世联邦理工学院) ; Fudan University(复旦大学) ; Shanghai Innovation Institute(上海创新研究院)
AI总结 提出FTP-1,首个通用基础触觉策略,通过异构编码器和共享Transformer专家,跨21种传感器和3000小时数据预训练,实现触觉操作技能的跨传感器迁移,在未见传感器上成功率提升31%。
WT-UMI: 基于触觉的全身操控通过力监督的接触感知规划
发表机构 * The Institute for Robotics and Intelligent Machines, Georgia Institute of Technology(机器人与智能机械研究所,佐治亚理工学院)
AI总结 提出WT-UMI系统,结合人体演示与遥操作数据,通过力监督规划器预测末端执行器位姿和接触力轨迹,并利用触觉导纳控制器提升全身操控性能。
Comments 18 pages, 8 figures
选择性观察,适应性行动:双水平结构分解用于双臂机器人操作
发表机构 * Dongguk University(东国大学)
AI总结 提出基于双水平结构分解的双臂操作VLA框架,通过视觉选择路由和动作专家混合机制分别处理视觉相关性和双臂交互模式,在模拟和真实任务中成功率分别提升27.7%和43.3%。
GeoHAT: 几何自适应混合动作Transformer用于移动操作
发表机构 * Beijing Institute of Technology(北京理工大学)
AI总结 提出GeoHAT框架,通过轻量级傅里叶空间编码器注入几何信息,并采用混合全身动作解码器分解机械臂与基座动作,在ManiSkill-HAB基准上成功率提升23.7%。
MCR-Bionic Hand: 用于灵巧操作的解剖结构先验
发表机构 * University of Salford(索尔福德大学)
AI总结 本文提出MCR-Bionic Hand,一种基于人体手部解剖结构先验的仿生机械手,通过结构智能实现低维控制到灵巧操作的映射,在接触密集型任务中验证了其有效性。
Mana: 铰接工具的灵巧操作
发表机构 * UC Berkeley(加州大学伯克利分校) ; CMU(卡内基梅隆大学) ; Stanford University(斯坦福大学) ; Amazon FAR(亚马逊FAR)
AI总结 提出Mana框架,将灵巧操作重解释为动画问题,通过粗到细的流水线自动生成操作轨迹,实现铰接工具的零样本仿真到现实迁移。
Comments Project Page: https://zhaohengyin.github.io/mana
AssemLM: 用于机器人装配的空间推理多模态大语言模型
发表机构 * Fudan University(复旦大学) ; Institute of Artificial Intelligence (TeleAI), China Telecom(人工智能研究所(TeleAI),中国电信) ; Tianjin University(天津大学) ; Northwestern Polytechnical University(西北工业大学) ; Tsinghua University(清华大学) ; City University of Hong Kong(香港城市大学)
AI总结 提出AssemLM,一种融合装配手册、点云和文本指令的多模态大语言模型,通过专用点云编码器提取几何与旋转特征,实现精确的6D装配位姿推理,并构建含90万样本的AssemBench基准,在真实机器人装配任务中取得最优性能。
Comments Project Page: https://assemlmhome.github.io/
RGB-S: 用于鲁棒灵巧操作的图像对齐触觉显著性
发表机构 * ShanghaiTech University(上海科技大学) ; Beijing Institute for General Artificial Intelligence(北京通用人工智能研究院)
AI总结 提出RGB-S框架,通过正向运动学和相机标定将触觉传感器位置投影到RGB图像平面,生成力调制高斯显著性图,显式对齐触觉与视觉,在严重遮挡下灵巧操作成功率提升26.7个百分点。
Comments 20 pages, 7 figures
UniDexTok:基于真实数据的统一灵巧手分词器
发表机构 * Fudan University(复旦大学) ; Hefei University of Technology(合肥工业大学) ; Rimbot ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出统一灵巧手模型(UDHM)将人手和机器人手状态映射到共享22自由度语义接口,并基于此开发UniDexTok,一种免重定向的状态分词器,学习基于真实关节状态的离散token,实现异构灵巧手的统一表示,误差降低98%以上。
通过真实到仿真到真实触觉策略学习的盲操作灵巧抓取
发表机构 * ShanghaiTech University(上海科技大学) ; Beijing Institute for General Artificial Intelligence(北京通用人工智能研究院)
AI总结 提出一种结合Real2Sim触觉校准、布局感知触觉编码器和触觉条件扩散策略的框架,实现仅依赖触觉的灵巧手盲抓取,在真实机器人上对20个物体达到27%成功率。
Comments 23 pages, 6 figures
Foresight: 关于导航关键线索的迭代推理
发表机构 * UT Austin(德克萨斯大学奥斯汀分校) ; FieldAI
AI总结 提出Foresight框架,利用微调VLM交替提出和批评图像空间运动计划,通过人类反馈学习奖励模型进行强化学习后训练,实现无地图导航中稀疏语言指令下的迭代运动优化,任务成功率提升37%。
Comments 22 pages, 10 figures, 3 tables
从模仿到对齐:面向长距离人行道导航的人类偏好流策略
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校)
AI总结 提出FlowPilot,一种仅使用单目RGB相机的无地图导航策略,通过锚定流匹配进行预训练,并引入人类偏好学习实现对齐,在长距离人行道导航中提升鲁棒性和社会合规性。
SERF:面向长时域移动操作任务的时空环境与机器人特征地图
发表机构 * UC San Diego(加州大学圣地亚哥分校) ; Agency for Defense Development(国防发展局) ; SceniX Inc.(SceniX公司) ; University of Michigan(密歇根大学)
AI总结 提出SERF地图,将环境与机器人身体表示为共享潜空间中的神经点,并在线更新,作为VLA模型的状态输入,提升长时域移动操作中的推理能力,在BEHAVIOR-1K上优于纯图像基线。
Comments Project page: https://existentialrobotics.org/serf/
NavWAM:用于目标条件视觉导航的导航世界动作模型
发表机构 * The University of Tokyo(东京大学) ; National Institute of Informatics(国立信息学研究所) ; AIRoA ; ATR
AI总结 提出NavWAM,一种扩散变换器策略,通过联合学习未来观测、目标进度值和动作块,将导航世界模型预测直接转化为可执行动作,在离线基准和真实机器人部署中优于基于规划的世界模型基线。
Comments Project page: https://dachii-azm.github.io/navwam/
SemanticXR: 低功耗实时可查询语义建图与对象级设备-云架构
AI总结 提出首个设备-云协同系统SemanticXR,通过对象级通信、执行和内存管理,在XR功耗、带宽和内存约束下实现实时开放词汇语义建图与查询,服务器建图延迟提升2.2倍,设备功耗仅增加2%。
基于深度感知蒸馏的森林视觉地点识别
发表机构 * CSIRO Robotics, Brisbane, Australia(澳大利亚联邦科学与工业研究组织机器人实验室,布里斯班,澳大利亚) ; University of Queensland, Brisbane, Australia(昆士兰大学,布里斯班,澳大利亚) ; Queensland University of Technology, Brisbane, Australia(昆士兰科技大学,布里斯班,澳大利亚)
AI总结 针对森林环境中视觉地点识别因植被重复、结构线索弱及外观变化大而困难的问题,提出轻量级深度感知蒸馏框架,将几何线索注入DINOv2模型,在WildCross基准上提升鲁棒性。
Comments IEEE ICRA Workshop on Field Robotics 2026
异构激光雷达早期融合与学习重排序策略用于非结构化环境中的鲁棒长期地点识别
发表机构 * Miguel Hernández University of Elche(米格尔·埃尔南德斯·德埃尔切大学)
AI总结 提出MinkUNeXt-VINE++方法,通过异构LiDAR数据早期融合和学习重排序策略,在非结构化环境(如葡萄园)中显著提升长期地点识别性能,Recall@1指标提升20%-30%。
主动语义感知
发表机构 * General Robotics, Automation, Sensing and Perception (GRASP) Laboratory(通用机器人、自动化、传感与感知实验室)
AI总结 提出一种基于紧凑多层场景图和大语言模型的主动语义感知方法,用于高效探索未知环境,在仿真和真实机器人上验证了优于现有方法。
DiskChunGS:基于分块内存管理的大规模3D高斯SLAM
发表机构 * Robotic Systems Lab, ETH Zurich(机器人系统实验室,瑞士苏黎世联邦理工学院) ; Google(谷歌)
AI总结 提出DiskChunGS,通过将场景划分为空间块并将非活跃区域存储于磁盘,突破GPU内存限制,实现大规模3D高斯SLAM,在多个数据集上完成全序列重建并提升视觉质量。
EgoMoD:从局部自我中心观测预测全局动态地图
发表机构 * University of Turku, Finland(芬兰图尔库大学) ; Centre for Artificial Intelligence, Zürich University of Applied Sciences, Winterthur, Switzerland(瑞士应用科学大学人工智能中心) ; Instituto de Investigación en Ingeniería de Aragón, Universidad de Zaragoza, Spain(西班牙阿拉贡工程研究所,萨拉戈萨大学)
AI总结 提出EgoMoD方法,利用短时自我中心视频和位姿条件架构,学习从局部观测预测全局运动动态地图,替代传统全局感知基础设施,实现零样本迁移。
PROBE: 具有解析平移鲁棒性的概率占用BEV编码用于3D地点识别
发表机构 * SK Intellix
AI总结 提出无学习的LiDAR地点描述符PROBE,通过极坐标雅可比解析边缘化连续平移,实现距离自适应角度不确定性,在跨传感器泛化中取得高精度。
Comments 8 pages, 8 figures. Accepted for publication in IEEE Robotics and Automation Letters (RA-L). \c{opyright} 2026 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses
从看见到体验:通过强化学习扩展导航基础模型
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校) ; Coco Robotics(Coco机器人)
AI总结 提出S2E框架,结合离线视频预训练和模拟环境强化学习,通过锚点引导分布匹配和残差注意力模块,提升导航基础模型的交互性和安全性。
Comments 27 pages, 20 figures, 9 tables, conference
三角形泼溅SLAM
发表机构 * Software Performance Optimisation Group(软件性能优化组) ; Department of Computing(计算部门)
AI总结 提出首个使用可微三角形作为3D地图表示的密集RGB-D SLAM系统,通过在线可微渲染实现跟踪与建图,并支持实时网格转换与编辑。
Comments 26 pages, 11 figures
学习辅助:面向隐式人机协作的协作式VLA模型
发表机构 * University of Wisconsin–Madison(威斯康星大学麦迪逊分校) ; Massachusetts Institute of Technology(麻省理工学院)
AI总结 本文研究利用视觉-语言-动作(VLA)模型通过模仿学习实现人机协作,发现动作分块策略在隐式协作中存在演示动作泄漏问题,提出推理时引导方法缓解过早辅助行为,并通过用户研究验证其有效性。
GenHOI: 通过模仿生成视频实现接触感知的人形机器人-物体交互,无需任务特定训练
发表机构 * The University of Tokyo(东京大学) ; National University of Singapore(新加坡国立大学) ; University of California, Los Angeles(加州大学洛杉矶分校) ; Tsinghua University(清华大学)
AI总结 提出GenHOI框架,通过模仿单个生成视频实现人形机器人零样本执行多种物体交互任务,无需任务特定训练或物理演示数据,利用接触事件和手-物接触区域编码为几何约束优化轨迹。
基于非侵入式消费级脑机接口的多模态多智能体机器人认知对齐:概念验证探索
发表机构 * GOOGLE(谷歌) ; Paradigms of Intelligence(智能范式) ; Cambridge, MA, United States(马萨诸塞州剑桥市,美国) ; Mountain View, CA, United States(加利福尼亚州山景城,美国)
AI总结 提出一种框架,利用消费级脑机接口监测脑电信号,在高认知负荷时延迟智能体通信,实现认知对齐的多智能体交互,初步验证了实时信号处理、大语言模型与机器人结合的可行性。
Comments 19 pages, 9 figures, for associated video, see https://youtu.be/0Tav-G87XGs
幽默风格驱动笑声,话题塑造可接受性:评估双语个人与政治机器人交付的AI笑话
发表机构 * Univ Brest-Bretagne INP, COMMEDIA team, Lab-STICC CNRS UMR 6285(布列塔尼大学-INP,COMMEDIA团队,Lab-STICC CNRS UMR 6285)
AI总结 本研究通过混合因素设计,评估机器人用双语讲AI生成笑话时,幽默类型(亲和、自我增强、攻击、自贬)和内容(个人vs政治)对趣味性和适当性的影响,发现幽默类型显著影响趣味性,内容影响适当性,语言偏好受内容及参与者流利度影响。
Comments Accepted in the 35th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN 2026), Kitakyushu, Fukuoka, Japan
基于EMG的各向异性虚拟夹具自适应方法用于机器人辅助手术切除与解剖
发表机构 * University of Modena and Reggio Emilia(摩德纳大学) ; German Aerospace Center (DLR)(德国航空航天中心)
AI总结 提出一种基于EMG信号自适应调节各向异性虚拟夹具的框架,通过实时推断外科医生意图动态调整约束,实验证明能提高手术精度和运动一致性,降低认知负荷。
GIVE:在视觉-语言-动作模型中接地人类手势
发表机构 * MARS Lab, Nanyang Technological University(南洋理工大学MARS实验室)
AI总结 针对VLA模型忽略手势导致意图理解不准的问题,提出GIVE方法,通过视觉和语义双路径增强手势理解,在真实HRI实验中目标识别准确率提升40%,任务成功率提升80%。
Comments Project page: https://luis-cloud-sg.github.io/GIVE-project/
ReactEMG 中风:基于表面肌电图的意图检测的健康到中风少样本适应
发表机构 * Department of Mechanical Engineering, Columbia University in the City of New York(哥伦比亚大学纽约市机械工程系) ; Department of Computer Science, Columbia University in the City of New York(哥伦比亚大学纽约市计算机科学系) ; Department of Rehabilitation and Regenerative Medicine, Columbia University Irving Medical Center(哥伦比亚大学伊文思医疗中心康复与再生医学系)
AI总结 提出一种健康到中风的适应流程,利用大规模健康受试者sEMG预训练模型,仅用少量中风患者数据微调,显著提升意图检测准确率和鲁棒性。
EWAM:一种用于具身智能闭环在线自适应的增强世界动作模型
发表机构 * Astronex Robotics ; Nanjing University of Information Science and Technology(南京信息工程大学)
AI总结 提出EWAM架构,基于冻结的Cosmos3骨干网络,通过四个轻量级神经层实现零样本在线自适应,无需微调或额外演示数据,显著减少新任务布局的部署数据需求。
Y-BotFrame:一种用于四足机器人助手的可扩展具身智能体框架
发表机构 * Xidian University(西安电子科技大学)
AI总结 提出Y-BotFrame框架,集成多模态感知与大语言模型认知核心,将自然语言指令映射为可执行任务单元,实现无遥控器的人机协作,支持模块化扩展。
本体感觉-视觉对应使能人形机器人的自我-他人区分
发表机构 * Eastern Institute of Technology, Ningbo(宁波东方理工大学) ; Shanghai Jiao Tong University(上海交通大学) ; Peking University(北京大学) ; Carnegie Mellon University(卡内基梅隆大学) ; East China Normal University(华东师范大学) ; Ningbo Institute of Digital Twin(宁波数字孪生研究院)
AI总结 提出通过本体感觉与视觉的对应学习自我-他人区分,无需身份标签或运动学模型,并建立预测性自我模型,支持目标到达、碰撞感知运动规划和运动重定向。
Comments 23 pages, 9 figures, 1 supplementary table
$μ$VLA:部分可观测操作中VLA模型的循环记忆研究
发表机构 * CogAI Lab, Moscow, Russia(CogAI实验室,莫斯科,俄罗斯) ; MIRAI, Moscow, Russia(MIRAI,莫斯科,俄罗斯)
AI总结 针对VLA模型在部分可观测场景中的记忆缺失问题,提出仅通过可学习记忆令牌和截断反向传播时间实现最小化循环记忆增强,在MIKASA-Robo上将训练任务成功率从0.42提升至0.84,并在LIBERO上保持全可观测性能。
Comments 34 pages, 20 figures, 9 tables
MaskWAM:统一掩码提示与预测的世界-动作模型
发表机构 * The Hong Kong University of Science and Technology(香港科技大学) ; Tencent Robotics X(腾讯机器人X实验室) ; Tsinghua University(清华大学)
AI总结 提出MaskWAM,通过统一掩码输入与预测的混合Transformer架构,解决世界-动作模型的空间瓶颈,提升策略泛化能力,在LIBERO等任务上显著优于基线。
SCALE: 基于自不确定性条件自适应观察与执行的视觉-语言-动作模型
发表机构 * Seoul National University(首尔国立大学)
AI总结 提出SCALE推理策略,利用自不确定性联合调节视觉感知和动作,无需额外训练或验证器,仅单次前向传播,提升VLA模型在模拟和真实环境中的鲁棒性。
Comments ICML 2026 Spotlight. Project page: https://dcahn12.github.io/projects/scale/
GAE: 利用可泛化动作专家释放VLM的物理潜力
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 提出通用动作专家(GAE),通过稀疏几何接口将VLM的高层意图转化为连续动作轨迹,采用动作预训练-点云微调(APPF)方案解耦动作动力学与几何基础,实现跨视觉域、视角和指令的强泛化。
Goal2Pixel: 将目标锚定到像素以实现视觉语言导航
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出Goal2Pixel范式,通过将连续环境中的视觉语言导航(VLN-CE)重新定义为可导航像素锚定,利用图像平面作为统一空间接口,预测可见导航像素并反投影为3D航点,结合可见性感知关键帧记忆和坐标感知辅助损失,在减少VLM调用次数的同时实现竞争性性能。
Comments 8 pages
DARRMS——资源受限多智能体系统中动态注意力半径的高效算法
发表机构 * Texas A&M University(德克萨斯A&M大学)
AI总结 提出DARRMS算法,通过优化注意力半径和决策,在资源受限下降低计算需求,提升协调性和可扩展性。
个体控制障碍函数引导的扩散模型用于安全离线多智能体强化学习
发表机构 * Department of Electrical Engineering and Automation, Aalto University(阿尔托大学电气工程与自动化系) ; School of Computing and Data Science, Xiamen University Malaysia(厦门大学马来西亚分校计算与数据科学学院) ; Department of Computer Science, University of Toronto(多伦多大学计算机科学系)
AI总结 提出一种将神经个体控制障碍函数嵌入扩散模型的离线多智能体强化学习算法,通过逆动力学恢复控制策略,在保证奖励的同时显著提升轨迹生成的安全性。
Comments Accepted to the 23rd IFAC World Congress, 2026
自组织铁路交通管理中社交互动的影响
AI总结 研究自组织铁路交通管理中预测邻域范围(horizon)对分布式协调过程的影响,发现短时间范围足够,长范围会损害局部可解性和计算响应性而无全局收益。
GLIDE:未知环境下的空地协同搜索与救援框架
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 提出GLIDE框架,通过两架无人机与一辆无人地面车协同,实现未知环境中的快速受害者定位和障碍物感知导航,利用角色分离和地形侦察提升救援效率。
自适应视界冲突搜索用于闭环多智能体路径规划
发表机构 * Laboratory for Information and Decision Systems, Massachusetts Institute of Technology(信息与决策系统实验室,麻省理工学院) ; Schwarzman College of Computing(施瓦茨曼计算学院)
AI总结 提出ACCBS算法,通过动态调整规划视界和重用约束树,在有限计算预算下快速生成高质量可行解,兼具渐近最优性和扰动适应性。
DiffCoord: 分布式多智能体轨迹优化的可微协调
发表机构 * Department of Electrical and Computer Engineering, National University of Singapore(新加坡国立大学电子与计算机工程系)
AI总结 提出DiffCoord框架,将截断ADMM-DDP管道的耦合参数通过端到端元学习联合优化,利用智能体神经网络实现任务自适应,并扩展到不同智能体数量。在协作空中运输系统中验证,相比现有方法将每智能体梯度计算时间减少70%。
AIR-VLA+: 通过级联双动作解码器与非对称MoE解耦空中机器人的移动与操作
发表机构 * The Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; School of Automation, Beijing Institute of Technology(北京理工大学自动化学院) ; College of Automotive and Energy Engineering, Tongji University(同济大学汽车与能源工程学院) ; School of Transportation Science and Engineering, Beihang University(北京航空航天大学交通科学与工程学院) ; Information Science, East China Normal University(华东师范大学信息科学)
AI总结 针对空中机器人移动与操作在动作尺度、动力学和控制目标上的显著差异,提出级联双动作解码器与非对称MoE架构,实现解耦协调控制,在AIR-VLA基准上取得48.0平均分,任务完成度提升80.2%。
扩散Transformer世界-动作模型用于自动驾驶场景预测
发表机构 * Stanford University(斯坦福大学)
AI总结 提出紧凑潜世界模型,结合扩散Transformer(DiT)预测未来场景,在nuScenes上实现4.8倍更好的KID,并实现动作可控性(转向ρ=0.81)。
Comments 10 pages, 9 figures, 2 tables
用于验证多智能体协同自动驾驶的微型测试平台
发表机构 * School of Electrical Engineering(电气工程学院) ; School of Mechanical Engineering(机械工程学院) ; Korea Advanced Institute of Science and Technology(韩国科学技术院)
AI总结 提出CIVAT微型测试平台,集成V2V/V2I通信与ROS2框架,通过基础设施感知和交叉口管理实验验证协同自动驾驶功能。
Comments Accepted by ICRA 2026, 8 pages
DrivingAgent: 自动驾驶系统的设计与调度智能体
发表机构 * Wangxuan Institute of Computer Technology, Peking University(北京大学王选计算机技术研究所) ; University of California, Merced(加州大学默塞德分校)
AI总结 提出DrivingAgent框架,通过自动化模块开发(设计阶段)和强化学习训练的轻量级LLM实时调度(调度阶段),解决自动驾驶系统集成新模型和满足实时约束的挑战,在nuScenes和Bench2Drive上取得更优速度-精度权衡。
低成本、易制造、高柔性应变与触觉传感纤维用于机器人应用
发表机构 * Wesleyan University(卫斯理大学)
AI总结 提出一种仅用廉价商用部件和工具快速制造的导电纤维,兼具电阻应变传感和电容触觉传感功能,实验验证其在机器人抓取、姿态估计和近场跟踪中的应用。
基于绝热谱子流形的数据驱动软体机器人控制
发表机构 * Institute for Mechanical Systems, ETH Zürich(机械系统研究所,苏黎世联邦理工学院) ; Autonomous Systems Lab, Stanford University(自主系统实验室,斯坦福大学) ; Automatic Control Laboratory, ETH Zürich(自动控制实验室,苏黎世联邦理工学院)
AI总结 针对软体机器人在非线性区域控制难题,提出基于绝热谱子流形(aSSM)的模型预测控制策略,通过数据驱动构建低维吸引子流形,实现高精度轨迹跟踪,性能提升达10倍。
Comments 41 pages, 24 figures, IJRR (2026) in press
基于Cosserat杆理论物理信息神经网络的软体连续机器人自适应模型预测控制
发表机构 * Institute of Mechatronic Systems, Leibniz University Hannover(机械系统研究所,汉诺威莱布尼茨大学) ; Department of Advanced Interdisciplinary Studies, The University of Tokyo(先进跨学科研究部,东京大学) ; Institute of Assembly Technology and Robotics, Leibniz University of Hannover(组装技术与机器人研究所,汉诺威莱布尼茨大学)
AI总结 提出一种基于域解耦物理信息神经网络(DD-PINN)的实时非线性模型预测控制框架,实现软体连续机器人的高精度动态控制,位置误差低于3 mm。
Comments Submitted to IEEE Transactions on Robotics, 20 pages, 14 figures
从视频中学习软体连续体机器人的视觉可解释振荡器网络
发表机构 * Department of Advanced Interdisciplinary Studies, The University of Tokyo(东京大学先进跨学科研究系) ; Institute of Assembly Technology and Robotics, Leibniz University Hannover(莱比锡大学汉诺威装配技术与机器人研究所) ; Research Center for Advanced Science and Technology, The University of Tokyo(东京大学先进科学研究中心)
AI总结 提出注意力广播解码器(ABCD)和视觉振荡器网络(VONs),实现从视频中学习软体连续体机器人动力学的视觉和机械可解释性,多步预测误差降低5.8倍。
Comments Code available at: https://github.com/UThenrik/visual_oscillators_for_SCR Dataset available at: https://zenodo.org/records/17812071 Video available at: https://youtu.be/i80H8erVISM
面向湿实验室机器人的具身仿真平台、基准测试及数据高效增强框架
发表机构 * Key Laboratory of Smart Manufacturing in Energy Chemical Process Ministry of Education(能源化工过程智能制造国家重点实验室) ; Department of Computer Science and Engineering(计算机科学与工程系) ; Department of Laboratory Medicine(实验室医学系) ; Shanghai Jiao Tong University School of Medicine(上海交通大学医学院)
AI总结 提出Pipette平台,包含可编辑资产、仿真数据增强管道和11任务基准测试,将30次演示的VLA成功率从44.1%提升至74.7%。
Comments 25 pages, 17figures
面向医疗应用的商用深度传感器精度比较
AI总结 本文在猪骨、猪肚和硅胶肾模型上,以触针采样为参考,比较了立体视觉、结构光和飞行时间四类深度传感器在50cm距离下的精度,发现Zivid 2M+ 60在所有物体和指标上表现最佳。
Comments 4 Pages
RoboProcessBench:视觉语言机器人操作中的过程感知理解基准测试
发表机构 * Shanghai AI Laboratory(上海人工智能实验室) ; Zhejiang University(浙江大学) ; Shanghai Jiao Tong University(上海交通大学) ; Tsinghua University(清华大学) ; China University of Mining Technology(中国矿业大学)
AI总结 提出RoboProcessBench基准,通过静态监控和动态推理两个维度、12个诊断问题家族,评估视觉语言模型在机器人操作中的过程感知理解能力,并基于58k问答对数据集验证了当前模型的局限性及后训练的有效性。
SPARC:来自机器人演示的可靠空间标注
发表机构 * Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院) ; NVIDIA(英伟达) ; Robotics Institute Germany(德国机器人研究所)
AI总结 提出SPARC框架,利用机器人任务的时空结构生成可靠性评分,自动标注演示中的空间信息,减少噪声标签并保留更多有用样本,在物体定位基准上优于纯检测基线。
规模买插值,结构买地平线:等变世界模型的认证可预测性
AI总结 针对等变潜在世界模型,提出可计算的多步可预测地平线认证,证明T步滚动误差在对称轨道上恒定,并由李雅普诺夫谱分层界定,且该认证为等变模型独有。
Comments 23 pages (9 main + appendices). Code: https://github.com/TimothyWang418/se3-ejepa
QueryOcc:基于查询的3D语义占据自监督方法
发表机构 * Chalmers University of Technology(查尔姆斯理工大学) ; Zenseact
AI总结 提出QueryOcc,一种基于查询的自监督框架,通过相邻帧的4D时空查询直接学习连续3D语义占据,利用视觉基础模型或激光雷达数据提供监督,并引入收缩场景表示以在恒定内存下实现远程监督,在Occ3D-nuScenes基准上语义RayIoU提升26%。
从数字到物理:数字代理作为物理智能的自主教练
发表机构 * School of Artificial Intelligence, Shanghai Jiao Tong University, Shanghai, China(上海交通大学人工智能学院) ; Zhongguancun Academy, Beijing, China(中关村学院) ; School of Integrated Circuits, Shanghai Jiao Tong University, Shanghai, China(上海交通大学集成电路学院) ; School of Computer Science, Shanghai Jiao Tong University, Shanghai, China(上海交通大学计算机科学学院) ; State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University, Beijing, China(北京大学计算机科学学院多媒体信息处理国家重点实验室)
AI总结 提出EmboCoach-Bench基准,评估LLM代理自主设计具身策略的能力,通过迭代调试和优化,代理在平均成功率上超越人工基线26.5%,并具备自我修正能力。
Comments 53 pages, 12 figures
通过控制障碍函数将ISO 10218安全合规性嵌入机器人以实现人机协作
发表机构 * Dept. of Electrical and Information Engineering, Polytechnic of Bari(巴里理工大学电气与信息工程系) ; Dipartimento di Ingegneria Meccanica e Industriale, University of Brescia(布雷西亚大学机械与工业工程系) ; Institute of Intelligent Industrial Technologies and Systems, National Research Council of Italy, STIIMA-CNR(意大利国家研究委员会智能工业技术与系统研究所)
AI总结 提出基于控制障碍函数(CBF)的方法,利用人体加速度数据预测最小人机距离,并通过序列二次规划(SQP)框架实现安全约束,在UR10e上验证了该方法在遵守ISO 10218标准的同时减少轨迹误差63%。
基于共形预测从稀疏人类反馈中学习机器人安全
发表机构 * Department of Aeronautics and Astronautics, Stanford University(航空航天工程系,斯坦福大学)
AI总结 通过人类对策略轨迹的二元反馈,利用共形预测识别包含未来策略错误的状态区域,构建具有保证漏检率的预警系统,并用于改进模型预测控制器的安全性。
基于VLA的驾驶系统的安全案例模式:来自SimLingo的见解
发表机构 * York University(约克大学) ; National Institute of Informatics(国家信息研究所)
AI总结 针对VLA驾驶系统提出RAISE安全案例设计方法,通过扩展HARA和定制模式,结合SimLingo案例验证其构建基于证据的安全声明的有效性。
针对机器人系统神经网络控制器的木马攻击
发表机构 * Concordia University(康科德大学) ; Concordia Institute for Information Systems Engineering(康科德信息系统工程研究所) ; Fonds de recherche du Québec – Nature et Technologies(魁北克自然与技术研究基金) ; National Cybersecurity Consortium(国家网络安全联盟)
AI总结 针对机器人神经网络控制器,设计轻量级并行木马网络,在特定触发条件下篡改控制指令,通过仿真验证攻击有效性。
Comments Paper submitted to the 2026 IEEE Conference on Control Technology and Applications (CCTA)
TrajGenAgent: 一种用于人类移动轨迹生成的分层LLM智能体
发表机构 * Emory University(埃默里大学) ; University of Florida(佛罗里达大学)
AI总结 提出TrajGenAgent,一种无需微调的分层LLM智能体框架,通过编排器-工作者两阶段设计生成真实轨迹,在时空保真度、语义一致性和个体行为真实性上优于现有方法。
Comments 14 pages, 2 figures, 8 tables. Accepted by the 27th IEEE International Conference on Mobile Data Management (MDM 2026)
扩展节段间协调定律:对动力假肢控制的启示
发表机构 * Faculty of Mechanical Engineering, Technion – Israel Institute of Technology(机械工程系,技术学院–以色列理工学院)
AI总结 针对下肢截肢者步行代谢成本问题,提出基于节段间协调定律的假肢控制框架,通过分析三维运动学数据扩展出力矩协调定律,并开发了开源工具包。
Comments Submitted to 2026 IEEE International Conference on Biomedical Robotics and Biomechatronics (BioRob)
SPLIT:通过潜在算术分离物理接触以实现基于图像的触觉传感器
发表机构 * Leibniz Universität Hannover, L3S Research Center(莱布尼茨汉诺威大学,L3S研究所)
AI总结 本文提出SPLIT方法,通过潜在空间算术分离接触几何与传感器光学特性,实现触觉传感器的高效模拟,支持多传感器迁移和双向模拟,提升机器人触觉感知研究效率。
Comments Accepted to Elsevier Robotics and Autonomous Systems Journal
通过SPD(3)流形和改进的成本函数使物体地标参数化和约束实现全局一致
AI总结 本文通过SPD(3)流形和改进成本函数解决物体级SLAM后端的奇异性问题,提升收敛速度和鲁棒性,实验显示映射精度平均提高22%。
Comments 8 pages, 8 figures, submitted to IROS 2022 & RA-L