GHOST: Hierarchical Sub-Goal Policies for Generalizing Robot Manipulation
GHOST: 用于泛化机器人操作的层次化子目标策略
AI总结 提出GHOST框架,通过将控制分解为高层子目标预测和低层目标条件控制器,实现视觉运动操作策略的泛化,并利用人类演示适应新物体和任务变化。
Comments Accepted at RSS 2026
GHOST: 用于泛化机器人操作的层次化子目标策略
AI总结 提出GHOST框架,通过将控制分解为高层子目标预测和低层目标条件控制器,实现视觉运动操作策略的泛化,并利用人类演示适应新物体和任务变化。
Comments Accepted at RSS 2026
机器人策略编排的关键因素:分层VLA智能体的系统研究
发表机构 * Google DeepMind(谷歌深Mind)
AI总结 系统研究分层视觉-语言-动作(Hi-VLA)系统的设计原则,通过统一框架分析规划器、控制器及接口机制对短时、长时及推理密集型任务性能的影响,提出构建更强健分层VLA智能体的实用原则。
SARM2: 多任务阶段感知奖励建模用于自我改进的机器人操作
发表机构 * Stanford University(斯坦福大学) ; UC Berkeley(加州大学伯克利分校) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 提出多任务阶段感知奖励模型RM,结合动作基元阶段估计器和多门控专家混合值头,为机器人操作任务提供密集逐步奖励,并基于RM构建SPIRAL框架,通过廉价自主轨迹改进VLA策略,在10任务基准上显著提升成功率。
HiMem-WAM: 用于机器人操作的分层记忆门控世界动作模型
发表机构 * The University of Hong Kong(香港大学) ; INFIFORCE ; Huazhong University of Science and Technology(华中科技大学) ; Tsinghua University(清华大学) ; Wuhan University(武汉大学) ; Southern University of Science and Technology(南方科技大学)
AI总结 提出分层记忆门控世界动作模型HiMem-WAM,通过分层潜在动作框架和边界触发记忆更新,提升长时域机器人操作的任务相关记忆与泛化鲁棒性。
通过重新标注视觉-动作机器人数据的任务鲁棒性
发表机构 * Mila — Quebec AI Institute(Mila — 魁北克人工智能研究所) ; Université de Montréal(蒙特利尔大学) ; The University of British Columbia(不列颠哥伦比亚大学)
AI总结 提出TREAD框架,利用大型视觉语言模型对机器人数据集进行语义子任务分解和多样化指令生成,无需额外数据收集,提升策略在未见任务上的泛化能力。
Comments Project website: https://akuramshin.github.io/tread
无基线的神经组合优化策略优化
AI总结 提出使用GRPO算法消除神经组合优化中的基线依赖,避免训练崩溃,在TSP和CVRP上达到接近POMO的性能。
自适应光学控制强化学习的在轨演示
发表机构 * European Southern Observatory(欧洲南天文学中心) ; Aix Marseille University(艾克斯马赛大学) ; CNRS(法国国家科学研究中心) ; CNES(法国国家太空研究中心) ; LAM(雷恩天文物理实验室) ; Wakea Consulting(Wakea咨询公司) ; Bertin Alpao
AI总结 首次在望远镜上演示了基于强化学习的自适应光学控制器PO4AO,在多种条件下优于传统积分控制器,展示了鲁棒性和高性能。
Comments 11 pages, 12 figures accepted by A&A
层次扩散策略中的在线自训练协同适应
发表机构 * ISIR, Sorbonne Université, CNRS(ISIR,索邦大学,国家科学研究中心)
AI总结 提出ORCHID自训练框架,通过环境反馈过滤轨迹并蒸馏回规划器和控制器,实现层次扩散策略的在线稳定改进,在CALVIN基准上轻量模型超越纯离线方法。
Comments Accepted at ICML 2026 Workshop on Decision-Making from Offline Datasets to Online Adaptation (DEMO)
VOLT: 面向超演示速度策略的视觉与语言轨迹分割
发表机构 * Collab , Dept. of Mechanical Engineering, Virginia Tech, Blacksburg, VA 24061(机械工程系,弗吉尼亚理工学院,布莱克斯堡,VA 24061) ; Mitsubishi Electric Research Laboratories ( MERL ), Cambridge, MA 02139(三菱电机研究实验室(MERL),剑桥,MA 02139)
AI总结 提出VOLT方法,通过视觉与语言线索对演示轨迹进行分割,选择性下采样安全加速部分,保留需要精细操作的慢速段,从而训练出比演示更快的机器人策略。
混合交通环境下自动驾驶的不确定性感知运动规划
AI总结 提出不确定性感知运动规划(UAMP),通过量化人类意图不确定性并引入不确定性校准值学习,提升自动驾驶在混合交通中的安全性和舒适性。
四足机器人月球颗粒表面交互的运动分析
发表机构 * Department of Industrial Engineering, University of Padua(工业工程系,帕多瓦大学)
AI总结 通过强化学习训练四足机器人在模拟月球颗粒表面运动,对比刚性与软接触环境下的步态和能耗,发现软接触增加训练难度、改变步态并提高能量消耗。
MARCH: 模型辅助强化学习实现人形机器人稀疏立足点的感知控制
发表机构 * Department of Mechanical Engineering(机械工程系)
AI总结 提出模型辅助强化学习框架,结合简化模型生成安全参考轨迹、基于控制李雅普诺夫函数的奖励引导教师策略训练以及视觉学生策略蒸馏,实现人形机器人在稀疏立足点上的稳健感知行走。
LieIPM:用于刚体直接轨迹优化的李群内点法
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; MIT(麻省理工学院) ; Ohio University(俄亥俄大学) ; University of Michigan, Ann Arbor(密歇根大学安娜堡分校)
AI总结 提出一种基于李群结构的约束轨迹优化框架LieIPM,利用二阶刚体模型和变分积分器,实现无奇异、快速收敛的牛顿型更新。
基于梯度的双层逆最优控制:一种黎曼方法
AI总结 提出一种黎曼逆最优控制方法,将最优轨迹集视为流形,通过流形上的优化避免标准约束违规,计算时间减少约四倍。
Comments 6 Pages, 4 Figures. To be published in a control journal
一种协调手臂和运动控制的脉冲神经架构
发表机构 * Centre for Theoretical Neuroscience(理论神经科学中心) ; Dept. of Systems Design Engineering, University of Waterloo(滑铁卢大学系统设计工程系) ; Applied Brain Research(应用脑研究公司) ; Dept. of Nanotechnology Engineering, University of Waterloo(滑铁卢大学纳米技术工程系) ; Dept. of Philosophy, University of Waterloo(滑铁卢大学哲学系)
AI总结 提出一种基于脉冲神经网络(SNN)的架构,利用神经工程框架(NEF)和语义指针架构(SPA)协调仿人机器人的手臂力控制与双足运动,并通过基底节模型实现高层动作选择,首次在全身仿人平台上实现集成控制。
基于SE(3)的机器人统一力-阻抗控制的几何公式化
发表机构 * University of California, Berkeley, USA(加州大学伯克利分校)
AI总结 提出一种在SE(3)流形上的阻抗控制框架,通过能量罐增强实现力跟踪与无源性,并解决非因果实现问题,继承SE(3)不变性以提高学习效率。
基于模型扩散采样的离线决策预测控制
发表机构 * GitHub
AI总结 提出MPDiffuser框架,通过组合扩散规划器与动力学扩散模型,在采样中交替更新以生成符合任务目标且动力学可行的轨迹,并利用轻量级排序模块选择最优轨迹,在D4RL和DSRL基准及四足机器人上验证了有效性。
可扩展且通用的全身控制:跨人形机器人运动
发表机构 * Tsinghua University(清华大学)
AI总结 提出XHugWBC框架,通过形态随机化、语义对齐观测动作空间和有效策略架构,实现单次训练后跨多种人形机器人的零样本泛化控制。
具有障碍李雅普诺夫约束的自适应人工时延控制用于欧拉-拉格朗日机器人
发表机构 * Robotics Research Center, International Institute of Information Technology Hyderabad, India(机器人研究中心,国际信息科技大学 Hyderabad,印度) ; Department of Computer Science, University of Manchester, UK(计算机科学系,曼彻斯特大学,英国) ; Autonomous Systems and Automatic Control in School of Engineering, Newcastle University, UK(工程学院自主系统与自动控制,新castle大学,英国) ; Self-Organizing Mobility Lab, School of Mathematics, Southeast University, Nanjing 210096, China(自组织移动实验室,数学学院,东南大学,南京210096,中国)
AI总结 针对欧拉-拉格朗日系统中的状态相关不确定性和时变状态约束问题,提出一种结合人工时延估计与障碍李雅普诺夫函数的自适应控制框架,通过在线估计不确定性上界并强制约束位置和速度,实验验证了其在五自由度机械臂上的有效性。
HANDOFF: 通过蒸馏互补教师实现人形机器人任务空间全身控制
发表机构 * California Institute of Technology(加州理工学院) ; The Institute for Human & Machine Cognition(人机认知研究院)
AI总结 提出HANDOFF框架,通过多教师KL蒸馏和上下文门控机制,将全身运动跟踪、行走和跌倒恢复三个专家策略融合为混合专家学生策略,实现基于紧凑显式接口的全身控制,在Unitree G1上达到先进的速度跟踪性能并扩展了操作工作空间。
Comments 22 pages, 9 figures, Project page: https://lzyang2000.github.io/HANDOFF/
用于不平地形四足运动控制的神经形态强化学习
发表机构 * School of Electrical Engineering and Computer Science(电气工程与计算机科学学院)
AI总结 提出基于平衡传播的PPO框架,结合CPG策略与残差调整策略,通过局部学习实现四足机器人在不平地形上的高效运动控制,性能与反向传播相当,GPU内存效率提升4.3倍。
使用悬挂托盘的机器人非抓取式物体运输
AI总结 针对机器人服务员问题,提出使用绳索悬挂托盘实现三维摆运动,仅需3自由度移动基座即可减少滑动和泼洒,实验验证了有效性并集成到交互演示中。
Comments 8 pages, 11 figures. IEEE/ASME International Conference on Advanced Intelligent Mechatronics, 2026
YUBI:面向大规模双手灵巧操作的通用双指接口
AI总结 提出YUBI手指对齐夹爪,通过屈服式手指驱动映射实现直观、符合人体工学的双手灵巧操作数据采集,构建8434小时/120万集/119任务数据集,单策略跨多机器人迁移。
Comments Project page: https://yubi.airoa.io/
灵巧点策略:从人类演示中学习基于点的灵巧手策略
发表机构 * KAIST(韩国科学技术院)
AI总结 提出Dexterous Point Policy框架,通过统一3D关键点表示从人类视频学习灵巧操作策略,无需机器人演示,在真实任务中达到75%成功率。
基于开放世界接触定位的以手为中心的人到机器人轨迹迁移
发表机构 * Karlsruhe Institute of Technology (KIT)(卡尔斯鲁厄理工学院)
AI总结 提出HOWTransfer框架,通过接触定位从人类视频中提取接触感知的机器人轨迹,无需物体特定描述,在多样化操作任务中实现86%的成功率。
桥接语义与物理执行:面向多对机器人装配的神经符号框架
发表机构 * School of Instrument Science and Engineering, Southeast University(东南大学仪器科学与工程学院)
AI总结 提出一种端到端神经符号框架,通过分层生成最优子图、解耦通用性与边缘情况、协调全局序列,解决非结构化环境中多对装配的空间干扰和接触不确定性,在100个真实场景中达到97%全局可执行性,UR3机械臂部署成功率90%。
Comments Corresponding author: Aiguo Song (a.g.song@seu.edu.cn)
IMPACT:面向强力机器人操控的内部模型预测控制学习
发表机构 * Harvard University(哈佛大学) ; Stanford University(斯坦福大学)
AI总结 提出IMPACT框架,将强力操控任务解耦为任务规划和基于内部模型的预测控制,通过仿真和实验证明其在成功率、泛化性、安全性和能效上的优势。
Comments Project website: https://gao-jiawei.com/IMPACT/
MV-Actor:对齐多视角语义与空间感知以实现双臂操作
发表机构 * School of Electronic Information and Communications, Huazhong University of Science and Technology(华中科技大学电子信息与通信学院) ; Institute for AI Industry Research (AIR), Tsinghua University(清华大学智能产业研究院) ; AIR Wuxi Innovation Center, Tsinghua University(清华大学智能产业研究院无锡创新中心)
AI总结 提出MV-Actor框架,通过多视角语义交互和语义-空间令牌交互统一语义与空间表示,并利用引导度量深度修复模块处理深度噪声,在PerAct2基准上达到87.8%平均成功率。
Comments 14 pages,9 figures
JOIN:通过对抗、推理和导航实现基于锚点抓取条件的双臂辅助操作连接
发表机构 * Northeastern University(东北大学)
AI总结 提出一种异构按需双臂系统JOIN,通过锚点臂与移动补臂的条件性连接,结合视觉语言模型和几何工具,解决代表性双臂日常生活任务,在实验中成功率更高且需更少人工修正。
Comments Xiang Zhi Tan and Taşkın Padır share equal advising
TacForeSight:面向接触丰富操作的力引导触觉世界模型
发表机构 * TARS Robotics ; National University of Singapore(新加坡国立大学) ; Shanghai Jiao Tong University(上海交通大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Fudan University(复旦大学)
AI总结 提出TacForeSight框架,通过力条件触觉世界模型预测触觉潜动态,结合预测性触觉条件策略实现高频操作下的主动接触推理,在动态接触干扰下优于现有方法。
HandCept: 用于灵巧手精确本体感知的视觉-惯性融合框架
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; National University of Singapore(新加坡国立大学)
AI总结 提出HandCept,首个视觉-惯性本体感知框架,通过零样本学习和无延迟扩展卡尔曼滤波融合腕部RGB-D相机与9轴IMU,实现2°-4°关节角估计误差且无漂移,优于纯视觉或纯惯性方法。
Comments 8 pages, 7 figures, conference
ObjSplat: 几何感知的高斯面元用于主动物体重建
发表机构 * School of Optics and Photonics, Beijing Institute of Technology(光学与光子学学院,北京理工大学) ; School of Optoelectronic Engineering, Changchun University of Science and Technology(光电工程学院,长春理工大学)
AI总结 提出ObjSplat框架,利用高斯面元统一表示,通过几何感知视点评估和下一最佳路径规划器,实现高效高保真的主动物体重建。
Comments Accepted to IEEE T-ASE. Code: https://github.com/Li-Yuetao/ObjSplat , Project Page: https://li-yuetao.github.io/ObjSplat-page/
随流而行:Koopman行为模型作为视觉运动灵巧性的伪规划器
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 提出统一行为模型(UBM),将灵巧技能建模为耦合动力系统,确保时间一致性;基于Koopman算子实现线性潜空间,通过在线重规划实现反应性和适应性,在模拟和真实任务中达到或超越现有方法。
Comments Website: https://k-ubm.github.io/
Glove2Hand:从多模态传感手套合成自然的手-物体交互
发表机构 * Meta Reality Labs(Meta现实实验室) ; Rutgers University(罗格斯大学)
AI总结 提出Glove2Hand框架,将多模态传感手套视频转化为逼真的裸手,并保留物理交互动态;引入3D高斯手模型和扩散手恢复器,创建HandSense数据集,提升下游任务性能。
Comments CVPR 2026 Highlight. This version includes the motion retarget process in the appendix
通过关系归纳偏差重新思考具身导航
发表机构 * School of Electronic Engineering, Xidian University(西安电子科技大学电子工程学院) ; School of Information Science and Engineering, Hohai University(河海大学信息科学与工程学院)
AI总结 提出DB-Nav框架,利用激活偏置和抑制偏置双关系偏置重塑搜索空间,通过关系激活-抑制探索图调节前沿探索,显著提升目标导航成功率和路径效率。
基于方差加权子图拼接的信息保持连续占据地图构建
发表机构 * University of Technology Sydney(悉尼科技大学) ; University of Edinburgh(爱丁堡大学)
AI总结 提出首个连续概率子图拼接框架,通过信息保持稀疏贝叶斯公式压缩观测数据为充分统计量,联合优化子图位姿与全局占据场,实现高精度位姿估计与全局一致性地图。
Comments 12 pages, 7 figures
AgenticNav:零样本视觉与语言导航作为工具调用框架
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Huawei Technologies Ltd(华为技术有限公司)
AI总结 提出AgenticNav,通过将动作、深度和记忆作为可调用工具暴露给VLM,实现零样本连续环境导航,在R2R-CE基准上达到SOTA性能。
GUIDE: 目标初始化的定向理解用于端到端视觉导航
发表机构 * Institute of Cyber-Systems and Control, Zhejiang University(浙江大学控制科学与工程学院) ; Institute of Artificial Intelligence (TeleAI), China Telecom(中国电信人工智能研究院(TeleAI)) ; Oxford Robotics Institute, University of Oxford(牛津大学牛津机器人研究所) ; Center for Robotics, University of Bonn(波恩大学机器人中心) ; Department of Mechanical Engineering, Massachusetts Institute of Technology(麻省理工学院机械工程系)
AI总结 提出GUIDE框架,通过空间锚点预测器利用多频率本体感受历史提取自运动表示,结合深度流感知局部几何,实现无需后续目标更新的端到端四足机器人导航。
Comments https://guide-navigation.github.io/
AgniNav:配置驱动的跨具身局部规划机器人导航
发表机构 * Eastern Institute of Technology, Ningbo, China(东方理工(宁波)) ; University of Nottingham, Nottingham, UK(诺丁汉大学) ; University of Science and Technology of China, Hefei, China(中国科学技术大学)
AI总结 提出AgniNav框架,通过可配置的四参数安全包络实现单目视觉导航在轮式、四足和人形机器人间的零重训练迁移,联合调节感知与规划。
AllDayNav: 通过真实世界强化学习实现终身导航
发表机构 * Tsinghua University(清华大学) ; Galbot Robotics ; Peking University(北京大学) ; Beijing Academy of Artificial Intelligence(北京人工智能研究院)
AI总结 提出AllDayNav框架,利用自进化多模态记忆和强化学习隐式编码场景动态,在跨房间、跨回合和跨任务场景中实现接近100%的成功率,超越基于地图、VLM和RL的基线方法。
Comments Project Page: https://bagh2178.github.io/AllDayNav/
广义CVO:基于二阶黎曼优化的快速无对应局部点云配准
AI总结 提出一种基于几何表面结构和再生核希尔伯特空间嵌入的无对应局部点云配准方法,采用二阶流形优化实现高达10倍加速,在LiDAR和RGB-D跟踪及物体配准中显著降低漂移并提升鲁棒性。
Comments 16 pages, 12 figures
FOUND-IT: 基于基础模型优先、按需粒度的任务驱动3D场景图
发表机构 * Laboratory for Information & Decision Systems, Massachusetts Institute of Technology(信息与决策系统实验室,麻省理工学院) ; Samsung Research America(三星美国研究院)
AI总结 提出首个基于未标定单目相机实时构建任意室内外环境分层任务驱动3D场景图的方法,通过几何基础模型和可调整粒度支持动态任务,并在ASHiTA SG3D基准上提升79%准确率。
流控制:通过简单实时输入引导视觉-语言-动作模型
AI总结 提出流控制方法,利用键盘等通用实时输入引导VLA模型动作,无需重新训练,能提升任务成功率和完成速度。
Comments 10 pages, 5 figures
基于语言和自我中心人类信号的分层策略用于自然人机交互
发表机构 * KAIST(韩国科学技术院) ; Seoul National University(首尔国立大学)
AI总结 提出EDITH框架,通过智能眼镜捕捉人类第一人称视角、注视和语言信号,设计分层策略将非语言信号与语言指令结合,实现更自然的人机交互,减少用户表达意图的负担。
Comments We provide video demos and code in: https://project-edith.github.io
EM-Fall: 用于人形机器人昼夜跌倒检测的具身毫米波感知
发表机构 * MARS Lab(MARS实验室) ; NTU(南洋理工大学) ; IOT Lab(物联网实验室)
AI总结 提出EM-Fall框架,将毫米波感知与移动人形机器人结合,通过主动调整视角实现跨房间遮挡下的跌倒检测,并设计轻量时序模型处理宠物干扰和多径效应,在8个真实环境中验证了鲁棒性。
人机交互中的平和心态:将平静技术原则应用于人机交互
发表机构 * Cognitive Science Department, Jagiellonian University(杰兹维日大学认知科学系)
AI总结 本文探索将平静技术整合到人机交互中,为家庭辅助机器人设计提供指南,以促进平和、非侵入性的交互,并强调负责任机器人学与伦理考量。
Comments Conference pre-print. https://doi.org/10.1007/978-981-96-3525-2_41
RobotEQ:从被动智能到主动智能的具身AI过渡
发表机构 * State Key Laboratory of Autonomous Intelligent Unmanned Systems, Tongji University(自主智能无人系统国家重点实验室,同济大学) ; Tsinghua University(清华大学) ; The Chinese University of Hong Kong(香港中文大学) ; CMVS, University of Oulu(奥卢大学CMVS)
AI总结 提出RobotEQ基准,评估模型在具身场景中理解并遵守社会规范的能力,实验表明现有模型在主动智能上仍有不足,利用RAG技术可提升性能。
OMG: 面向通用人形机器人的全模态运动生成
发表机构 * Tsinghua University(清华大学)
AI总结 提出OMG框架,通过精心策划的数据流程和扩散模型,实现基于语言、音频和参考动作的全模态全身控制,展示了最先进的性能和可扩展性。
Comments Project Page: https://tsinghua-mars-lab.github.io/OMG/
VeriSpace: 面向视觉-语言-动作模型的空间基础动作验证
发表机构 * Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 提出VeriSpace,一种3D感知的动作验证器,通过双路径3D注入场景编码和空间基础动作推理,在测试时选择候选动作,提升VLA模型的可靠性。
Comments Submit to ACM MM
SAFE-Pruner: 语义注意力引导的未来感知令牌剪枝用于高效视觉-语言-动作操控
发表机构 * Tsinghua Shenzhen International Graduate School, Tsinghua University(清华大学深圳国际研究生院,清华大学)
AI总结 针对视觉-语言-动作模型推理加速中现有剪枝方法忽略深层视觉信息的问题,提出SAFE-Pruner框架,通过引入未来层注意力线索和语义注意力一致性实现前瞻性令牌剪枝,在仿真和真实实验中取得最高1.89倍加速且成功率下降小于1.7%。
CAST: 反事实标签提升视觉-语言-动作模型中的指令跟随能力
发表机构 * University of California Berkeley(加州大学伯克利分校) ; Princeton University(普林斯顿大学)
AI总结 针对VLA模型难以遵循细粒度指令的问题,提出利用视觉语言模型生成反事实标签增强数据集,提升语言基础多样性,实验表明该方法在导航和操作任务中显著提升指令跟随成功率。
MIND-V:基于强化学习物理对齐的长期机器人操作分层世界模型
发表机构 * Tsinghua University(清华大学) ; X Square Robot(X Square机器人) ; Sun Yat-sen University(中山大学) ; HKUST(香港科技大学)
AI总结 提出MIND-V分层世界模型,通过语义推理、行为语义桥接和运动视频生成,结合强化学习物理对齐,实现长期机器人操作视频的物理合理合成。
Discrete-WAM:面向世界-策略学习的统一离散视觉-动作标记编辑
发表机构 * Xiaomi EV(小米电动车)
AI总结 提出Discrete-WAM,通过将未来视觉状态和自车动作对齐为离散标记,构建统一离散扩散框架,实现世界建模、世界-动作策略和分层决策策略的联合学习,支持可控生成和反事实推理,提升自动驾驶决策可靠性。
QDepth-VLA:量化深度预测作为视觉-语言-动作模型的辅助监督
发表机构 * School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Beijing Zhongke Huiling Robot Technology Co.(北京中科创联机器人科技有限公司)
AI总结 提出QDepth-VLA框架,通过辅助深度预测任务增强VLA模型的空间感知与推理能力,在仿真和真实任务中提升操作性能。
基于信息增益规划与信念融合的多无人机主动感知
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出多无人机主动感知框架,利用信息增益路径规划与概率信念融合实现二元地形映射,在合成和真实农业图像上验证,相比随机游走和扫描覆盖降低熵与误差。
资源受限环境下的分布式多UGV探索框架:环回感知规划与描述符辅助定位
发表机构 * School of Mechanical Engineering, Beijing Institute of Technology(北京理工大学机械与车辆学院) ; China North Artificial Intelligence & Innovation Research Institute, Collective Intelligence & Collaboration Laboratory (CIC)(中国北方人工智能与创新研究院集体智能与协作实验室) ; Zhengzhou Intelligent Technology Research Institute, Beijing Institute of Technology(北京理工大学郑州智能科技研究院)
AI总结 提出一种完全分布式的多无人地面车辆(UGV)探索框架,通过轻量级LiDAR全局描述符实现跨UGV环回检测,并结合环回感知分层规划,在资源受限环境中减少探索时间和行驶距离。
Co-GLANCE: 异构机器人团队的不确定性感知主动感知
AI总结 提出Co-GLANCE系统,通过蒸馏视觉语言模型实现实时遮挡分割与机器人分配,结合共形预测与选择性弃权提供统计保证的不确定性量化,驱动主动感知,在真实场景中遮挡分割和分配准确率分别提升25%和36%,推理延迟降低350倍。
Comments Code, videos, and dataset available at https://co-glance.github.io/
自动驾驶中基于反事实分析的自监督相关性建模
发表机构 * Networked Systems Lab, Universidad Miguel Hernandez de Elche(网络系统实验室,米格尔·希内斯·埃尔切大学)
AI总结 提出一种基于反事实分析的自监督方法,用于量化自动驾驶中物体的相关性,实现毫秒级实时估计,并生成相关性热图以辅助感知与规划。
面向大学生无人驾驶方程式赛车增强MPC路径跟踪的车辆预测模型
发表机构 * Center for Artificial Intelligence and Robotics (CAIRO)(人工智能与机器人中心(CAIRO);维尔茨堡-施韦因富特应用科学大学) ; TUAS Würzburg-Schweinfurt
AI总结 提出一种结合离线贝叶斯线性回归与在线稀疏高斯过程回归的实时车辆预测模型,将预测精度提升高达57%,并在实际赛车MPC路径跟踪控制器中验证有效性。
Comments Accepted as a conference paper in IEEE Intelligent Vehicles Symposium (IV) 2026, Detroit, MI, United States
推动自动驾驶赛车的性能极限:大学生方程式无人驾驶中的连续稳定性感知自适应速度规划
发表机构 * Center for Artificial Intelligence and Robotics (CAIRO)(人工智能与机器人中心(CAIRO);维尔茨堡-施韦因富特应用技术大学) ; TUAS Würzburg-Schweinfurt
AI总结 提出一种连续稳定性感知自适应速度规划方法,通过推断连续缩放因子生成摩擦图,实现实时最优目标速度计算,在真实赛车上测试圈速提升35%。
Comments Accepted as a conference paper in IEEE Intelligent Vehicles Symposium (IV) 2026, Detroit, MI, United States
一种曝光时间对齐的主路径架构用于自动驾驶ECU
发表机构 * National Institute of Advanced Industrial Science and Technology, Japan(日本国家先进工业科学与技术研究院)
AI总结 针对生产车辆从模块化多NN流水线向端到端自动驾驶过渡的需求,提出主路径、曝光时间对齐和共路径共存三项设计原则,在双SoC平台上实现平均296ms的延迟。
基于具身条件的多旋翼空中机器人通用控制
发表机构 * Department of Engineering Cybernetics, Norwegian University of Science and Technology (NTNU), Trondheim, Norway(挪威科技大学工程控制论系)
AI总结 提出一种通用位置控制策略,通过物理具身描述符(质量与惯性归一化控制分配矩阵)实现单一网络权重控制任意多旋翼构型,采用PPO训练,五分钟后零样本迁移至真实世界。
利用基于加加速度增强模型与仅IMU干扰抑制的自主农业机器人弹性导航
发表机构 * Iowa State University(爱荷华州立大学) ; Salin247
AI总结 针对农业机器人传感器中断和振动问题,提出加加速度增强EKF与多调谐因子自适应方法,动态调整测量协方差,显著降低3D位置RMSE。
语言驱动的自动驾驶成本优化
发表机构 * TU Delft(代尔夫特理工大学)
AI总结 提出语言驱动框架,利用大语言模型解释场景和用户查询,生成风险感知MPPI控制器的参数,并通过人机交互验证和反馈迭代优化自动驾驶行为。
Comments Paper accepted at IEEE Intelligent Transportation Systems Conference (ITSC) 2026
扩散强制规划器:基于时间依赖引导的历史退火规划用于自动驾驶
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Yinwang Intelligent Technology Co., Ltd(银网智能科技有限公司) ; Hefei Institutes of Physical Science, Chinese Academy of Sciences(中国科学院合肥物质科学研究院)
AI总结 提出扩散强制规划器(DFP),通过历史引导控制实现异构联合扩散过程,结合退火历史的条件引导,解决运动规划中的时间不一致问题,在nuPlan上取得竞争性能。
Comments CVPR2026
RAPTOR: 机器人快速空中抓取与运输物体
发表机构 * Soft Robotics Lab, ETH Zurich, Switzerland(软机器人实验室,苏黎世联邦理工学院,瑞士)
AI总结 提出一种结合软材料Fin Ray夹爪和Fast DDS中间件的四旋翼平台RAPTOR,实现高速飞行中对不同几何形状物体的灵活抓取,平均抓取成功率83%,有效载荷达先前工作的四倍。
Comments 7 pages, 10 figures, accepted to IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2022. Video: https://youtu.be/KHkBlBABsC8 Project page: https://srl-ethz.github.io/RAPTOR
面向视觉条件的无人机导航的自优化智能体强化学习
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出AgenticRL框架,利用多模态GPT智能体自动设计奖励函数、通过闭环自改进优化策略,在多种无人机导航任务中提升性能并实现高成功率。
连续体和软体机器人控制中的杆模型:综述
发表机构 * Istituto Italiano di Tecnologia(意大利技术研究院) ; The BioRobotics Institute(生物机器人研究所) ; Department of Excellence in Robotics and AI(机器人与人工智能卓越部门)
AI总结 本文综述了杆模型在连续体和软体机器人建模与控制中的应用,涵盖数学基础、机器人建模及控制策略,并讨论了其优势、局限和未来方向。
CableRobotGraphSim:一种用于建模部分可观测缆索驱动机器人动力学的图神经网络
发表机构 * Rutgers University(罗切斯特大学) ; Yale University(耶鲁大学)
AI总结 提出CableRobotGraphSim,一种图神经网络模型,通过将缆索驱动机器人表示为图(刚体为节点,缆索和接触为边),仅利用部分可观测输入即可快速准确匹配其他仿真和真实机器人,并采用仿真-真实联合训练提升鲁棒性,最后集成MPPI控制器实现闭环导航。
BiPneu:用于软体机器人的双极气压气动系统的设计与控制
发表机构 * Department of Electrical and Computer Engineering, Michigan State University(电气与计算机工程系,密歇根州立大学)
AI总结 提出一种可扩展、高性价比的多通道双极气压气动系统BiPneu,并设计基于混合电-气动模型的双模式滑模控制器(DM-SMC),实现宽范围、精确、快速的压力调节,在软体机器人应用中显著优于MPC和PID控制器。
Comments Full Version of BiPenu, including the supplementary materials
演示筛选指标对策略的影响
AI总结 研究演示筛选指标在检测缺陷演示后,是否提升基于行为克隆的策略性能。发现指标检测缺陷的能力与策略性能严重脱钩,并揭示演示时长作为混淆变量的影响。
Comments 6 pages, 1 figure, 2 tables
提升VLA评估中仿真与真实相关性的实用指南
发表机构 * Tsinghua University(清华大学) ; Shanghai Qi Zhi Institute(上海期智研究院)
AI总结 本文系统研究仿真与真实环境在VLA策略评估中的相关性,提出统一框架来测量和提升仿真作为真实评估代理的有效性。
Comments 20 pages
UMI-Bench 1.0:基于UMI数据的桌面机器人操作开放可复现真实世界基准
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出UMI-Bench 1.0,首个专为UMI风格操作策略设计的真实机器人基准,通过统一协议实现数据收集、场景重置、策略执行、结果记录和任务因素分析,提供可复现的评估平台。
具身智能时代基于物理模拟器的机器人导航与操作综述
发表机构 * Department of Computer Science, City University of Hong Kong(城市大学计算机科学系) ; School of Electrical and Electronic Engineering, Nanyang Technological University(南洋理工大学电子与电气工程学院) ; Department of Informatics, Universität Hamburg(汉堡大学信息学院)
AI总结 本文综述了物理模拟器在缩小具身智能中导航与操作的模拟到现实差距方面的关键特性、任务支持及硬件需求,并提供了基准数据集、指标、平台和方法资源。
Comments Under Review
TaCarla: 端到端自动驾驶的综合基准数据集
发表机构 * Tuğrul Gorgülü *†(土耳其巴伊塞蒂大学) ; Atakan Dağ †(土耳其巴伊塞蒂大学) ; M. Esat Kalfaoğlu ‡(土耳其巴伊塞蒂大学) ; Halil İbrahim Kuru †(土耳其巴伊塞蒂大学) ; Barış Can Cam †(土耳其巴伊塞蒂大学) ; Halil İbrahim Öztürk †(土耳其巴伊塞蒂大学) ; Özsel Kılınç §(土耳其巴伊塞蒂大学)
AI总结 针对现有自动驾驶数据集不完整、行为多样性不足及闭环评估缺失等问题,基于CARLA Leaderboard 2.0挑战场景收集超过285万帧的多任务数据集,支持规划、检测、预测及视觉语言动作模型,并提供数值稀有度评分。
Comments Accepted at the Third Workshop on Simulation for Autonomous Driving (SAD), CVPR 2026
CADENCE:预测实际MAPF执行时间超越成本总和
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出CADENCE框架,通过分析原始运动负担和交互感知协调特征,发现原始运动负担能显著提高多智能体路径规划执行时间的预测精度,超越传统成本总和指标。
Comments 7 pages, 4 figures, 3 tables and this paper was accepted at Multi-Agent Robotic Systems: Real-World Collaboration and Interaction a workshop at the international conference of robotics and automation (ICRA 2026)
测试时对抗接管:针对机器人扩散策略的实时劫持接口
发表机构 * Tsinghua University(清华大学) ; Independent Researcher(独立研究员) ; Johns Hopkins University(约翰霍普金斯大学) ; UC Berkeley(加州大学伯克利分校)
AI总结 提出测试时对抗接管(TAKO)方法,通过可微扩散推理学习可重复使用的通用补丁,在测试时切换补丁以劫持机器人策略,实现远程操控,在多种任务和模型上达到100%接管成功率。
揭示视觉-语言-动作模型在关节级物理故障下的脆弱性
发表机构 * Graduate School of Data Science, Seoul National University(首尔大学数据科学研究生院)
AI总结 本研究揭示VLA模型在机器人关节级物理故障(如执行器退化、摩擦增加)下性能显著下降,并提出轻量级残差校准框架J-PARC,通过推断关节故障状态并自适应修正动作,提升鲁棒性。
SHAPO: 面向安全探索的锐度感知策略优化
AI总结 提出SHAPO算法,通过锐度感知策略更新隐式重加权梯度,放大罕见不安全动作的影响,抑制安全动作的贡献,从而在欠探索区域实现保守行为,提升安全性与任务性能。
Comments ICLR 2026
面向快速鲁棒机器人故障检测与恢复的目标导向通信
发表机构 * Department of Engineering, King’s College London(伦敦国王学院工程系) ; Bristol Research and Innovation Laboratory, Toshiba Europe Ltd.(托bsd欧洲有限公司布里斯托尔研究与创新实验室)
AI总结 提出目标导向通信框架,通过联合设计通信-计算-控制回路,利用3D场景图检测故障,并微调小语言模型结合知识蒸馏生成恢复动作,实现故障检测与恢复时间降低82.6%,任务成功率提升76%。
Comments Submit to IEEE for potential publication
BadRobot: 在物理世界中越狱具身LLM智能体
发表机构 * Huazhong University of Science and Technology(华中科技大学) ; Beihang University(北航) ; Griffith University(格里菲斯大学)
AI总结 提出BadRobot攻击范式,利用LLM在机器人系统中的操纵、语言输出与物理动作的错位以及世界知识缺陷三个漏洞,通过语音交互使具身LLM执行有害行为,并在基准测试中验证了有效性。
Comments Accepted to ICLR 2025. Please cite the conference version. Project page: https://Embodied-LLMs-Safety.github.io
基于基础模型的机器人在患者和老年人护理中的探索
AI总结 本文综述了基于基础模型的护理机器人在设计特征、用户体验和护理效果方面的现状,指出当前系统多用于语音交互,多模态和物理自主性有限,并呼吁向护理特定评估标准和负责任自主性发展。
通过张量符号改进矩阵李群运算的表示
AI总结 本文引入张量和爱因斯坦求和符号来简化矩阵李群在李导数计算中的表示,提高估计框架中梯度计算的清晰度。
Comments 12 pages, 4 figures + graphical abstract, 1 algorithm, 4 tables
ros2probe: 面向机器人操作系统2中间件的非侵入式、内核选择性可观测性
发表机构 * DGIST(大邱庆北科学技术院)
AI总结 针对ROS 2观测工具因加入DDS域而产生的探针效应(膨胀发现平面、增加反序列化开销、导致丢包偏差),提出ros2probe,通过被动捕获发现包重构通信状态,并利用内核过滤仅提取用户指定主题的包,消除探针效应,保持发现图误差在0.5%以内,无丢包,CPU和内存开销降低最高28倍。
Comments 13 pages, 8 figures, 7 tables
使用超二次曲面参数化和质量-多样性生成多样化且功能性的机器人设计
发表机构 * Edinburgh Napier University(爱丁堡纳皮尔大学)
AI总结 提出基于超二次曲面(SQs)的机器人身体表示,结合质量-多样性算法MAP-Elites,以增强形态多样性并避免过早收敛,在测试中取得最高QD分数。
Comments Accepted at PPSN 2026
通过Lingua Franca实现ROS 2应用的确定性执行
发表机构 * TU Dortmund University(多特蒙德工业大学) ; University of California, Berkeley(加州大学伯克利分校) ; RWTH Aachen University(亚琛工业大学)
AI总结 提出框架将未修改的ROS 2应用转换为Lingua Franca程序,利用逻辑时间实现确定性执行,解决ROS 2中回调执行顺序和消息交织的非确定性问题。
RocketSmith: 一种用于高功率火箭设计与制造的智能系统
发表机构 * Graduate Research Assistant, Mechanical Engineering(机械工程研究生助理) ; AI Fellow, Mechanical Engineering(人工智能研究员,机械工程) ; Undergraduate Student, Mechanical Engineering(机械工程本科生) ; Senior Member, Pittsburgh Prefecture One(高级会员,匹兹堡郡一区) ; Russell V. Trader Associate Professor, Mechanical Engineering(Russell V. Trader副教授,机械工程)
AI总结 本文提出RocketSmith,一种基于智能体系统的自动化设计、制造与优化框架,通过子智能体与技能实现零样本和人在回路的飞行参数优化,并利用增材制造成功开发并测试了四枚高功率火箭。
MALLVI:一种多智能体框架用于集成通用机器人操作
发表机构 * Department of Electrical Engineering, Sharif University of Technology(电气工程系,谢里夫大学)
AI总结 MALLVI通过多智能体协作实现闭环反馈驱动的机器人操作,提升泛化能力和零样本任务成功率。
Comments Some fundemental change in text and codebase
长期动态底栖环境中的视觉定位:一个数据集、基于足迹的地面真实信息以及视觉地点识别基准
发表机构 * Department of Marine Technology(海洋技术系) ; Norwegian University of Science and Technology(挪威科学技术大学) ; Trondheim, Norway(特罗姆瑟,挪威)
AI总结 本文提出一个用于长期底栖环境视觉定位的 curated 数据集和基于足迹的地面真实方法,评估了八种最先进的视觉地点识别方法,发现其在该数据集上的 Recall@K 显著低于传统基准。
HannesImitation:通过模仿学习控制Hannes假手进行抓取
发表机构 * Humanoid Sensing and Perception(人形感知与感知实验室) ; Istituto Italiano di Tecnologia(意大利技术研究院) ; Rehab Technologies Lab(康复技术实验室)
AI总结 本文提出HannesImitationPolicy,通过模仿学习控制Hannes假手在无结构环境中抓取物体,并引入HannesImitationDataset进行训练,实验表明其在无结构场景中优于基于分割的视觉伺服控制器。
Comments Paper accepted at IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)