TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies
TempoVLA: 学习速度可控的视觉-语言-动作策略
发表机构 * RUC(中国人民大学) ; FDU(福建大学) ; UNC(北卡罗来纳大学教堂山分校)
AI总结 提出TempoVLA,通过可变速度轨迹增强和速度条件机制,实现机器人操作中速度的双向灵活控制,并支持动态速度调节。
TempoVLA: 学习速度可控的视觉-语言-动作策略
发表机构 * RUC(中国人民大学) ; FDU(福建大学) ; UNC(北卡罗来纳大学教堂山分校)
AI总结 提出TempoVLA,通过可变速度轨迹增强和速度条件机制,实现机器人操作中速度的双向灵活控制,并支持动态速度调节。
基于流的策略适应无需策略更新
发表机构 * Toyota Technological Institute at Chicago(芝加哥丰田技术研究所) ; Stony Brook University(石溪大学)
AI总结 提出GLOVES方法,通过流模型将非专家动作向专家动作分布传输,实现选择性动作级适应,提升任务成功率并保持智能体意图。
RiskFlow: 快速且保真的安全关键交通场景生成
发表机构 * National University of Singapore(新加坡国立大学)
AI总结 提出RiskFlow框架,通过动作空间中的单次前向传输替代迭代去噪,实现快速、保真的安全关键多智能体交通场景生成。
确保多任务外骨骼控制中的交互安全性:一种仿真训练的可变阻抗框架
发表机构 * Tsinghua University(清华大学)
AI总结 提出一种基于仿真训练的可变阻抗控制框架,通过Lyapunov稳定性理论约束刚度变化,实现多任务外骨骼的安全交互控制并降低代谢成本。
航点至关重要:基于采样的轨迹规划的系统研究
发表机构 * AUTOPIA Program at the Centre for Automation and Robotics, CSIC-Universidad Politécnica de Madrid(自动化与机器人中心,CSIC-马德里理工大学)
AI总结 本文系统研究了航点放置策略(均匀间隔、RDP*变体、曲率条件分配)对采样轨迹规划器性能的影响,发现标称航点间距是主要性能驱动因素,均匀采样在适当间距下表现最佳。
Comments 8 pages, 5 figures, 3 tables; accepted at IEEE ITSC 2026
Meridian: 超越城市环境的跨视角地理定位的度量-语义基元匹配
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; GRASP Laboratory, University of Pennsylvania(宾夕法尼亚大学GRASP实验室) ; U.S. Army Combat Capabilities Development Command, Army Research Laboratory(美国陆军战斗能力发展指挥部,陆军研究实验室)
AI总结 提出Meridian方法,通过匹配航拍图像与地面机器人RGB-D数据中的高层度量-语义基元,无需特定区域训练即可实现跨多种环境的全局定位,平均轨迹误差2.4米。
Comments 9 pages, 6 figures
三轴加速度计的姿态辅助线性校准
发表机构 * Tsinghua University(清华大学)
AI总结 提出一种利用姿态信息的三轴加速度计线性校准方法(ALAC),通过构建组合误差矩阵实现线性最小二乘估计,仅需五个任意方向测量即可完成校准,并在静态和准静态实验中验证了其精度和鲁棒性。
合成数据生成与基于视觉的褶皱和关键点检测用于双手布料操作
发表机构 * Department of Engineering, University of Luxembourg(卢森堡大学工程系) ; School of Electrical and Electronic Engineering, Nanyang Technological University(南洋理工大学电子与电气工程学院) ; Université de Lorraine, Arts et Metiers Institute of Technology, LCFC(洛林大学,艺术与工艺技术学院,LCFC)
AI总结 针对布料操作中视觉感知难题,提出基于Blender的合成数据生成管道和结合CNN与YOLOv8-OpenCV的感知框架,实现褶皱抓取和关键点熨烫,关键点模型平均位置误差1.7615像素。
多分辨率触觉模仿学习用于接触丰富的机器人操作
发表机构 * Interactive Robot Perception & Learning, TU Darmstadt(互动机器人感知与学习,图腾达姆施塔特大学) ; Intelligent Autonomous Systems, TU Darmstadt(智能自主系统,图腾达姆施塔特大学) ; Hessian AI(黑森人工智能) ; Robotics Institute Germany(德国机器人研究所)
AI总结 提出多分辨率触觉表示框架MiTaS,融合不同时间分辨率的触觉传感器(GelSight Mini和Evetac)与RGB相机,通过模态特定卷积茎和基于Transformer的融合实现复杂接触丰富操作任务的模仿学习,平均成功率80%。
Comments 20 pages, preprint
RadiusFPS:通过球形体素剪枝在CPU和GPU上实现高效最远点采样
发表机构 * School of Computing(计算学院) ; Institute of Science(科学研究院) ; Tokyo(东京)
AI总结 提出RadiusFPS框架,利用球形体素剪枝加速最远点采样(FPS),在保持标准更新规则的同时,通过保守几何边界和坐标点跳过测试减少冗余计算,并在GPU上实现融合核,显著提升速度并降低内存占用。
Comments 28 pages,15 figures
打破时间:一种用于分布式和连续时间SLAM的全高斯框架
发表机构 * Department of Computer, Control, and Management Engineering "Antonio Ruberti", Sapienza University of Rome(计算机、控制与管理工程系(Antonio Ruberti), 罗马萨皮恩扎大学) ; University of Stuttgart(斯图加特大学)
AI总结 提出G-solver,结合高斯信念传播和高斯过程运动先验的分布式连续时间轨迹估计框架,支持异构异步传感器和多相机场景。
Comments To be published in RA-L. Open-source implementation is released at https://github.com/rvp-group/gsolver
MPCoT: 奖励引导的多路径潜在推理用于测试时可扩展的视觉-语言-动作
发表机构 * Department of Electrical and Computer Engineering, Boston University(波士顿大学电气与计算机工程系) ; Department of Computer Science, Tsinghua University(清华大学计算机系)
AI总结 提出MPCoT框架,通过奖励引导的多路径潜在推理,在保持零推理令牌和原始动作接口的同时,提升长时域和高不确定性控制任务中的VLA策略性能。
Comments 14 pages, 5 figures, submitted to CoRL
CLEAR:端到端自动驾驶中的认知与潜在评估自适应路由
发表机构 * Qwen 3.5 0.8B
AI总结 提出CLEAR框架,通过单步条件漂移替代扩散模型的多步去噪,结合视觉编码器Drive-JEPA和微调Qwen 3.5 0.8B进行语义推理,实现高效多模态规划,在NAVSIM v1上达到93.7 PDMS。
TAM: 用于鲁棒操作运动传递的扭矩自适应模块
发表机构 * KAIST(韩国科学技术院) ; Allen Institute for AI(人工智能研究院) ; University of Toronto(多伦多大学) ; University of Washington(华盛顿大学)
AI总结 提出扭矩自适应模块(TAM),通过历史编码器和扭矩适配器修正扭矩指令,实现不同机器人或负载间的运动传递,无需领域随机化或重新收集数据。
ActiveMimic: 基于主动感知的自我中心视频预训练
发表机构 * Fudan University(复旦大学) ; Shanghai Innovation Institute(上海创新研究院) ; Current Robotics ; NeoteAI
AI总结 提出ActiveMimic框架,从自我中心人类视频中恢复同步的相机和手腕轨迹,将相机运动建模为视角动作,联合学习主动感知和操作技能,使预训练模型在机器人任务上达到与机器人数据预训练相当的性能。
Comments Project Page: https://activemimic.github.io/
AffordanceVLA:一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型
发表机构 * Peking University(北京大学) ; Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; The Chinese University of Hong Kong(香港中文大学) ; Knowin AI
AI总结 提出AffordanceVLA框架,通过引入结构化可供性预测作为任务导向的中间表示,解决VLA模型中语义空间与具身控制策略的结构不匹配问题,实现精确的感知-动作映射。
Comments Preprint. Code and project page are available. Code: https://github.com/Skywalker-yqz/AffordanceVLA Project page: https://skywalker-yqz.github.io/AffordanceVLA/
MotionDisco: 用于极端人形机器人移动操作的运动发现
发表机构 * Technical University of Munich, Germany(慕尼黑技术大学) ; New York University, USA(纽约大学) ; Carnegie Mellon University, USA(卡内基梅隆大学)
AI总结 提出MotionDisco框架,通过大语言模型引导的进化搜索和顺序运动动力学轨迹优化,从零开始自动发现长时域、接触丰富的人形机器人移动操作技能,并在真实机器人上部署。
面向真实3D声纳仿真
发表机构 * IEEE
AI总结 本文提出一种模块化架构,结合GPU加速图形引擎与物理声学传播原理,在NVIDIA Isaac Sim中实现基于Water Linked 3D-15传感器的体积3D声纳模型,并通过硬件在环配置验证其有效性。
基于生成流场代理的三维水下路径规划
发表机构 * Flinders University(弗林德斯大学)
AI总结 针对自主水下航行器回收过程中复杂三维螺旋桨尾流的高成本CFD仿真问题,提出用条件生成对抗网络(cGAN)作为替代,结合能量加权A*路径规划,实现快速且有效的路径规划。
Comments 41 pages, 5 figures, 11 tables
基于分布式生成式AI模型的人机协作操作对话框架
发表机构 * Automation Technology and Mechanical Engineering, Tampere University(自动化技术与机械工程,塔尔库大学)
AI总结 提出一个分布式对话框架,集成语言和视觉语言模型与ROS 2执行栈,实现从自由形式用户命令生成结构化操作请求,并通过视觉基础将图像空间目标转换为机器人框架目标,实验验证了端到端任务可靠性和延迟。
Comments Accepted to the 35th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN 2026). The final published version will appear under the title "A Distributed Conversational Framework for Human-Robot Collaborative Manipulation Using Local LLMs and VLMs"
L-SDPPO:用于舱内机器人操作的脉冲扩散策略优化
发表机构 * Department of Control Science and Engineering, Harbin Institute of Technology(控制科学与工程系,哈尔滨工业大学) ; Department of Mechanical and Automation Engineering, The Chinese University of Hong Kong(机械与自动化工程系,香港中文大学)
AI总结 提出L-SDPPO框架,结合脉冲扩散策略与强化学习优化,并引入状态依赖延迟注入机制,在舱内机器人操作任务中实现高成功率和低能耗。
通过零样本迁移学习实现机器人操作任务的样本高效低级运动规划
发表机构 * School of Computer Science & Informatics, Cardiff University, Cardiff, UK(计算机科学与信息学系,卡迪夫大学,卡迪夫,英国)
AI总结 提出iCEM+TL框架,通过迁移学习和奖励重塑提高复杂操作任务的成功率,仿真中提升高达23%,并在真实机器人上验证。
Comments 12 pages, 5 figures, International Conference on Artificial Neural Networks (ICANN) 2026 conference accepted
快速生长:高速藤蔓机器人尖端支架的设计与基准测试
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; Lincoln Laboratory(林肯实验室) ; Stanford University(斯坦福大学) ; University of Notre Dame(圣母大学)
AI总结 提出一种三角滚轮尖端支架,通过滚动代替滑动减少生长阻力,实现TPU涂层防撕裂尼龙藤蔓机器人的一致外翻,并建立可重复的基准测试框架。
Comments Accepted to IEEE Robotics & Automation Letters
PLAN-S:通过潜在风格动态桥接规划以实现自动驾驶世界模型
发表机构 * Intelligent Transportation Thrust, Systems Hub, and Center of Seamless Connectivity & Connected Intelligence, The Hong Kong University of Science and Technology (Guangzhou)(智能交通 thrust、系统中心及无缝连接与智能连接研究院,香港科学与技术大学(广州))
AI总结 提出PLAN-S框架,通过从潜在表示解码风格条件语义成本图,解决自动驾驶中潜在世界模型规划的可控性问题,在nuScenes和NAVSIM上降低了碰撞率并提升了驾驶性能。
将基于模型的控制与多智能体强化学习相结合以实现多智能体协作团队策略
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Sandia National Laboratories(桑地亚国家实验室)
AI总结 提出一种结合多智能体强化学习与模型预测控制的框架(MA-AC-MPC),通过扩展演员-评论家模型预测控制实现安全、动态可行的协作策略,并在追逃场景和异构环境中验证其优于多层感知机模型。
Comments 12 pages, 8 figures, 7 tables
世界-语言-动作模型:统一世界建模、语言推理与动作合成
发表机构 * SJTU(上海交通大学) ; SII(上海研究院) ; HUST(华中科技大学) ; SCUT(华南理工大学) ; ECUST(东华大学) ; SHU(上海大学) ; NJUPT(南京工业大学)
AI总结 提出世界-语言-动作(WLA)模型,通过自回归Transformer联合预测文本子任务、子目标图像和机器人动作,融合世界建模与语言推理能力,实现多任务和长时域任务的最优性能。
Comments 19 pages, 10 figures
T-FunS3D:任务驱动的分层开放词汇3D功能分割
发表机构 * P4MARS Lab at the Faculty of Aerospace Engineering, Delft University of Technology(代尔夫特理工大学航空航天工程学院P4MARS实验室)
AI总结 提出T-FunS3D方法,通过构建开放词汇场景图并利用视觉语言模型,实现任务驱动的分层3D功能分割,在保持性能的同时提升速度和降低内存消耗。
面向物流具身智能的数据飞轮
发表机构 * Peking University(北京大学) ; JD Logistics(京东物流) ; HKUST (Guangzhou)(香港科技大学(广州))
AI总结 提出一种数据驱动的物流具身智能框架,通过构建数据飞轮将日常操作转化为可复用数据资产,利用世界模型生成长尾包裹操作的可靠监督,并整合多模态数据实现策略持续改进。
通过对抗性合成场景学习机器人安全策略
发表机构 * National Research Institute of Automation and Applied Mathematics(国家自动化与应用数学研究所)
AI总结 提出一个基于对抗性游戏的框架,通过红蓝两队对抗生成危险场景并迭代优化安全策略,以高效发现高风险边缘案例。
一种基于编码器-解码器的跨传感器自适应方法,用于稀疏应变传感器的表面形状感知
发表机构 * IEEE
AI总结 提出一种结合元学习和少样本适应的编码器-解码器架构,实现不同传感器阵列间的跨传感器自适应,显著降低新传感器部署所需的标注数据量和适应时间,将感知误差从23.0 mm降至约4.0 mm。
TAGA:面向可泛化敏捷人形运动的地形感知主动注视学习
发表机构 * MarmotLab, National University of Singapore(马尔莫实验室,新加坡国立大学) ; Center of X-Mechanics, Zhejiang University(浙大X力学中心) ; South China University of Technology(华南理工大学)
AI总结 提出TAGA框架,通过融合视觉、本体感觉和运动命令,让模型学习主动注视地形关键区域,在有限计算资源下提高感知密度,实现鲁棒且可泛化的敏捷人形运动。
LadderMan: 学习人形机器人感知爬梯
发表机构 * Amazon FAR(亚马逊FAR) ; USC(美国南加州大学) ; UC Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学) ; CMU(卡内基梅隆大学)
AI总结 提出LadderMan系统,通过两阶段学习管道和视觉基础模型,使人形机器人能够鲁棒地攀爬多种梯子并在梯子上进行操控。
用于腹部体积重建的视觉触觉和显式力控制机器人超声
发表机构 * Stanford Robotics Laboratory, Computer Science Department, Stanford University(斯坦福机器人实验室、计算机科学系、斯坦福大学) ; Department of Radiology, School of Medicine, Stanford University(放射科、医学院、斯坦福大学)
AI总结 提出一种结合立体视觉、触觉反馈和专家策略的机器人超声采集系统,通过力控机械臂实现自适应腹部扫描,并实现三维体积重建以增强诊断能力。
摊销非线性模型预测控制
发表机构 * IMT School for Advanced Studies(IMT高级研究学院)
AI总结 针对输入仿射非线性系统,提出一种基于状态依赖二次规划的单网络残差校正架构,通过可微内点层保证约束满足,实现实时非线性模型预测控制,在机械臂跟踪任务中取得数量级加速。
Comments 6 pages
PiL-World: 用于VLA策略环内评估的块式世界模型
发表机构 * Tongji University(同济大学) ; AIRC, Midea Group(美的集团人工智能研究院)
AI总结 提出PiL-World,一种块式世界模型,通过交替VLA推理和世界模型预测实现闭环评估,无需真实机器人执行,显著降低成功率估计误差。
让它简单:视觉-语言-动作模型的单步动作生成
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Shanghai Innovation Institute(上海创新研究院) ; Fudan University(复旦大学)
AI总结 针对视觉-语言-动作(VLA)模型,提出通过偏置训练时间分布至高频噪声状态,实现无需教师模型、蒸馏或辅助目标的单步动作生成,性能可匹配十步解码。
Comments 20 pages, 10 figures
DexFuture: 用于双手灵巧工具使用的分层未来状态视觉运动目标
发表机构 * UC San Diego(圣迭戈大学)
AI总结 提出DexFuture分层系统,通过高层未来状态视觉运动目标预测器和低层目标条件结构化灵巧策略,实现双手灵巧工具使用,达到90%的特权oracle性能,运行速度60Hz,比DexWM式CEM规划快约250倍。
加速与扩展MPC引导的强化学习在类人机器人行走与操作中的应用
发表机构 * California Institute of Technology(加州理工学院) ; Johns Hopkins University(约翰霍普金斯大学)
AI总结 本文提出了一种基于质心动力学MPC奖励的MPC-RL框架,并开发了并行批处理GPU求解器π^nMPC,以高效实现类人机器人的行走与操作技能。
Comments 8 pages, 5 figures
机器人化仓储系统中的动态多智能体取送货
发表机构 * Department of Industrial and Systems Engineering, The Hong Kong Polytechnic University(工业与系统工程系,香港理工大学) ; School of Automation and Intelligent Sensing, Shanghai Jiao Tong University(自动化与智能感知学院,上海交通大学)
AI总结 针对订单内部SKU动态追加的仓库场景,首次形式化动态多智能体取送货问题,提出两种基于令牌传递的事件触发在线重规划算法,显著降低订单流时间。
在突然完全旋翼故障下保持完整六自由度驱动:使用双轴倾斜六旋翼的被动容错飞行控制
发表机构 * Tsinghua University(清华大学)
AI总结 本文针对双轴倾斜过驱动六旋翼在突发完全旋翼故障下,提出两种无需故障检测的被动容错控制方案,实现完整六自由度轨迹跟踪,并通过仿真和实验验证其鲁棒性。
面向长时域任务的安全具身AI:机器人操作跨层分析
发表机构 * UNIST InnoCORE AI-Space Solar Initiative(UNIST创新核心人工智能空间太阳能计划) ; Ulsan National Institute of Science and Technology (UNIST)(乌山国立科学技术研究院) ; Automation and Systems Research Institute(自动化与系统研究所) ; Department of Electrical and Computer Engineering(电气与计算机工程系) ; Interdisciplinary Program in Artificial Intelligence(人工智能跨学科项目) ; LG Electronics(LG电子)
AI总结 本文从具身AI视角,系统综述长时域机器人操作中的安全问题,按干预时机(规划时、策略时、执行时)组织文献,分析证据强度,并指出当前安全保证的不足与未来方向。
Comments 63 pages, 6 figures
审计示范策展指标:仅动作评分器在降低模仿策略的结构缺陷上失败
发表机构 * Aarav Bedi
AI总结 本研究构建受控测试平台,注入两类示范缺陷(细微扰动和结构错误),审计七种策展指标,发现仅动作指标无法检测结构错误,且部分指标评分倒置,而状态轨迹指标能部分检测但下游性能恢复有限。
Comments 5 pages, 3 figures, 4 tables
超材料中的波聚焦:超越衍射极限的触觉显示器
发表机构 * Media Arts and Technology Program(媒体艺术与技术项目) ; Department of Mechanical Engineering(机械工程系) ; Department of Electrical and Computer Engineering(电气与计算机工程系) ; University of California, Santa Barbara(加州大学圣芭芭拉分校)
AI总结 本文利用局部共振超材料板中的慢波分支实现机械波聚焦,突破衍射极限,生成高分辨率虚拟触觉像素,并将像素面积缩小十倍。
物体能做什么,而非它们是什么:面向功能可供性推理的功能潜在空间
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Neurosymbolic Intelligence(神经符号智能) ; University of Colorado Boulder(科罗拉多大学博尔德分校)
AI总结 提出A4D框架,通过构建基于功能可供性的共享潜在空间,将视觉观察映射到该空间并测量与可供性的距离,实现基于物体功能而非外观的规划推理,显著提升泛化能力和推理效率。
Comments Code, videos, and data available at: https://A4Dance-reasoning.github.io
学习足式里程计的接触表示
发表机构 * Department of Aerospace Engineering, Embry Riddle Aeronautical University(航空航天工程系,埃姆布里-瑞德航空大学)
AI总结 提出一种自监督表示学习框架,仅利用关节编码器标准传感器集进行接触检测,无需力传感器,在足式机器人里程计中优于监督方法和基线概率方法。
Comments 17 pages
无配对RGB-热成像高斯泼溅使用视觉几何变换器
发表机构 * Ecole Polytechnique Federale de Lausanne(瑞士联邦理工学院洛桑分校) ; Schindler EPFL Lab(施耐德EPFL实验室)
AI总结 提出一种无配对RGB-热成像新视角合成框架,利用VGGT估计各模态相机位姿并通过Procrustes对齐,结合多模态3D高斯泼溅实现联合重建,在保持RGB保真度的同时实现热成像视图合成。
Comments Accepted at ICRA 2026's Workshop MM-SpatialAI: Multi-Modal Spatial AI for Robust Navigation and Open-World Understanding
FlowPRO:通过近端偏好优化对流匹配VLA进行无奖励强化微调
发表机构 * Tencent Robotics X(腾讯机器人X实验室) ; Futian Laboratory(福田实验室) ; Tsinghua University(清华大学)
AI总结 提出FlowPRO框架,通过近端偏好优化(RPRO)和干预-回滚数据收集方法,实现无奖励的离线强化微调,在四类长时程双臂任务中取得最高成功率。
不确定性感知的自适应传感器融合用于自主导航
发表机构 * IEEE
AI总结 提出一种结合无迹卡尔曼滤波(UKF)的混合深度学习方法,通过不确定性感知的自适应融合视觉和惯性特征,提高自主导航中视觉惯性里程计(VIO)的位姿估计精度。
Comments 13 pages
利用神经常微分方程在黎曼流形上从示范中学习:扩展摘要
发表机构 * ETH Zürich(苏黎世联邦理工学院)
AI总结 针对机器人状态(如方向)在弯曲空间上演化的问题,提出利用神经常微分方程在黎曼流形上从示范中学习,通过数值估计测地线实现自然运动生成,并降低计算开销。
Comments 2 pages
MoDex:用于顺序多物体灵巧抓取的扩散策略
发表机构 * Department of Robotics, Perception and Learning, KTH Royal Institute of Technology(机器人、感知与学习系,皇家理工学院) ; Robotics and Autonomous Systems at University of Turku(图尔库大学机器人与自主系统)
AI总结 提出MoDex扩散策略,通过对抗空间和点云条件预测抓取姿态,实现单只灵巧手顺序抓取多物体而不释放已抓物体,并通过两阶段训练(模仿学习+强化学习微调)提升成功率。
Comments Submitted to CoRL 2026
我们真的需要立即重置吗?重新思考高效机器人导航的碰撞处理
发表机构 * College of Information Science and Technology, Eastern Institute of Technology(信息科学与技术学院,东部技术学院) ; Department of Aeronautical and Aviation Engineering, The Hong Kong Polytechnic University(航空与航空工程系,香港理工大学) ; Department of Computing, The Hong Kong Polytechnic University(计算系,香港理工大学) ; School of Computer Science and Technology, University of Science and Technology of China(计算机科学与技术学院,中国科学技术大学) ; Department of Mechanical Engineering, The Hong Kong Polytechnic University(机械工程系,香港理工大学)
AI总结 针对机器人导航中每次碰撞立即重置环境的惯例,提出多碰撞重置预算(MCB)框架,通过将局部碰撞终止与全局环境重置解耦,允许智能体在同一回合内重试困难配置,从而提高早期学习效率。
Comments 8 pages, 9 figures
VASO:物理AI智能体的形式可验证自进化技能
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Iowa State University(爱荷华州立大学)
AI总结 提出VASO框架,通过形式验证引导LLM生成的机器人技能合约自进化,将模型检查的反例转化为文本梯度更新技能合约,无需微调模型权重,在Jackal和四旋翼任务中达到97.2%的形式规范符合率。
Comments Project webpage: https://languagegroundedriskdetection.github.io/ProjectPage/vaso-webpage/
李群中导航向量场距离函数的高效计算
发表机构 * University of São Paulo(圣保罗大学)
AI总结 针对李群中基于向量场的路径跟踪问题,提出一种利用G-多项式曲线结构将距离计算简化为多项式求根的高效方法,显著降低计算时间并保持精度。
Flash-WAM:面向世界动作模型的模态感知蒸馏
发表机构 * Northeastern University(东北大学) ; University of Georgia(佐治亚大学) ; EmbodyX Inc.(EmbodyX公司)
AI总结 针对世界动作模型联合生成视频和机器人动作时因多模态噪声分布不对称导致蒸馏失效的问题,提出模态感知步蒸馏框架Flash-WAM,通过为不同模态选择匹配噪声机制的参数化方法,实现单步推理并大幅加速。
通过符号规划与残差算子学习的逆操作
发表机构 * University of Bologna(博洛尼亚大学)
AI总结 提出一种混合框架,结合STRIPS-like符号规划与残差强化学习,实现机器人操作任务的逆操作,在ManiSkill3 PushCube任务中验证了将近似符号逆操作转化为物理可行的逆技能。
Comments To be presented in PlanRob26
一种新型四元数关节缆驱动冗余机械臂配置及其通过FABRIK和残差强化学习的控制
发表机构 * University of California, San Diego(加州大学圣地亚哥分校)
AI总结 提出一种4段8关节四元数关节缆驱动冗余机械臂配置,并利用残差强化学习实现比FABRIK算法高三个数量级的位置和方向精度控制。
OLIVE: 面向高效自适应外骨骼的在线低秩增量学习
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校) ; Columbia University(哥伦比亚大学) ; University of Wisconsin-Madison(威斯康星大学麦迪逊分校) ; Rice University(里奇大学)
AI总结 提出OLIVE框架,通过低秩残差分解和奖励驱动策略梯度实现外骨骼控制的在线个性化自适应,在多种地形上提升步态平滑度、降低努力并增强稳定性。
VISTA: 基于视觉和物理验证的UMI数据适配用于VLA训练
发表机构 * Institute of AI (TeleAI), China Telecom(人工智能研究院(TeleAI),中国电信) ; Lumos Robotics(Lumos机器人) ; University of Science and Technology of China(中国科学技术大学) ; Northwestern Polytechnical University(西北工业大学) ; Shanghai Jiao Tong University(上海交通大学) ; East China University of Science and Technology(东华大学) ; Harbin Engineering University(哈尔滨工程大学) ; Fudan University(复旦大学)
AI总结 提出VISTA框架,通过UMI-VQA数据集对齐视觉表示、物理验证流水线筛选可行轨迹以及两阶段联合训练,解决UMI数据训练VLA模型时的视觉分布偏移和物理不可行动作问题。
Comments Corrected the typing error
OSCAR: 面向机器人的全具身骨架条件世界动作模型
发表机构 * Peking University(北京大学) ; University of Michigan(密歇根大学) ; NVIDIA(英伟达)
AI总结 提出OSCAR,一种基于动作条件的视频世界模型,通过大规模数据管道和2D骨架渲染统一表示,实现跨机器人具身的泛化,并用于策略评估。
Comments Project page: https://wuzy2115.github.io/oscar-project-page/
基于非光滑控制障碍函数的状态与输入约束下安全关键自适应阻抗控制
发表机构 * Department of Electrical and Electronic Engineering, The University of Manchester(电气与电子工程系,曼彻斯特大学)
AI总结 提出一种在线自适应阻抗控制框架,结合二次规划安全滤波器与新型组合位置-速度非光滑控制障碍函数,在不确定动力学下实现关节状态安全约束与柔顺交互,并通过区间二型模糊逻辑补偿未知动力学、软约束处理执行器力矩限制,利用复合Lyapunov分析证明安全集前向不变性与阻抗跟踪误差一致最终有界。
Comments 12 pages, 3 figures
面向长期自主性的安全与能量感知多机器人密度控制:基于PDE约束优化
发表机构 * Department of Electrical and Computer Engineering, University of Waterloo(滑铁卢大学电气与计算机工程系)
AI总结 提出一种结合Fokker-Planck偏微分方程与控制李雅普诺夫/障碍函数的密度控制框架,实现多机器人系统的目标密度跟踪、避障和能量可持续性。
SEDualVLN:一种空间增强的双系统用于视觉语言导航
发表机构 * Hong Kong Polytechnic University(香港理工大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州))
AI总结 本文提出SEDualVLN,一种空间增强的双系统框架,用于解决视觉语言导航中的长距离导航和动态推理问题,通过两个系统协同工作实现高效导航。
StereoPolicy:通过立体视觉改进机器人操作策略
发表机构 * Stanford University(斯坦福大学) ; Northwestern University(西北大学) ; Lambda, Inc(Lambda公司)
AI总结 该研究提出StereoPolicy,一种利用立体视觉提升机器人操作策略的框架,通过同步立体图像对增强几何推理,无需构建显式3D表示,在多个仿真和真实机器人任务中优于RGB、RGB-D、点云等基线方法。
测试时训练用于视觉前瞻视觉-语言-动作模型
发表机构 * KAIST(韩国科学技术院)
AI总结 本文提出了一种测试时训练方法,用于增强视觉前瞻视觉-语言-动作模型在面对分布外数据时的鲁棒性,通过引入适应性更新过滤机制来减少测试时更新带来的实际挑战。
Comments Accepted at ICML 2026 Workshop on Continual Adaptation at Scale (CATS)
Open-H-Embodiment: 一个大规模数据集,用于在医疗机器人中启用基础模型
发表机构 * Open-H-Embodiment Consortium ; University of California, Berkeley(加州大学伯克利分校) ; University of California, Los Angeles(加州大学洛杉矶分校) ; University of Southern California(南加州大学) ; University of Cambridge(剑桥大学) ; University of Tokyo(东京大学) ; University of Tokyo, Graduate School of Information Science and Technology(东京大学信息科学与技术研究生院) ; University of Tokyo, Institute of Industrial Science(东京大学工业科学研究所)
AI总结 本文提出Open-H-Embodiment数据集,通过两个基础模型展示了其在医疗机器人领域的应用,展示了大规模开放数据在推动机器人学习和世界建模方面的关键作用。
Comments Project website: https://open-h.github.io/open-h-embodiment/
从运动学到动力学:学习精炼混合计划以实现物理可行的执行
发表机构 * Technion - Israel Institute of Technology(技术学院 - 以色列理工学院)
AI总结 该研究通过连续空间中的强化学习,解决混合计划在物理可行性执行中的问题,通过引入分析二阶约束的马尔可夫决策过程,改进混合规划器生成的一阶轨迹,从而可靠地恢复物理可行性。
使用混合链接系统强化学习模拟适应性跑步与柔性运动假肢
发表机构 * Department of Biological Sciences, The University of Tokyo(东京大学生物科学系) ; Institute of Systems and Information Engineering, University of Tsukuba(茨城大学系统与信息工程研究所)
AI总结 本文提出了一种基于强化学习的框架,用于模拟单侧小腿截肢者在不同虚拟假肢刚度条件下的适应性跑步运动,通过混合链接系统整合了叶弹簧型运动假肢的灵活性,分析了假肢刚度对跑步动态和代谢成本的影响。
利用概率前沿优先级与狄利克雷过程高斯混合模型增强多机器人探索
发表机构 * Institute for Systems and Robotics / LARSyS and Instituto Superior Técnico, Universidade de Lisboa(系统与机器人研究所 / LARSyS 和里斯本大学理工学院) ; Instituto de Telecomunicações and Instituto Superior Técnico, Universidade de Lisboa(电信研究所和里斯本大学理工学院)
AI总结 本文提出了一种基于概率前沿优先级和狄利克雷过程高斯混合模型的改进方法,以提升多机器人探索的效率,通过在两种先进的多智能体探索算法中集成该方法,实现了在不同环境复杂度、通信限制和团队规模下的性能提升,实验结果表明平均性能提升了10%至14%。
Comments Accepted: IEEE Robotics and Automation Letters (RA-L)
ContactExplorer: 接触覆盖引导的通用灵巧操作探索
发表机构 * School of Computing, National University of Singapore(新加坡国立大学计算机学院) ; RoboScience(机器人科学)
AI总结 提出ContactExplorer方法,通过接触覆盖奖励和能量引导奖励,在灵巧操作任务中高效探索接触模式,提升样本效率和成功率。
Comments 24 pages
超越模仿:基于强化学习的仿真-现实协同训练用于VLA模型
发表机构 * Tsinghua University(清华大学) ; Harbin Institute of Technology(哈尔滨工业大学) ; Peking University(北京大学) ; Carnegie Mellon University(卡内基梅隆大学) ; Shanghai AI Laboratory(上海人工智能实验室) ; Zhongguancun Academy(中关村学院)
AI总结 本文提出基于强化学习的仿真-现实协同训练框架,通过结合仿真交互与真实世界数据,提升VLA模型的现实应用能力和泛化能力。
HERO: 学习人形机器人的末端执行器控制用于视觉全身体对象抓取
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 该研究提出HERO方法,通过结合大视觉模型和模拟训练,实现了视觉全身体对象抓取任务中末端执行器的高精度控制和场景理解,显著提升了抓取精度和泛化能力。
Comments Project page: https://hero-humanoid.github.io/
EgoHumanoid: 通过无机器人眼示范解锁真实场景中的移动- manipulation
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Tsinghua University(清华大学)
AI总结 本文提出EgoHumanoid框架,通过结合大量眼示范数据和少量机器人数据共同训练视觉-语言-动作策略,使机器人能够执行多样化的现实环境中的移动- manipulation任务,实验表明无机器人数据显著提升了性能,尤其在未见过的环境中表现更优。
Comments Project page: https://opendrivelab.com/EgoHumanoid
EVE: 一种生成策略的生成-验证系统
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Toyota Research Institute(丰田研究院) ; Symbotic Inc.(Symbotic公司)
AI总结 本文提出EVE系统,通过生成-验证框架在测试时提升预训练生成策略的性能,利用零样本视觉语言模型验证者进行动作优化,无需额外训练。
PHUMA:物理可靠的仿人运动数据集
发表机构 * KAIST(韩国科学技术院)
AI总结 本文提出PHUMA数据集,通过结合物理感知的筛选和物理约束的重定向,整合动作捕捉和网络视频,生成物理可靠的仿人运动数据,提升仿人运动的稳定性和泛化能力。
Ask-to-Clarify: 通过多轮对话解决指令歧义
发表机构 * College of Computer Science and Artificial Intelligence, Fudan University, Shanghai, China(复旦大学计算机科学与人工智能学院) ; Shanghai Innovation Institute, Shanghai, China(上海创新研究院) ; Mechanical Systems Control Lab, UC Berkeley, California, USA(伯克利机械系统控制实验室)
AI总结 本文提出Ask-to-Clarify框架,通过多轮对话解决指令歧义问题,结合视觉语言模型和扩散模型,采用两阶段知识绝缘策略训练,实现多任务中更高效的协作式具身代理。
Comments 9 pages, 4 figures, 7 tables
多样性是否是可扩展机器人操作的全部需求?
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Tsinghua University(清华大学) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 本文研究了数据多样性在机器人学习中的作用,发现任务多样性比单任务演示量更重要,多身体预训练数据在跨身体转移中可选,专家多样性可能对策略学习产生干扰,提出分布去偏方法提升性能。
Comments Code is available at https://github.com/OpenDriveLab/AgiBot-World
学习预测性视觉-运动协调
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Georgia Tech(佐治亚理工学院) ; Meta AI
AI总结 本文提出了一种基于预测的视觉-运动协调建模任务,通过结合第一人称视觉和运动学观测预测头部姿态、目光方向和上半身运动,展示了多模态整合在理解视觉-运动协调中的重要性。
Comments CVPR 2026 Findings
RECON: 通过人类放置的标记减少因果混淆
发表机构 * Collaborative Robotics Lab ( Collab ), Dept. of Mechanical Engineering, Virginia Tech, Blacksburg, VA 24061(协作机器人实验室(Collab),机械工程系,弗吉尼亚理工学院,布莱克斯堡,VA 24061) ; Sibley School of Mechanical and Aerospace Engineering, Cornell University, Ithaca, NY 14853(西伯利机械与航空航天工程学院,康奈尔大学,伊萨卡,NY 14853)
AI总结 该研究提出RECON框架,通过人类主动标记任务关键部分来减少机器人学习中的因果混淆,利用标记物数据训练任务相关状态嵌入,从而提高学习效率。
Comments 7 pages, 5 figures