arXivDaily arXiv每日学术速递 周一至周五更新

视觉与机器人

机器人 / 具身智能

机器人、具身智能、机器人学习、操作、导航和具身世界模型。

今日/当前日期收录 102 信号源:cs.RO, cs.AI, cs.CV, cs.LG

1. 机器人操作 12 篇

2606.19397 2026-06-19 cs.RO 新提交 专题 95

DiffusionVS: A Generative Framework for Robust Visual Servoing Based on Diffusion Policy

DiffusionVS:基于扩散策略的鲁棒视觉伺服生成框架

Hongkang Cui, Rui He, Haoyao Chen

专题命中 机器人操作 :提出基于扩散策略的视觉伺服方法,用于机器人操作和导航。

AI总结 提出基于扩散策略的视觉伺服方法,通过条件去噪生成相机速度,并采用在线训练增强泛化能力,仿真成功率近100%,物理实验93%。

Comments 8 pages, 4 figures, 7 tables

2606.17054 2026-06-19 cs.RO cs.AI cs.CV cs.LG 新提交 专题 95

Human Universal Grasping

人类通用抓取

Kevin Yuanbo Wu, Tianxing Zhou, Isaac Tu, Billy Yan, Irmak Guzey, David Fouhey, Dandan Shan, Lerrel Pinto

专题命中 机器人操作 :提出HUG模型实现零样本机器人抓取

AI总结 提出HUG模型,利用人类抓取数据(1M-HUG数据集)和流匹配方法,从单张RGB-D图像生成多样化抓取姿态,并重定向到机器人手,实现零样本抓取,在HUG-Bench上超越基线23%-34%。

Comments 28 pages, 20 figures, 7 tables

2603.04531 2026-06-19 cs.RO 版本更新 专题 95

PTLD: Sim-to-real Privileged Tactile Latent Distillation for Dexterous Manipulation

PTLD: 从仿真到现实的触觉潜在知识蒸馏用于灵巧操作

Rosy Chen, Mustafa Mukadam, Michael Kaess, Tingfan Wu, Francois R Hogan, Jitendra Malik, Akash Sharma

专题命中 机器人操作 :提出触觉蒸馏方法用于灵巧操作任务

AI总结 提出PTLD方法,通过真实世界触觉策略数据蒸馏鲁棒状态估计器,解决触觉仿真困难问题,在灵巧操作任务中相比纯本体感策略提升182%和57%。

2606.20562 2026-06-19 cs.RO 新提交 专题 90

MemoryWAM: Efficient World Action Modeling with Persistent Memory

MemoryWAM:具有持久记忆的高效世界动作建模

Sizhe Yang, Juncheng Mu, Tianming Wei, Chenhao Lu, Xiaofan Li, Linning Xu, Zhengrong Xue, Zhecheng Yuan, Dahua Lin, Jiangmiao Pang, Huazhe Xu

专题命中 机器人操作 :机器人操作中的世界动作建模与记忆

AI总结 提出MemoryWAM,通过混合记忆设计和定制注意力机制,在长时域机器人操作任务中实现高效记忆依赖决策,优于现有VLA和WAM基线。

2606.20193 2026-06-19 cs.RO 新提交 专题 90

Belt-Finger: An Affordable Soft Belt-Driven Gripper for Dexterous In-Hand Manipulation

Belt-Finger: 一种经济实惠的软带驱动夹爪,用于灵巧的手内操作

Boya Zhang, Andreas Zell, Georg Martius

专题命中 机器人操作 :软带驱动夹爪实现灵巧手内操作。

AI总结 提出一种双软带手指模块,为平行夹爪增加三个手内自由度(平移、俯仰、滚动),在保持低成本、易集成的同时提升灵巧操作能力,并通过MPC和遥操作验证其有效性。

2606.20135 2026-06-19 cs.RO cs.AI 新提交 专题 90

Frequency-Aware Flow Matching for Continuous and Consistent Robotic Action Generation

频率感知流匹配用于连续且一致的机器人动作生成

Jianing Guo, Fangzheng Chen, Zihao Mao, Wong Lik Hang Kenny, Zhenhong Wu, Yu Li, Yishuai Cai, Yuanpei Chen, Yikun Ban, Kai Chen, Qi Dou, Yaodong Yang, Xianglong Liu, Huijie Zhao, Simin Li

专题命中 机器人操作 :频率感知流匹配用于机器人动作生成。

AI总结 提出频率感知流匹配(FAFM),通过离散余弦变换将离散动作序列转换到频域进行流匹配,并正则化一阶时间导数以生成平滑连续的动作,提升成功率、多模态表达性和运动平滑性。

2606.20118 2026-06-19 cs.RO cs.LG 新提交 专题 90

Pose6DAug: Physically Plausible Multi-view Object Swapping for Robot Data Augmentation

Pose6DAug: 用于机器人数据增强的物理合理多视图物体替换

Jonghoon Lee, Seong Hyeon Park, Byungwoo Jeon, Minha Lee, Jinwoo Shin

专题命中 机器人操作 :数据增强框架提升VLA策略泛化。

AI总结 提出Pose6DAug,一种基于失败驱动的数据增强框架,通过3D网格和6D姿态轨迹替换成功轨迹中的物体,生成多视图一致的物理合理演示,无需额外数据收集,在新型物体上提升VLA策略成功率16.5%。

2606.19980 2026-06-19 cs.AI 新提交 专题 90

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

ENPIRE: 现实世界中智能体机器人策略的自我改进

Wenli Xiao, Jia Xie, Tonghe Zhang, Haotian Lin, Letian "Max" Fu, Haoru Xue, Jalen Lu, Yi Yang, Cunxi Dai, Zi Wang, Jimmy Wu, Guanzhi Wang, S. Shankar Sastry, Ken Goldberg, Linxi "Jim" Fan, Yuke Zhu, Guanya Shi

专题命中 机器人操作 :提出ENPIRE框架实现机器人策略自我改进

AI总结 提出ENPIRE框架,通过环境重置、策略执行、结果验证和迭代优化的闭环反馈,使编码智能体自主改进机器人操作策略,在灵巧操作任务上达到99%成功率。

2606.19897 2026-06-19 cs.RO 新提交 专题 90

One-to-Two Acting: A Novel Framework for Single-arm Agent Action Expansion to Dual Arms

一对二执行:一种面向单臂智能体动作扩展至双臂的新框架

Youbin Yao, Nieqin Cao, Mingyan Li, Yan Ding, Fuqiang Gu, Chao Chen

专题命中 机器人操作 :双臂操作框架,从单臂监督学习。

AI总结 提出ExS2D层次化动作扩展框架,利用单臂监督实现双臂操作,通过时间优先关系提取、子任务引导动作映射和碰撞避免协调规划,在仿真中减少54.4%执行步骤并保持成功率。

Comments 6 pages, 5 figures, 3 tables

2606.19358 2026-06-19 cs.RO 新提交 专题 90

WorkBenchMark: A LEGO-Based Assembly Benchmark with an Assembly-by-Disassembly Baseline for the Smart Manufacturing League

WorkBenchMark:面向智能制造联盟的基于乐高积木的装配基准与通过拆卸进行装配的基线方法

Wenbo Ma, Daniel Swoboda, Matteo Tschesche, Till Hofmann

专题命中 机器人操作 :基于乐高的机器人装配基准。

AI总结 提出一个基于乐高Duplo的机器人装配基准,包含400个任务和四个复杂度层级,并提供一个基于规划的基线方法,在所有层级上优于现代视觉-语言-动作方法。

Comments RoboCup Symposium 2026 accepted paper

2606.15516 2026-06-19 cs.RO 新提交 专题 90

Transferring Contact, Not Just Motion: Compliant Grasping Across Dexterous Hands

传递接触,而不仅仅是运动:跨灵巧手的柔顺抓取

Soofiyan Atar, Yao-Ting Huang, Michael Yip

专题命中 机器人操作 :跨灵巧手柔顺抓取,属于机器人操作

AI总结 提出跨本体力-位置接口,通过校准力矩和指尖力实现异构灵巧手间的接触感知抓取,结合流匹配视觉运动策略和混合力位控制器,实现可迁移的柔顺抓取。

Comments Website(overview): transferring-contact-not-just-motion.github.io/

2510.08807 2026-06-19 cs.RO cs.LG 版本更新 专题 90

Humanoid Everyday: A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation

Humanoid Everyday:面向开放世界人形机器人操作的综合机器人数据集

Zhenyu Zhao, Hongyi Jing, Xiawei Liu, Jiageng Mao, Abha Jha, Hanwen Yang, Rong Xue, Sergey Zakharov, Vitor Guizilini, Yue Wang

专题命中 机器人操作 :提供人形机器人灵巧操作数据集,含260任务

AI总结 提出Humanoid Everyday数据集,包含10.3k轨迹、260个任务的多模态数据,用于人形机器人灵巧操作、人机交互和移动操作研究,并配套云评估平台。

2. 机器人学习 15 篇

2606.19357 2026-06-19 cs.RO cs.AI 新提交 专题 95

Physical Atari: A Robust and Accessible Platform for Real-time Reinforcement Learning on Robots

Physical Atari: 一个用于机器人实时强化学习的鲁棒且可访问的平台

Khurram Javed, Joseph Modayil, Gloria Kennickell, Richard S. Sutton, John Carmack

专题命中 机器人学习 :机器人实时强化学习平台,验证算法在物理世界学习

AI总结 提出Physical Atari平台,通过机器人操作Atari控制器和实时渲染游戏帧,实现物理世界中的强化学习研究,验证了算法可直接在机器人上学习,并指出分布偏移会显著降低策略性能。

Comments To appear at RLC 2026

2601.02379 2026-06-19 cs.RO cs.AI 版本更新 专题 95

Movement Primitives in Robotics: A Comprehensive Survey

机器人运动基元:综合综述

Nolan B. Gutierrez, Joseph M. Cloud, William J. Beksi

专题命中 机器人学习 :全面综述机器人运动基元,属于机器人学习

AI总结 综述机器人运动基元框架,涵盖从人类示教中编码轨迹的方法,分析弹簧-阻尼系统、概率耦合、神经网络等特性,并讨论应用与挑战。

Comments 105 pages, 3 figures, and 6 tables

2606.19729 2026-06-19 cs.RO cs.AI 新提交 专题 90

VOiLA: Vectorized Online Planning with Learned Diffusion Model for POMDP Agents

VOiLA: 基于学习扩散模型的向量化在线规划用于POMDP智能体

Marcus Hoerger, Rishikesh Joshi, Rahul Shome, Ian Manchester, Hanna Kurniawati

专题命中 机器人学习 :提出POMDP在线规划框架,用于机器人规划。

AI总结 提出VOiLA框架,利用条件扩散模型学习POMDP模型,通过蒸馏加速采样并与向量化在线规划器集成,在三个基准任务和实物机器人上实现高效在线规划。

Comments Submitted to the 2026 International Symposium of Robotics Research (ISRR)

2606.19728 2026-06-19 cs.RO cs.AI 新提交 专题 90

Bidirectional Tutoring for Developmental Motor Learning in Robots: Co-Developed Interaction Dynamics Support Stable Learning

机器人发展性运动学习的双向辅导:共同发展的交互动力学支持稳定学习

Rui Fukushima, Jun Tani

专题命中 机器人学习 :提出双向辅导框架用于机器人运动技能学习。

AI总结 提出双向辅导框架,通过人类或AI导师与机器人动态适应,利用自由能原理神经网络实现稳定序列学习,在物体操作任务中验证了行为一致性和泛化能力。

Comments 16 pages, 14 figures

2606.19699 2026-06-19 cs.RO cs.LG cs.SY eess.SY 新提交 专题 90

Comparative Study on Agility, Efficiency, and Impact Absorption of Bipedal Robots with Active Toes

具有主动脚趾的双足机器人敏捷性、效率和冲击吸收的比较研究

Joong-Gil Kim, Wontae Ye, Geunwoo Cho, Seong-Ho Yun, Se-Hyoung Cho, Yong-Jae Kim

专题命中 机器人学习 :比较双足机器人有无主动脚趾的性能。

AI总结 提出一种14自由度双足机器人,模拟人类脚趾的轻量、高扭矩、坚固特性,通过高保真仿真训练环境,对比有无主动脚趾的配置,发现脚趾机器人以1.33米/秒行走时,CoT降低17.5%,脚跟冲击力降低5.0%,路径偏差平均和最大分别降低25.0%和34.0%。

Comments 6 pages, 7 figures

2606.19419 2026-06-19 cs.RO cs.AI 新提交 专题 90

Playful Agentic Robot Learning

趣味性具身机器人学习

Junyi Zhang, Jiaxin Ge, Hanjun Yoo, Letian Fu, Zihan Yang, Yaowei Liu, Raj Saravanan, Shaofeng Yin, Justin Yu, Dantong Niu, Zirui Wang, Roei Herzig, Ken Goldberg, Yutong Bai, David M. Chan, Ion Stoica, Angjoo Kanazawa, Jiahui Lei, Haiwen Feng, Trevor Darrell

专题命中 机器人学习 :机器人通过自主探索学习可复用技能。

AI总结 提出RATs框架,让机器人通过自主探索学习可复用技能,在LIBERO-PRO和MolmoSpaces上分别提升20.6和17.0个百分点。

Comments Project page: https://playful-rats.github.io/

2605.23733 2026-06-19 cs.RO cs.AI 版本更新 专题 90

Any2Any: Efficient Cross-Embodiment Transfer for Humanoid Whole-Body Tracking

Any2Any: 高效跨本体迁移用于人形机器人全身跟踪

Ming Yang, Tao Yu, Feng Li, Hua Chen

专题命中 机器人学习 :人形机器人全身跟踪跨本体迁移

AI总结 提出Any2Any范式,通过运动学对齐和动力学微调,实现预训练全身跟踪模型高效迁移至新的人形机器人本体,仅需少量数据和计算即可达到竞争性跟踪性能。

Comments Project Page: https://any2any.top/

2605.08525 2026-06-19 cs.RO cs.SY eess.SY 版本更新 专题 90

Model-Reference Adaptive Flight Control of a 95-mg Insect-Scale Flapping-Wing Aerial Robot

95毫克昆虫尺度扑翼飞行机器人的模型参考自适应飞行控制

Francisco M. F. R. Gonçalves, Conor K. Trygstad, Néstor O. Pérez-Arancibia

专题命中 机器人学习 :昆虫尺度扑翼飞行机器人的自适应飞行控制

AI总结 针对昆虫尺度扑翼飞行机器人参数不确定性和扰动问题,提出模型参考自适应控制(MRAC)架构,结合混合乘性扩展卡尔曼滤波,实现高精度位置控制,并通过95毫克机器人实验验证了悬停和轨迹跟踪性能。

Comments Under review, 8 pages, 7 figures

2602.04037 2026-06-19 cs.LG cs.RO 版本更新 专题 90

DADP: Domain Adaptive Diffusion Policy

DADP: 领域自适应扩散策略

Pengcheng Wang, Qinghang Liu, Haotian Lin, Yiheng Li, Guojian Zhan, Masayoshi Tomizuka, Yixiao Wang

专题命中 机器人学习 :提出领域自适应扩散策略用于机器人控制

AI总结 提出DADP,通过无监督解耦和领域感知扩散注入,实现跨动态环境的鲁棒零样本适应,在运动与操控任务上超越先前方法。

2505.17006 2026-06-19 cs.CV cs.RO 版本更新 专题 90

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning

CoMo: 从互联网视频中学习连续潜在运动以实现可扩展的机器人学习

Jiange Yang, Yansong Shi, Haoyi Zhu, Mingyu Liu, Kaijing Ma, Yating Wang, Gangshan Wu, Tong He, Limin Wang

专题命中 机器人学习 :从视频学习运动用于机器人,属于机器人学习

AI总结 提出CoMo方法,通过早期时间差分和时序对比学习从互联网视频中学习连续潜在运动,避免离散化信息损失,实现零样本泛化生成伪动作标签,联合训练策略在仿真和真实实验中表现优异。

Comments CVPR 2026

2601.03040 2026-06-19 cs.RO cs.AI cs.LG 版本更新 专题 90

PiDR: Physics-Informed Inertial Dead Reckoning for Autonomous Platforms

PiDR:面向自主平台的物理信息惯性航位推算

Arup Kumar Sahoo, Itzik Klein

专题命中 机器人学习 :提出物理信息惯性航位推算框架,用于自主平台

AI总结 提出PiDR框架,将惯性导航原理作为物理信息残差融入网络训练,在纯惯性导航中减少轨迹漂移,在移动机器人和水下自主航行器数据集上定位精度提升超29%。

Comments 11 pages and 7 figures

2511.16223 2026-06-19 cs.RO 专题 90

DynaMimicGen: A Data Generation Framework for Robot Learning of Dynamic Tasks

DynaMimicGen:一种用于机器人动态任务学习的数据生成框架

Vincenzo Pomponi, Paolo Franceschi, Stefano Baraldo, Loris Roveda, Oliver Avram, Luca Maria Gambardella, Anna Valente

专题命中 机器人学习 :提出DynaMimicGen框架生成动态任务数据用于机器人学习。

AI总结 本文提出DynaMimicGen框架,通过少量人类示范生成数据,支持动态任务学习,产生适应性强的轨迹,提升机器人在复杂环境中的表现。

2509.19658 2026-06-19 cs.RO cs.AI 版本更新 专题 90

RoboSSM: Scalable In-context Imitation Learning via State-Space Models

RoboSSM: 基于状态空间模型的可扩展上下文模仿学习

Youngju Yoo, Jiaheng Hu, Yifeng Zhu, Bo Liu, Qiang Liu, Roberto Martín-Martín, Peter Stone

专题命中 机器人学习 :状态空间模型用于机器人上下文模仿学习

AI总结 提出RoboSSM,用状态空间模型替代Transformer实现上下文模仿学习,在LIBERO基准上对未见和长时任务泛化更优,首次证明SSM是ICIL高效可扩展的骨干网络。

Comments IROS 2026

2606.20521 2026-06-19 cs.CV 新提交 专题 85

HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

HumanScale: 以自我为中心的人类视频在具身预训练中可超越真实机器人数据

Juncheng Ma, Jianxin Bi, Yufan Deng, Xuanran Zhai, Kewei Zhang, Ye Huang, Bo Liang, Shukai Gong, Jiankai Tu, Xiaotian Tang, Jiaxin Li, Kaiqi Chen, Duomin Wang, Yuqi Wang, Bingyi Kang, Eric Huang, Zhiyang Dou, Zhen Dong, Enze Xie, Wojciech Matusik, Tat-Seng Chua, Daquan Zhou

专题命中 机器人学习 :人类视频用于具身基础模型预训练

AI总结 本文通过系统比较发现,经过精心设计的过滤和标注流程,以自我为中心的人类视频在具身基础模型预训练中不仅可行,而且性能优于遥操作真实机器人数据,验证了“预训练于人类视频+少量机器人数据适配”的可扩展范式。

Comments Github: https://github.com/DAGroup-PKU/HumanNet/

2606.20495 2026-06-19 cs.RO 新提交 专题 85

Increasing Resilience of Continuum Robots via Motion Planning Algorithms

通过运动规划算法提高连续体机器人的韧性

Oxana Shamilyan, Ievgen Kabin, Zoya Dyka, Oleksandr Sudakov, Peter Langendoerfer

专题命中 机器人学习 :研究连续体机器人的运动规划算法

AI总结 本文实验研究运动规划算法对连续体机器人韧性的影响,通过改进遗传算法和A*算法,结合层次分析法评估路径质量,发现遗传算法生成更多样化路径,提升机器人韧性。

3. 具身导航 3 篇

2606.19555 2026-06-19 cs.RO 新提交 专题 90

SCAN-Planner: Spatial Collision-Aware Local Planning for Route-Guided Long-Range Quadruped Navigation

SCAN-Planner:用于路线引导的远程四足导航的空间碰撞感知局部规划

Han Zheng, Zhe Chen, Yiwen Fu, Ming Yang, Tong Qin

专题命中 具身导航 :提出SCAN-Planner用于四足机器人远程导航

AI总结 提出SCAN-Planner框架,通过偏航感知双圆柱足迹和投影A*搜索实现空间碰撞感知的局部规划,在密集杂乱、3D非结构化环境和远程导航中生成安全平滑轨迹。

2606.18112 2026-06-19 cs.RO cs.CV 新提交 专题 90

Qwen-RobotNav Technical Report: A Scalable Navigation Model Designed for an Agentic Navigation System

Qwen-RobotNav 技术报告:为智能体导航系统设计的可扩展导航模型

Jiazhao Zhang, Gengze Zhou, Hale Yin, Yiyang Huang, Zixing Lei, Qihang Peng, Haoqi Yuan, Jie Zhang, Xudong Guo, Xiaoyue Chen, An Yang, Fei Huang, Zhibo Yang, Junyang Lin, Dayiheng Liu, Jingren Zhou, Zhuoyuan Yu, Jingyang Fan, Zhixuan Liang, Pei Lin, Ye Wang, Anzhe Chen, Kun Yan, Xiao Xu, Jiahao Li, Lulu Hu, Minying Zhang, Shurui Li, Wenhu Xiao, Shuai Bai, Xuancheng Ren, Chenxu Lv, Chenfei Wu, Xiong-Hui Chen

专题命中 具身导航 :提出可扩展导航模型,用于智能体导航系统

AI总结 提出 Qwen-RobotNav 可扩展导航模型,通过参数化接口支持多种任务模式和可调观测参数,在15.6M样本上训练,联合视觉语言数据防止行为坍缩,在多个导航基准上取得新最优结果,并展示零样本泛化能力。

2606.16780 2026-06-19 cs.RO 新提交 专题 90

DIFF-IPPO: Diffusion-Based Informative Path Planning with Open-Vocabulary Belief Maps

DIFF-IPPO:基于扩散的开放词汇信念地图信息路径规划

Sausar Karaf, Oleg Sautenkov, Mikhail Martynov, Dzmitry Tsetserukou

专题命中 具身导航 :提出扩散规划器用于机器人目标搜索

AI总结 提出DIFF-IPPO框架,结合开放词汇信念地图生成器与扩散规划器,在非高斯信念图上生成全局轨迹,实现高效目标搜索,检测得分达81.49%-86.55%。