arXivDaily arXiv每日学术速递 周一至周五更新

视觉与机器人

机器人 / 具身智能

机器人、具身智能、机器人学习、操作、导航和具身世界模型。

今日/当前日期收录 25 信号源:cs.RO, cs.AI, cs.CV, cs.LG
2606.19397 2026-06-19 cs.RO 新提交 专题 95

DiffusionVS: A Generative Framework for Robust Visual Servoing Based on Diffusion Policy

DiffusionVS:基于扩散策略的鲁棒视觉伺服生成框架

Hongkang Cui, Rui He, Haoyao Chen

专题命中 机器人操作 :提出基于扩散策略的视觉伺服方法,用于机器人操作和导航。

AI总结 提出基于扩散策略的视觉伺服方法,通过条件去噪生成相机速度,并采用在线训练增强泛化能力,仿真成功率近100%,物理实验93%。

Comments 8 pages, 4 figures, 7 tables

2606.17054 2026-06-19 cs.RO cs.AI cs.CV cs.LG 新提交 专题 95

Human Universal Grasping

人类通用抓取

Kevin Yuanbo Wu, Tianxing Zhou, Isaac Tu, Billy Yan, Irmak Guzey, David Fouhey, Dandan Shan, Lerrel Pinto

专题命中 机器人操作 :提出HUG模型实现零样本机器人抓取

AI总结 提出HUG模型,利用人类抓取数据(1M-HUG数据集)和流匹配方法,从单张RGB-D图像生成多样化抓取姿态,并重定向到机器人手,实现零样本抓取,在HUG-Bench上超越基线23%-34%。

Comments 28 pages, 20 figures, 7 tables

2603.04531 2026-06-19 cs.RO 版本更新 专题 95

PTLD: Sim-to-real Privileged Tactile Latent Distillation for Dexterous Manipulation

PTLD: 从仿真到现实的触觉潜在知识蒸馏用于灵巧操作

Rosy Chen, Mustafa Mukadam, Michael Kaess, Tingfan Wu, Francois R Hogan, Jitendra Malik, Akash Sharma

专题命中 机器人操作 :提出触觉蒸馏方法用于灵巧操作任务

AI总结 提出PTLD方法,通过真实世界触觉策略数据蒸馏鲁棒状态估计器,解决触觉仿真困难问题,在灵巧操作任务中相比纯本体感策略提升182%和57%。

2606.20562 2026-06-19 cs.RO 新提交 专题 90

MemoryWAM: Efficient World Action Modeling with Persistent Memory

MemoryWAM:具有持久记忆的高效世界动作建模

Sizhe Yang, Juncheng Mu, Tianming Wei, Chenhao Lu, Xiaofan Li, Linning Xu, Zhengrong Xue, Zhecheng Yuan, Dahua Lin, Jiangmiao Pang, Huazhe Xu

专题命中 机器人操作 :机器人操作中的世界动作建模与记忆

AI总结 提出MemoryWAM,通过混合记忆设计和定制注意力机制,在长时域机器人操作任务中实现高效记忆依赖决策,优于现有VLA和WAM基线。

2606.20193 2026-06-19 cs.RO 新提交 专题 90

Belt-Finger: An Affordable Soft Belt-Driven Gripper for Dexterous In-Hand Manipulation

Belt-Finger: 一种经济实惠的软带驱动夹爪,用于灵巧的手内操作

Boya Zhang, Andreas Zell, Georg Martius

专题命中 机器人操作 :软带驱动夹爪实现灵巧手内操作。

AI总结 提出一种双软带手指模块,为平行夹爪增加三个手内自由度(平移、俯仰、滚动),在保持低成本、易集成的同时提升灵巧操作能力,并通过MPC和遥操作验证其有效性。

2606.20135 2026-06-19 cs.RO cs.AI 新提交 专题 90

Frequency-Aware Flow Matching for Continuous and Consistent Robotic Action Generation

频率感知流匹配用于连续且一致的机器人动作生成

Jianing Guo, Fangzheng Chen, Zihao Mao, Wong Lik Hang Kenny, Zhenhong Wu, Yu Li, Yishuai Cai, Yuanpei Chen, Yikun Ban, Kai Chen, Qi Dou, Yaodong Yang, Xianglong Liu, Huijie Zhao, Simin Li

专题命中 机器人操作 :频率感知流匹配用于机器人动作生成。

AI总结 提出频率感知流匹配(FAFM),通过离散余弦变换将离散动作序列转换到频域进行流匹配,并正则化一阶时间导数以生成平滑连续的动作,提升成功率、多模态表达性和运动平滑性。

2606.20118 2026-06-19 cs.RO cs.LG 新提交 专题 90

Pose6DAug: Physically Plausible Multi-view Object Swapping for Robot Data Augmentation

Pose6DAug: 用于机器人数据增强的物理合理多视图物体替换

Jonghoon Lee, Seong Hyeon Park, Byungwoo Jeon, Minha Lee, Jinwoo Shin

专题命中 机器人操作 :数据增强框架提升VLA策略泛化。

AI总结 提出Pose6DAug,一种基于失败驱动的数据增强框架,通过3D网格和6D姿态轨迹替换成功轨迹中的物体,生成多视图一致的物理合理演示,无需额外数据收集,在新型物体上提升VLA策略成功率16.5%。

2606.19980 2026-06-19 cs.AI 新提交 专题 90

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

ENPIRE: 现实世界中智能体机器人策略的自我改进

Wenli Xiao, Jia Xie, Tonghe Zhang, Haotian Lin, Letian "Max" Fu, Haoru Xue, Jalen Lu, Yi Yang, Cunxi Dai, Zi Wang, Jimmy Wu, Guanzhi Wang, S. Shankar Sastry, Ken Goldberg, Linxi "Jim" Fan, Yuke Zhu, Guanya Shi

专题命中 机器人操作 :提出ENPIRE框架实现机器人策略自我改进

AI总结 提出ENPIRE框架,通过环境重置、策略执行、结果验证和迭代优化的闭环反馈,使编码智能体自主改进机器人操作策略,在灵巧操作任务上达到99%成功率。

2606.19897 2026-06-19 cs.RO 新提交 专题 90

One-to-Two Acting: A Novel Framework for Single-arm Agent Action Expansion to Dual Arms

一对二执行:一种面向单臂智能体动作扩展至双臂的新框架

Youbin Yao, Nieqin Cao, Mingyan Li, Yan Ding, Fuqiang Gu, Chao Chen

专题命中 机器人操作 :双臂操作框架,从单臂监督学习。

AI总结 提出ExS2D层次化动作扩展框架,利用单臂监督实现双臂操作,通过时间优先关系提取、子任务引导动作映射和碰撞避免协调规划,在仿真中减少54.4%执行步骤并保持成功率。

Comments 6 pages, 5 figures, 3 tables

2606.19358 2026-06-19 cs.RO 新提交 专题 90

WorkBenchMark: A LEGO-Based Assembly Benchmark with an Assembly-by-Disassembly Baseline for the Smart Manufacturing League

WorkBenchMark:面向智能制造联盟的基于乐高积木的装配基准与通过拆卸进行装配的基线方法

Wenbo Ma, Daniel Swoboda, Matteo Tschesche, Till Hofmann

专题命中 机器人操作 :基于乐高的机器人装配基准。

AI总结 提出一个基于乐高Duplo的机器人装配基准,包含400个任务和四个复杂度层级,并提供一个基于规划的基线方法,在所有层级上优于现代视觉-语言-动作方法。

Comments RoboCup Symposium 2026 accepted paper

2606.15516 2026-06-19 cs.RO 新提交 专题 90

Transferring Contact, Not Just Motion: Compliant Grasping Across Dexterous Hands

传递接触,而不仅仅是运动:跨灵巧手的柔顺抓取

Soofiyan Atar, Yao-Ting Huang, Michael Yip

专题命中 机器人操作 :跨灵巧手柔顺抓取,属于机器人操作

AI总结 提出跨本体力-位置接口,通过校准力矩和指尖力实现异构灵巧手间的接触感知抓取,结合流匹配视觉运动策略和混合力位控制器,实现可迁移的柔顺抓取。

Comments Website(overview): transferring-contact-not-just-motion.github.io/

2510.08807 2026-06-19 cs.RO cs.LG 版本更新 专题 90

Humanoid Everyday: A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation

Humanoid Everyday:面向开放世界人形机器人操作的综合机器人数据集

Zhenyu Zhao, Hongyi Jing, Xiawei Liu, Jiageng Mao, Abha Jha, Hanwen Yang, Rong Xue, Sergey Zakharov, Vitor Guizilini, Yue Wang

专题命中 机器人操作 :提供人形机器人灵巧操作数据集,含260任务

AI总结 提出Humanoid Everyday数据集,包含10.3k轨迹、260个任务的多模态数据,用于人形机器人灵巧操作、人机交互和移动操作研究,并配套云评估平台。

2606.20426 2026-06-19 cs.RO 新提交 专题 85

TaCauchy: An Extensible FEM Framework for Vision-Based Tactile Simulation

TaCauchy:面向视觉触觉仿真的可扩展有限元框架

Hengfei Zhao, Yifan Xie, Junhao Gong, Yue Sun, Kai Zhu, Weihua He, Shoujie Li, Haohuan Fu, Wenbo Ding

专题命中 机器人操作 :触觉仿真框架用于机器人操作中的力计算

AI总结 提出TaCauchy框架,基于UIPC求解器在Isaac Sim中集成有限元法,直接计算柯西应力张量并投影为接触力,实现高保真触觉仿真,支持多种传感器,物理验证SSIM>0.93。

Comments Accepted to IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2026

2606.20285 2026-06-19 cs.RO 新提交 专题 85

Co-VLA: Coordination-Aware Structured Action Modeling for Dual-Arm Vision-Language-Action Systems

Co-VLA:面向双臂视觉-语言-动作系统的协调感知结构化动作建模

Yandong Wang, Jiaqian Yu, Xiongfeng Peng, Lu Xu, Yamin Mao, Weiming Li, Jaewook Yoo, Dongwook Lee, Daehyun Ji, Mingbo Zhao, Chao Zhang

专题命中 机器人操作 :聚焦双臂机器人操作任务

AI总结 针对双臂紧耦合任务中隐式协调不足的问题,提出Co-VLA框架,通过结构化动作专家和潜在感知控制器显式引入协调先验,在仿真和真实场景中显著提升成功率和效率。

2606.20120 2026-06-19 cs.RO cs.AI 新提交 专题 85

Dual-Agent Framework for Cross-Model Verified Translation of Natural-Language Protocols into Robotic Laboratory Platform

用于将自然语言协议翻译为机器人实验室平台的双智能体跨模型验证框架

Hyeonna Choi, Jung Yup Kim, Hyuneui Lim, Seunggyu Jeon

专题命中 机器人操作 :双智能体框架翻译自然语言协议到机器人平台。

AI总结 提出双智能体框架,通过解析器形式化协议、规则映射引擎生成控制命令、异构LLM验证器纠错,实现自然语言微孔板协议到机器人平台可执行命令的转换,并验证了端到端自主执行。

2606.20092 2026-06-19 cs.CV 新提交 专题 85

EventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies

EventVLA: 面向长程视觉-语言-动作策略的事件驱动视觉证据记忆

Ganlin Yang, Zhangzheng Tu, Yuqiang Yang, Sitong Mao, Junyi Dong, Tianxing Chen, Jiaqi Peng, Jing Xiong, Jiafei Cao, Jifeng Dai, Wengang Zhou, Yao Mu, Tai Wang

专题命中 机器人操作 :长程机器人操作记忆方法

AI总结 针对长程机器人操作中记忆瓶颈问题,提出EventVLA框架,通过动态关键帧证据记忆模块自主捕获任务关键视觉事件,在17个模拟和4个真实任务中平均成功率提升40%。

2606.19586 2026-06-19 cs.RO 新提交 专题 85

One Demo is Worth a Thousand Trajectories: Action-View Augmentation for Visuomotor Policies

一个演示胜过千条轨迹:用于视觉运动策略的动作-视角增强

Chuer Pan, Litian Liang, Dominik Bauer, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Shuran Song

专题命中 机器人操作 :提出动作-视角增强框架提升操作策略成功率

AI总结 提出一种数据增强框架,通过高斯泼溅和轨迹优化生成逼真的鱼眼图像序列和物理可行的动作轨迹,提升操作策略在场景变化和障碍物下的成功率。

Comments Project website: https://chuerpan.com/1001-demos.github.io/. Published at CoRL 2025

Journal ref Proceedings of The 9th Conference on Robot Learning, PMLR 305:3902-3914, 2025

2606.18960 2026-06-19 cs.CV cs.RO 新提交 专题 85

Mem-World: Memory-Augmented Action-Conditioned World Models for Persistent Robot Manipulation

Mem-World:用于持久机器人操作的内存增强动作条件世界模型

Zirui Zheng, Jiaqian Yu, Xiongfeng Peng, jun shi, Mingyi Li, Chao Zhang, Weiming Li, Dong Wang, Huchuan Lu, Xu Jia

专题命中 机器人操作 :内存增强世界模型用于机器人操作

AI总结 提出Mem-World,通过4D腕部视角曲面元索引内存W-VMem,解决操作中因遮挡和运动导致的场景遗忘问题,实现持久世界建模,提升策略评估与改进效果。

2509.10416 2026-06-19 cs.RO 版本更新 专题 85

TASC: Task-Aware Shared Control for Relational Telemanipulation

TASC:面向关系遥操作的任务感知共享控制

Ze Fu, Pinhao Song, Yutong Hu, Renaud Detry

专题命中 机器人操作 :提出遥操作共享控制框架,涉及机器人操作和任务级意图推理。

AI总结 提出TASC框架,通过视觉构建开放词汇交互图推断任务级用户意图,并基于空间约束提供共享控制辅助,提升关系遥操作效率与泛化能力。

Comments Accepted to IROS 2026

2509.00271 2026-06-19 cs.RO 版本更新 专题 85

Learn from What We HAVE: History-Aware VErifier that Reasons about Past Interactions Online

从我们所拥有的学习:在线推理过去交互的历史感知验证器

Yishu Li, Xinyi Mao, Ying Yuan, Kyutae Sim, Ben Eisner, David Held

专题命中 机器人操作 :提出历史感知验证器,用于机器人操作中的动作选择。

AI总结 提出历史感知验证器HAVE,通过解耦动作生成与验证,利用历史交互在线消除歧义,理论证明其提升期望动作质量,在多个模拟和真实环境中验证有效性。

Comments CoRL 2025

2605.25005 2026-06-19 cs.RO 版本更新 专题 80

Stiffness Optimization for Concentrated Bending in Magnetically Actuated Catheters: Maintaining Steerability under Gradient Stiffness

磁驱动导管集中弯曲的刚度优化:在梯度刚度下保持可操控性

Jiewen Tan, Junnan Xue, Shing Shin Cheng, Shuang Song, Erli Lyu, Jiaole Wang

专题命中 机器人操作 :磁驱动软导管刚度优化与操控

AI总结 针对磁驱动软导管在推送性与近端集中弯曲之间的权衡,提出一种刚度优化的多段磁驱动导管(SO-MAC),通过解耦转向-推进机构和梯度刚度架构,在推进过程中实现稳定的近端枢轴弯曲,同时远端被动自直以传递推进力。

2508.21677 2026-06-19 cs.RO 版本更新 专题 80

Robust Convex Model Predictive Control with collision avoidance guarantees for robot manipulators

具有碰撞避免保证的机器人操作器鲁棒凸模型预测控制

Bernhard Wullt, Johannes Köhler, Per Mattsson, Mikeal Norrlöf, Thomas B. Schön

专题命中 机器人操作 :鲁棒MPC实现工业机器人无碰撞运动

AI总结 提出一种结合鲁棒管MPC与走廊规划算法的凸MPC方案,在模型不确定下实现工业机器人快速无碰撞运动,优于基准方法。

2504.15535 2026-06-19 cs.RO 版本更新 专题 80

VibeCheck: Using Active Acoustic Tactile Sensing for Contact-Rich Manipulation

VibeCheck: 使用主动声学触觉传感进行接触丰富的操作

Kaidi Zhang, Do-Gon Kim, Eric T. Chang, Hua-Hsuan Liang, Zhanpeng He, Kathryn Lampo, Philippe Wu, Ioannis Kymissis, Matei Ciocarlie

专题命中 机器人操作 :主动声学触觉传感用于接触丰富的操作任务。

AI总结 本文构建了带有两个压电手指的主动声学传感夹爪,通过物体传递声学振动来感知其声学特性和接触状态,用于物体分类、抓取位置估计、内部结构姿态估计以及外部接触类型分类,并基于接触分类模型实现了鲁棒的插销任务。

Comments Published at IROS 2025. 8 pages, 7 figures

2512.20014 2026-06-19 cs.RO cs.AI 版本更新 专题 75

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

Bring My Cup! 使用视觉注意力提示个性化视觉-语言-动作模型

Sangoh Lee, Sangwoo Mo, Wook-Shin Han

专题命中 机器人操作 :机器人操作个人物品

AI总结 针对VLA模型难以处理个性化指令的问题,提出无需训练的视觉注意力提示(VAP)方法,通过参考图像作为非参数记忆,利用开放词汇检测和嵌入匹配定位个人物品,并以视觉提示注入模型,在多个仿真和真实场景中显著提升成功率和正确物体操作。

Comments ICML 2026. Project page: https://vap-project.github.io/

2606.19451 2026-06-19 cs.LG cs.CV cs.RO 新提交 专题 70

3D-DLP: Self-Supervised 3D Object-Centric Scene Representation Learning

3D-DLP:自监督3D物体中心场景表示学习

Ellina Zhang, Madhaven Iyengar, Amir Zadeh, Chuan Li, Deepak Pathak, David Held, Tal Daniel

专题命中 机器人操作 :3D潜在粒子用于下游机器人操作。

AI总结 提出3D-DLP模型,通过自监督学习将场景级RGB-D或体素观测分解为3D潜在粒子,每个粒子编码解耦属性,实现可解释的逐粒子分割图,并支持场景操控和下游机器人操作。

Comments ICML 2026. Project webpage: https://eubooks3003.github.io/3d-dlp