arXivDaily arXiv每日学术速递 周一至周五更新

视觉与机器人

VLA / 视觉-语言-动作模型

视觉-语言-动作模型、机器人基础模型和语言条件机器人控制。

今日/当前日期收录 7 信号源:cs.RO, cs.CV, cs.AI, cs.LG
2606.19784 2026-06-19 cs.RO 新提交 专题 95

EquiVLA: A General Framework for Rotationally Equivariant Vision-Language-Action Models

EquiVLA: 旋转等变视觉-语言-动作模型的通用框架

Thien-Loc Ha, Quang-Tan Nguyen, Trong-Bao Ho, Long Dinh, Minh Duc Nguyen, Gia-Binh Nguyen, Pham Tri Quang, Minh N. Vu, Duy M. H. Nguyen, An Thai Le, Ngo Anh Vien

专题命中 VLA模型 :提出旋转等变VLA框架,用于机器人操作。

AI总结 提出EquiVLA,首个端到端SO(2)等变VLA框架,通过EquiPerceptor和EquiActor实现从视觉到动作的近似等变链,在LIBERO、CALVIN和真实机器人任务上显著提升性能。

Comments Comment: First version 22 pages, project site: https://equivla.github.io/

2606.20285 2026-06-19 cs.RO 新提交 专题 90

Co-VLA: Coordination-Aware Structured Action Modeling for Dual-Arm Vision-Language-Action Systems

Co-VLA:面向双臂视觉-语言-动作系统的协调感知结构化动作建模

Yandong Wang, Jiaqian Yu, Xiongfeng Peng, Lu Xu, Yamin Mao, Weiming Li, Jaewook Yoo, Dongwook Lee, Daehyun Ji, Mingbo Zhao, Chao Zhang

专题命中 VLA模型 :提出双臂VLA模型Co-VLA

AI总结 针对双臂紧耦合任务中隐式协调不足的问题,提出Co-VLA框架,通过结构化动作专家和潜在感知控制器显式引入协调先验,在仿真和真实场景中显著提升成功率和效率。

2606.20246 2026-06-19 cs.RO cs.AI 新提交 专题 90

Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think

微调视觉-语言-动作模型所需的层数比你想象的少

Gia-Binh Nguyen, Trong-Bao Ho, Thien-Loc Ha, Khoa Vo, Philip Lund Møller, Quang T. Nguyen, Long Dinh, Tuan Dam, Vu Duong, Tung M. Luu, Trung Le, Tran Nguyen Le, Minh Vu, An Thai Le, Ngan Le, Daniel Sonntag, James Zou, Jan Peters, Duy M. H. Nguyen, Ngo Anh Vien

专题命中 VLA模型 :研究VLA模型微调中的层冗余

AI总结 本文发现VLA模型存在层间表示冗余,提出无需训练的压缩方法,通过去除冗余层将模型深度减少50%,实现40-50%训练加速和30%推理加速,性能不变。

2606.20092 2026-06-19 cs.CV 新提交 专题 90

EventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies

EventVLA: 面向长程视觉-语言-动作策略的事件驱动视觉证据记忆

Ganlin Yang, Zhangzheng Tu, Yuqiang Yang, Sitong Mao, Junyi Dong, Tianxing Chen, Jiaqi Peng, Jing Xiong, Jiafei Cao, Jifeng Dai, Wengang Zhou, Yao Mu, Tai Wang

专题命中 VLA模型 :视觉-语言-动作策略记忆增强

AI总结 针对长程机器人操作中记忆瓶颈问题,提出EventVLA框架,通过动态关键帧证据记忆模块自主捕获任务关键视觉事件,在17个模拟和4个真实任务中平均成功率提升40%。

2606.19565 2026-06-19 cs.CV 新提交 专题 90

Mix-QVLA: Task-Evidence-Aware Mixed-Precision Quantization of Vision-Language-Action Models

Mix-QVLA:任务证据感知的视觉-语言-动作模型混合精度量化

Navin Ranjan, Andreas Savakis

专题命中 VLA模型 :提出VLA模型混合精度量化框架Mix-QVLA

AI总结 提出Mix-QVLA框架,通过任务证据感知的混合精度后训练量化,在保持任务性能的同时大幅降低VLA模型的内存和计算开销,在LIBERO上实现4.1GB内存和1.52倍加速。

2606.19998 2026-06-19 cs.RO cs.AI cs.CV cs.LG 新提交 专题 85

Tri-Info: Generalizable, Interpretable Failure Prediction for VLA Models via Information Theory

Tri-Info: 基于信息论的VLA模型可泛化、可解释的故障预测

Jinghan Yang, Yunchao Zhang, Wang Yuan, Haolun Wan, Jiaming Zhang, Zhengyang Hu, Yanchao Yang

专题命中 VLA模型 :提出故障预测方法专门针对VLA模型。

AI总结 提出Tri-Info方法,通过信息论信号捕捉动作多样性、时间一致性和状态耦合,实现跨架构、环境及仿真到现实的零样本故障检测,准确率达83%。

2512.20014 2026-06-19 cs.RO cs.AI 版本更新 专题 85

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

Bring My Cup! 使用视觉注意力提示个性化视觉-语言-动作模型

Sangoh Lee, Sangwoo Mo, Wook-Shin Han

专题命中 VLA模型 :个性化VLA模型,视觉注意力提示

AI总结 针对VLA模型难以处理个性化指令的问题,提出无需训练的视觉注意力提示(VAP)方法,通过参考图像作为非参数记忆,利用开放词汇检测和嵌入匹配定位个人物品,并以视觉提示注入模型,在多个仿真和真实场景中显著提升成功率和正确物体操作。

Comments ICML 2026. Project page: https://vap-project.github.io/