VLA / 视觉-语言-动作模型

2606.19784 2026-06-19 cs.RO 新提交专题 95

EquiVLA: A General Framework for Rotationally Equivariant Vision-Language-Action Models

EquiVLA: 旋转等变视觉-语言-动作模型的通用框架

Thien-Loc Ha, Quang-Tan Nguyen, Trong-Bao Ho, Long Dinh, Minh Duc Nguyen, Gia-Binh Nguyen, Pham Tri Quang, Minh N. Vu, Duy M. H. Nguyen, An Thai Le, Ngo Anh Vien

专题命中 VLA模型：提出旋转等变VLA框架，用于机器人操作。

AI总结提出EquiVLA，首个端到端SO(2)等变VLA框架，通过EquiPerceptor和EquiActor实现从视觉到动作的近似等变链，在LIBERO、CALVIN和真实机器人任务上显著提升性能。

Comments Comment: First version 22 pages, project site: https://equivla.github.io/

URL PDF HTML

2606.20285 2026-06-19 cs.RO 新提交专题 90

Co-VLA: Coordination-Aware Structured Action Modeling for Dual-Arm Vision-Language-Action Systems

Co-VLA：面向双臂视觉-语言-动作系统的协调感知结构化动作建模

Yandong Wang, Jiaqian Yu, Xiongfeng Peng, Lu Xu, Yamin Mao, Weiming Li, Jaewook Yoo, Dongwook Lee, Daehyun Ji, Mingbo Zhao, Chao Zhang

专题命中 VLA模型：提出双臂VLA模型Co-VLA

AI总结针对双臂紧耦合任务中隐式协调不足的问题，提出Co-VLA框架，通过结构化动作专家和潜在感知控制器显式引入协调先验，在仿真和真实场景中显著提升成功率和效率。

URL PDF HTML

2606.20246 2026-06-19 cs.RO cs.AI 新提交专题 90

Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think

微调视觉-语言-动作模型所需的层数比你想象的少

Gia-Binh Nguyen, Trong-Bao Ho, Thien-Loc Ha, Khoa Vo, Philip Lund Møller, Quang T. Nguyen, Long Dinh, Tuan Dam, Vu Duong, Tung M. Luu, Trung Le, Tran Nguyen Le, Minh Vu, An Thai Le, Ngan Le, Daniel Sonntag, James Zou, Jan Peters, Duy M. H. Nguyen, Ngo Anh Vien

专题命中 VLA模型：研究VLA模型微调中的层冗余

AI总结本文发现VLA模型存在层间表示冗余，提出无需训练的压缩方法，通过去除冗余层将模型深度减少50%，实现40-50%训练加速和30%推理加速，性能不变。

URL PDF HTML

2606.20092 2026-06-19 cs.CV 新提交专题 90

EventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies

EventVLA: 面向长程视觉-语言-动作策略的事件驱动视觉证据记忆

Ganlin Yang, Zhangzheng Tu, Yuqiang Yang, Sitong Mao, Junyi Dong, Tianxing Chen, Jiaqi Peng, Jing Xiong, Jiafei Cao, Jifeng Dai, Wengang Zhou, Yao Mu, Tai Wang

专题命中 VLA模型：视觉-语言-动作策略记忆增强

AI总结针对长程机器人操作中记忆瓶颈问题，提出EventVLA框架，通过动态关键帧证据记忆模块自主捕获任务关键视觉事件，在17个模拟和4个真实任务中平均成功率提升40%。

URL PDF HTML

2606.19565 2026-06-19 cs.CV 新提交专题 90

Mix-QVLA: Task-Evidence-Aware Mixed-Precision Quantization of Vision-Language-Action Models

Mix-QVLA：任务证据感知的视觉-语言-动作模型混合精度量化

Navin Ranjan, Andreas Savakis

专题命中 VLA模型：提出VLA模型混合精度量化框架Mix-QVLA

AI总结提出Mix-QVLA框架，通过任务证据感知的混合精度后训练量化，在保持任务性能的同时大幅降低VLA模型的内存和计算开销，在LIBERO上实现4.1GB内存和1.52倍加速。

URL PDF HTML

2606.19998 2026-06-19 cs.RO cs.AI cs.CV cs.LG 新提交专题 85

Tri-Info: Generalizable, Interpretable Failure Prediction for VLA Models via Information Theory

Tri-Info: 基于信息论的VLA模型可泛化、可解释的故障预测

Jinghan Yang, Yunchao Zhang, Wang Yuan, Haolun Wan, Jiaming Zhang, Zhengyang Hu, Yanchao Yang

专题命中 VLA模型：提出故障预测方法专门针对VLA模型。

AI总结提出Tri-Info方法，通过信息论信号捕捉动作多样性、时间一致性和状态耦合，实现跨架构、环境及仿真到现实的零样本故障检测，准确率达83%。

URL PDF HTML

2512.20014 2026-06-19 cs.RO cs.AI 版本更新专题 85

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

Bring My Cup! 使用视觉注意力提示个性化视觉-语言-动作模型

Sangoh Lee, Sangwoo Mo, Wook-Shin Han

专题命中 VLA模型：个性化VLA模型，视觉注意力提示

AI总结针对VLA模型难以处理个性化指令的问题，提出无需训练的视觉注意力提示（VAP）方法，通过参考图像作为非参数记忆，利用开放词汇检测和嵌入匹配定位个人物品，并以视觉提示注入模型，在多个仿真和真实场景中显著提升成功率和正确物体操作。

Comments ICML 2026. Project page: https://vap-project.github.io/

URL PDF HTML

2606.19358 2026-06-19 cs.RO 新提交专题 70

WorkBenchMark: A LEGO-Based Assembly Benchmark with an Assembly-by-Disassembly Baseline for the Smart Manufacturing League

WorkBenchMark：面向智能制造联盟的基于乐高积木的装配基准与通过拆卸进行装配的基线方法

Wenbo Ma, Daniel Swoboda, Matteo Tschesche, Till Hofmann

专题命中数据集与评测：提供基线，比较VLA方法。

AI总结提出一个基于乐高Duplo的机器人装配基准，包含400个任务和四个复杂度层级，并提供一个基于规划的基线方法，在所有层级上优于现代视觉-语言-动作方法。

Comments RoboCup Symposium 2026 accepted paper

URL PDF HTML

VLA / 视觉-语言-动作模型

1. VLA模型 7 篇

EquiVLA: A General Framework for Rotationally Equivariant Vision-Language-Action Models

Co-VLA: Coordination-Aware Structured Action Modeling for Dual-Arm Vision-Language-Action Systems

Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think

EventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies

Mix-QVLA: Task-Evidence-Aware Mixed-Precision Quantization of Vision-Language-Action Models

Tri-Info: Generalizable, Interpretable Failure Prediction for VLA Models via Information Theory

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

2. 数据集与评测 1 篇

WorkBenchMark: A LEGO-Based Assembly Benchmark with an Assembly-by-Disassembly Baseline for the Smart Manufacturing League