2605.13276
2026-05-15
cs.AI
cs.RO
D-VLA: A High-Concurrency Distributed Asynchronous Reinforcement Learning Framework for Vision-Language-Action Models
Yucheng Guo, Yongjian Guo, Zhong Guan, Wen Huang, Haoran Sun, Haodong Yue, Xiaolong Xiang, Shuai Di, Zhen Sun, Luqiao Wang, Junwu Xiong, Yicheng Gong
AI总结
随着具身人工智能的快速发展,视觉-语言-动作(VLA)模型在多模态感知和任务执行方面表现出色,但在大规模分布式环境中应用强化学习(RL)时面临系统瓶颈,主要源于高保真物理仿真与深度学习对显存和带宽的高需求之间的资源冲突。为解决这一问题,本文提出D-VLA,一种高并发、低延迟的分布式RL框架,通过“平面解耦”和“泳道”异步流水线等创新设计,有效分离训练数据与模型优化过程,实现采样、推理、梯度计算和参数分发的全并行重叠,显著提升了大规模VLA模型的训练吞吐量和采样效率。