2604.20329
2026-06-05
cs.CV
cs.AI
Image Generators are Generalist Vision Learners
图像生成器是通用视觉学习者
Valentin Gabeur, Shangbang Long, Songyou Peng, Paul Voigtlaender, Shuyang Sun, Yanan Bao, Karen Truong, Zhicheng Wang, Wenlei Zhou, Jonathan T. Barron, Kyle Genova, Nithish Kannen, Sherry Ben, Yandong Li, Mandy Guo, Suhas Yogin, Yiming Gu, Huizhong Chen, Oliver Wang, Saining Xie, Howard Zhou, Kaiming He, Thomas Funkhouser, Jean-Baptiste Alayrac, Radu Soricut
发表机构
*
Google(谷歌)
AI总结
本文研究了图像生成器在视觉理解中的通用学习能力,通过引入Vision Banana模型,展示了图像生成训练如何像语言模型预训练一样,使模型在多种视觉任务中取得最佳性能,证明了图像生成预训练在构建基础视觉模型中的核心作用。