From Pixels to Words -- Towards Native One-Vision Models at Scale
从像素到文字——迈向原生单视觉大规模模型
发表机构 * S-Lab, NTU(S实验室,国立科技大学) ; SenseTime Research(秒速科技研究院) ; DLUT(大连理工大学)
AI总结 本文提出NEO-ov原生基础模型,通过端到端学习跨帧和像素-文字对应,无需外部编码器或适配器,在细粒度视觉感知上缩小了与模块化模型的差距,验证了原生单视觉架构的可行性和竞争力。
Comments 13 pages, 6 figures