Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification
统一多模态自回归建模:共享上下文-视觉分词器是实现统一的关键
专题命中 图文多模态 :统一多模态自回归建模,桥接视觉理解与生成
AI总结 提出UniAR框架,通过单一离散视觉分词器桥接视觉理解与生成,采用并行位预测和扩散解码,在图像生成和编辑上达到最优,同时保持多模态理解竞争力。
Comments ICML2026. Project page https://sharelab-sii.github.io/uniar-web