2606.11188
2026-06-10
cs.CV
新提交
ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations
ARM: 一种具有统一离散表示的自回归大型多模态模型
Junke Wang, Xiao Wang, Jiacheng Pan, Xuefeng Hu, Feng Li, Jingxiang Sun, Chaorui Deng, Zilong Chen, Yunpeng Chen, Kaibin Tian, Matthew Gwilliam, Hao Chen, Danhui Guan, Kun Xu, Weilin Huang, Zuxuan Wu, Haoqi Fan, Yu-Gang Jiang, Zhenheng Yang
发表机构
*
Shanghai Key Lab of Intelligent Information Processing, Fudan University(复旦大学上海智能信息处理重点实验室)
;
School of Computer Science, Fudan University(复旦大学计算机科学技术学院)
;
Shanghai Collaborative Innovation Center of Intelligent Visual Computing(上海智能视觉计算协同创新中心)
;
Youtu Lab, Tencent(腾讯优图实验室)
;
Meta AI
;
Shanghai AI Laboratory(上海人工智能实验室)
AI总结
提出ARM模型,通过离散语义视觉分词器将图像映射为紧凑token序列,结合自回归建模和强化学习,统一实现图像理解、生成和编辑,并提升任务性能与跨任务协同。