2605.13565
2026-05-14
cs.CV
Qwen-Image-VAE-2.0 Technical Report
Zekai Zhang, Deqing Li, Kuan Cao, Yujia Wu, Chenfei Wu, Yu Wu, Liang Peng, Hao Meng, Jiahao Li, Jie Zhang, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiao Xu, Xiaoyue Chen, Yan Shu, Yanran Zhang, Yilei Chen, Yixian Xu, Yuxiang Chen, Zhendong Wang, Zihao Liu, Zikai Zhou, Yiliang Gu, Yi Wang, Xiaoxiao Xu, Lin Qu
AI总结
本文介绍了 Qwen-Image-VAE-2.0,一套在重建保真度和扩散能力方面取得显著进展的高压缩变分自编码器(VAE)。通过引入全局跳接连接和扩展潜在通道,模型有效解决了高压缩下的重建瓶颈,并结合大规模图像训练和合成渲染引擎提升了文本密集场景的表现。研究还提出了一种增强的语义对齐策略以优化高维潜在空间的收敛性,并采用非对称且无需注意力机制的编解码结构以提高计算效率。实验表明,该模型在多个基准测试中达到先进水平,尤其在高压缩比下表现出卓越的重建和扩散能力。