2605.12684
2026-05-14
cs.CV
cs.AI
cs.HC
Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?
Yichen Feng, Yuetai Li, Chunjiang Liu, Yuanyuan Chen, Fengqing Jiang, Yue Huang, Hang Hua, Zhengqing Yuan, Kaiyuan Zheng, Luyao Niu, Bhaskar Ramasubramanian, Basel Alomair, Xiangliang Zhang, Misha Sra, Zichen Chen, Radha Poovendran, Zhangchen Xu
发表机构
*
Bake AI
;
University of Washington(华盛顿大学)
;
University of California, Santa Barbara(加州大学圣巴巴拉分校)
;
Stanford University(斯坦福大学)
;
University of Notre Dame(诺丁汉大学)
;
Carnegie Mellon University(卡内基梅隆大学)
;
MIT-IBM Watson AI Lab(麻省理工-IBM沃森人工智能实验室)
;
Western Washington University(西雅图华盛顿大学)
;
King Abdulaziz City for Science and Technology(国王阿卜杜勒阿齐兹科技城)
AI总结
该研究探讨了前沿多模态大语言模型在视觉审美判断方面的能力,指出当前模型在判断图像美感时存在显著不足。研究引入了“视觉审美基准”(VAB),通过专家标注的对比任务评估模型表现,发现即使是最好的模型在识别最佳和最差图像时也远不如人类专家。研究还表明,通过少量专家示例对模型进行微调,可以显著提升其性能,凸显了VAB在推动审美判断模型发展中的重要价值。