Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?
视觉-语言模型在点击式谜题游戏中是否展现出人类般的逻辑问题解决能力?
AI总结 本文提出VLATIM基准测试,用于评估在经典物理谜题游戏The Incredible Machine 2中人类般的逻辑问题解决能力,发现尽管大模型在规划方面表现优异,但精确的视觉定位仍存在问题,尚未达到人类水平。