Mage: Multi-Axis Evaluation of LLM-Generated Executable Game Scenes Beyond Compile-Pass Rate
AI总结 该研究提出了一种名为Mage的多维度评估框架,用于评估大语言模型生成的可执行游戏场景的质量,超越了传统的编译通过率指标。研究通过编译成功、运行时成功、结构保真度和机制遵循度四个维度,对多种大语言模型生成的Unity游戏场景进行了系统评估,揭示了编译通过率与功能正确性之间的负相关关系。实验表明,仅依赖编译通过率会误导对生成结果的判断,而多轴评估能更准确地反映模型在复杂领域中的表现。
Comments Main Content: 10 pages, 1 figure. In total 22 pages