SAGE: Hierarchical LLM-Based Literary Evaluation through Ontology-Grounded Interpretive Dimensions
AI总结 本文提出了一种基于本体论的分层大语言模型评估框架SAGE,用于系统评估文学作品的质量,涵盖文化表达、情感深度和哲学内涵等解释性维度。该方法通过多轮迭代反思和独立验证,实现了对文学作品的结构化评估,并在100篇短篇小说上验证了其有效性,取得了高评分一致性和评分者间高度同意。研究发现,经典文学作品在各维度上显著优于通俗小说和大语言模型生成的叙事,且不同层次的评估维度能够有效区分文学质量的不同方面,展示了理论驱动的LLM评估在可靠性和系统性上的潜力。
Comments 19 pages, 4 figures