QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation
QMFOL:通过可量化的一元一阶逻辑测试用例生成来基准测试大语言模型推理
发表机构 * Huazhong University of Science and Technology(华中科技大学) ; Nanyang Technological University(南洋理工大学) ; Hubei University(湖北大学) ; East China Normal University(华东师范大学) ; National University of Singapore(新加坡国立大学)
专题命中 逻辑推理 :提出QMFOL框架,通过一阶逻辑生成推理任务,评估LLM逻辑推理能力。
AI总结 提出QMFOL框架,通过可控制复杂度的合取/析取模式生成一元一阶逻辑推理任务,并构建包含2880个实例的基准QMFOLBench,评估显示逻辑复杂度增加导致性能下降和计算开销上升。