QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation
QMFOL:通过可量化的一元一阶逻辑测试用例生成来基准测试大语言模型推理
专题命中 逻辑推理 :提出QMFOL框架,通过一阶逻辑生成推理任务,评估LLM逻辑推理能力。
AI总结 提出QMFOL框架,通过可控制复杂度的合取/析取模式生成一元一阶逻辑推理任务,并构建包含2880个实例的基准QMFOLBench,评估显示逻辑复杂度增加导致性能下降和计算开销上升。