AI 大模型

大模型推理能力

大模型数学、逻辑、规划、多步推理和测试时计算能力。

今日/当前日期收录 2 篇信号源：cs.CL, cs.AI, cs.LG

2606.20227 2026-06-19 cs.AI cs.SE 新提交专题 95

QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation

QMFOL：通过可量化的一元一阶逻辑测试用例生成来基准测试大语言模型推理

Xinyi Zheng, Ling Shi, Tianlong Yu, Yongxin Zhao, Lorenz Goette, Kailong Wang

专题命中逻辑推理：提出QMFOL框架，通过一阶逻辑生成推理任务，评估LLM逻辑推理能力。

AI总结提出QMFOL框架，通过可控制复杂度的合取/析取模式生成一元一阶逻辑推理任务，并构建包含2880个实例的基准QMFOLBench，评估显示逻辑复杂度增加导致性能下降和计算开销上升。

URL PDF HTML

2606.20526 2026-06-19 cs.AI 新提交专题 70

DeepSWIP: 神经概率逻辑程序的商-WMC反事实

Saimun Habib, Vaishak Belle, Fengxiang He

专题命中逻辑推理：神经概率逻辑程序的反事实推理

AI总结提出DeepSWIP，一种用于DeepProbLog程序的单世界反事实语义，通过神经物化、SWIP和加权模型计数实现精确反事实推理，实验证明比孪生网络方法快2.14倍。

URL PDF HTML