arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型推理能力

大模型数学、逻辑、规划、多步推理和测试时计算能力。

今日/当前日期收录 2 信号源:cs.CL, cs.AI, cs.LG
2606.20227 2026-06-19 cs.AI cs.SE 新提交 专题 95

QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation

QMFOL:通过可量化的一元一阶逻辑测试用例生成来基准测试大语言模型推理

Xinyi Zheng, Ling Shi, Tianlong Yu, Yongxin Zhao, Lorenz Goette, Kailong Wang

专题命中 逻辑推理 :提出QMFOL框架,通过一阶逻辑生成推理任务,评估LLM逻辑推理能力。

AI总结 提出QMFOL框架,通过可控制复杂度的合取/析取模式生成一元一阶逻辑推理任务,并构建包含2880个实例的基准QMFOLBench,评估显示逻辑复杂度增加导致性能下降和计算开销上升。

2606.20526 2026-06-19 cs.AI 新提交 专题 70

DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs

DeepSWIP: 神经概率逻辑程序的商-WMC反事实

Saimun Habib, Vaishak Belle, Fengxiang He

专题命中 逻辑推理 :神经概率逻辑程序的反事实推理

AI总结 提出DeepSWIP,一种用于DeepProbLog程序的单世界反事实语义,通过神经物化、SWIP和加权模型计数实现精确反事实推理,实验证明比孪生网络方法快2.14倍。