大模型推理能力

2606.20227 2026-06-19 cs.AI cs.SE 新提交专题 95

QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation

QMFOL：通过可量化的一元一阶逻辑测试用例生成来基准测试大语言模型推理

Xinyi Zheng, Ling Shi, Tianlong Yu, Yongxin Zhao, Lorenz Goette, Kailong Wang

专题命中逻辑推理：提出QMFOL框架，通过一阶逻辑生成推理任务，评估LLM逻辑推理能力。

AI总结提出QMFOL框架，通过可控制复杂度的合取/析取模式生成一元一阶逻辑推理任务，并构建包含2880个实例的基准QMFOLBench，评估显示逻辑复杂度增加导致性能下降和计算开销上升。

URL PDF HTML

2606.20526 2026-06-19 cs.AI 新提交专题 70

DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs

DeepSWIP: 神经概率逻辑程序的商-WMC反事实

Saimun Habib, Vaishak Belle, Fengxiang He

专题命中逻辑推理：神经概率逻辑程序的反事实推理

AI总结提出DeepSWIP，一种用于DeepProbLog程序的单世界反事实语义，通过神经物化、SWIP和加权模型计数实现精确反事实推理，实验证明比孪生网络方法快2.14倍。

URL PDF HTML

2606.20068 2026-06-19 cs.AI 新提交专题 90

Process-Verified Reinforcement Learning for Theorem Proving via Lean

基于Lean的过程验证强化学习用于定理证明

Minsu Kim, Se-Young Yun

专题命中数学推理：定理证明强化学习

AI总结提出利用Lean证明助手提供过程级验证信号，结合GRPO风格强化学习目标，通过策略级监督提升定理证明性能。

URL PDF HTML

2606.19788 2026-06-19 cs.AI cs.CL 新提交专题 90

CombEval: A Framework for Evaluating Combinatorial Counting in Large Language Models

CombEval：评估大语言模型中组合计数的框架

Yuxu Zhou, Ondřej Kuželka, Yuyi Wang, Yuanhong Wang, Yi Chang

专题命中数学推理：评估LLM在组合计数问题上的推理能力。

AI总结提出CombEval动态基准，通过类型化Cofola规范生成组合计数问题，评估11个大语言模型在直接和代码增强设置下的表现，发现模型在有序对象、不可区分元素、相对位置约束和嵌套对象依赖上存在脆弱性。

Comments under review. Code: https://github.com/YuxuZhou-CN/combination-problem-generation

URL PDF HTML

2606.19399 2026-06-19 cs.LG cs.AI cs.LO cs.PL 新提交专题 90

VERITAS: Verifier-Guided Proof Search for Zero-Shot Formal Theorem Proving

VERITAS：验证器引导的零样本形式定理证明搜索

Manish Acharya, Zhenyu Liao, Yueke Zhang, Kevin Leach, Yu Huang, Yifan Zhang

专题命中数学推理：验证器引导的零样本形式定理证明。

AI总结提出VERITAS框架，通过两阶段协议（Best-of-N采样+批评引导MCTS）利用验证器反馈进行零样本定理证明，在miniF2F上达40.6%准确率，并发布组合学基准VERITAS-CombiBench。

URL PDF HTML

2606.19697 2026-06-19 cs.LG cs.AI cs.CL 新提交专题 85

Efficiently Representing Algorithms With Chain-of-Thought Transformers

高效表示链式思维Transformer中的算法

Yanhong Li, Anej Svete, Ashish Sabharwal, William Merrill

专题命中数学推理：证明CoT Transformer高效模拟Word RAM算法，涉及排序等推理

AI总结本文证明链式思维Transformer能以多对数开销高效模拟Word RAM算法，包括排序和Dijkstra算法，优于模拟图灵机的二次开销。

URL PDF HTML

2606.19636 2026-06-19 cs.LG cs.AI 新提交专题 85

Hard or Just Unreached? Diagnosing the Sampling Blind Spot in Math-Reasoning Difficulty Estimation

困难还是未触及？诊断数学推理难度估计中的采样盲点

Luca Zhou, Sajel Shah, Emanuele Rodolà, Roberto Dessì

专题命中数学推理：诊断数学推理难度估计中的采样盲点，提出确定性采样。

AI总结发现pass@k在数学推理难度估计中存在盲点，通过激活嫁接的确定性采样可恢复10.3-22.9%的零解样本，揭示结构可识别性。

Comments 9 pages of main paper, 4 figures and 5 tables in the main paper, with more in the appendix

URL PDF HTML

2606.20008 2026-06-19 cs.LG 新提交专题 80

VIMPO: Value-Implicit Policy Optimization for LLMs

VIMPO: 值隐式策略优化用于大语言模型

Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song, Xuandong Zhao

专题命中数学推理：方法在数学推理基准上优于GRPO。

AI总结提出VIMPO方法，通过KL正则化强化学习的最优条件导出策略隐含值函数，无需训练评论家，实现细粒度信用分配，在数学推理基准上优于GRPO。

URL PDF HTML

2606.11537 2026-06-19 cs.AI cs.CE 新提交专题 70

MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning

MoCA-Agent: 一种用于金融和数值推理的声明市场代码智能体

Abdelrahman Abdallah, AbdelRahim A. Elmadany, Sameh Al Natour, Hasan Cavusoglu, Adam Jatowt, Muhammad Abdul-Mageed

专题命中数学推理：处理金融数值推理，涉及多步计算

AI总结提出MoCA-Agent，通过声明级验证和代码生成解决金融表格问答中的数值推理错误，在十个基准上取得强性能。

URL PDF HTML

2606.19354 2026-06-19 cs.CL cs.LG 新提交专题 90

Granularity-Regulated Adaptive Computational Efficiency for Optimal Verification in Test-Time Scaling

粒度调控的自适应计算效率：测试时扩展中的最优验证

Ardit Krasniqi, Luan Vejsiu, Elira Dervishi

专题命中测试时计算：测试时扩展中验证粒度自适应理论框架

AI总结提出GRACE理论框架，将验证粒度建模为问题难度、验证器准确率和计算预算的函数，证明存在相变：细粒度验证在计算预算大或问题难时占优，粗粒度验证在低预算简单问题时更优，自适应策略可达到计算-性能帕累托前沿。

URL PDF HTML

2606.19919 2026-06-19 cs.LG 新提交专题 85

ADaPT: Token-Level Decoupling for Efficient Large Reasoning Models

ADaPT：面向高效大推理模型的令牌级解耦

Tingyun Li, Zishang Jiang, Jinyi Han, Xinyi Wang, Sihang Jiang, Han Xia, Zhaoqian Dai, Shuguang Ma, Fei Yu, Jiaqing Liang, Yanghua Xiao

专题命中测试时计算：提出令牌级解耦框架ADaPT提升推理效率

AI总结提出ADaPT，通过令牌级双过程框架解耦效率与正确性信号，引入模式选择令牌控制快慢推理，实现推理时效率-性能权衡的精确连续控制，在降低推理成本的同时保持强推理能力。

URL PDF HTML

2606.19808 2026-06-19 cs.AI cs.CL 新提交专题 85

Think Again or Think Longer? Selective Verification for Budget-Aware Reasoning

再思考还是更长时间思考？面向预算感知推理的选择性验证

Sajib Acharjee Dip, Dawei Zhou, Liqing Zhang

专题命中测试时计算：选择性验证框架用于预算感知推理，优化测试时计算。

AI总结提出选择性验证框架SEVRA，通过服务层控制器决定是否对冻结求解器的初始答案进行验证，在Math500上以更少token达到更高准确率，并减少有害翻转。

URL PDF HTML

2606.19771 2026-06-19 cs.AI 新提交专题 85

Beyond Entropy: Learning from Token-Level Distributional Deviations for LLM Reasoning

超越熵：从令牌级分布偏差中学习以增强LLM推理

Xuanzhi Feng, Zhengyang Li, Zeyu Liu, Haoxi Li, Yuming Jiang, Bing Guo, Jingcai Guo, Jie Zhang, Song Guo

专题命中测试时计算：通过令牌级分布偏差学习增强LLM推理。

AI总结针对RLVR中令牌更新导致的熵塌陷或爆炸问题，提出ICT框架，利用JS散度识别关键令牌，通过选择性更新平衡策略集中度，提升推理性能。

URL PDF HTML

2606.19750 2026-06-19 cs.LG cs.AI cs.CL 新提交专题 80

Manifold Bandits: Bayesian Curriculum Learning over the Latent Geometry of Large Language Models

流形赌博机：大语言模型潜在几何上的贝叶斯课程学习

Darrien McKenzie, Nicklas Hansen, Xiaolong Wang

专题命中测试时计算：贝叶斯课程学习框架用于LLM推理的强化学习。

AI总结提出贝叶斯流形课程（BMC）框架，将问题采样建模为流形结构赌博机问题，通过层次任务树和贝叶斯学习引导采样，平衡学习信号、多样性和实用性。

Comments Webpage: https://darrienmckenzie.com/manifold-bandits/

URL PDF HTML

2606.19350 2026-06-19 cs.CL 新提交专题 85

Pruning via Causal Attribution Preserves Reasoning Performance in Large Language Models

基于因果归因的剪枝保留大型语言模型的推理性能

Amogh Sheth, Biruk Assefa, Yi Wen Huang, Andrew Lin, Yuhao Ge

专题命中其他推理：因果归因剪枝保留推理性能

AI总结提出无需训练的因果归因剪枝（CAP）方法，通过测量注意力头对推理任务的因果影响进行细粒度剪枝，在20%稀疏度下相比Wanda在ARC-Challenge上准确率提升高达61%。

Comments Accepted at the ICLR 2026 Workshop on LLM Reasoning. 13 pages, 2 figures

URL PDF HTML

2606.20075 2026-06-19 cs.LG cs.CL 新提交专题 80

What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis

什么使得潜在思维链中的监督有效：一种信息论分析

Xinghao Chen, Chak Tou Leong, Wenjin Guo, Jian Wang, Wenjie Li, Xiaoyu Shen

专题命中复杂问题求解：潜在思维链监督信息论分析

AI总结本文从信息论角度分析潜在思维链中的监督失效问题，提出轨迹监督和空间监督两个维度，并引入统一潜在探针（ULP）量化信息保真度，揭示了信息-性能绑定关系。

URL PDF HTML

2606.19427 2026-06-19 astro-ph.CO astro-ph.IM physics.comp-ph physics.data-an 新提交专题 80

Physics-guided discovery of dynamical dark-energy equations of state through iterative AI reasoning

通过迭代AI推理发现动力学暗能量状态方程的物理引导

Clecio R. Bom, Bernardo M. Fraga, Miguel A. Sabogal, Armando Bernui, Phelipe Darc, Gustavo Schwarz

专题命中复杂问题求解：LLM迭代推理发现暗能量状态方程

AI总结提出迭代AI推理框架，利用大语言模型生成并优化暗能量状态方程，结合文献检索和自动评估，发现两种新参数化形式，在超新星、重子声学振荡和Planck数据上优于传统模型。

Comments 6 figures, 45 pages, submitted. Code: https://iadev.cbpf.br/labia/cosmoai

URL PDF HTML

2606.20401 2026-06-19 eess.SY cs.SY 新提交专题 70

PowerAgentBench-Dyn: A Benchmark for Agentic AI in Power System Dynamic Studies

PowerAgentBench-Dyn：电力系统动态研究中智能体AI的基准测试

Qian Zhang, Andrea Pomarico, Costas Mylonas, Magda Foti, Alberto Berizzi, Le Xie

专题命中复杂问题求解：涉及多步推理和工程判断，属于复杂问题求解

AI总结提出PowerAgentBench-Dyn基准，用于评估基于LLM的智能体在电力系统动态分析任务中的能力，涵盖模型质量审查和安全风险筛选两个任务。

URL PDF HTML

2606.19893 2026-06-19 cs.AI 新提交专题 70

MetaResearcher: Scaling Deep Research via Self-Reflective Reinforcement Learning in Adversarial Virtual Environments

MetaResearcher: 通过对抗虚拟环境中的自我反思强化学习扩展深度研究

Wei Yu, Suxing Liu, Minjie Yu, Jiahao Wang, Zhijian Zheng, Haocheng Deng, Bing Li

专题命中复杂问题求解：发现导向任务，超越事实检索。

AI总结提出MetaResearcher框架，通过演化虚拟世界、发现导向任务、自我反思元奖励和异构多智能体架构，在对抗环境中扩展深度研究智能体的训练，提升基准性能和认知鲁棒性。

URL PDF HTML

2606.19741 2026-06-19 cs.AI cs.LG 新提交专题 65

Interpreting Neural Combinatorial Optimization via Evolving Programmatic Bottlenecks

通过演化程序瓶颈解释神经组合优化

Haocheng Duan, Yuxin Guo, Jieyi Bi, Anqi Xie, Sirui Li, Yining Ma, Cathy Wu

专题命中复杂问题求解：涉及组合优化问题的可解释性，与推理相关。

AI总结提出演化程序瓶颈（EPB）框架，通过将黑盒神经组合优化模型蒸馏为可读程序组合，利用LLM和混合梯度下降实现可解释性，揭示模型行为与经典启发式变体的关系。

Comments Under Review

URL PDF HTML

2606.20206 2026-06-19 stat.ML cs.LG 新提交专题 60

Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random

马尔可夫决策过程中奖励非随机缺失的缺失感知策略的离线评估

Ziheng Wei, Annie Qu, Rui Miao

专题命中复杂问题求解：离线策略评估，奖励缺失问题

AI总结针对奖励非随机缺失的离线强化学习问题，提出基于未来状态作为影子变量的识别方法，并利用桥函数和min-max估计器恢复条件均值奖励，实现缺失感知策略的离线评估。

Comments Accepted at ICML 2026. 31 pages, 6 figures

URL PDF HTML

2606.19846 2026-06-19 econ.GN q-fin.EC 新提交专题 55

What Capital After Labor? Forecasting the Talent ROI Transition in the Human-AI Era

劳动力之后是什么资本？预测人机时代的人才ROI转型

Kwan Soo Shin, In Seok Kang

专题命中复杂问题求解：AI时代人才ROI预测框架

AI总结针对AI增强打破劳动时间与贡献的会计关联，本文构建从时间到产出的人才ROI预测框架，核心定理为ROI反转，并利用韩国52小时工作制案例验证了前期压力信号，预测产出型企业在2032年TFP增长领先1.5-2.0个百分点。

Comments 90 pages, 6 figures

URL PDF HTML

2606.15197 2026-06-19 cs.LG cs.AI 新提交专题 80

StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling

StarOR: 协同树搜索与测试时强化学习用于优化建模

Jiajun Li, Yu Ding, Shisi Guan, Ran Hou, Wanyuan Wang

专题命中规划推理：结合MCTS与GRPO进行推理优化

AI总结提出StarOR框架，结合蒙特卡洛树搜索与测试时强化学习，通过四阶段分解和GRPO更新LoRA适配器，实现无监督细粒度奖励的中间决策优化，在5个基准上以4B模型达到最优性能。

Comments 41pages, V1, preprint

URL PDF HTML

2606.20014 2026-06-19 cs.LG cs.AI 新提交专题 75

Hierarchical Control in Multi-Agent Games: LLM-based Planning and RL Execution

多智能体博弈中的层次化控制：基于LLM的规划与RL执行

Jannik Hösch, Alessandro Sestini, Florian Fuchs, Amir Baghi, Joakim Bergdahl, Konrad Tollmar, Jean-Philippe Barrette-LaPierre, Linus Gisslén

专题命中规划推理：LLM进行高层规划，属于规划推理。

AI总结提出LLM作为中央策略控制器选择RL技能策略的层次化架构，在2v2对抗环境中达到与手工BT相当的胜率，且被感知为最类人。

Comments 12 pages, 9 figures

URL PDF HTML

1. 逻辑推理 2 篇

QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation

DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs

2. 数学推理 7 篇

Process-Verified Reinforcement Learning for Theorem Proving via Lean

CombEval: A Framework for Evaluating Combinatorial Counting in Large Language Models

VERITAS: Verifier-Guided Proof Search for Zero-Shot Formal Theorem Proving

Efficiently Representing Algorithms With Chain-of-Thought Transformers

Hard or Just Unreached? Diagnosing the Sampling Blind Spot in Math-Reasoning Difficulty Estimation

VIMPO: Value-Implicit Policy Optimization for LLMs

MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning

3. 测试时计算 5 篇

Granularity-Regulated Adaptive Computational Efficiency for Optimal Verification in Test-Time Scaling

ADaPT: Token-Level Decoupling for Efficient Large Reasoning Models

Think Again or Think Longer? Selective Verification for Budget-Aware Reasoning

Beyond Entropy: Learning from Token-Level Distributional Deviations for LLM Reasoning

Manifold Bandits: Bayesian Curriculum Learning over the Latent Geometry of Large Language Models

4. 其他推理 1 篇

Pruning via Causal Attribution Preserves Reasoning Performance in Large Language Models

5. 复杂问题求解 7 篇

What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis

Physics-guided discovery of dynamical dark-energy equations of state through iterative AI reasoning

PowerAgentBench-Dyn: A Benchmark for Agentic AI in Power System Dynamic Studies

MetaResearcher: Scaling Deep Research via Self-Reflective Reinforcement Learning in Adversarial Virtual Environments

Interpreting Neural Combinatorial Optimization via Evolving Programmatic Bottlenecks

Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random

What Capital After Labor? Forecasting the Talent ROI Transition in the Human-AI Era

6. 规划推理 2 篇

StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling

Hierarchical Control in Multi-Agent Games: LLM-based Planning and RL Execution