大模型推理能力 - arXivDaily 专题

2606.20075 2026-06-19 cs.LG cs.CL 新提交专题 80

What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis

什么使得潜在思维链中的监督有效：一种信息论分析

Xinghao Chen, Chak Tou Leong, Wenjin Guo, Jian Wang, Wenjie Li, Xiaoyu Shen

专题命中复杂问题求解：潜在思维链监督信息论分析

AI总结本文从信息论角度分析潜在思维链中的监督失效问题，提出轨迹监督和空间监督两个维度，并引入统一潜在探针（ULP）量化信息保真度，揭示了信息-性能绑定关系。

URL PDF HTML

2606.19427 2026-06-19 astro-ph.CO astro-ph.IM physics.comp-ph physics.data-an 新提交专题 80

Physics-guided discovery of dynamical dark-energy equations of state through iterative AI reasoning

通过迭代AI推理发现动力学暗能量状态方程的物理引导

Clecio R. Bom, Bernardo M. Fraga, Miguel A. Sabogal, Armando Bernui, Phelipe Darc, Gustavo Schwarz

专题命中复杂问题求解：LLM迭代推理发现暗能量状态方程

AI总结提出迭代AI推理框架，利用大语言模型生成并优化暗能量状态方程，结合文献检索和自动评估，发现两种新参数化形式，在超新星、重子声学振荡和Planck数据上优于传统模型。

Comments 6 figures, 45 pages, submitted. Code: https://iadev.cbpf.br/labia/cosmoai

URL PDF HTML

2606.20401 2026-06-19 eess.SY cs.SY 新提交专题 70

PowerAgentBench-Dyn: A Benchmark for Agentic AI in Power System Dynamic Studies

PowerAgentBench-Dyn：电力系统动态研究中智能体AI的基准测试

Qian Zhang, Andrea Pomarico, Costas Mylonas, Magda Foti, Alberto Berizzi, Le Xie

专题命中复杂问题求解：涉及多步推理和工程判断，属于复杂问题求解

AI总结提出PowerAgentBench-Dyn基准，用于评估基于LLM的智能体在电力系统动态分析任务中的能力，涵盖模型质量审查和安全风险筛选两个任务。

URL PDF HTML

2606.19893 2026-06-19 cs.AI 新提交专题 70

MetaResearcher: Scaling Deep Research via Self-Reflective Reinforcement Learning in Adversarial Virtual Environments

MetaResearcher: 通过对抗虚拟环境中的自我反思强化学习扩展深度研究

Wei Yu, Suxing Liu, Minjie Yu, Jiahao Wang, Zhijian Zheng, Haocheng Deng, Bing Li

专题命中复杂问题求解：发现导向任务，超越事实检索。

AI总结提出MetaResearcher框架，通过演化虚拟世界、发现导向任务、自我反思元奖励和异构多智能体架构，在对抗环境中扩展深度研究智能体的训练，提升基准性能和认知鲁棒性。

URL PDF HTML

2606.19741 2026-06-19 cs.AI cs.LG 新提交专题 65

Interpreting Neural Combinatorial Optimization via Evolving Programmatic Bottlenecks

通过演化程序瓶颈解释神经组合优化

Haocheng Duan, Yuxin Guo, Jieyi Bi, Anqi Xie, Sirui Li, Yining Ma, Cathy Wu

专题命中复杂问题求解：涉及组合优化问题的可解释性，与推理相关。

AI总结提出演化程序瓶颈（EPB）框架，通过将黑盒神经组合优化模型蒸馏为可读程序组合，利用LLM和混合梯度下降实现可解释性，揭示模型行为与经典启发式变体的关系。

Comments Under Review

URL PDF HTML

2305.14985 2026-06-19 cs.CV cs.CL 版本更新专题 65

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models

IdealGPT: 通过大型语言模型迭代分解视觉与语言推理

Haoxuan You, Rui Sun, Zhecan Wang, Long Chen, Gengyu Wang, Hammad A. Ayyubi, Kai-Wei Chang, Shih-Fu Chang

专题命中复杂问题求解：LLM生成子问题并推理最终答案。

AI总结提出IdealGPT框架，利用大型语言模型迭代分解视觉语言推理任务，通过子问题生成、子答案获取和最终答案推理的循环过程，在零样本设置下显著提升多步推理性能。

Comments 13 pages, 5 figures

URL PDF HTML

2606.20206 2026-06-19 stat.ML cs.LG 新提交专题 60

Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random

马尔可夫决策过程中奖励非随机缺失的缺失感知策略的离线评估

Ziheng Wei, Annie Qu, Rui Miao

专题命中复杂问题求解：离线策略评估，奖励缺失问题

AI总结针对奖励非随机缺失的离线强化学习问题，提出基于未来状态作为影子变量的识别方法，并利用桥函数和min-max估计器恢复条件均值奖励，实现缺失感知策略的离线评估。

Comments Accepted at ICML 2026. 31 pages, 6 figures

URL PDF HTML

2606.19846 2026-06-19 econ.GN q-fin.EC 新提交专题 55

What Capital After Labor? Forecasting the Talent ROI Transition in the Human-AI Era

劳动力之后是什么资本？预测人机时代的人才ROI转型

Kwan Soo Shin, In Seok Kang

专题命中复杂问题求解：AI时代人才ROI预测框架

AI总结针对AI增强打破劳动时间与贡献的会计关联，本文构建从时间到产出的人才ROI预测框架，核心定理为ROI反转，并利用韩国52小时工作制案例验证了前期压力信号，预测产出型企业在2032年TFP增长领先1.5-2.0个百分点。

Comments 90 pages, 6 figures

URL PDF HTML

1702.06162 2026-06-19 cs.CR 版本更新专题 55

Survey of Automated Vulnerability Detection and Exploit Generation Techniques in Cyber Reasoning Systems

网络推理系统中自动化漏洞检测与利用生成技术综述

Teresa Nicole Brooks

专题命中复杂问题求解：综述自动化漏洞检测与利用生成，涉及推理

AI总结本文综述了DARPA网络大挑战赛中获胜系统Mayhem和Mechanical Phish的自动化漏洞检测与利用生成技术，总结了其核心方法、底层技术及相关工作。

Comments This is the accepted submitted version of this paper that was published in the Intelligent Computing Proceedings of the 2018 Computing Conference, Volume 2

Journal ref Intelligent Computing: Proceedings of the 2018 Computing Conference, Vol. 2, Springer, 2019, pp. 1083-1102

URL PDF HTML