arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型推理能力

大模型数学、逻辑、规划、多步推理和测试时计算能力。

今日/当前日期收录 9 信号源:cs.CL, cs.AI, cs.LG
2606.20075 2026-06-19 cs.LG cs.CL 新提交 专题 80

What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis

什么使得潜在思维链中的监督有效:一种信息论分析

Xinghao Chen, Chak Tou Leong, Wenjin Guo, Jian Wang, Wenjie Li, Xiaoyu Shen

专题命中 复杂问题求解 :潜在思维链监督信息论分析

AI总结 本文从信息论角度分析潜在思维链中的监督失效问题,提出轨迹监督和空间监督两个维度,并引入统一潜在探针(ULP)量化信息保真度,揭示了信息-性能绑定关系。

2606.19427 2026-06-19 astro-ph.CO astro-ph.IM physics.comp-ph physics.data-an 新提交 专题 80

Physics-guided discovery of dynamical dark-energy equations of state through iterative AI reasoning

通过迭代AI推理发现动力学暗能量状态方程的物理引导

Clecio R. Bom, Bernardo M. Fraga, Miguel A. Sabogal, Armando Bernui, Phelipe Darc, Gustavo Schwarz

专题命中 复杂问题求解 :LLM迭代推理发现暗能量状态方程

AI总结 提出迭代AI推理框架,利用大语言模型生成并优化暗能量状态方程,结合文献检索和自动评估,发现两种新参数化形式,在超新星、重子声学振荡和Planck数据上优于传统模型。

Comments 6 figures, 45 pages, submitted. Code: https://iadev.cbpf.br/labia/cosmoai

2606.20401 2026-06-19 eess.SY cs.SY 新提交 专题 70

PowerAgentBench-Dyn: A Benchmark for Agentic AI in Power System Dynamic Studies

PowerAgentBench-Dyn:电力系统动态研究中智能体AI的基准测试

Qian Zhang, Andrea Pomarico, Costas Mylonas, Magda Foti, Alberto Berizzi, Le Xie

专题命中 复杂问题求解 :涉及多步推理和工程判断,属于复杂问题求解

AI总结 提出PowerAgentBench-Dyn基准,用于评估基于LLM的智能体在电力系统动态分析任务中的能力,涵盖模型质量审查和安全风险筛选两个任务。

2606.19893 2026-06-19 cs.AI 新提交 专题 70

MetaResearcher: Scaling Deep Research via Self-Reflective Reinforcement Learning in Adversarial Virtual Environments

MetaResearcher: 通过对抗虚拟环境中的自我反思强化学习扩展深度研究

Wei Yu, Suxing Liu, Minjie Yu, Jiahao Wang, Zhijian Zheng, Haocheng Deng, Bing Li

专题命中 复杂问题求解 :发现导向任务,超越事实检索。

AI总结 提出MetaResearcher框架,通过演化虚拟世界、发现导向任务、自我反思元奖励和异构多智能体架构,在对抗环境中扩展深度研究智能体的训练,提升基准性能和认知鲁棒性。

2606.19741 2026-06-19 cs.AI cs.LG 新提交 专题 65

Interpreting Neural Combinatorial Optimization via Evolving Programmatic Bottlenecks

通过演化程序瓶颈解释神经组合优化

Haocheng Duan, Yuxin Guo, Jieyi Bi, Anqi Xie, Sirui Li, Yining Ma, Cathy Wu

专题命中 复杂问题求解 :涉及组合优化问题的可解释性,与推理相关。

AI总结 提出演化程序瓶颈(EPB)框架,通过将黑盒神经组合优化模型蒸馏为可读程序组合,利用LLM和混合梯度下降实现可解释性,揭示模型行为与经典启发式变体的关系。

Comments Under Review

2305.14985 2026-06-19 cs.CV cs.CL 版本更新 专题 65

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models

IdealGPT: 通过大型语言模型迭代分解视觉与语言推理

Haoxuan You, Rui Sun, Zhecan Wang, Long Chen, Gengyu Wang, Hammad A. Ayyubi, Kai-Wei Chang, Shih-Fu Chang

专题命中 复杂问题求解 :LLM生成子问题并推理最终答案。

AI总结 提出IdealGPT框架,利用大型语言模型迭代分解视觉语言推理任务,通过子问题生成、子答案获取和最终答案推理的循环过程,在零样本设置下显著提升多步推理性能。

Comments 13 pages, 5 figures

2606.20206 2026-06-19 stat.ML cs.LG 新提交 专题 60

Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random

马尔可夫决策过程中奖励非随机缺失的缺失感知策略的离线评估

Ziheng Wei, Annie Qu, Rui Miao

专题命中 复杂问题求解 :离线策略评估,奖励缺失问题

AI总结 针对奖励非随机缺失的离线强化学习问题,提出基于未来状态作为影子变量的识别方法,并利用桥函数和min-max估计器恢复条件均值奖励,实现缺失感知策略的离线评估。

Comments Accepted at ICML 2026. 31 pages, 6 figures

2606.19846 2026-06-19 econ.GN q-fin.EC 新提交 专题 55

What Capital After Labor? Forecasting the Talent ROI Transition in the Human-AI Era

劳动力之后是什么资本?预测人机时代的人才ROI转型

Kwan Soo Shin, In Seok Kang

专题命中 复杂问题求解 :AI时代人才ROI预测框架

AI总结 针对AI增强打破劳动时间与贡献的会计关联,本文构建从时间到产出的人才ROI预测框架,核心定理为ROI反转,并利用韩国52小时工作制案例验证了前期压力信号,预测产出型企业在2032年TFP增长领先1.5-2.0个百分点。

Comments 90 pages, 6 figures

1702.06162 2026-06-19 cs.CR 版本更新 专题 55

Survey of Automated Vulnerability Detection and Exploit Generation Techniques in Cyber Reasoning Systems

网络推理系统中自动化漏洞检测与利用生成技术综述

Teresa Nicole Brooks

专题命中 复杂问题求解 :综述自动化漏洞检测与利用生成,涉及推理

AI总结 本文综述了DARPA网络大挑战赛中获胜系统Mayhem和Mechanical Phish的自动化漏洞检测与利用生成技术,总结了其核心方法、底层技术及相关工作。

Comments This is the accepted submitted version of this paper that was published in the Intelligent Computing Proceedings of the 2018 Computing Conference, Volume 2

Journal ref Intelligent Computing: Proceedings of the 2018 Computing Conference, Vol. 2, Springer, 2019, pp. 1083-1102