arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型推理能力

大模型数学、逻辑、规划、多步推理和测试时计算能力。

今日/当前日期收录 5 信号源:cs.CL, cs.AI, cs.LG
2606.19354 2026-06-19 cs.CL cs.LG 新提交 专题 90

Granularity-Regulated Adaptive Computational Efficiency for Optimal Verification in Test-Time Scaling

粒度调控的自适应计算效率:测试时扩展中的最优验证

Ardit Krasniqi, Luan Vejsiu, Elira Dervishi

专题命中 测试时计算 :测试时扩展中验证粒度自适应理论框架

AI总结 提出GRACE理论框架,将验证粒度建模为问题难度、验证器准确率和计算预算的函数,证明存在相变:细粒度验证在计算预算大或问题难时占优,粗粒度验证在低预算简单问题时更优,自适应策略可达到计算-性能帕累托前沿。

2606.19919 2026-06-19 cs.LG 新提交 专题 85

ADaPT: Token-Level Decoupling for Efficient Large Reasoning Models

ADaPT:面向高效大推理模型的令牌级解耦

Tingyun Li, Zishang Jiang, Jinyi Han, Xinyi Wang, Sihang Jiang, Han Xia, Zhaoqian Dai, Shuguang Ma, Fei Yu, Jiaqing Liang, Yanghua Xiao

专题命中 测试时计算 :提出令牌级解耦框架ADaPT提升推理效率

AI总结 提出ADaPT,通过令牌级双过程框架解耦效率与正确性信号,引入模式选择令牌控制快慢推理,实现推理时效率-性能权衡的精确连续控制,在降低推理成本的同时保持强推理能力。

2606.19808 2026-06-19 cs.AI cs.CL 新提交 专题 85

Think Again or Think Longer? Selective Verification for Budget-Aware Reasoning

再思考还是更长时间思考?面向预算感知推理的选择性验证

Sajib Acharjee Dip, Dawei Zhou, Liqing Zhang

专题命中 测试时计算 :选择性验证框架用于预算感知推理,优化测试时计算。

AI总结 提出选择性验证框架SEVRA,通过服务层控制器决定是否对冻结求解器的初始答案进行验证,在Math500上以更少token达到更高准确率,并减少有害翻转。

2606.19771 2026-06-19 cs.AI 新提交 专题 85

Beyond Entropy: Learning from Token-Level Distributional Deviations for LLM Reasoning

超越熵:从令牌级分布偏差中学习以增强LLM推理

Xuanzhi Feng, Zhengyang Li, Zeyu Liu, Haoxi Li, Yuming Jiang, Bing Guo, Jingcai Guo, Jie Zhang, Song Guo

专题命中 测试时计算 :通过令牌级分布偏差学习增强LLM推理。

AI总结 针对RLVR中令牌更新导致的熵塌陷或爆炸问题,提出ICT框架,利用JS散度识别关键令牌,通过选择性更新平衡策略集中度,提升推理性能。

2606.19750 2026-06-19 cs.LG cs.AI cs.CL 新提交 专题 80

Manifold Bandits: Bayesian Curriculum Learning over the Latent Geometry of Large Language Models

流形赌博机:大语言模型潜在几何上的贝叶斯课程学习

Darrien McKenzie, Nicklas Hansen, Xiaolong Wang

专题命中 测试时计算 :贝叶斯课程学习框架用于LLM推理的强化学习。

AI总结 提出贝叶斯流形课程(BMC)框架,将问题采样建模为流形结构赌博机问题,通过层次任务树和贝叶斯学习引导采样,平衡学习信号、多样性和实用性。

Comments Webpage: https://darrienmckenzie.com/manifold-bandits/