arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型推理能力

大模型数学、逻辑、规划、多步推理和测试时计算能力。

今日/当前日期收录 2 信号源:cs.CL, cs.AI, cs.LG
2606.15197 2026-06-19 cs.LG cs.AI 新提交 专题 80

StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling

StarOR: 协同树搜索与测试时强化学习用于优化建模

Jiajun Li, Yu Ding, Shisi Guan, Ran Hou, Wanyuan Wang

专题命中 规划推理 :结合MCTS与GRPO进行推理优化

AI总结 提出StarOR框架,结合蒙特卡洛树搜索与测试时强化学习,通过四阶段分解和GRPO更新LoRA适配器,实现无监督细粒度奖励的中间决策优化,在5个基准上以4B模型达到最优性能。

Comments 41pages, V1, preprint

2606.20014 2026-06-19 cs.LG cs.AI 新提交 专题 75

Hierarchical Control in Multi-Agent Games: LLM-based Planning and RL Execution

多智能体博弈中的层次化控制:基于LLM的规划与RL执行

Jannik Hösch, Alessandro Sestini, Florian Fuchs, Amir Baghi, Joakim Bergdahl, Konrad Tollmar, Jean-Philippe Barrette-LaPierre, Linus Gisslén

专题命中 规划推理 :LLM进行高层规划,属于规划推理。

AI总结 提出LLM作为中央策略控制器选择RL技能策略的层次化架构,在2v2对抗环境中达到与手工BT相当的胜率,且被感知为最类人。

Comments 12 pages, 9 figures