AI 大模型

大模型推理能力

大模型数学、逻辑、规划、多步推理和测试时计算能力。

今日/当前日期收录 2 篇信号源：cs.CL, cs.AI, cs.LG

2606.15197 2026-06-19 cs.LG cs.AI 新提交专题 80

StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling

StarOR: 协同树搜索与测试时强化学习用于优化建模

Jiajun Li, Yu Ding, Shisi Guan, Ran Hou, Wanyuan Wang

专题命中规划推理：结合MCTS与GRPO进行推理优化

AI总结提出StarOR框架，结合蒙特卡洛树搜索与测试时强化学习，通过四阶段分解和GRPO更新LoRA适配器，实现无监督细粒度奖励的中间决策优化，在5个基准上以4B模型达到最优性能。

Comments 41pages, V1, preprint

URL PDF HTML

2606.20014 2026-06-19 cs.LG cs.AI 新提交专题 75

多智能体博弈中的层次化控制：基于LLM的规划与RL执行

Jannik Hösch, Alessandro Sestini, Florian Fuchs, Amir Baghi, Joakim Bergdahl, Konrad Tollmar, Jean-Philippe Barrette-LaPierre, Linus Gisslén

专题命中规划推理：LLM进行高层规划，属于规划推理。

AI总结提出LLM作为中央策略控制器选择RL技能策略的层次化架构，在2v2对抗环境中达到与手工BT相当的胜率，且被感知为最类人。

Comments 12 pages, 9 figures

URL PDF HTML