GraphPO: Graph-based Policy Optimization for Reasoning Models
GraphPO:基于图的推理模型策略优化
发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China(中国人民大学北京校区人工智能学院) ; Ant Group(蚂蚁集团)
专题命中 复杂问题求解 :基于图的策略优化提高推理模型效率。
AI总结 提出GraphPO框架,将推理轨迹建模为有向无环图,通过合并语义等价路径减少冗余探索,并利用边级优势函数提高推理效率,在多个基准上优于链式和树式方法。