REVES: REvision and VErification--Augmented Training for Test-Time Scaling
REVES:通过修订与验证增强的测试时扩展训练
发表机构 * Northwestern University(西北大学) ; Amazon AGI(亚马逊人工智能实验室) ; Qualcomm AI Research(高通人工智能研究) ; University of Minnesota(明尼苏达大学)
专题命中 测试时计算 :通过修订与验证增强测试时扩展推理
AI总结 提出REVES框架,通过将中间步骤的“接近正确”答案转化为解耦的修订和验证提示,实现高效的离策略数据生成,提升大语言模型的多步推理能力,在LiveCodeBench上比强化学习基线高6.5分。