GAPD: Gold-Action Policy Distillation for Agentic Reinforcement Learning in Knowledge Base Question Answering
GAPD:面向知识库问答中智能体强化学习的金动作策略蒸馏
发表机构 * University of Science and Technology of China(中国科学技术大学) ; NLPR, MAIS, Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; ShanghaiTech University(上海科技大学) ; Ant Group(蚂蚁集团)
AI总结 提出GAPD框架,通过中间锚点匹配将金动作序列与在线策略对齐,为基于强化学习的知识库问答提供密集的令牌级指导,在多个基准上取得最优结果。