2508.06165
2026-06-03
cs.CL
cs.AI
UR$^2$: Unify RAG and Reasoning through Reinforcement Learning
UR$^2$:通过强化学习统一检索增强生成与推理
Weitao Li, Boran Xiang, Xiaolong Wang, Zhinan Gou, Weizhi Ma, Yang Liu
发表机构
*
Dept. of Comp. Sci. & Tech., Institute for AI, Tsinghua University, Beijing, China(计算机科学与技术系,人工智能研究院,清华大学,北京,中国)
;
Institute for AI Industry Research (AIR), Tsinghua University, Beijing, China(人工智能产业研究机构(AIR),清华大学,北京,中国)
;
School of Management Science & Information Engineering, Hebei University of Economics and Business, Hebei, China(管理科学与信息工程学院,河北经贸大学,河北,中国)
AI总结
提出UR$^2$框架,通过强化学习动态协调检索与推理,结合难度感知课程和混合知识访问策略,在开放域问答、MMLU-Pro、医学和数学推理任务上优于现有基线,性能接近GPT-4o-mini和GPT-4.1-mini。