IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models
IdealGPT: 通过大型语言模型迭代分解视觉与语言推理
发表机构 * Columbia University(哥伦比亚大学) ; HKUST(香港科技大学) ; University of California, Los Angeles(加州大学洛杉矶分校)
专题命中 复杂问题求解 :LLM生成子问题并推理最终答案。
AI总结 提出IdealGPT框架,利用大型语言模型迭代分解视觉语言推理任务,通过子问题生成、子答案获取和最终答案推理的循环过程,在零样本设置下显著提升多步推理性能。
Comments 13 pages, 5 figures