DREAM: Extending Vision-Language Models with Dual-Objective Encoding for Cross-Modal Retrieval
DREAM: 通过双目标编码扩展视觉-语言模型用于跨模态检索
发表机构 * Sejong University(世宗大学) ; Korea Advanced Institute of Science and Technology(韩国科学技术院) ; Ulsan National Institute of Science and Technology(乌山国立科学研究院)
专题命中 跨模态检索 :跨模态检索,双目标编码。
AI总结 提出DREAM模型,通过双路径表示增强与对齐,结合层级视觉编码器和混合语言建模,在视频检索任务中实现新SOTA。