FATHOMS-RAG: A Framework for the Assessment of Thinking and Observation in Multimodal Systems that use Retrieval Augmented Generation
FATHOMS-RAG:评估使用检索增强生成的多模态系统思考与观察的框架
发表机构 * Louisiana State University(路易斯安那州立大学) ; Oak Ridge National Lab(橡树岭国家实验室) ; University of Florida(佛罗里达大学)
AI总结 本文提出了一种名为FATHOMS-RAG的框架,用于评估使用检索增强生成(RAG)的多模态系统在推理和观察方面的能力。该框架引入了一个由人类创建的小型数据集、多项评估指标以及对开源与闭源模型的对比实验,全面检验RAG系统在处理文本、表格和图像等多模态信息时的表现。实验结果表明,闭源模型在准确性和幻觉控制方面显著优于开源模型,尤其是在涉及多模态和跨文档信息的问题上表现更为突出。
Comments Accepted at SAFE-ML 2026 Workshop at the International Conference on Software Testing (ICST) 2026 Code: https://github.com/Sam-Hildebrand/FATHOMS-RAG