DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding
AI总结 现有多模态大语言模型在处理长文档理解任务时,随着文档长度增加性能显著下降。为解决这一问题,本文提出了一种结构化的分析、定位与推理工作流,通过两阶段训练框架提升模型对关键证据的定位能力和推理准确性,并引入证据引导的资源分配策略以应对多页文档的训练内存限制。实验表明,DocSeeker 在领域内和领域外任务中均表现出优越性能,能够从短文档训练稳健推广到超长文档,并与视觉检索增强生成系统具有良好兼容性。
Comments CVPR 2026 Highlight