How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings
AI总结 尽管已有超过20个开源文档解析模型,但现有基准OmniDocBench存在标注质量不高和数据污染的问题,其排名可靠性受到质疑。为此,研究者提出了PureDocBench,一个可追溯来源的基准,涵盖10个领域、66个子类和1,475页文档,分别生成清晰、数字退化和真实退化三个版本,共计4,425张图像。实验表明,当前最佳模型的性能仅为74/100,模型间性能差距显著,且通用视觉语言模型在退化场景下表现更稳健,凸显了现有文档解析任务仍面临诸多挑战。
Comments 42 pages, 20 figures, 16 tables