LensVLM: Selective Context Expansion for Compressed Visual Representation of Text
AI总结 本文提出了一种名为 LensVLM 的视觉语言模型框架,旨在解决在压缩图像上进行文本处理时准确率下降的问题。该方法通过在推理阶段对压缩图像进行选择性内容扩展,仅对相关区域恢复为原始分辨率,从而在保持高准确率的同时实现更高的压缩比。实验表明,LensVLM 在多个文本问答任务中表现优于现有压缩和检索基线,并且能够有效推广到多模态文档和代码理解任务。