Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models
重新路由,而非移除:面向视觉语言模型的可恢复视觉令牌路由
发表机构 * National Yang Ming Chiao Tung University(国立阳明交通大学) ; National Taiwan University(国立台湾大学)
AI总结 针对视觉语言模型中视觉令牌重要性随解码器深度变化的问题,提出无需训练的可恢复路由方法Reroute,将不可逆移除改为可恢复路由,在激进令牌缩减下提升定位能力并保持通用VQA性能。