Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers
优质令牌狩猎:视觉几何变换器令牌选择指南
发表机构 * University of Toronto & Vector Institute(多伦多大学及向量研究所) ; Google(谷歌) ; Technical University of Munich(慕尼黑技术大学)
AI总结 视觉几何变换器在多视角三维重建中表现出色,但其计算成本随输入序列长度呈二次增长,限制了模型的效率和可扩展性。本文提出了一种简单而通用的解决方案,通过限制每个查询在全局注意力中交互的关键/值标记数量来降低计算复杂度。该方法采用两阶段框架:首先在帧级别选择保留的帧以保证场景覆盖多样性,然后在帧内进一步去除冗余标记,且引入基于注意力熵的层感知稀疏化策略。实验表明,该方法在保持或提升性能的同时,可将视觉几何变换器的处理速度提升85%以上。
Comments Project Page: https://zsh2000.github.io/good-token-hunting.github.io, Code: https://github.com/zsh2000/gotohunt