FLASH-MAXSIM: IO-Aware Fused Kernels for Late-Interaction Retrieval
FLASH-MAXSIM: 面向IO感知的融合内核用于晚期交互评分
专题命中 检索器 :提出Flash-MaxSim内核加速晚期交互检索,核心是检索器优化。
AI总结 提出Flash-MaxSim,一种IO感知的融合GPU内核,通过流式分块和片上SRAM折叠行最大规约,避免物化完整相似度张量,显著降低内存占用并加速晚期交互检索(如ColBERT、ColPali)的MaxSim评分。