2602.17050
2026-05-18
cs.LG
Multi-Probe Zero Collision Hash (MPZCH): Mitigating Embedding Collisions and Enhancing Model Freshness in Large-Scale Recommenders
Ziliang Zhao, Bi Xue, Emma Lin, Tianqi Lu, Mengjiao Zhou, Kaustubh Vartak, Shakhzod Ali-Zade, Tao Li, Bin Kuang, Rui Jian, Bin Wen, Dennis van der Staay, Yixin Bao, Eddy Li, Chao Deng, Henry Wei, Songbin Liu, Qifan Wang, Kai Ren
AI总结
在大规模推荐系统中,嵌入表是处理高基数分类特征的关键组件,但传统哈希索引方法在面对大量唯一ID时容易产生碰撞,影响模型性能与个性化质量。本文提出了一种基于线性探测的新型索引机制——多探针零碰撞哈希(MPZCH),能够有效缓解嵌入碰撞问题,并通过合理配置表大小实现几乎零碰撞。MPZCH引入辅助张量和高性能CUDA内核,支持可配置的探测与主动驱逐策略,防止过时嵌入的继承,提升新特征的学习效果,实验表明其在保持训练吞吐量和推理延迟的同时显著提升了嵌入的新鲜度与质量。