Different Prompts, Different Ranks: Prompt-aware Dynamic Rank Selection for SVD-based LLM Compression
AI总结 大型语言模型(LLM)的规模迅速增长,带来了显著的内存和计算成本,限制了其高效部署。现有的基于奇异值分解(SVD)的压缩方法采用静态秩截断策略,无法适应不同提示的差异性需求,导致性能受限。为此,本文提出 PARSE,一种基于提示感知的动态秩选择框架,通过离线训练线性路由器实现针对不同提示的个性化秩选择,并结合语义相似性缓存和系统优化技术,有效提升了压缩模型的性能与推理效率。实验表明,PARSE 在 LLaMA-7B 模型上实现了最高 10% 的任务准确率提升,并显著加快了推理速度。