BLISS: A Lightweight Bilevel Influence Scoring Method for Data Selection in Language Model Pretraining
BLISS: 一种用于语言模型预训练数据选择的轻量级双层影响评分方法
发表机构 * Department of Computer Science, George Mason University, USA(乔治·马歇尔大学计算机科学系) ; IBM T.J. Watson Research Center, USA(IBM T.J. Watson研究部) ; Department of Statistics, Rice University(里士大学统计系) ; Department of System Engineering & Operations Research, George Mason University, USA(乔治·马歇尔大学系统工程与运营管理系)
AI总结 提出一种无需外部预训练模型的轻量级数据选择方法BLISS,通过双层优化和代理模型估计训练样本的长期影响,实现高效数据筛选,在C4数据集上预训练多种规模模型,显著加速收敛并提升下游任务性能。