AssayBench: An Assay-Level Virtual Cell Benchmark for LLMs and Agents
AI总结 本文提出 AssayBench,一个用于评估大语言模型和智能体在虚拟细胞表型筛选任务中表现的基准数据集,涵盖1920个公开的CRISPR筛选实验,涉及五类细胞表型。研究将表型筛选任务转化为基因排序预测问题,并引入调整后的nDCG指标以衡量不同实验间的模型性能。实验表明,现有的方法与经验估计的性能上限仍有较大差距,零样本通用大语言模型在该任务中表现优于专门的生物语言模型和可训练基线模型。
Comments 22 pages