MassSpecGym in the Wild: Uncovering and Correcting Evaluation Pitfalls in AI-Driven Molecule Discovery
MassSpecGym in the Wild: 揭示并纠正AI驱动分子发现中的评估陷阱
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; Czech Institute of Informatics, Robotics and Cybernetics, Czech Technical University in Prague(捷克信息学、机器人学与自动化捷克技术大学) ; Enveda Biosciences(Enveda 生物科技) ; Tufts University(塔夫茨大学)
AI总结 本文系统审查了基于串联质谱的分子发现中机器学习模型的评估问题,以MassSpecGym基准为例,发现26篇论文中至少17篇存在数据泄露、捷径学习和实现错误三类问题,并通过实验量化影响,提出改进建议并发布MassSpecGym v1.5。