2606.19624
2026-06-19
cs.LG
新提交
80%
MassSpecGym in the Wild: Uncovering and Correcting Evaluation Pitfalls in AI-Driven Molecule Discovery
MassSpecGym in the Wild: 揭示并纠正AI驱动分子发现中的评估陷阱
Hongxuan Liu, Roman Bushuiev, Ivy Lightheart, Mrunali Manjrekar, Anton Bushuiev, Magdalena Lederbauer, Filip Jozefov, Yinkai Wang, Soha Hassoun, Josef Sivic, James Taylor, Runzhong Wang, David Healey, Tomáš Pluskal, Connor W. Coley
发表机构
*
Massachusetts Institute of Technology(麻省理工学院)
;
Czech Institute of Informatics, Robotics and Cybernetics, Czech Technical University in Prague(捷克信息学、机器人学与自动化捷克技术大学)
;
Enveda Biosciences(Enveda 生物科技)
;
Tufts University(塔夫茨大学)
专题命中
AI制药
:审查AI驱动分子发现中的评估陷阱,以MassSpecGym为例。
AI总结
本文系统审查了基于串联质谱的分子发现中机器学习模型的评估问题,以MassSpecGym基准为例,发现26篇论文中至少17篇存在数据泄露、捷径学习和实现错误三类问题,并通过实验量化影响,提出改进建议并发布MassSpecGym v1.5。