2605.15079
2026-05-15
cs.LG
cs.DB
cs.DL
cs.IR
Croissant Baker: Metadata Generation for Discoverable, Governable, and Reusable ML Datasets
Rafi Al Attrach, Rajna Fani, Sebastian Lobentanzer, Joan Giner-Miguelez, Debanshu Das, Varuni H. K., Nobin Sarwar, Rajat Ghosh, Anwai Archit, Surbhi Motghare, Christina Conrad Parry, Luis Oala, Lara Grosso, Joaquin Vanschoren, Steffen Vogler, Sujata Goswami, Eric S. Rosenthal, Marzyeh Ghassemi, Matthew McDermott, Tom Pollard
AI总结
本文提出了一种名为 Croissant Baker 的开源工具,用于本地生成符合 Croissant 标准的机器学习数据集元数据,解决了在受控环境和大型本地数据仓库中难以生成标准化元数据的问题。该工具通过模块化的处理器注册机制,直接从数据目录生成验证过的元数据,支持大规模数据集的高效处理。实验表明,Croissant Baker 在多个领域与人工或标准生成的元数据相比,达到了 97-100% 的一致性,具有较高的准确性和实用性。