TFD: A Comprehensive Structured Tibetan Foundation Dataset for Low-Resource Language Processing and Large-Scale Modeling
TFD:面向低资源语言处理和大规模建模的综合结构化藏语基础数据集
发表机构 * University of Electronic Science and Technology of China(电子科技大学) ; Xizang University(西藏大学) ; ZenWeave AI ; The State Key Laboratory of Tibetan Intelligence(藏语智能国家重点实验室) ; Nanyang Technological University(南洋理工大学)
AI总结 为解决藏语大语言模型开发中缺乏覆盖预训练、指令微调、安全对齐、偏好优化和推理监督等完整流程的数据集问题,提出首个结构化、大规模、专家精选的藏语基础数据集TFD,包含超过110亿词元的统一语料库及链式推理数据集,通过训练Sun-Shine系列藏语模型在理解、安全、推理和生成基准上取得显著提升。