2602.14200
2026-05-14
cs.LG
TS-Haystack: A Multi-Task Retrieval Benchmark for Long-Context Time-Series Reasoning
Nicolas Zumarraga, Thomas Kaar, Ning Wang, William Tennien, Alpay Hasanli, Max Rosenblattl, Fan Wu, Kevin Riehl, Maxwell A. Xu, Markus Kreft, Kevin O'Sullivan, Elgar Fleisch, Paul Schmiedmayer, Robert Jakob, Patrick Langer
发表机构
*
Agentic Systems Lab, ETH Zurich(1 非常规系统实验室,苏黎世联邦理工学院)
;
Stanford University(2 斯坦福大学)
;
Traffic Engineering Group, Institute for Transport Planning and Systems, ETH Zurich(3 交通工程组,交通规划与系统研究所,苏黎世联邦理工学院)
;
University of Illinois Urbana-Champaign(4 印第安纳大学厄巴纳-香槟分校)
;
Google(5 谷歌)
;
Centre for Digital Health Interventions, ETH Zurich(6 数字健康干预中心,苏黎世联邦理工学院)
;
Centre for Digital Health Interventions, University of St. Gallen(7 数字健康干预中心,圣加尔登大学)
AI总结
本文提出 TS-Haystack,一个用于评估时间序列语言模型(TSLMs)在长上下文推理能力的多任务检索基准,涵盖从100秒到24小时的多领域事件导向问答任务,包括直接检索、时间推理、多步推理和上下文异常检测。现有 TSLMs 在处理长序列时表现出严重性能下降,而采用专门时间序列分类工具的智能检索框架在10项任务中有9项表现优于或接近当前最优模型,表明智能检索是提升长上下文时间序列推理的有效方法。