FinReasoning: A Hierarchical Benchmark for Reliable Financial Research Reporting
AI总结 FinReasoning 是一个用于评估金融研究报告生成能力的分层基准,旨在解决当前大型语言模型在金融分析中存在事实错误、数据不一致和浅层分析等问题。该研究将金融研究的核心能力分解为语义一致性、数据对齐和深度洞察三个层次,并提出了一套细粒度的评估框架,包含12项核心分析指标,以更准确地区分模型在基础审计、错误修正和高级分析等不同阶段的表现。实验表明,不同类型的模型在各层次上表现出明显差异,为多智能体金融系统中的角色分配提供了重要参考。