LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications
LLM Readiness Harness: 评估、可观测性和持续集成门禁用于LLM/RAG应用
AI总结 本文提出了一种LLM和RAG应用的准备性框架,通过自动化基准测试、OpenTelemetry可观测性和持续集成质量门禁,将评估转化为部署决策流程,并通过帕累托前沿计算场景加权的准备度分数,展示了在票务路由工作流和BEIR接地任务上的评估结果。
Comments 19 pages, 4 figures, 15 tables