Correct Looks Better: Pairwise Comparisons Reveal Accuracy Rankings
正确看起来更好:成对比较揭示准确性排名
发表机构 * Max Planck Institute for Intelligent Systems, Tübingen, Germany(马克斯·普朗克智能系统研究所,蒂宾根,德国) ; Tübingen AI Center(蒂宾根人工智能中心)
AI总结 本文通过将基准测试转化为生成式评估,发现成对比较结合Elo方法得到的模型排名与基于真实准确率的排名高度一致(Spearman相关系数>0.9),且风格和裁判偏见影响较小,但答案重复(echo)是裁判偏好的因果驱动因素。