Evaluating Pragmatic Reasoning in Large Language Models: Evidence from Scalar Diversity
AI总结 本研究探讨了如何评估大语言模型在语用推理方面的能力,指出当前评估方法可能导致模型行为的差异,难以准确反映其内在推理能力。研究采用标量多样性作为诊断工具,比较了直接概率测量与元语言提示等多种评估方式,发现不同模型和任务条件下语用行为存在显著差异。结果表明,语用推理能力并非由单一评估方式决定,而是模型内部概率表示与任务引导行为相互作用的结果,突显了评估设计在理解大语言模型语用能力中的关键作用。