RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue
RogueAI: 一种用于检测对话中授权AI欺骗的逆向图灵测试
发表机构 * AILab, MIGe, University of Trieste(的里雅斯特大学) ; Computational Statistics and Machine Learning, Istituto Italiano di Tecnologia(意大利理工学院) ; DIA, University of Trieste(的里雅斯特大学)
AI总结 提出RogueAI,一种通过玩家与两个LLM代理的对话游戏来检测授权欺骗的逆向图灵测试,并引入AutoRogueAI扩展。实验发现简单启发式方法准确率75.6%,而人类仅56.6%,表明人类忽略关键信号。