From Correlation to Cause: A Five-Stage Methodology for Feature Analysis in Transformer Language Models
从相关性到因果:一种五阶段方法用于Transformer语言模型中的特征分析
AI总结 本文提出了一种五阶段方法用于Transformer语言模型中的因果特征分析,并在GPT-2小型模型上端到端地展示了其在间接宾语识别任务中的应用,通过激活补丁恢复经典IOI电路,稀疏自编码器恢复特定名称的特征,因果验证发现这些特征具有特定但部分因果性,鲁棒性测试揭示了检测鲁棒性与因果鲁棒性之间的差距,部署评估显示了最优监控配置带来的成本节省。