The Wittgensteinian Representation Hypothesis: Is Language the Attractor of Multimodal Convergence?
AI总结 本文探讨了为何不同模态的独立训练神经网络会收敛到共享表示,并研究了这一收敛的方向性。作者提出了一种基于循环k近邻的定向收敛分析方法,发现非语言模态更倾向于向语言表示的结构靠拢,这一现象在多种模型和尺度下均成立。研究进一步指出,语言表示在表征空间中占据更紧凑的区域,信息瓶颈理论为此提供了理论解释,最终提出了“维特根斯坦表征假设”:语言的语义结构是多模态表征收敛的渐近吸引子。
Comments 22 pages, 11 figures, 6 tables