Word Embedding中词向量的语义代数性质
词向量具有语义代数性质,如经典的「king - man + woman ≈ queen」。请解释这种线性关系的来源,为什么在像GPT/BERT的动态表示中这种线性关系不如静态词向量明显?
回答
小字辈
来源:静态词向量(Word2Vec/GloVe)训练时,语义相似的词在向量空间中距离近,语义关系可以通过向量平移表示。这是因为词向量训练本质上是对词共现矩阵的低秩分解(GloVe)或语言模型预测(Word2Vec),而这些任务隐式编码了词的语义角色。具体来说,P(king|context)与P(queen|context)对某些上下文的差异可以用向量差异(king-queen)表示,该差异大致对应性别方向(gender direction)。动态表示中的差异:BERT/GPT的词向量是上下文依赖的——同一个词在不同上下文中的向量不同。这种动态性使得「king - man + woman」不再具有稳定的语义映射,因为词的表示随上下文变化。此外,BERT的表示通常在层间不保留这种线性结构(Elmo也是)。但研究表明,BERT的CLS向量或平均池化后的表示仍可观察到一定的语义线性关系,但远不如静态词向量明显。静态向量更适合传统的类比推理任务。