Word Embedding中词向量的语义代数性质

Question

词向量具有语义代数性质，如经典的「king - man + woman ≈ queen」。请解释这种线性关系的来源，为什么在像GPT/BERT的动态表示中这种线性关系不如静态词向量明显？。AI 面试题

小字辈 · Accepted Answer

来源：静态词向量（Word2Vec/GloVe）训练时，语义相似的词在向量空间中距离近，语义关系可以通过向量平移表示。这是因为词向量训练本质上是对词共现矩阵的低秩分解（GloVe）或语言模型预测（Word2Vec），而这些任务隐式编码了词的语义角色。具体来说，P(king|context)与P(queen|context)对某些上下文的差异可以用向量差异(king-queen)表示，该差异大致对应性别方向(gender direction)。动态表示中的差异：BERT/GPT的词向量是上下文依赖的——同一个词在不同上下文中的向量不同。这种动态性使得「king - man + woman」不再具有稳定的语义映射，因为词的表示随上下文变化。此外，BERT的表示通常在层间不保留这种线性结构（Elmo也是）。但研究表明，BERT的CLS向量或平均池化后的表示仍可观察到一定的语义线性关系，但远不如静态词向量明显。静态向量更适合传统的类比推理任务。

Word Embedding中词向量的语义代数性质

回答

小字辈