GloVe词向量的共现矩阵与全局统计

Question

GloVe（Global Vectors）与Word2Vec的核心区别是什么？请解释GloVe如何利用全局词-词共现矩阵，它的损失函数设计思想（对数双线性模型+加权最小二乘），以及相比Word2Vec的优势。。AI 面试题。Stanford 面试题

编译有声 · Accepted Answer

核心区别：Word2Vec利用局部上下文窗口（滑动窗口内的共现关系），是预测式方法（predictive）；GloVe同时利用全局统计信息（整个语料库的词共现计数），是基于计数的加权方法（count-based）。共现矩阵：统计所有词对在固定窗口内的共现次数X_ij。损失函数：J = Σ f(X_ij)(w_i·w̃_j + b_i + b̃_j - log X_ij)²，其中w_i和w̃_j分别是中心词和上下文词的向量，f(X_ij)是截断权重函数（限制高频词的过强影响）。设计思想是学习到的词向量应满足w_i·w_j ≈ log P(i|j)（共现概率的对数）。优势：1）训练更高效（可并行统计共现矩阵）；2）对小数据集也表现良好；3）向量空间中的线性关系更明显（如king-man+woman≈queen）。劣于Word2Vec的点：需要存储大共现矩阵（内存开销大）。

GloVe词向量的共现矩阵与全局统计

回答

编译有声