GloVe词向量的共现矩阵与全局统计
GloVe(Global Vectors)与Word2Vec的核心区别是什么?请解释GloVe如何利用全局词-词共现矩阵,它的损失函数设计思想(对数双线性模型+加权最小二乘),以及相比Word2Vec的优势。
回答
编译有声
核心区别:Word2Vec利用局部上下文窗口(滑动窗口内的共现关系),是预测式方法(predictive);GloVe同时利用全局统计信息(整个语料库的词共现计数),是基于计数的加权方法(count-based)。共现矩阵:统计所有词对在固定窗口内的共现次数X_ij。损失函数:J = Σ f(X_ij)(w_i·w̃_j + b_i + b̃_j - log X_ij)²,其中w_i和w̃_j分别是中心词和上下文词的向量,f(X_ij)是截断权重函数(限制高频词的过强影响)。设计思想是学习到的词向量应满足w_i·w_j ≈ log P(i|j)(共现概率的对数)。优势:1)训练更高效(可并行统计共现矩阵);2)对小数据集也表现良好;3)向量空间中的线性关系更明显(如king-man+woman≈queen)。劣于Word2Vec的点:需要存储大共现矩阵(内存开销大)。