ELMo:上下文相关的动态词向量
ELMo(Embeddings from Language Models)是最早的上下文相关词向量模型之一。请解释ELMo如何通过双向LSTM生成动态词向量,它与Word2Vec/GloVe的静态词向量的本质区别,以及ELMo的技术局限。
回答
Yahuda
原理:ELMo使用双向LSTM(正向+反向语言模型)构建深度上下文表示。每层LSTM的不同层捕获不同粒度语义(低层:句法,高层:语义)。最终ELMo词向量为各层激活的加权和(权重可学习)。同一单词在不同上下文中获得不同向量。vs静态词向量:Word2Vec/GloVe中一词一向量(如「bank」无论指河岸还是银行向量相同),ELMo根据上下文动态调整,解决了多义词歧义问题。技术局限:1)LSTM在处理长序列时存在梯度问题(相比Transformer);2)拼接双向表示本质上是两个单向模型的组合,不如BERT真正的双向注意力;3)将固定权重的ELMo特征与其他模型结合,共享信息有限。历史地位:ELMo开启了预训练语言模型时代(2018),为BERT的出现铺平道路。