ELMo：上下文相关的动态词向量

Question

ELMo（Embeddings from Language Models）是最早的上下文相关词向量模型之一。请解释ELMo如何通过双向LSTM生成动态词向量，它与Word2Vec/GloVe的静态词向量的本质区别，以及ELMo的技术局限。。AI 面试题。Allen AI 面试题

Yahuda · Accepted Answer

原理：ELMo使用双向LSTM（正向+反向语言模型）构建深度上下文表示。每层LSTM的不同层捕获不同粒度语义（低层：句法，高层：语义）。最终ELMo词向量为各层激活的加权和（权重可学习）。同一单词在不同上下文中获得不同向量。vs静态词向量：Word2Vec/GloVe中一词一向量（如「bank」无论指河岸还是银行向量相同），ELMo根据上下文动态调整，解决了多义词歧义问题。技术局限：1）LSTM在处理长序列时存在梯度问题（相比Transformer）；2）拼接双向表示本质上是两个单向模型的组合，不如BERT真正的双向注意力；3）将固定权重的ELMo特征与其他模型结合，共享信息有限。历史地位：ELMo开启了预训练语言模型时代（2018），为BERT的出现铺平道路。

ELMo：上下文相关的动态词向量

回答

Yahuda