BERT的Next Sentence Prediction任务与替代方案
BERT预训练中的Next Sentence Prediction(NSP)是做什么的?它的设计动机是什么?后来的研究(如RoBERTa)发现NSP并非必要,请分析原因及替代方案。
回答
孤独的心
NSP任务:输入两个句子A和B,50%概率B是A的下一句(IsNext),50%概率是随机句子(NotNext),模型预测二者关系。设计动机:让BERT学习句子级别的语义关系(如QA、自然语言推理)。RoBERTa的发现:去除NSP后下游任务性能不降反升,原因包括:1)NSP任务过于简单(仅判断主题是否一致,而非真正的逻辑关系);2)NSP与MLM共享训练数据,可能干扰MLM学习。RoBERTa提出SOP(Sentence Order Prediction,ALBERT使用)替代NSP——随机打乱段落内句子顺序,难度更高,能学到更强的篇章连贯性知识。另一个替代是跨句子MLM(SpanBERT),在两个句子的连接处采样连续跨度进行掩码。