文本数据增强方法概览
列举NLP中常用的文本数据增强技术及其适用场景。
回答
我是大山
1. 回译(Back Translation):将原句翻译成中间语言(如法语),再翻译回源语言。生成语义相似但表达不同的句子。效果稳定,最常用。
2. 同义词替换(SR):用同义词/近义词替换随机选择的非停用词。可使用WordNet、同义词词典或BERT MLM预测替换。
3. EDA (Easy Data Augmentation):由Wei & Zou (2019)提出,包含四个操作:
- 同义词替换(SR)
- 随机插入(RI):在随机位置插入同义词
- 随机交换(RS):交换两个单词位置
- 随机删除(RD):以概率p删除单词
4. 对抗训练:在embedding层添加小扰动(如FGSM、PGD),增强对噪声的鲁棒性。
5. 生成式增强:使用LLM(如GPT)生成新样本或改写句子。效果最强但计算成本高。
场景建议:小样本分类→EDA+回译;情感分析→同义词替换+回译;NER→需保持实体边界,使用span-level替换或BiLSTM采样。