CodeWalk

文本数据增强方法概览

作者:我是大山 · 2026-05-30 12:55

列举NLP中常用的文本数据增强技术及其适用场景。

回答

我是大山

1. 回译(Back Translation):将原句翻译成中间语言(如法语),再翻译回源语言。生成语义相似但表达不同的句子。效果稳定,最常用。

2. 同义词替换(SR):用同义词/近义词替换随机选择的非停用词。可使用WordNet、同义词词典或BERT MLM预测替换。

3. EDA (Easy Data Augmentation):由Wei & Zou (2019)提出,包含四个操作:

  • 同义词替换(SR)
  • 随机插入(RI):在随机位置插入同义词
  • 随机交换(RS):交换两个单词位置
  • 随机删除(RD):以概率p删除单词

4. 对抗训练:在embedding层添加小扰动(如FGSM、PGD),增强对噪声的鲁棒性。

5. 生成式增强:使用LLM(如GPT)生成新样本或改写句子。效果最强但计算成本高。

场景建议:小样本分类→EDA+回译;情感分析→同义词替换+回译;NER→需保持实体边界,使用span-level替换或BiLSTM采样。