文本数据增强方法概览

Question

列举NLP中常用的文本数据增强技术及其适用场景。。AI 面试题

我是大山 · Accepted Answer

1. 回译(Back Translation)：将原句翻译成中间语言（如法语），再翻译回源语言。生成语义相似但表达不同的句子。效果稳定，最常用。 2. 同义词替换(SR)：用同义词/近义词替换随机选择的非停用词。可使用WordNet、同义词词典或BERT MLM预测替换。 3. EDA (Easy Data Augmentation)：由Wei & Zou (2019)提出，包含四个操作： 同义词替换(SR) 随机插入(RI)：在随机位置插入同义词 随机交换(RS)：交换两个单词位置 随机删除(RD)：以概率p删除单词 4. 对抗训练：在embedding层添加小扰动（如FGSM、PGD），增强对噪声的鲁棒性。 5. 生成式增强：使用LLM（如GPT）生成新样本或改写句子。效果最强但计算成本高。 场景建议：小样本分类→EDA+回译；情感分析→同义词替换+回译；NER→需保持实体边界，使用span-level替换或BiLSTM采样。

文本数据增强方法概览

回答

我是大山