BERT的Fine-tuning与Feature-based方法对比

Question

BERT在下游任务中有两种使用方式：Fine-tuning（微调）和Feature-based（特征提取）。请对比两种方法的优缺点，说明各自的适用场景，以及为什么Fine-tuning成为主流。。AI 面试题。Google 面试题

苦行僧 · Accepted Answer

Fine-tuning：在预训练BERT基础上添加任务输出层，整个模型端到端训练更新所有参数。优点：充分利用预训练知识，通常性能更高；缺点：每个任务需要保存完整模型副本，计算成本高。Feature-based：将BERT作为固定特征提取器，输出某一层（如倒数第二层）的隐藏状态作为输入特征，用于下游模型。优点：一次编码后特征可复用，不需要为每个任务保存完整BERT；缺点：丢失了任务对预训练表示的适应性调整。Fine-tuning成为主流的原因：1）在大多数NLP任务上结果显著优于feature-based（约3-5%提升）；2）GPU资源足够时训练开销可以接受；3）参数高效微调（Adapter、LoRA）等方法一定程度上克服了全量微调存储多副本的问题。

BERT的Fine-tuning与Feature-based方法对比

回答

苦行僧