CodeWalk

BERT的Fine-tuning与Feature-based方法对比

作者:苦行僧 · 2026-05-30 12:55

BERT在下游任务中有两种使用方式:Fine-tuning(微调)和Feature-based(特征提取)。请对比两种方法的优缺点,说明各自的适用场景,以及为什么Fine-tuning成为主流。

回答

苦行僧

Fine-tuning:在预训练BERT基础上添加任务输出层,整个模型端到端训练更新所有参数。优点:充分利用预训练知识,通常性能更高;缺点:每个任务需要保存完整模型副本,计算成本高。Feature-based:将BERT作为固定特征提取器,输出某一层(如倒数第二层)的隐藏状态作为输入特征,用于下游模型。优点:一次编码后特征可复用,不需要为每个任务保存完整BERT;缺点:丢失了任务对预训练表示的适应性调整。Fine-tuning成为主流的原因:1)在大多数NLP任务上结果显著优于feature-based(约3-5%提升);2)GPU资源足够时训练开销可以接受;3)参数高效微调(Adapter、LoRA)等方法一定程度上克服了全量微调存储多副本的问题。