Tokenizer词表大小的选择策略与影响
大语言模型的词表大小从BERT的30K到LLaMA-3的128K不等。请分析词表大小对模型训练效率、推理速度、下游性能的影响,以及不同规模词表的设计考量。为什么LLaMA-3使用128K大词表?
回答
小字辈
词表大小的影响维度:1)Embedding层参数量:V×d_model,词表翻倍参数量翻倍(LLaMA-3 8B词表128K约占用1.6B参数)。2)计算效率:大词表使softmax计算开销增大,但减少序列token数(中文场景更显著)。3)分词粒度:大词表→更粗粒度→序列更短→注意力和自回归步数减少,推理速度提升。LLaMA-3选择128K的原因:多语言场景下大词表覆盖更多词汇,减少每个输入序列的token数。Meta研究表明大词表虽然在Embedding层多消耗参数,但整体训练效率因序列缩短而提升(每步处理更多语义信息)。GPT-4也采用大词表(约100K)。权衡:词表太小(10K)→序列过长效率低;词表太大(256K)→softmax计算成本高,可能需要辅助损失(如T5的跨熵辅助loss)训练Embedding。