Tokenizer词表大小的选择策略与影响

Question

大语言模型的词表大小从BERT的30K到LLaMA-3的128K不等。请分析词表大小对模型训练效率、推理速度、下游性能的影响，以及不同规模词表的设计考量。为什么LLaMA-3使用128K大词表？。AI 面试题。Meta 面试题

小字辈 · Accepted Answer

词表大小的影响维度：1）Embedding层参数量：V×d_model，词表翻倍参数量翻倍（LLaMA-3 8B词表128K约占用1.6B参数）。2）计算效率：大词表使softmax计算开销增大，但减少序列token数（中文场景更显著）。3）分词粒度：大词表→更粗粒度→序列更短→注意力和自回归步数减少，推理速度提升。LLaMA-3选择128K的原因：多语言场景下大词表覆盖更多词汇，减少每个输入序列的token数。Meta研究表明大词表虽然在Embedding层多消耗参数，但整体训练效率因序列缩短而提升（每步处理更多语义信息）。GPT-4也采用大词表（约100K）。权衡：词表太小（10K）→序列过长效率低；词表太大（256K）→softmax计算成本高，可能需要辅助损失（如T5的跨熵辅助loss）训练Embedding。

Tokenizer词表大小的选择策略与影响

回答

小字辈