LLaMA 3的技术创新与开源策略

Question

LLaMA 3相比LLaMA 2有哪些关键改进？官方发布8B和70B两个版本，以及405B的旗舰模型。请从其训练数据、tokenizer、架构调整、训练策略等方面分析。。AI 面试题。Meta 面试题

孤独的心 · Accepted Answer

数据：训练数据15T+ tokens（LLaMA-2为2T），7倍增加，包含更多代码和多语言数据，数据质量筛选更严格。Tokenizer：词表从32K扩到128K（BBPE-based），减少序列长度，提升推理效率（尤其对非英语）。架构调整：GQA应用到8B和70B（LLaMA-2仅70B用），提升推理效率；RMSNorm+SwiGLU+RoPE保持不变；上下文长度扩展至8K。训练策略：采用分组训练和课程学习（先短序列后长序列）；使用FP8训练降低显存；使用模型并行和流水线并行。405B：可能是MoE架构（传闻每token激活约40B）；训练在16000+ GPU上进行。开源策略：LLaMA-3开源协议更开放（允许商用），Meta认为开源能促进生态发展和安全研究。LLaMA-3 8B在多项benchmark中超越同等规模模型，70B接近GPT-3.5水平。

LLaMA 3的技术创新与开源策略

回答

孤独的心