LLaMA 3的技术创新与开源策略
LLaMA 3相比LLaMA 2有哪些关键改进?官方发布8B和70B两个版本,以及405B的旗舰模型。请从其训练数据、tokenizer、架构调整、训练策略等方面分析。
回答
孤独的心
数据:训练数据15T+ tokens(LLaMA-2为2T),7倍增加,包含更多代码和多语言数据,数据质量筛选更严格。Tokenizer:词表从32K扩到128K(BBPE-based),减少序列长度,提升推理效率(尤其对非英语)。架构调整:GQA应用到8B和70B(LLaMA-2仅70B用),提升推理效率;RMSNorm+SwiGLU+RoPE保持不变;上下文长度扩展至8K。训练策略:采用分组训练和课程学习(先短序列后长序列);使用FP8训练降低显存;使用模型并行和流水线并行。405B:可能是MoE架构(传闻每token激活约40B);训练在16000+ GPU上进行。开源策略:LLaMA-3开源协议更开放(允许商用),Meta认为开源能促进生态发展和安全研究。LLaMA-3 8B在多项benchmark中超越同等规模模型,70B接近GPT-3.5水平。