LLaMA系列架构整体特点与设计理念

Question

LLaMA系列（1/2/3）是Meta开源的重要大语言模型。请说明其整体架构特点，与GPT系列的主要差异，以及LLaMA 1/2/3三代之间的关键改进。。AI 面试题。Meta 面试题

苦行僧 · Accepted Answer

LLaMA整体特点：Decoder-only架构，但加入多项设计改进。核心差异：使用RoPE旋转位置编码（替代GPT的绝对位置编码）、SwiGLU激活函数（替代GELU/ReLU）、RMSNorm（替代LayerNorm）。此外采用Pre-normalization（先归一化再子层）。三代改进：LLaMA-1（7B-65B）：在公开数据上训练，强调「小模型+大数据」路线（7B在1T tokens上训练）。LLaMA-2（7B-70B）：优化训练数据质量（增加40%），采用分组查询注意力（GQA，70B版本），上下文长度从2K→4K，开源微调版（LLaMA-2-Chat）并通过RLHF对齐。LLaMA-3（8B-405B）：使用更强的tokenizer（128K词表），上下文扩展到8K，在15T+ tokens上训练，性能对标GPT-4。

LLaMA系列架构整体特点与设计理念

回答

苦行僧