CodeWalk

LLaMA系列架构整体特点与设计理念

作者:苦行僧 · 2026-05-30 12:55

LLaMA系列(1/2/3)是Meta开源的重要大语言模型。请说明其整体架构特点,与GPT系列的主要差异,以及LLaMA 1/2/3三代之间的关键改进。

回答

苦行僧

LLaMA整体特点:Decoder-only架构,但加入多项设计改进。核心差异:使用RoPE旋转位置编码(替代GPT的绝对位置编码)、SwiGLU激活函数(替代GELU/ReLU)、RMSNorm(替代LayerNorm)。此外采用Pre-normalization(先归一化再子层)。三代改进LLaMA-1(7B-65B):在公开数据上训练,强调「小模型+大数据」路线(7B在1T tokens上训练)。LLaMA-2(7B-70B):优化训练数据质量(增加40%),采用分组查询注意力(GQA,70B版本),上下文长度从2K→4K,开源微调版(LLaMA-2-Chat)并通过RLHF对齐。LLaMA-3(8B-405B):使用更强的tokenizer(128K词表),上下文扩展到8K,在15T+ tokens上训练,性能对标GPT-4。