
相比 GPT、Claude 等模型LLaMA 并不算特别出圈但它却在社区中往往被认为现代大模型架构的代表要明白为什么首先我们需要了解一个基础问题什么是开源模型先简单概括来说GPT、Claude 系列长期提供且只提供API 服务我们只能调用模型而无法获得模型本身了解模型内部这就是我们普遍意义上的闭源模型。而 LLaMA、Qwen、DeepSeek 等模型则可以下载安装到本地运行因此常常被统称为开源大模型。不过即使是开源这其中的层次也是有所划分的这里可以用一个很恰当的例子来统一说明蟹老板不公开蟹黄堡秘方这是闭源模型我们只能去店里买蟹堡但不知道里面用了什么材料、怎么做。蟹老板公开了制作蟹黄堡所需材料和流程但是没有具体克数这是开源了模型结构我们知道要放面包、肉饼、生菜和秘制酱料也知道制作步骤但不知道每种材料具体放多少因此很难做出完全一样的味道。蟹老板进一步公开了每种材料的精确配比比如肉饼 120g、生菜 15g、酱料 8g……这是开放了模型权重只要我们获取了这些原料就可以在自己家里复刻出几乎一模一样的蟹黄堡。最终蟹老板连原料采购渠道、食材筛选标准、酱料熬制方法、试验过程中失败了多少次、最终为什么选择这个配方都一起公开那么这就接近于真正意义上的完全开源任何人都可以从零开始按照同样的流程重新做出这款汉堡而不是只能照着最终配方复制。回到 LLM 领域我们可以把一个大模型拆成三个层次开放内容具体包含模型结构Architecture网络结构、层数、注意力机制、RoPE、GQA 等设计方案模型权重Weights预训练完成后得到的数十亿甚至数千亿参数训练资产Training Assets原始训练数据、数据清洗流程、训练代码、超参数、后训练数据等而严格来说目前主流的开源大模型其实绝大多数属于第二层开放权重模型。LLaMA、Qwen、DeepSeek 等都是开放权重模型公开模型结构和训练后的权重但不公开完整训练数据与训练流程。这是因为对于绝大多数开发者来说能够下载模型权重并在本地运行、微调就已经能够满足研究和应用需求因此近年来开放权重逐渐成为业界主流路线。而真正意义上的完全开源模型需要同时公开训练数据、数据处理流程以及训练代码不仅涉及复杂的数据版权问题也意味着主动开放大量核心训练资产因此目前更多由研究机构推动其研究价值往往高于商业价值。这部分模型中比较出名的是 AI2 的 OLMo 系列其最大的特点在于不仅公开模型结构和权重还公开训练数据、训练代码、训练日志以及中间检查点因此通常被认为是目前最接近传统开源软件理念的 LLM 项目。但由于 AI2 的算力资源相对主流 LLM 研发巨头较少OLMo 的绝对性能通常不如主流模型。再回到主流在众多开放权重模型中影响力最大的无疑是Meta 于 2023 年发布的 LLaMALarge Language Model Meta AI系列。事实上在 LLaMA 之前社区已经存在 GPT-NeoX、OPT 等开放模型项目。但真正让开放权重大模型进入大众视野、催生本地部署、量化压缩、LoRA 微调等完整生态的则是 LLaMA 的出现。它既继承了 Transformer 的基本框架又系统性地整合了当时最先进的一系列改进方案因此后来发布的大量模型都在不同程度上沿用了与之相似的设计思路。2. LLaMA 现代 LLM 范本#23 年 Meta 的论文 LLaMA: Open and Efficient Foundation Language Models 将前几篇提到的已有的部分改造整合到一起同年的 Llama 2 和 24 年的 Llama 3 则延续并优化了这一架构最终形成了现在的 Decoder-only LLM 架构。将以上所有改造拼回一个 Block一个 LLaMA 的 Decoder Layer 长这样每一步的参数配置如下以 LLaMA 3 8B 为例模块配置嵌入层, tokenizer: tiktoken (128K vocab)位置编码RoPE, base frequency归一化Pre-RMSNorm注意力GQA, 32 Query Heads, 8 KV HeadsFFNSwiGLU,层数32上下文8192从 LLaMA 1 到 LLaMA 3架构本身也在进化特性LLaMA 1 (2023)LLaMA 2 (2023)LLaMA 3 (2024)上下文长度204840968192注意力MHA70B: GQA; 7B/13B: MHA全系列 GQARoPE base1000010000500000训练数据公开数据 1.4T tokens公开 混合 2T tokens15T tokens分词器SentencePieceSentencePiecetiktokenFFNSwiGLUSwiGLUSwiGLUNormPre-RMSNormPre-RMSNormPre-RMSNorm可以看到从 LLaMA 1 到 LLaMA 3整体结构并没有发生颠覆性变化真正持续演进的主要是上下文长度、注意力机制、位置编码参数、Tokenizer 以及训练数据规模。3. 现代 LLM 的架构趋同#如果把近几年发布的主流开放权重大模型放在一起比较会发现它们其实是趋同的模型Backbone位置编码NormFFNAttentionLlama 3/4Decoder-onlyRoPEPre-RMSNormSwiGLUGQAQwen 3Decoder-onlyRoPEPre-RMSNormSwiGLUGQAMistral Small 3Decoder-onlyRoPEPre-RMSNormSwiGLUGQAGemma 3Decoder-onlyRoPEPrePost RMSNormGeGLUGQADeepSeek V3/R1Decoder-only MoERoPE改进Pre-RMSNormSwiGLUMLAKimi K2Decoder-only MoERoPE改进Pre-RMSNormSwiGLUMLA