大语言模型(LLM)分类详解

发布时间:2026/6/26 2:35:08
大语言模型(LLM)分类详解 本文系统梳理大语言模型的多维分类体系涵盖架构、训练范式、规模、应用定位、技术特性及开源/闭源等维度并附典型模型实例。一、按基础架构分类大语言模型的底层神经网络架构决定了其信息处理方式和适用场景。类型核心特点工作原理适用任务代表模型Encoder-only仅编码器双向注意力机制同时关注上下文两侧信息通过掩码语言建模MLM理解文本文本分类、情感分析、命名实体识别、语义相似度计算BERTGoogle, 2018、RoBERTaMeta, 2019、ERNIE百度, 2019Decoder-only仅解码器自回归生成从左到右逐token预测基于前文预测下一个词适合开放式生成文本生成、对话系统、代码生成、创意写作GPT-4OpenAI, 2023、LLaMA-3Meta, 2024、Claude 3Anthropic, 2024、Qwen2阿里, 2024Encoder-Decoder编码器-解码器编码器理解输入解码器生成输出序列到序列Seq2Seq映射机器翻译、文本摘要、问答系统T5Google, 2019、BARTMeta, 2019、GLM清华智谱, 2022趋势说明当前大模型领域以Decoder-only架构为主流。GPT系列的成功验证了自回归生成在通用人工智能中的潜力使其成为绝大多数大模型的标准选择。二、按训练范式/目标分类模型在不同阶段的训练目标决定了其能力边界和使用方式。类型训练阶段核心方法能力特点典型代表基础预训练模型第一阶段无监督预训练在大规模无标注文本上进行自监督学习如 next-token prediction具备通用语言理解和生成能力但缺乏指令遵循能力GPT-3175B, OpenAI, 2020、LLaMA-27B/13B/70B, Meta, 2023、Baichuan-2百川智能, 2023指令微调模型Instruction-tuned第二阶段有监督微调SFT使用指令-响应对数据进行微调学习遵循人类指令能够理解并执行具体指令如翻译这段话、总结文章Alpaca斯坦福, 2023, 基于LLaMA-7B、VicunaLMSYS, 2023, 基于LLaMA-13B、ChatGLM-6B清华智谱, 2023对齐模型Alignment第三阶段人类偏好对齐通过RLHF人类反馈强化学习或RLAIFAI反馈强化学习优化输出更安全、有用、符合人类价值观减少有害内容ChatGPTOpenAI, 2022、Claude 3 OpusAnthropic, 2024、GPT-4 TurboOpenAI, 2024多模态模型跨模态预训练融合文本、图像、音频、视频等多模态数据进行联合训练具备跨模态理解和生成能力如看图说话、视频分析GPT-4VOpenAI, 2023, 图像理解、Gemini 1.5 ProGoogle, 2024, 视频图像文本、Qwen-VL阿里, 2023, 视觉语言、LLaVAUC伯克利, 2023, 视觉指令微调训练流程示意基础预训练 → 指令微调SFT → 人类偏好对齐RLHF三、按模型规模/参数分类参数量是衡量模型容量的重要指标直接影响模型能力和部署成本。规模级别参数量级典型模型特点部署场景小型模型 10B100亿Phi-3-mini3.8B, Microsoft, 2024、Gemma-2BGoogle, 2024、Qwen2-1.5B阿里, 2024轻量高效推理速度快资源占用低手机端侧、IoT设备、边缘计算、嵌入式系统中型模型10B ~ 70B100亿~700亿LLaMA-2-13BMeta, 2023、Mistral-7BMistral AI, 2023、Baichuan-2-13B百川, 2023、ChatGLM3-6B智谱, 2023性能与成本的最佳平衡点开源社区主流个人服务器、中小企业私有化部署、科研实验大型模型70B ~ 100B700亿~1000亿LLaMA-2-70BMeta, 2023、Qwen-72B阿里, 2023、Mixtral 8x7BMistral AI, 2023, MoE架构能力强劲接近顶级闭源模型需专业硬件支持企业级数据中心、云计算平台、高性能计算集群超大规模模型100B ~ 万亿级1000亿GPT-4据传1.8T, MoE架构, OpenAI, 2023、GPT-3175B, OpenAI, 2020、PaLM-2540B, Google, 2023顶尖性能涌现能力强训练和推理成本极高仅少数头部AI公司/研究机构具备训练和部署能力注MoEMixture of Experts架构可以在总参数量很大的情况下通过稀疏激活控制实际推理参数量如GPT-4据传采用8×220B的MoE结构。四、按应用定位分类不同模型针对特定场景进行了优化形成了专业化的模型矩阵。类型定位说明核心能力代表模型应用示例通用基座模型面向广泛任务的通用人工智能知识问答、文本生成、逻辑推理、多轮对话GPT-4oOpenAI, 2024、Claude 3.5 SonnetAnthropic, 2024、通义千问2.5阿里, 2024、文心一言4.0百度, 2024智能客服、内容创作、教育辅导、个人助手代码专用模型针对代码理解和生成优化代码补全、Bug修复、代码解释、多语言编程GitHub Copilot基于Codex, OpenAI, 2021、CodeLlama-70BMeta, 2023、DeepSeek-Coder-V2DeepSeek, 2024、StarCoder2HuggingFace, 2024IDE插件、自动化编程、代码审查、技术文档生成垂直领域模型针对特定行业知识深度优化领域专业知识问答、合规审查、专业文档生成LawGPT法律, 2023、Med-PaLM 2医疗, Google, 2023、BloombergGPT金融, 2023, 50B、FinGPT金融开源, 2023法律咨询、医疗诊断辅助、金融研报分析、合规风控多语言/中文优化模型针对中文语料和文化语境优化中文语义理解、古诗词生成、中文逻辑推理、中国文化知识文心一言百度, 2023、通义千问阿里, 2023、ChatGLM-4智谱, 2024、Baichuan-3百川, 2024中文内容创作、中文客服、中文教育、文化传播数学/科学推理模型强化数学计算和科学推理能力数学证明、公式推导、物理问题求解、科学问答DeepSeek-MathDeepSeek, 2024、Qwen2-Math阿里, 2024、MinervaGoogle, 2022数学辅导、科研辅助、工程计算、竞赛培训五、按技术特性分类技术架构的创新推动了大模型效率和能力的突破。类型技术特点工作原理优势代表模型稠密模型Dense所有参数在每次前向传播中全部激活传统的Transformer架构每个层都参与计算架构简单训练稳定易于理解和调试GPT-3175B、LLaMA-2-70BMeta, 2023、Qwen-72B阿里, 2023稀疏/MoE模型Mixture of Experts每次推理只激活部分专家网络参数将大模型拆分为多个专家子网络通过门控网络动态选择激活哪些专家总参数量巨大但推理成本低扩展性强性能优异GPT-4据传8×220B MoE, OpenAI, 2023、Mixtral 8x7B8个专家各7B, Mistral AI, 2023、Mixtral 8x22BMistral AI, 2024、DeepSeek-V2236B总参数, 21B激活, DeepSeek, 2024长上下文模型支持超长文本输入窗口远超传统4K/8K限制改进位置编码如RoPE、ALiBi、优化注意力机制如Ring Attention、Sparse Attention可处理整本书、长视频、大量代码库、复杂多轮对话Gemini 1.5 Pro1M tokens, Google, 2024、Kimi200K tokens, 月之暗面, 2024、GLM-4-9B-1M1M tokens, 智谱, 2024、Claude 3200K tokens, Anthropic, 2024检索增强模型RAG-native原生集成外部知识检索能力在推理时动态检索外部知识库结合生成模型输出减少幻觉知识可实时更新可解释性强RAGFlow开源RAG引擎, 2024、Dify开源LLM应用平台, 2024、Perplexity AI对话式搜索引擎, 2024六、按开源/闭源分类开源与闭源之争是当前大模型生态的核心议题之一。类型特点商业模式优势劣势代表模型闭源商业模型模型权重不公开仅通过API提供服务API按量计费、企业订阅授权性能顶尖、持续迭代、安全可控、无需运维成本高、数据隐私风险、无法定制化、依赖供应商GPT-4/GPT-4oOpenAI、Claude 3Anthropic、Gemini 1.5Google、文心一言百度、通义千问阿里开源/开放权重模型模型权重公开可自由下载和二次开发开源免费商业技术支持、云服务托管可本地部署、数据隐私、可定制化、社区生态活跃性能通常略逊于顶级闭源模型、需要自行运维、安全责任自负LLaMA-3Meta, 2024、Mistral-7B/8x22BMistral AI、Qwen2阿里, 2024、Baichuan-2百川、DeepSeek-V2DeepSeek, 2024、ChatGLM-4智谱, 2024半开放模型权重有限开放需申请或签署协议研究免费商业授权平衡开放性与商业利益使用受限合规复杂LLaMA-2Meta, 需申请商业授权、GemmaGoogle, 有限开放七、综合对比表模型名称架构参数量训练范式开源/闭源特色定位发布机构发布时间GPT-4Decoder-only (MoE)~1.8T (8×220B)预训练SFTRLHF闭源通用最强基座OpenAI2023.03GPT-4oDecoder-only (MoE)~1.8T预训练SFTRLHF闭源原生多模态、实时交互OpenAI2024.05Claude 3.5 SonnetDecoder-only未公开预训练SFTRLHF闭源超长上下文、安全性高Anthropic2024.06Gemini 1.5 ProDecoder-only未公开预训练多模态SFT闭源1M tokens超长上下文Google2024.02LLaMA-3-70BDecoder-only (Dense)70B预训练SFT半开放开源最强稠密模型Meta2024.04Mixtral 8x22BDecoder-only (MoE)176B (39B激活)预训练SFT开源开源MoE标杆Mistral AI2024.04Qwen2-72BDecoder-only (Dense)72B预训练SFTRLHF开源中文开源最强基座阿里巴巴2024.06DeepSeek-V2Decoder-only (MoE)236B (21B激活)预训练SFTRLHF开源极致性价比MoEDeepSeek2024.05KimiDecoder-only未公开预训练SFTRLHF闭源200K超长上下文、中文优化月之暗面2023.10ChatGLM-4GLM (Encoder-Decoder)未公开预训练SFTRLHF半开放中英双语、学术背景强智谱AI2024.01Phi-3-miniDecoder-only (Dense)3.8B预训练SFT开源小模型大能力Microsoft2024.04CodeLlama-70BDecoder-only (Dense)70B预训练代码SFT开源代码生成专用Meta2023.08DeepSeek-Coder-V2Decoder-only (MoE)236B预训练代码SFT开源开源最强代码模型DeepSeek2024.06Med-PaLM 2Decoder-only540B预训练医疗SFT闭源医疗问答专家Google2023.05八、当前发展趋势总结Decoder-only 架构持续主导自回归生成已成为通用大模型的标准范式Encoder-only和Encoder-Decoder架构主要应用于特定场景。MoE架构成为新趋势通过稀疏激活实现大模型能力、小模型成本GPT-4、Mixtral、DeepSeek-V2等验证了MoE的可行性。多模态融合加速文本、图像、音频、视频的统一建模成为下一代模型的标配GPT-4o和Gemini 1.5是典型代表。端侧小型化突破Phi-3、Gemma-2B等小型模型在保持较高性能的同时实现手机/IoT部署推动AI普惠化。长上下文竞赛上下文窗口从4K扩展到1M tokens使模型能够处理整本书、长视频、大型代码库。领域专业化深化基座模型领域微调如法律、医疗、金融成为行业落地的主流模式降低幻觉风险提升专业准确性。开源生态繁荣LLaMA、Qwen、DeepSeek等开源模型快速追赶闭源模型推动技术民主化和应用创新。