技术:从稀疏门控到万亿参数的高效扩展)
1. MoE 技术详细介绍1.1 概念与起源混合专家(Mixture of Experts, MoE)是一种神经网络架构范式,其核心思想是“将大模型拆分为多个小的专家子网络,每次输入仅激活其中一部分专家”。这一思想由 Jacobs 等人于 1991 年提出,最初用于监督学习。2017 年,Shazeer 等人将其成功应用于 LSTM,证明可通过稀疏激活在不大幅增加计算量的前提下扩展至数千亿参数。而后,MoE 在 Transformer 中大规模运用,成为大模型高效扩展的关键技术。1.2 架构组件MoE 块通常嵌入 Transformer 的前馈网络(FFN)层,替代原本的密集 FFN,结构如下:路由器(Router/Gate):一个线性分类器,输入为隐藏状态xx,输出为各专家的选择概率。常用简单形式为p=softmax(Wgx+ϵ⋅softplus(Wnoisex))p=softmax(Wgx+ϵ⋅softplus(Wnoisex)),其中噪声项用于负载均衡探索。Top-K 稀疏选择:路由器仅保留概率最高的KK个专家(通常K=2K=2),其余专家输出为零。这产生稀疏激活,计算量仅与KK成正比。专家网络:每个专家是一个独立的前馈网络(如标准 FFN),容量可大可小,但结构相同。专家数量可从 8 到数千不等。