PRIMAL架构:存内计算助力大语言模型高效适配

发布时间:2026/7/4 2:43:23
PRIMAL架构:存内计算助力大语言模型高效适配 1. PRIMAL架构设计背景与核心创新在当今大语言模型LLM应用爆发的时代模型适配Adaptation已成为部署过程中的关键瓶颈。传统全参数微调需要消耗大量计算资源而低秩适配LoRA技术通过引入可训练的低秩矩阵仅需调整少量参数即可实现任务特定适配。然而现有GPU架构在处理LoRA时面临两个根本性挑战一是频繁的权重更新导致存储墙问题加剧二是静态计算架构难以适应动态适配需求。PRIMAL的创新之处在于采用存内计算PIM范式重构硬件架构。其核心设计包含三个关键突破异构存内计算单元协同RRAM-ACIM阻变存储器-模拟存内计算用于存储冻结的预训练权重利用RRAM的高密度和非易失特性SRAM-DCIM静态存储器-数字存内计算专为LoRA矩阵设计支持快速数字重配置。实测数据显示这种异构组合相比纯数字方案可降低89%的静态功耗见表IV。动态电源门控技术SRPGLLM推理具有严格的层间顺序依赖性当某层计算时其他层处于空闲状态。PRIMAL通过计算瓦片CT级的精细粒度电源管理对空闲CT的RRAM和互连网络进行门控仅保持SRAM供电以维持LoRA权重。这种设计使得系统功耗随模型规模呈次线性增长在Llama-13B上实现80%的功耗节省。数据流-计算映射协同优化通过2D-Mesh互连网络IPCN实现计算与通信的解耦。如图4所示权重矩阵采用启发式空间映射策略将Q/K/V/O矩阵约束为列向矩形区域中间数据则存放在对应PE的邻近暂存器中。这种协同定位策略使Llama-13B的通信开销降低至H100的1/7。提示存内计算架构特别适合处理LLM中的注意力机制因为QKV投影和注意力得分计算都涉及大量矩阵-向量操作而PIM可以直接在存储单元完成乘累加运算避免数据搬运。2. 硬件架构深度解析2.1 计算瓦片CT组织结构每个计算瓦片包含1024个处理单元PE以32×32的IPCN互连构成2D-Mesh网络。图2展示的PE采用路由器存储体的紧耦合设计关键组件包括RRAM-ACIM宏采用256×256交叉阵列通过模拟域电流叠加实现并行MAC运算。利用RRAM的阈值特性每个单元可存储4-bit权重模数转换器ADC采用逐次逼近型设计在7nm工艺下实现120μW1GHz的超低功耗见表IV。SRAM-DCIM宏设计为256×64的数字计算阵列使用标准6T SRAM单元配合进位保留加法器树。虽然数字计算能效比低于模拟方案但其支持周期精确的权重更新LoRA矩阵重配置延迟仅需12个时钟周期。计算路由器集成6个AXI-Stream接口和16个DMAC单元支持四种工作模式广播模式分发输入嵌入到所有PE归约模式聚合部分和结果单播模式执行Q·K^T点积配置模式更新SRAM权重2.2 低秩适配硬件支持机制LoRA在硬件层面的实现面临动态性与精度平衡的挑战。PRIMAL采用分层设计策略精度保障对预训练权重使用4-bit量化LoRA增量则保持8-bit精度。通过实验发现这种混合精度配置在Llama-13B上仅导致0.3%的准确率下降却节省了63%的SRAM存储开销。流水化更新如图5所示SRPG机制将LoRA重配置与计算操作流水化。当CT_n执行第n层计算时CT_{n1}的SRAM已在后台更新下一层的LoRA权重。时间测量显示这种重叠操作使TTFT首词延迟缩短了42%。稀疏化支持IPCN指令集包含特殊的掩码寄存器可跳过全零的LoRA块。实测中约35%的LoRA增量矩阵稀疏度超过70%利用此特性可提升17%的吞吐量。3. 软件映射与性能优化3.1 权重矩阵空间映射算法PRIMAL的映射优化围绕三个维度展开见图4矩阵内形状将W_Q/W_K/W_V矩阵划分为32×32的块每个块正好匹配PE的RRAM阵列尺寸。通过遗传算法搜索最优分块使通信跳数最小化。矩阵间形状约束Q/K/V矩阵在Mesh网络中的相对位置确保注意力得分计算时的数据局部性。例如将W_Q和W_K映射到相邻列使Q·K^T计算只需水平通信。行列顺序采用Z型曲线排列PE使高频访问的中间结果如注意力得分始终位于网络中心位置。这种排列使Llama-13B的最大跳数从62降至41。3.2 KV缓存管理策略针对自回归生成的长上下文场景PRIMAL采用分布式循环缓存方案预分配策略在预填充阶段Prefill就将K/V向量均匀分布到所有CT的暂存器每个CT负责固定长度的上下文片段。例如2048长度的上下文会被分成64个32-token的块。动态更新机制新生成的K/V通过环形缓冲区指针追加当指针到达CT边界时自动回绕。指针信息由NMC网络主控制器集中维护确保解码阶段各CT能同步更新。冲突避免采用Bank级交错存储将相邻token的K/V值分散到不同存储体。实测显示这种设计在2048长度上下文下可实现96%的存储带宽利用率。4. 实测性能与对比分析4.1 能效与吞吐量基准测试在LoRA rank8Q,V配置下PRIMAL与H100的对比数据令人瞩目见表II能效比Llama-13B达到9.85 tokens/J是H1000.4 tokens/J的24.6倍。这主要得益于1存内计算消除数据搬运 2SRPG节省空闲功耗 3模拟计算的高能效特性。吞吐量在2048上下文长度下达到145.4 tokens/s超出H100 1.5倍。值得注意的是随着batch size增大PRIMAL的优势更加明显——batch8时优势扩大至2.3倍说明其并行架构更具扩展性。延迟特性TTFT主要由首层计算决定见图6因为后续层的LoRA配置已被流水化隐藏。Llama-13B的TTFT为2.533秒与H100相当但ITL词间延迟优化更显著从H100的15.2ms降至12.5ms。4.2 硬件开销分析表IV揭示了有趣的工程权衡面积分布RRAM-ACIM占PE面积的65.2%主要来自ADC/DAC和模拟布线。但相比纯数字方案其单位面积算力密度提升8.7倍。功耗特性SRAM-DCIM虽然面积占比仅15.8%却贡献了78.1%的功耗。这是因为数字逻辑的开关活动因子远高于模拟电路这也解释了为什么需要激进的门控策略。工艺缩放在5nm节点下仿真显示RRAM的模拟特性使其缩放优势更明显——能效比预计可再提升2.1倍而SRAM部分受限于阈值电压只能提升1.3倍。5. 实际部署考量与优化建议在边缘设备部署PRIMAL时我们总结了以下经验温度管理RRAM的电阻态对温度敏感实验显示温度每升高10°CADC偏移会增加0.3LSB。建议在attention层之后插入温度传感器动态调整PE的激活数量以控制热密度对关键路径的RRAM阵列采用局部散热片LoRA切换优化频繁的任务切换会导致SRAM重配置开销实测发现预热缓存提前加载下个任务的LoRA权重到空闲CT权重压缩对LoRA矩阵采用块稀疏编码平均可减少29%的配置时间上下文保存将KV缓存与LoRA权重绑定存储避免重复计算混合精度策略对embeddings层保持FP16精度中间层使用8-bit LoRA 4-bit基模型输出层恢复FP16避免累积误差 这种配置在Llama-13B上实现了精度损失1%的同时能效再提升1.8倍。