
核心要点PCIe仍是非AI处理场景的关键技术。在AI领域PCIe将因规模扩展、智能体AI及部分纵向扩展需求而得到强化。CXL正逐步获得市场采用部分观点认为其有望参与AI计算处理。PCIe长期以来是处理器与外部设备之间数据传输的核心互连技术而新兴的数据中心AI扩展网络同样承担着类似的职责。这一现象或许会让人误以为PCIe已无法胜任新的任务需求但事实上随着智能体AI等新型AI形态的兴起PCIe非但没有被边缘化反而得到了进一步的强化。CXL与PCIe密切相关构建于PCIe协议栈之上。由于开发者仍在评估其实用价值CXL的起步相对迟缓甚至有人质疑它能否真正普及。然而随着交换机产品陆续入市、系统开发者逐渐明确其应用场景CXL开始呈现出更为强劲的生命力。悠久传承与缓慢起步PCIe于2003年首次发布作为一种串行互连方案取代了此前用于连接计算机外设的PCI并行总线。其初始性能为每通道2.5 Gb/s最大×16配置可提供4 GB/s的吞吐量。此后PCIe持续演进于2025年发布了7.0版规范。该版本每通道速率达128 Gb/s含纠错位净吞吐量高达242 GB/s。PCIe的速率正在翻倍提升Cadence设计IP业务部门硅解决方案集团高级产品营销总监Arif Khan表示整个发展曲线在过去几年间呈现出明显的跃升态势。PCIe几乎成为所有计算机相关设备的标准互连接口。尽管最初主要面向个人计算机但近年来更高版本的PCIe性能已远超PC的实际需求目标市场也逐渐转向数据中心。2019年计算高速互连标准CXLCompute Express Link以1.0规范正式发布与PCIe 5.0同期推出。CXL本质上是构建于PCIe之上的内存与一致性扩展协议。最新的CXL 4.0版本于2025年发布基于PCIe 7.0构建。CXL包含三个核心组成部分一是用于初始化、管理和设备发现等任务的基础非一致性标准CXL.io二是允许所连接的CXL设备缓存主机内存并维护一致性的机制CXL.cache三是采用加载/存储语义访问外挂内存的机制使用体验如同访问服务器内部内存一般CXL.mem。CXL的采用进程较为缓慢令部分人士对其前景持观望态度。此外行业对CXL的认知也存在一定惰性。CXL尚未被充分理解Synopsys PCIe产品营销高级总监Antonio Costa表示随着更多应用场景的出现人们将逐渐明白如何有效利用它。近期的市场动态表明CXL正展现出更为积极的发展势头。新兴力量的涌现与此同时AI热潮将数据中心的训练与推理工作负载推向了聚光灯下。GPU成为焦点各方资源集中于提升GPU系统性能包括其互连能力。这一趋势催生了网络架构的分叉形成了几种本质不同的扩展方式纵向扩展Scale-up将多个GPU聚合使其呈现为一块拥有统一内存空间的超大GPU采用内存语义进行访问。横向扩展Scale-out采用RDMA语义访问更远端的资源。跨域扩展Scale-across横向扩展的变体覆盖距离更远的资源。UALink是支持纵向扩展的新兴标准英伟达专有的NVLink则提供包括纵向扩展在内的多种互连形式。横向扩展意味着向网络更远端延伸这一领域由以太网主导。然而以太网在尾延迟等方面存在一定不足因此各类优化措施正被不断引入以提升其性能。上述发展使AI扩展网络持续占据行业视野而PCIe等传统互连技术则相对淡出了主流讨论。过去纵向扩展通常以PCIe为基础因为它是本地处理器互连的主要手段但这一角色正在逐步收缩。那么PCIe究竟还能扮演哪些角色关键在于连接对象如果一味追踪AI相关的技术动态很容易得出GPU才是核心扩展网络正在全面接管的结论但这并不准确。GPU承担着AI计算中繁重的数学运算任务。纵向扩展网络专门用于GPU之间的直连无需经过CPU——这与其他互连方式有着本质区别后者通常需要经由CPU进行转发。你有没有想过你的CPU与加速器卡之间依赖的是哪种芯片协议在很多情况下加速器就插在PCIe插槽上Khan指出。这正是PCIe持续发挥作用的领域。CPU与GPU之间的通信不会走UALink而是走PCIeCPU所涉及的一切通信皆是如此。这一点直接影响到横向扩展场景。PCIe特别适合支撑横向扩展架构Rambus硅IP产品营销高级总监Lou Ternullo指出。PCIe连接CPU与网络接口卡NIC因此即便横向扩展的讨论中通常不提PCIe它实际上依然参与其中。智能网卡的输入输出带宽很大因此新一代PCIe的高速率在这一领域仍有广泛应用Khan补充道。其他业内人士也持相同看法。横向扩展实际上拓宽了PCIe的市场空间因为网卡依赖PCIeCadence高速SerDes产品营销总监Hui Wu表示。这一逻辑自横向扩展概念出现以来便成立但新兴AI应用正在进一步改变格局。传统AI工作负载以GPU为绝对核心CPU的作用仅限于调度和支撑GPU而智能体AI的兴起正在打破这一局面。智能体AI对CPU的迫切需求AI智能体负责执行任务目前主要帮助人类提升决策效率和工作生产力。而智能体的运行主要依托CPU仅将部分推理工作负载卸载至GPU。智能体需要做出决策而决策往往涉及分支操作这恰恰是GPU不擅长处理的场景。因此启动一个智能体意味着工作负载将在CPU与GPU之间来回切换直至任务完成。AI加速器负责计算下一步操作但真正执行动作的是CPUSynopsys的Costa说道智能体AI越多就需要越多的CPU来执行这些动作进而需要扩展算力。随着智能体AI的快速崛起CPU需求正在增长而这些CPU都需要互连支撑。过去GPU与CPU的比例是8:1Efinix企业副总裁兼市场营销负责人Bob Beachler表示在智能体AI时代这一比例变成了1:1——一个CPU对应一个GPU。PCIe是此类连接的自然选择这意味着PCIe在AI领域的作用将进一步提升。PCIe同样胜任纵向扩展UALink专为纵向扩展而生这似乎暗示PCIe在某些方面存在不足。在某些高端场景中确实如此但并非所有系统都追求极致吞吐量PCIe实际上也完全可以胜任纵向扩展需求。当今几乎所有终端设备都支持通过PCIe与CPU互连Ternullo解释道如果将NVLink排除在外几乎100%的加速器都以PCIe作为主要互连方式。这种普遍性是PCIe在纵向扩展场景中保持竞争力的关键原因——例如通过PCIe交换机连接多块GPU。尽管UALink等新兴网络在吞吐量上可能优于PCIe但PCIe生态系统的开放性与广泛采用使其在GPU/ASIC加速器纵向扩展应用中依然极具吸引力。我认为PCIe规范快速推进目前已在推进PCIe 8.0.5的一个重要原因正是为了进一步支持基于PCIe的纵向扩展。UALink在纵向扩展架构中无疑有其独特价值并将在最适合的场景中发挥作用但PCIe对所有终端的兼容性使其在大多数环境中更易落地。此外需要注意的是性能最优的方案未必会成为行业标准成本与可及性往往是更具决定性的因素。边缘侧的多样化协议上述扩展讨论主要集中于数据中心但AI在边缘侧的部署同样在快速增长这一领域尤其在传感器场景中广泛采用其他协议。以摄像头为例MIPI协议专注于将摄像头数据高效传输至目标系统。MIPI通常应用于边缘侧——摄像头、显示屏、传感器、移动存储等Silvaco旗下Mixel公司市场与销售总监Justin Endo表示它专为低功耗、低延迟、轻量协议栈的流媒体传输而设计。这并非PCIe的典型应用场景。PCIe与CXL承担的是芯片间通用计算与存储的重量级互连任务。PCIe与MIPI在某些场景存在重叠例如移动存储中基于M-PHY的UFS与基于PCIe的NVMe但它们位于同一协议栈的不同层级并非直接竞争关系Endo解释道。边缘侧产生的数据通常需要上传至数据中心但原始数据的传输带宽消耗极大。以通过MIPI PHY传输的MIPI CSI-2为例它将图像传感器的摄像头数据传输至手机、汽车、无人机和工业视觉系统中的边缘SoC他说在大多数推理部署场景中无法将原始图像数据大量推送至数据中心因为这在数据量、功耗和延迟方面的代价都难以承受。CSI-2将数据输入本地图像处理流水线使时间敏感的工作——例如ISP处理、感知分析、传感器融合或设备端推理——直接在传感器侧完成。真正上传至数据中心经由PCIe的通常是经过提炼的结果如特征向量、嵌入表示和元数据而非原始像素。CSI-2完成了流量的前置处理从而让PCIe及其周边网络如CXL、UALink、Ultra Ethernet得以专注于它们最擅长的工作——训练、内存池化以及机架级加速器间通信。旧版PCIe依然生机勃勃尽管AI应用追求极致带宽但大量其他应用场景使用旧版PCIe便已绰绰有余。对于众多固态硬盘和消费类设备用户对PCIe 2.0和3.0的速率已完全满意这种情况还将持续相当长的时间Khan指出。其他系统可能需要更高速率但未必是最新一代。目前市场上还没有PCIe 6.0的CPU系统Khan补充道主流OEM厂商尚未完成产品化仍处于内部测试或客户测试阶段。即便是PCIe 5.0从规范定稿到AMD和英特尔系统正式上市也经历了相当长的时间。固态硬盘正在向更高版本的PCIe迁移但并不总是最新的规格。PCIe 6.0固态硬盘目前已相当普及我们有客户正在基于此进行产品设计Khan表示也有客户已经启动PCIe 7.0的设计项目希望在特定系统节点上率先落地。CXL的上升态势由于PCIe依然强劲它牢牢奠定了作为CXL底层PHY的地位。不过规范迭代的时间节奏或许在一定程度上影响了CXL的市场接受度。CXL受制于其对PCIe 5.0 PHY的依赖而相关系统迟迟未能上市Khan指出与此同时CXL规范本身也在快速演进。采用者究竟该怎么办CXL 3.0系统刚刚完成设计、准备上市规范就已经推进到4.0了。与此同时CXL的不同应用场景并未获得同等程度的市场认可。官方正式定义了三种应用类型对应的CXL设备分别为Type 1、Type 2和Type 3Type 1设备支持具备一致性内存的加速器接入Type 2设备可访问主机内存若自身搭载内存主机也可对其进行访问Type 3设备允许主机以一致性方式访问和管理远端内存根据具体实现方式可视为内存扩展或内存池化解决方案。将CXL用于缓存扩展在业界遭遇了一定阻力主要原因在于延迟问题。我们观察到用户希望利用CXL扩展缓存内存和主内存。在缓存侧CXL表现稍显不足因为缓存对低延迟的要求极为严格目前还没有看到客户将其用于缓存扩展Costa表示但在内存扩展方面CXL颇受欢迎因为系统中的HBM或DDR内存容量有限。如果需要突破这一瓶颈CXL是非常优秀的选择它具备较低的访问延迟数据回写至缓存的效率也有保障。内存池化之争与此同时内存池化的实际效果在业界引发了争论这在一定程度上影响了CXL的整体采用速度因为行业仍在探索CXL的最佳落地场景。尽管如此CXL生态系统正在持续扩展为开发者提供了更强的信心。更广泛的PCIe与CXL互连生态系统持续走向成熟进一步提升了内存扩展的价值Ternullo表示CXL交换机在市场上的出现频率不断提高PCIe覆盖范围的延伸也在进一步支持可扩展的内存池化架构。智能体AI或许也将为CXL注入新的活力。我认为下一代CXL将更加重要因为智能体AI对算力的需求持续攀升我们相信CXL将在其中扮演重要角色Costa说道。持续演进的技术路线支撑PCIe与CXL持续需求的还有对未来版本的明确预期。PCIe 8.0预计于2029年发布带宽将在PCIe 7.0基础上再度翻倍。我们将看到每通道256 Gb/s的速率最大支持16条通道Costa介绍道信令方式保持不变控制器侧的Flit结构也沿用现有设计不会有根本性的架构变化。CXL方面5.0版本的修订工作正在进行但CXL联盟暂未公布目标发布时间。此外业界正积极推动PCIe连接距离的延伸并为此制定了新的线缆标准。其中最具代表性的是两年前发布的CopprLink标准支持以PCIe 5.0和6.0的速率实现最长两米的连接。目前将PCIe 7.0纳入其中的工作正在推进但PCIe SIG暂未给出预计发布日期。除铜缆方案外业界还在积极探索承载PCIe流量的光互连方案同样尚无明确的发布时间表。PCIe重定时器和交换机的大规模部署加之CopprLink和PCIe光传输等新兴线缆技术的涌现将有效延伸PCIe网络的覆盖范围进一步支撑横向扩展和纵向扩展部署Ternullo总结道。前景无限综合以上各项指标AI的发展非但没有削弱PCIe的地位反而可能进一步强化它。大量设备将继续沿用旧版本因为更高的速率主要服务于数据中心场景而对高带宽的需求依然旺盛。CXL虽然起步缓慢但正在加速发展。现在宣告全面胜利为时尚早但积极信号正在不断增强。所有这些都印证了一个事实新兴标准是在现有基础上的叠加与延伸而非取而代之。面对日益多样的互连选项网络架构的复杂度确实在上升但各类应用场景的需求已相当清晰。哪些系统需要UALink无需多言而无论你是否在数据中心部署AI扩展PCIe几乎都是绕不开的选择。QAQ1PCIe在AI时代还有存在的必要吗它的定位是什么APCIe在AI时代不仅没有被淘汰反而得到了强化。虽然GPU之间的纵向扩展通信由NVLink、UALink等协议承担但CPU与GPU之间、CPU与网卡之间的通信依然依赖PCIe。随着智能体AI兴起CPU的需求大幅增加CPU与GPU之间的比例从8:1变为1:1这意味着PCIe的应用场景反而在扩大。Q2CXL为什么普及速度这么慢现在情况有没有改善ACXL普及缓慢主要有两个原因一是其依托的PCIe 5.0系统迟迟未能上市导致CXL落地延迟二是CXL规范迭代过快3.0系统刚准备好4.0规范就已发布让采用者无所适从。此外CXL用于缓存扩展时延迟较高限制了部分应用场景。不过近期CXL交换机陆续入市内存扩展场景逐步获得认可整体发展势头正在回暖。Q3PCIe 8.0有哪些新特性预计什么时候发布APCIe 8.0预计于2029年发布将在PCIe 7.0基础上实现带宽翻倍每通道速率达到256 Gb/s最大支持16条通道整体吞吐量大幅提升。在架构层面PCIe 8.0将沿用现有信令方式和Flit结构不会有根本性的变化保持良好的向下兼容性。