
作者新华三集团网络产品线智维产品线 王汉本文原刊于新华三集团《数字化领航》第34期摘要随着大模型参数规模突破万亿级AI算力集群正从千卡向万卡规模演进网络通信效率低下、系统扩展性不足、运行可靠性差及资源利用率不均已成为制约超大规模AI训练的主要障碍其中网络通信等待最高可消耗超过90%的训练时间。本文系统论证了网络已从基础连接工具跃升为决定AI训练成败的核心基础设施并提出了以可扩展Scalable、可持续Sustainable、高性能Performance为核心特征的智算网络新范式深入解构了实现这三大维度的关键技术。结合某万卡级绿色智算中心的实战案例验证了该范式在提升部署效率、保障训练连续性和逼近算力峰值等方面的显著成效并展望智算网络向自驱、自愈、自优的自主智能的演进方向旨在为构建下一代AI基础设施提供清晰的架构蓝图。关键词智算网络超大规模集群端网协同路径导航网络自治1 智算网络的效率、规模与可靠性成为高效训练的关键支点随着AI算力需求的爆发式增长智算中心的规模正以前所未有的速度扩张。从千卡集群到万卡互联算力基础设施的复杂度呈指数级上升传统的运维模式正面临严峻挑战。在AI发展的早期阶段性能提升主要依赖于“暴力计算”模式即通过简单堆叠GPU数量来驱动模型能力进步。训练规模多在数十至数百张GPU之间网络仅作为基础连接工具采用传统的TCP/IP协议与10G/25G带宽便能满足需求。然而当大模型参数量从千亿级迅猛突破至万亿级单机算力触及物理天花板分布式训练集群规模随之从千卡级向万卡级跃进单纯堆砌算力的模式遭遇了根本性瓶颈。通信效率、系统扩展性、运行可靠性与资源利用率四大核心痛点骤然凸显。研究表明千亿参数模型的训练过程中网络流量普遍具有高带宽、低熵值、强周期性的特征。传统网络协议与架构难以适应这一需求容易引发链路拥塞和资源利用不均导致超过90%的训练时间耗费在网络通信等待上成为制约训练效率的主要瓶颈。更严重的是一旦因网络问题造成训练中断便可能带来高达数百万美元的资源浪费。这标志着AI的发展范式已到了必须变革的关键节点。解决上述挑战的关键在于网络技术的突破性创新传统TCP/IP协议栈难以满足低延迟、高吞吐需求而RDMA远程直接内存访问、智能流量调度等技术能大幅降低通信开销同时单机算力终有上限网络使算力得以无限扩展——超大规模智算中心需支持数千乃至数万张GPU的协同训练该需求要求网络具备极强扩展性400G/800G以太网、无损网络架构如CLOS拓扑及多租户隔离技术可确保算力资源按需弹性分配。值得注意的是可靠性同样至关重要一次训练中断可能造成数百万损失现代智算网络必须集成故障预测和快速自愈能力以保障稳定运行。在这一背景下网络已从单纯连接工具跃升为决定AI训练成败的核心基础设施。只有构建高效、可扩展、高可靠的网络底座才能真正释放智能计算的潜力。网络的效率、规模与可靠性成为高效训练的三大关键支点推动AI从“蛮力”时代迈向“精巧”时代。2 核心技术基石Network for AI的三维能力解构2.1 弹性可扩展 – Scalable在超大规模集群中其庞大的规模万卡集群涉及数千台服务器与网络设备和计算、存储、网络多域协同的复杂性使传统人工运维模式面临效率低下、成本高企等挑战。端网协同自动化通过统一管理、智能配置、全域可控的技术架构成为破解超大规模运维难题的关键。1自动化部署从“月级人工”到“天级智能”以万卡级规模为例设备配置项总量可高达41万条其中服务器相关参数超过3万项。人工操作难以确保配置准确性由此引发的配置错误与返工现象屡见不鲜。此外庞大的配置规模使得故障定位过程极为复杂不仅严重影响部署效率也造成了人力资源的严重浪费。AIDC端网协同方案通过自动化上线、一键部署RoCE策略和“用户意图建网”模式将传统数周甚至数月的部署周期缩短至天级。◆自动化上线以Fabric为单位实现设备自动部署和扩容支持自动分配IP、自动纳管设备大幅降低网络配置复杂度提升部署效率减少人力投入。◆一键部署RoCE策略以Fabric为单位批量在设备上自动下发RoCE无损配置确保高性能网络环境快速就绪。◆“用户意图建网”模式通过可视化界面收集用户需求自动规划拓扑并生成端侧服务器配置模板。在Leaf设备上自动下发VLAN和网关IP配置服务器上线后系统同步下发路由及RoCE无损配置确保端网参数一致彻底规避传统方案中的“规划脱节”问题。此外部署过程全程可视化拓扑图实时展示待下发配置与执行结果失败原因清晰可见并支持快速调整与复核显著降低错误率。该模式支持参数网与存储网一键自动化部署最大限度减少人工干预提升开局效率助力智算网络高效稳定运行。图1 用户意图建网2 连线异常排查从“数日人工”到“分钟级智能”在超大规模集群中数万条物理连线极易出现交换机端口接错、服务器网卡与GPU绑定错误、网段冲突等问题。由于布线复杂度极高实际部署中常需反复调试而依赖人工排查的方式通常耗时长达数日效率低下且难以保证完全覆盖。AIDC智算版采用端网一体拓扑可视技术完整呈现网络设备互联架构、计算节点连接关系、以及服务器内GPU与网卡的全链路拓扑。系统可从整网、设备、服务器三个维度自动检测连线异常并在发现问题时实时告警将原本耗时数天的排查压缩至分钟级节省90%以上人力成本。该方案的整网、设备、服务器等多维度可视化功能让组网状态、连接关系以及故障位置清晰直观配合智能检测算法实现从“事后排查”到“实时预警”的转变有效保障AI训练、大数据分析等业务的高可靠运行。图2 连线异常排查3 多租户隔离安全与资源调度双保障在智算中心的日常运营中通常需要将计算集群划分为多个虚拟资源池以便同时服务于不同行业和地区的用户。这一需求对网络架构提出了明确要求必须确保各租户间的数据隔离与性能独立性。为此AIDC智算版采用VLAN结合ACL的技术方案实现对租户网段的精细规划与管理。该方案不仅有效保障了参数网与样本网之间的租户隔离同时也维持了样本网与存储服务之间的正常通信。通过网络层面的有效隔离该方案有效避免了多租户环境下数据泄露与性能干扰。2.2 健壮可持续 – Sustainable在AI算力需求爆发式增长的今天如何确保基础设施的稳定性和可持续性成为关键挑战。新华三通过全生命周期的可靠性管理通过训前对集群软硬件、端网环境配置及性能进行巡检和健康评估的巡检训中高精度流量监控及故障快速识别及训后故障溯源及根因定界、作业维度端到端全过程诊断构建了一套完整的健壮性保障体系确保超大规模集群的资源调度和通信效率达到最优。在训练启动前我们通过对算力、网络、存储等核心性能指标进行极限压测确保超大规模集群的资源调度和通信效率达到最优通过全方位的预检机制为超大规模集群保驾护航。系统会对驱动版本兼容性、节点间连通性、网络流量基准、集合通信库性能等关键环节进行深度验证特别针对光模块异常、接口闪断等隐蔽性故障进行专项检测。确保通信效率达到最优状态为后续的大规模训练任务构建高可靠的运行环境。在训练过程中我们对GPU利用率、网络流量等关键指标进行动态跟踪毫秒级实时监控实现异常状态的秒级发现。当系统检测到链路拥塞或硬件亚健康状态时会立即触发智能调度算法通过NFLBNetworkForwarding LoadBalance技术自动优化数据传输路径确保训练任务持续稳定运行。这套系统不仅能有效预防潜在故障还能在问题发生时实现快速自愈大幅提升整体训练可靠性。训练完成后我们基于全网FET均值分布评估传输性能精准定位训练异常时段解决慢节点问题通过作业级故障诊断工具整合端网训练作业日志与全流程数据进行多维度综合深入分析快速发现系统的潜在瓶颈和调优点。例如针对跨数据中心协同训练中的网络丢包问题基于专家经验复盘训练异常提供智能化诊断决策建议提升训练过程的可靠性。未来我们将持续推动算力与网络的深度融合通过开放标准和全局智能调度打造更高效、更稳定的AI基础设施为行业智能化升级提供坚实支撑。图3 卡间流量监控2.3 极致高性能 – Performance随着AI大模型训练规模的持续扩大网络流量呈现出高带宽、低熵值、强周期性的特点传统基于ECMP的负载均衡机制因缺乏全局视角易导致链路拥塞与资源利用率不均严重制约算力效率。为破解这一难题新华三创新提出基于全局视角调度的路径导航技术。路径导航技术通过多轮迭代收集流量信息智能规划最佳业务路径并将选路策略下发至交换机从而实现网络流量的均衡分布减少拥堵显著提升任务处理效率加速AI大模型的训练进程。该方案天然与端侧解耦能够兼容任意GPU和网卡实现最优效果。在32卡的调优性能测试中路径导航相比传统ECMP在All ReduceRing基准测试Bus Bandwidth提升了49.8%。图4 路径导航技术路径导航技术拥有以下两个核心技术。1 流量时间片建模技术流量时间片建模技术基于时间维度分析流量行为构建模型精准量化时间片特征智能解析流量的串/并行关系。◆流量时间维度信息通过交换机收集链路上现有流量的传输时间片规律如flow1、flow2的占用时段。◆链路空闲窗口识别通过对流量时间片信息建模获取链路在时间轴上的空闲窗口idle 如flow1与flow2传输间隙的空闲时段。◆识别串/并行关系将空闲窗口idle与待选路流量的时间片δ相匹配。串行关系idle δ表示待选路流量能负载到链路上的空闲窗口与该链路上已选路的流量为串行关系。并行关系idle δ表示待选路流量不能负载到链路上的空闲窗口与该链路上已选路的流量为并行关系。图5 流量时间片建模技术2基于链路权重的选路算法路径导航通过基于链路权重的选路算法为业务流量进行规划根据流量时间片建模技术识别的串/并行关系将流量均衡分配到所有可用链路上避免单链路拥塞并最大化带宽利用率。冲突的并行流路径导航将流分布到不同路径选择权重较低的链路。选路后链路权重累加。◆串行流选路不冲突的串行流路径导航可以分配同一路径。选路后链路权重不累加。图6 基于链路权重的选路算法并行流选路3 建设实践为某行业巨头构建万卡级绿色智算中心某行业巨头在构建万卡级绿色智算中心过程中面临着海量设备配置、光模块故障频发、训练作业中断、日志分析低效等严峻挑战。新华三凭借业界领先的智能化运维能力成功助力该企业打造高效稳定的超大规模AI训练平台。◆弹性扩展架构新华三为万卡级智算中心提供了卓越的弹性扩展能力。其创新的模块化设计支持标准组网场景下通过图形化向导实现一键快速开局非标组网场景则提供灵活的模板定制功能完美适配不同规模集群的快速部署需求。端网协同配置技术实现分钟级资源同步下发确保新增计算节点即插即用。在多租户管理方面采用VLANACL双重隔离机制配合服务器一键纳管功能实现分钟级资源分配网络配置效率提升高达90%。更值得一提的是基于全局的负载均衡路径导航技术为弹性扩展的架构提供了坚实的网络基础可实现网络流量的均衡分布加速AI大模型训练进程。◆不间断训练保障新华三构建了完整的全生命周期训练保障体系与作业调度系统深度协同每日自动执行20次智能集群巡检将MTTI平均故障发现时间从60分钟缩短至20分钟效率提升67%。全域日志平台可实时采集并分析计算、存储、网络设备日志使MTTK平均故障诊断时间从4小时锐减至1小时问题处理效率提升62.5%。针对4万余个光模块的管理难题建立智能运维体系通过实时监测关键参数并结合专家知识库分析将MTTF平均故障修复时间从3小时大幅压缩至5分钟实现漏检率为零的成果。这些创新功能形成了从预防、检测到恢复的完整闭环确保大规模训练任务持续稳定运行节省了大量的运维人力成本。◆高性能基座优化新华三打造了行业领先的高性能智能底座。其自动化部署方案可精准管理44万配置项实现100%的配置准确率彻底消除人工操作风险。支持基于全局的负载均衡路径导航技术支持训练前的网络性能预验证并通过可视化界面实时展示全网流量状态完美支撑千卡级训练的高带宽需求。基于这些高性能底座优化推动万卡集群的算力输出效率逼近理论峰值为AI大模型训练提供了自动驾驶级的高性能基础支撑。4 未来展望迈向自驱、自愈、自优的智算网络随着AI模型规模的指数级增长智算网络正从基础支撑设施向智能赋能平台演进。新华三未来网络将围绕Scalable、Sustainable、Performance三大核心维度实现从“人工干预”到“自主智能”的范式跃迁。在弹性可扩展Scalable维度实现从自动化部署到自主驱动的跨越。AI通过实时分析业务需求与资源状态自动规划最优拓扑并动态调整规模。例如面对突发流量系统能自主触发边缘节点扩容或云资源调配无需人工干预AI即可驱动网络架构的弹性伸缩实现从“被动响应”到“主动调整”的跨越彻底打破传统扩容的滞后性与资源浪费。在健壮可持续Sustainable维度构建全生命周期的自治闭环。通过实时采集网络拓扑、集合通信日志、设备告警等多元数据依托AI进行深度分析实现故障的“预测-诊断-修复”全流程自动化。系统不仅能提前预警GPU过热、光模块衰减等潜在风险还能在训练中断时快速定位根因如拥塞链路或异常进程并动态执行最优恢复策略例如自动隔离故障节点、切换备份路径等智算中心将实现从“人工救火”到“无人值守”的跨越。在极致高性能Performance维度负载均衡技术向端侧逐包演进从数据源头重塑分布式训练范式。通过构建端到端的细粒度负载均衡体系有效消除计算资源分配不均和通信延迟问题从根本上破解分布式训练中的“长尾效应”瓶颈。这一技术突破为AI算力基础设施带来了革命性的性能优化路径大幅提升整体训练效率。