三台迷你主机硬跑70B大模型!场面十分尴尬

发布时间:2026/7/2 1:44:36
三台迷你主机硬跑70B大模型!场面十分尴尬 作者 | Tofu来源 | 至顶AI实验室三台迷你主机跑起了单台根本装不下的70B 大模型。这三台主机就是华硕今年新推出的NUC 16 Pro官方定位就是冲着本地部署大模型来的。不过每台机器都只有64GB 内存单看配置似乎并没有很特别。但把三台放在一起就有点意思了它们合力加载了一个约75GB 的Llama 3.3 70B dense 模型。过去两年本地AI 的想象一直卡在这样一个问题上大模型能不能离开云端真正跑进个人电脑、工作站和办公室小服务器里YouTube视频博主Alex Ziskind 这次的实验相当于把这个问题又往前推了一步当一台机器的内存已经装不下模型时几台小机器连在一起能不能临时拼出一台更大的本地AI 设备把三台迷你PC改造成一个AI集群Alex拿到的是华硕新发布的NUC 16 Pro。它看起来只是一个和Mac mini差不多大的桌面设备但配置已经相当激进。这台机器可以搭载Intel Core Ultra Series 3 处理器是华硕在2026 年3 月正式发布的新一代NUC 迷你主机在国内的首发价格是10999元。官方给它的定位是面向本地AI、边缘AI 和企业轻量部署的Copilot PC最高可选Core Ultra X9平台AI 性能最高180 TOPSX7/X9 版本支持最高96GB LPDDR5x 内存。Alex Ziskind手里的版本是Core Ultra X7 358H内部还有新一代Arc B390 GPU以及独立NPU也就是专门用于AI 加速的神经网络处理单元。每台机器配有64GB 内存接口也很丰富双Thunderbolt、双HDMI、多个USB-A、双以太网口还支持Wi-Fi 7。如果只把它当作开发机它已经足够体面。写代码、跑IDE、做本地服务、调小模型都不再是几年前迷你PC那种“能用但别太指望”的状态。不过Alex 想试试更刺激的。他把三台NUC 连接起来尝试拆分同一个大模型。问题的起点很简单一台64GB 内存的NUC 16 Pro 装不下一个75GB 左右的70B dense 模型但三台加起来就有192GB 内存。既然内存总量够了模型能否被切成几块分别塞进三台机器里运行本地AI 的理想状态一直是开发者拥有自己的模型、自己的数据和自己的推理环境不必每次调用都依赖云端API也不用担心数据上传之后的隐私边界。但当模型规模变大单机内存和显存很快就会成为硬限制。Alex 的实验其实是在验证一种更便宜、更灵活的可能性几台桌面小机器能不能临时拼出一个“小型AI 机房”。GPU能加速但只加速了一半在真正组集群之前Alex 先做了单机测试。他要弄清楚一个基础问题这套硬件里面CPU、GPU、NPU 到底谁更适合跑大语言模型第一组结果很漂亮。使用GPU 之后模型处理prompt 的速度明显提升。原本CPU 读取上下文的速度大约是每秒1000 多个token切到Arc GPU 后提升到约2200 tokens/s接近翻倍。这对于真实开发场景很重要。当一个代码助手读取整个项目文件、分析长文档、总结一段很长的上下文时模型首先要做的就是prompt processing。这个阶段可以并行计算GPU 的吞吐能力能够发挥出来所以速度提升明显。真正尴尬的地方出现在第二阶段。模型开始逐字生成答案后CPU 和GPU 的速度几乎一样大约都在46 tokens/s 左右。GPU 算力更强却没有让生成速度明显变快。原因在于大语言模型推理有两种瓶颈。处理prompt 时算力很关键生成token 时内存带宽更关键。每生成一个新token模型都要不断访问权重和缓存。在这类集成架构上CPU 和GPU 共用同一套内存最终速度被内存带宽卡住。Alex把它称为memory wall内存墙。这也是本地AI 硬件经常被忽视的问题。很多产品会强调TOPS、GPU 核心数、AI 加速单元但在大模型生成环节单纯堆算力无法绕过内存访问压力。算得再快数据喂不上来token 生成速度就很难上去。NPU省电却输在生态和效率既然GPU 在生成阶段被内存卡住那专门为AI 设计的NPU 会不会更好Alex很快遇到了第一个问题常用的Llama.cpp 不能调用这颗NPU。为了让NPU 参与测试他只能换到Intel 自家的OpenVINO。小模型可以跑大模型却不顺利。更尴尬的是Intel 自己预先构建好的OpenVINO 模型放到Intel 自己的NPU 上居然也会失败。Alex 最后只能自己重新转换模型才把测试跑通。这很像今天很多AI PC 硬件的现实状态芯片已经发布宣传很漂亮但开发者真正用起来时软件栈还处在追赶阶段。跑通之后NPU 的特征也比较清晰。它的功耗最低发热更小机器更安静。测试中NPU 生成时大约消耗17WGPU 大约24WCPU 接近30W。单看功耗NPU 很有优势。但如果看“每生成一个token 消耗多少能量”GPU 反而赢了。因为GPU 速度更快完成同样任务所需时间更短摊到每个token 上总能耗更低。这给AI PC 的NPU 叙事泼了一盆冷水。NPU 很适合低功耗、轻量化、后台型AI 任务也适合长时间安静运行。但在当前软件和模型适配状态下它还没有成为本地大模型推理的主力。更尴尬的是同一块Intel GPU 上Llama.cpp Vulkan 的速度明显超过Intel 自家的OpenVINO。前者大约34 tokens/s后者只有大约14 tokens/s差距达到2.5 倍左右。可见硬件强不强是一回事但软件能不能把它榨出来就是另一回事了。模型切分成功了速度却被砍半单机摸底完成后Alex 开始把三台NUC 接成集群。他先拿一个单台机器也能装下的Qwen-3-35B 模型做测试。理论上多台机器一起参与推理速度应该更快然而结果却完全相反。单机运行时这个模型大约有35 tokens/s拆到三台机器上之后只剩约17 tokens/s几乎砍半。这里暴露了模型切分集群的核心问题。当一个模型被拆到多台机器上每生成一个token都要在不同机器之间传递中间数据。第一台算完把结果发给第二台第二台继续算再发给第三台第三台算完后还要继续进入下一轮。每一个token都伴随着多次跨机器通信。在这种模式下增加机器并不一定增加速度反而可能增加网络开销。Alex 原本想获得更多算力结果先获得了一堆通信流量。这也解释了为什么普通以太网拼出来的小型AI 集群很难靠模型切分获得明显加速。对于大模型推理而言机器之间的延迟和通信方式非常关键。没有RDMA 这类低延迟技术模型切分更多是在解决“装不装得下”的问题而不是解决“跑得快不快”的问题。随后Alex拿出了真正的重头戏Llama 3.3 70B。这是一个dense 模型量化后大小大约75GB单台64GB 内存的NUC 无法加载。但三台机器合起来有192GB 内存模型可以被拆分到三台机器中。这一次它真的跑起来了。只不过速度只有约1.4 tokens/s慢到并不适合日常使用。但实验意义很明确三台桌面迷你PC 合力运行了单台机器物理上无法容纳的大模型。这证明了模型切分集群的价值边界它能扩展容量让更大的模型启动速度表现则高度依赖内存、网络和软件栈。Thunderbolt没能救场Alex接着尝试了一个看起来很合理的改进既然2.5G 以太网太慢那就换更快的Thunderbolt。每台NUC 都有两个Thunderbolt 接口他把三台机器接成三角形拓扑让每台机器都能直接连接另外两台。Thunderbolt 带宽达到20Gbps 级别理论上远高于普通2.5G 网口。结果几乎没有变化。70B模型在以太网下是1.43 tokens/s换成Thunderbolt 后仍然是1.43 tokens/s。小模型的情况甚至更糟不仅速度没有提升还出现崩溃。这个结果再次说明瓶颈不只是“线够不够粗”。大模型切分带来的通信压力很多时候体现在大量小消息的往返、同步和延迟上。更高的带宽像是把高速公路拓宽了但真正堵车的地方可能在路口、调度和红绿灯。这也是本地集群最容易误判的地方。很多人会凭直觉认为只要机器够多、连接够快模型就会跑得更快。Alex 的测试表明至少在这类迷你PC 和当前软件栈上事实并没有这么简单。每台机器各跑一份模型实验到这里模型切分这条路已经很清楚它适合扩容不适合加速。Alex最后换了一种集群思路。如果模型本身能装进单台机器就不要拆模型。让每台机器都加载一份完整模型然后把不同请求分发给不同机器。这样每台机器独立处理任务集群提升的是总吞吐量。这一次结果终于变得好看了。单台机器在负载下大约能处理196 tokens/s三台机器一起服务吞吐量接近500 tokens/s提升到约2.5 倍。这类架构更接近办公室或小团队本地AI 服务的真实需求。一个人问代码一个人总结文档一个人做知识库检索三台机器各自处理不同请求体验会明显更好。Alex最后给出的规则很直接想运行单机装不下的大模型就拆分模型想提升多用户、多请求吞吐就复制模型并分发任务。这两种集群方式解决的是不同问题如果把它们混在一起很容易对本地AI 集群产生误解。至顶AI实验室洞察这次实验没有证明三台迷你PC 可以替代专业GPU 服务器也没有证明AI PC 集群马上会成为主流。它真正说明的是本地AI 正在进入一个更具体的阶段。单机能做什么集群能做什么NPU 能做什么GPU 又被什么限制这些问题正在被真实测试拆开。对NUC 16 Pro 这类硬件来说硬件能力已经有明显进步。迷你PC 可以跑本地模型可以承担开发任务也可以通过集群方式服务团队。但软件栈仍然存在不少粗糙地带。OpenVINO 对自家NPU 和GPU 的释放还不够充分Llama.cpp 虽然更快却还不能调用NPU。硬件已经摆上桌生态还在缺席。这也是它和NVIDIA GB10 这类桌面AI 超级计算机最大的区别。GB10 从设计之初就瞄准大模型本地开发。以DGX Spark 为例它把Grace Blackwell 超级芯片、128GB 统一内存、最高1 PFLOP FP4 AI 性能以及NVIDIA 自家的AI 软件栈打包在一起目标就是让开发者在桌面上完成模型测试、推理验证和轻量微调。更关键的是GB10 这条路线一开始就把节点互联考虑进去了。DGX Spark 机身后面带有ConnectX-7 和QSFP 网络接口官方明确给出连接方案至顶AI 实验室也尝试过把三台DGX Spark 连接起来。当然它用的也不是普通网线或Thunderbolt 线缆而是200G QSFP 级别的DAC 线缆还需要对应的网络配置、NCCL 通信和RDMA/RoCE 链路配合。所以Alex 这次实验的价值更像是在回答一个更接地气的问题买不起专为大模型设计的桌面AI 超算这样几台迷你主机能否成为“平替”我想答案已经很清楚了。常见问题Q三台迷你PC 跑起70B是不是说明AI PC 已经能替代桌面AI 超算了A还到不了这一步。三台NUC 16 Pro 能把单台装不下的70B 模型跑起来说明普通AI PC 已经可以通过集群方式突破单机内存限制。但它的生成速度只有约1.4 tokens/s更多是在证明“能不能跑”还谈不上“好不好用”。像NVIDIA GB10 / DGX Spark 这类产品从芯片、统一内存、互连到软件栈都是围绕大模型开发设计的稳定性和效率仍然是另一套级别。Q既然三台机器一起跑为什么速度反而变慢A因为它采用的是模型切分。一个模型被拆到三台机器上后每生成一个token都要在机器之间来回传递数据。这样做扩大了可用内存但也引入了网络通信、同步和延迟开销。对于大模型推理来说瓶颈常常不只是算力还有内存带宽和节点之间的通信效率。所以三台机器一起上不一定让单次生成更快。Q这种小型AI 集群到底适合什么场景A它更适合两类场景。第一类是模型太大单台机器装不下只能通过切分先让它跑起来适合实验、验证和技术探索。第二类是模型本身能装进单机每台机器各跑一份完整模型再把不同用户请求分发过去这样可以提升整体吞吐更适合办公室、本地开发团队或小型私有AI 服务。真正要追求低延迟、高稳定和少折腾大模型专用设备依然更省心。END本文来自至顶AI实验室一个专注于对AI计算机、工作站及各类AI相关硬件设备开展基于真实使用场景评测的研究机构。