
本篇目标了解 FastLLM 的定位、核心能力以及它和 vLLM / Ollama 怎么选前言为什么写这篇番外我经常想“我的显卡只有 RTX 4060 8G能跑 DeepSeek 吗”“服务器上还有张 5090 24G高不成低不就只能吃灰吗”“vLLM 装不上CUDA 版本太低了怎么办”这些问题vLLM 回答不了——vLLM 不是为这些场景设计的。但 FastLLM 可以。经粉丝晓东同志提醒我花了一下午时间调研了 FastLLM 的文档、GitHub 仓库和社区实测文章发现这个工具解决了一个很具体的问题让那些不够格的硬件也能跑大模型。这篇文章是我的调研笔记也是一份选型参考。声明本文未做实测所有性能数据来自官方文档和社区报告。一、FastLLM 是什么一句话纯 C 实现的高性能大模型推理库不依赖 PyTorch专门为非理想硬件优化。作者 ztxz16国内开发者GitHub 星标活跃。核心卖点就一个任意 10GB 以上显存的显卡就能单卡推理满血 DeepSeek R1 671B。怎么做到的三个关键技术1. CPU GPU 混合推理杀手锏这是 FastLLM 最核心的能力。大模型尤其是 MoE 模型如 DeepSeek的结构是稠密层 MoE 专家层。MoE 层参数量巨大但每次只激活一小部分专家。FastLLM 的思路很简单稠密层 → GPU 跑计算密集GPU 擅长MoE 专家层 → CPU 跑参数量大但激活少CPU 内存大结果就是一张 RTX 4060 8G 显卡 32G 内存就能跑 DeepSeek V3 这种级别的模型。官方数据双路 EPYC 9004/9005 服务器 单张显卡部署 DeepSeek R1 671B FP8 原版模型单并发 20 tokens/sINT4 量化版30 tokens/s多并发可达60 tokens/s。2. 不依赖 PyTorchvLLM 底层依赖 PyTorch CUDA这意味着你需要匹配的 CUDA 版本、驱动版本、PyTorch 版本……任何一环不对就装不上。FastLLM 用 C 自研算子直接调 CUDA / ROCm / OpenCL一条 pip install 就能跑NVIDIA 卡甚至 P100、K80 这种古董卡都支持。3. 极宽的硬件兼容性硬件类型支持情况NVIDIAM40、K80 到 RTX 5090 全系列AMDMI50、7900 等ROCm国产卡天数、沐曦、燧原、华为昇腾移动端安卓可直接编译二、FastLLM vs vLLM vs Ollama怎么选这是最关键的问题。三者定位完全不同维度OllamavLLMFastLLM目标用户个人玩票生产服务硬件受限的生产/个人核心优势极简上手高吞吐并发兼容性广、混合推理显存需求能装下就能跑建议 16G10G 就能起步老卡支持一般差需新 CUDA极好MoE 模型支持支持混合推理独门安装难度一颗星三颗星两颗星API 服务有有OpenAI 兼容有OpenAI 兼容适合场景本地偶尔用对外提供 API老卡/国产卡/MoE 大模型选型决策树你有什么卡 ├── RTX 3090/4090/5090显存 24G │ ├── 只是自己用 → Ollama │ └── 要对外提供服务 → vLLM │ ├── RTX 3060/4060显存 8-12G │ ├── 只跑 7B-14B 小模型 → Ollama 够了 │ └── 想跑 DeepSeek V3/R1 这种大 MoE → FastLLM │ ├── 老卡P100/K80/2080Ti/ 国产卡 │ └── FastLLM几乎唯一选择 │ ├── 多卡服务器 │ ├── 追求极致吞吐 → vLLM │ └── 卡不多但想跑大模型 → FastLLM支持奇数张卡 │ └── 只要能装上就行 └── Ollama最省心三、FastLLM 的亮点功能3.1 安装确实简单# NVIDIA GPULinuxpipinstallftllm-U# AMD GPULinux# 先安装ROCM 6.3.3wgetwgethttps://repo.radeon.com/amdgpu-install/6.3.3/ubuntu/jammy/amdgpu-install_6.3.60303-1_all.debaptinstall./amdgpu-install_6.3.60303-1_all.deb-yamdgpu-install--usecasehiplibsdk,rocm,dkms-ypipinstallftllm-rocm-U# WindowsNVIDIApipinstallhttps://www.modelscope.cn/models/huangyuyang/fastllmdepend-windows/resolve/master/ftllmdepend-0.0.0.2-py3-none-win_amd64.whl pipinstallftllm-U对比 vLLM 那套 CUDA 编译 PyTorch 版本对齐的流程FastLLM 确实友好很多。以上建议在python虚拟环境中执行。3.2 三种使用模式# 命令行聊天ftllm run Qwen/Qwen3-0.6B# WebUIftllm webui Qwen/Qwen3-0.6B# API ServerOpenAI 兼容ftllm server Qwen/Qwen3-0.6B--port8080API 完全兼容 OpenAI 格式可以直接接入 One API、Dify、anything-llm 等中间层。3.3 混合推理的实际用法# GPU 跑稠密层CPU 跑 MoE 层经典配置ftllm server deepseek-ai/DeepSeek-V3--devicecuda--moe_devicecpu# 多 NUMA 节点加速 CPU 部分exportFASTLLM_NUMA_THREADS27ftllm server fastllm/DeepSeek-V3-INT4--devicecuda--moe_devicenuma-t1# 多卡 CPU 按比例分配ftllm server model--devicemulticuda:0:4,1:5,cpu:1最后一个命令的意思是cuda:0 算 4/10cuda:1 算 5/10cpu 算 1/10。这种细粒度控制在其他框架里很难找到。3.4 支持的模型稠密模型Qwen 系列、Llama 系列、Phi 系列MoE 模型DeepSeek V3/R1、Qwen-MoE格式支持FP16/BF16 原始模型、FP8、AWQ、INT4/INT8 量化、GGUF部分、FastLLM 自有格式最新支持Qwen3-Next 混合推理、通用动态量化导出四、FastLLM 的局限公平地说不是万能药这几个方面需要注意4.1 社区生态不如 vLLMvLLM 背靠 UC Berkeley有 LangChain/LlamaIndex 等主流框架原生集成。FastLLM 主要靠国内社区驱动英文资料少遇到问题主要靠 QQ 群831641348和微信群。4.2 高端卡上不一定比 vLLM 快FastLLM 的优势在兼容性和混合推理不是绝对速度。在 RTX 4090 / A100 这种高端卡上跑 7B-32B 稠密模型vLLM 的 PagedAttention 优化可能更快。4.3 文档质量参差CSDN 和腾讯云有几篇不错的教程但官方文档偏工程向新手友好度不如 Ollama。4.4 视觉/多模态模型支持好消息FastLLM已经支持多模态推理从 V0.1.6.0 版本正式加入。已明确支持的多模态模型模型支持情况Qwen3.5多模态版Python 接口已支持Gemma4初步支持OpenAI 兼容 API 图片输入支持 http链接、base64data url、file url补充说明Qwen-VL、LLaVA 等早期视觉模型在官方文档中未明确提及支持状态建议以 GitHub 最新版 changelog 为准多模态推理对显存要求更高老卡场景下请注意实测验证⚠️ 本节信息基于 V0.1.6.0 changelog 整理如有出入请以官方最新版本为准4.5 未实测验证再次强调本文基于公开资料整理我自己还在试用中后续可能会发下体验记录。性能数据和体验描述来自官方 README 和社区文章建议你在自己的环境里实测验证。五、我的判断FastLLM 解决了一个真实存在的痛点不是每个人都有 RTX 4090但很多人想跑大模型。如果你的场景是公司/实验室有闲置的老服务器和老显卡想低成本试水 DeepSeek R1 这种 MoE 大模型国产芯片环境海光 DCU、昇腾等那 FastLLM 值得一试。它的 CPUGPU 混合推理思路在当前算力焦虑的大环境下是一个很务实的解法。如果你已经有 24G 的新卡且追求生产级稳定性vLLM 仍然是更稳妥的选择。工具没有高下之分只有适不适合。延伸阅读FastLLM GitHub — 官方仓库CSDNFastLLM CPUGPU 混合推理 — 详细使用指南腾讯云FastLLM 推理库介绍 — 快速上手掘金vLLM / FastLLM / llama.cpp 对比 — 三框架横向对比求索实验室 · 本地部署系列