【实战】:零成本配置 AMD ROCm 云环境并跑通 Gemma4-E4B云端大模型

发布时间:2026/6/23 12:05:41
【实战】:零成本配置 AMD ROCm 云环境并跑通 Gemma4-E4B云端大模型 标签#AMD #ROCm #Gemma4 #vLLM #大模型部署 #云环境 #Datawhale #AI开发 #深度学习 #GPU计算今天在Datawhale × AMD 开发者云 的Hello-ROCm 学习成功在 AMD 开发者云上把 Google 的 Gemma4-E4B-it 跑起来并完成简单对话。这篇笔记我把完整流程、坑点和心得整理出来方便回看也供同样在学的同学参考。一、整体流程概览整个任务可以拆成两个主要阶段第一阶段云环境准备登录与授权通过魔搭账号登录 AMD 开发者云平台启动环境打开 Hello ROCm Notebook 容器GPU 检查使用amd-smi命令确认 GPU 可用框架验证验证 PyTorch 能够识别并调用 AMD ROCm第二阶段模型部署与测试环境配置切换国内 pip 源并安装 ModelScope下载模型拉取 Gemma4-E4B-it 模型权重安装推理框架重装适配 ROCm 的 vLLM 版本启动服务使用 vLLM 启动模型推理服务对话测试在新终端中连接服务并进行对话测试清理资源关闭服务并销毁云实例整个流程从登录到完成测试约 20 分钟无需购买显卡或配置复杂环境浏览器打开即可配置。接下来我们检查 GPU 状态amd-smi能看到 AMD-SMI 版本、ROCm 版本、显存占用等信息就说明 GPU 可用。这一步相当于 NVIDIA 环境下的 nvidia-smi是 ROCm 生态里的设备监控命令。2. 验证 PyTorch 能否识别 AMD GPUpython-cimport torch; print(PyTorch:, torch.__version__); print(ROCm available:, torch.cuda.is_available()); print(Device:, torch.cuda.get_device_name(0) if torch.cuda.is_available() else N/A)输出里ROCm available: True是正确标准。这里有个容易踩的小坑在 ROCm 环境下PyTorch 仍然用torch.cuda.is_available()这个接口来判断 GPU 是否可用名字里带 cuda 但实际走的是 HIP/ROCm 后端容易被名字误导。四、下载 Gemma4 模型1. 切国内 pip 源pip configsetglobal.index-url https://mirrors.cloud.tencent.com/pypi/simple/国内环境直接走默认源会卡顿切到腾讯云镜像后下载速度明显提升。2. 安装 ModelScopepipinstallmodelscopeModelScope 是阿里达摩院的国内开源模型社区服务器在国内下大模型权重比 HuggingFace 稳定太多所以这里用 ModelScope。3. 拉取 Gemma4-E4B-it 权重modelscope download--modelgoogle/gemma-4-E4B-it--cache_dir./modelsE4B 是 Gemma 4 家族里较小的型号4.5B 有效参数、128K 上下文、原生支持文本/图像/音频单卡就能跑比较适合上手学习。下载大约 8 分钟成功提示比较隐蔽耐心等到提示符回来即可。4. 确认权重完整ls-lh./models/google/gemma-4-E4B-it/看到约 15G 的 model.safetensors模型权重在列表里说明配置到位了。五、启动 vLLM 推理服务1. 更新 vLLM 版本云环境自带的 vLLM 版本跑不了 Gemma4需要卸载重装uv pip uninstall torchvision torchaudio uv pipinstallvllm0.23.0rocm723torchvision torchaudiofastapi[standard]0.136.0\--no-cache\--index-url https://mirrors.aliyun.com/pypi/simple/\--extra-index-url https://wheels.vllm.ai/rocm/\-U这一步要把 torchvision 和 torchaudio 一起卸载重装否则在当前云环境里会冲突报错建议照做减少错误。2. 启动服务vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-itvLLM 是一个高性能推理框架核心是 PagedAttention 机制对 KV 缓存做了高效管理吞吐量在开源推理框架里属于第一梯队而且同时支持 NVIDIA 和 AMD GPU。关键点启动后这个终端窗口会被服务占用日志在持续输出不要关闭它、也不要按 CtrlC 退出。第一次启动需要加载模型 编译内核等几分钟是正常现象只要日志还在动就别动它。六、新终端对话测试第一个终端在跑服务需要再开一个新终端当要跟模型对话。1. 开新终端连接服务vllm chat--urlhttp://localhost:8000/v1--modelgemma-4-E4B-it2. 发一条测试消息你是谁你能做什么终端返回模型的回答说明 Gemma4 已经在 AMD ROCm 云环境里正常跑起来了——整个任务的核心目标达成。3. 关闭 vLLM 服务后续微调任务要清理显存需要先把推理服务关掉新终端Mac 按 ControlCWindows 按 CtrlC退出聊天第一个终端同样按 CtrlC结束 vLLM 服务七、关键命令速查表阶段命令作用GPU 检查amd-smi查看 AMD GPU 状态对应 nvidia-smi框架验证python -c import torch; ...确认 PyTorch 能调用 ROCm换源pip config set global.index-url ...tencent...加速 pip 下载装下载器pip install modelscope国内模型下载工具下权重modelscope download --model google/gemma-4-E4B-it --cache_dir ./models拉取 E4B 权重查权重ls -lh ./models/google/gemma-4-E4B-it/确认 15G safetensors 在位重装 vLLMuv pip install vllm0.23.0rocm723 ...适配 ROCm 7.2 的 vLLM 版本启服务vllm serve ... --served-model-name gemma-4-E4B-it把模型装载成 HTTP 服务对话测试vllm chat --url http://localhost:8000/v1 --model gemma-4-E4B-it客户端连服务端对话八、踩坑记录与排查1. modelscope download 命令找不到先pip show modelscope确认是否装成功没装上就pip install -U modelscope重装一次。2. vLLM 启动很慢第一次启动要加载模型权重 编译 ROCm 内核等几分钟是正常的只要日志还在输出就别中断。3. 显存不足启动时加--max-model-len 8192降低最大上下文长度还不够就继续降到 4096vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it --max-model-len81924. vllm chat 连接失败回第一个终端确认服务是否已经出现Application startup complete.没启动完成就先等着完成后再发 chat 命令。5. 忘记关 Instance这是最容易被忽略的一步。任务做完务必回 Profile 页点Destroy Instance否则 10 小时免费额度会持续消耗。