MiniMax-M3 开源实测:部署、推理与基准测试全记录

发布时间:2026/6/29 5:10:57
MiniMax-M3 开源实测:部署、推理与基准测试全记录 官方给出了 MiniMax-M3 与多款主流模型的对比在编码、Cowork、GUI、多模态与推理等多个维度均具备竞争力其中OmniDocBench91.6、SpreadSheetBench-v189.4、VideoMME85.4、Video-MMMU84.6、BrowseComp83.5等多模态与协作类任务表现尤为亮眼编码上SWE-Bench Verified也达到80.5。伴随权重开源两大主流推理引擎也第一时间放出了 MiniMax-M3 的专用镜像推理引擎镜像标签时间vLLMvllm/vllm-openai:minimax-m36 月 12 日开源当天SGLanglmsysorg/sglang:dev-minimax-m36 月 15 日需要说明的是目前两者均为针对 MiniMax-M3 的专用/开发镜像两大引擎主线版本对 M3 的正式支持仍需等待一段时间。本文采用 vLLM 的专用镜像进行部署与测试。vLLM 官方镜像地址为vllm/vllm-openai:minimax-m3我们已第一时间同步至国内镜像方便大家拉取swr.cn-south-1.myhuaweicloud.com/gpustack/vllm-openai:minimax-m3本文的测试环境与配置如下项目内容测试环境四卡NVIDIA H20-3e 141GDriver 590.48.01 / CUDA 13.1测试模型MiniMax/MiniMax-M3-MXFP8草稿模型投机解码Inferact/MiniMax-M3-EAGLE3参考文档MiniMaxAI/MiniMax-M3 | vLLM Recipes全文分为以下几个部分环境准备 —— GPUStack 安装下载权重与镜像添加 vLLM 版本部署 MiniMax-M3对话实测基准测试小结一、环境准备 —— GPUStack 安装GPUStack 是一个开源 GPU 集群管理与 AI 模型服务平台旨在高效部署 AI 模型。它可以配置并编排多种推理引擎——如 vLLM、SGLang、TensorRT-LLM甚至自定义引擎——以在 GPU 集群上实现最佳性能。核心功能包括多异构 GPU 集群池化调度、可插拔推理引擎架构、Day 0 模型支持、性能优化配置低延迟/高吞吐以及企业级运维能力如故障恢复、负载均衡、监控与权限管理。在部署 MiniMax-M3 之前需先完成 GPUStack 控制面的安装并将 GPU 节点纳入管理。本文不再展开安装细节可参考下方教程完成部署TODO: 在公众号编辑器中插入 之前已发布的《GPUStack v2.1.2 安装教程》的链接完成安装并接入 GPU 节点后即可进入下一步准备 MiniMax-M3 的权重与镜像。二、下载权重与镜像国内环境推荐从ModelScope魔搭下载权重。本文使用 MXFP8 量化版本以适配四卡 H20-3e 的显存与性能。下载主模型权重本文同时使用 EAGLE3 草稿模型进行投机解码加速因此一并下载草稿模型拉取 vLLM 专用镜像国内同步地址docker pull swr.cn-south-1.myhuaweicloud.com/gpustack/vllm-openai:minimax-m3也可使用 vLLM 官方镜像vllm/vllm-openai:minimax-m3国内网络环境下推荐使用上述同步地址以加速拉取。三、添加 vLLM 版本GPUStack 支持可插拔的推理引擎架构允许自定义推理后端及其版本用于引入 GPUStack 未内置的 vLLM / SGLang / MindIE 版本或接入其他自定义推理引擎镜像。由于 MiniMax-M3 当前依赖 vLLM 的专用镜像这里将其作为 vLLM 的自定义版本添加到 GPUStack 的推理后端中。在推理后端菜单编辑 vLLM在版本配置中选择添加版本按实际情况填写镜像地址配置值版本minimax-m3镜像名称swr.cn-south-1.myhuaweicloud.com/gpustack/vllm-openai:minimax-m3入口点Entrypointvllm serve运行命令Run Command{{model_path}} --port {{port}} --host {{worker_ip}} --served-model-name {{model_name}}框架CUDA其中{{model_path}}、{{port}}、{{worker_ip}}、{{model_name}}为 GPUStack 的模板变量部署时会自动注入无需手动修改。也可以切换到 YAML 模式直接导入以下配置version_configs: minimax-m3: image_name: swr.cn-south-1.myhuaweicloud.com/gpustack/vllm-openai:minimax-m3 run_command: {{model_path}} --port {{port}} --host {{worker_ip}} --served-model-name {{model_name}} entrypoint: vllm serve custom_framework: cuda env: {}注意如果当前已有其它自定义版本需要将其它版本一同写入version_configs中一起导入。四、部署 MiniMax-M3GPUStack 支持从 Hugging Face、ModelScope 在线下载并部署也支持从本地路径部署离线环境推荐此方式。本文使用前面已下载到本地的权重进行部署。导航到模型文件页面点击前面下载的模型权重右侧的小火箭部署按钮即可开始部署在部署配置中推理后端选择vLLM版本选择前面添加的minimax-m3自定义版本接着参考 vLLM Recipes 文档 配置后端启动参数。本文在四卡 H20-3e 上采用张量并行并启用基于 EAGLE3 的投机解码参数示例如下--tensor-parallel-size4 --enable-auto-tool-choice --tool-call-parserminimax_m3 --reasoning-parserminimax_m3 --block-size128 --speculative-config {method:eagle3,model:/var/lib/gpustack/cache/model_scope/Inferact/MiniMax-M3-EAGLE3,num_speculative_tokens:3,attention_backend:FLASH_ATTN} --gpu-memory-utilization0.96 --max-model-len64K --disable-access-log-for-endpoints/health,/metrics,/ping --mm-encoder-attn-backendFLASHINFER --mm-processor-cache-typeshm --mm-encoder-tp-modedata各组参数的作用简述如下张量并行--tensor-parallel-size4将模型切分到四张 H20-3e 上并行推理。工具调用与思考解析--enable-auto-tool-choice配合--tool-call-parserminimax_m3启用工具调用能力--reasoning-parserminimax_m3用于解析模型的思考thinking内容。投机解码EAGLE3--speculative-config启用基于 EAGLE3 草稿模型的投机解码以提升解码速度其中num_speculative_tokens为每步推测的 token 数。显存与上下文--gpu-memory-utilization0.96控制显存占用上限--max-model-len64K设置上下文长度M3 原生支持 1M可按需调大但会相应增加显存开销。多模态编码器--mm-encoder-tp-modedata让体量较小的视觉编码器采用数据并行而非张量并行避免不必要的 TP 通信开销--mm-processor-cache-typeshm启用基于主机共享内存的多模态处理器缓存--mm-encoder-attn-backendFLASHINFER指定编码器注意力后端NVIDIA 上使用 FlashInferAMD 上对应 AITER FlashAttention。关于草稿模型路径--speculative-config中的model需填写 EAGLE3 草稿模型的实际路径。本文中的/var/lib/gpustack/cache/model_scope/Inferact/MiniMax-M3-EAGLE3是前文通过 GPUStack 从 ModelScope 下载后的默认缓存位置请按你的实际下载路径填写。以上参数为示例量化方式、并行规模、投机解码 token 数、上下文长度--max-model-len、显存占用--gpu-memory-utilization等请结合实际硬件并以 MiniMaxAI/MiniMax-M3 | vLLM Recipes 的最新说明为准。采样参数方面官方推荐temperature1.0、top_p0.95、top_k40。这些可在请求中传入也可在 GPUStack 试验场中配置若实测效果不理想建议优先向官方推荐值对齐。关于上下文长度--max-model-len的说明本文设置为64K主要是受限于显存——在开启多模态功能的情况下实测剩余显存已不足以支撑一个 128K 上下文的请求故演示中设为 64K。当前推理镜像尚不支持--kv-cache-dtypefp8来节省 KV Cache 显存待 vLLM 推出支持该特性的新版本后大家可自行尝试以在开启多模态的同时获得更长的上下文。此外在当前版本的实际使用中对于Agent 场景64K 往往是不够的。如果你的场景以文本为主、不需要多模态推荐关闭多模态支持以释放显存换取更长上下文去掉上面三项--mm-*参数并添加--language-model-only。在此配置下实测可支持256K的上下文长度。关于参数中的k与KvLLM 参数里小写k表示 1000大写K表示 1024。例如--max-model-len64K即 64 × 1024 65536。