高并发压力测试,vLLM 在 AMD Instinct GPU 上的极限吞吐量揭秘

发布时间:2026/6/26 5:21:38
高并发压力测试,vLLM 在 AMD Instinct GPU 上的极限吞吐量揭秘 压测实战用 benchmark_serving.py 摸清 AMD GPU 的吞吐底牌作为架构师我们在规划大模型推理集群时最头疼的往往不是“能不能跑起来”而是“到底能扛多少并发”。特别是在 AMD Instinct GPU 这种新硬件平台上官方文档给出的理论峰值往往过于理想化。真正的生产容量必须通过高强度的压力测试才能摸清楚。最近我在 DevCloud 上基于 ROCm 7.x 部署了 vLLM 服务并利用benchmark_serving.py脚本进行了一场从低负载到极限并发的全链路压测结果发现了一些值得注意的性能拐点。构建高并发测试场景压测的第一步是还原真实流量。我并没有使用简单的单线程请求而是直接调用 vLLM 自带的benchmark_serving.py工具。这个脚本的强大之处在于它能模拟真实的请求分布支持设置并发数concurrency、请求速率以及输入输出长度分布。为了贴近生产环境我选取了 Llama 3.1 8B 和 70B 两个典型模型分别对应轻量级对话和复杂逻辑推理场景。测试数据集采用了 ShareGPT 的真实对话片段确保输入长度Prompt Length和输出长度Completion Length具有随机性和长尾特征。在 AMD MI300X 环境下我重点观察了三个核心指标的变化曲线RPS每秒请求数、Token/s系统总吞吐量以及TTFT首字延迟。测试命令示例如下这里我们模拟了从 1 到 128 的并发梯度python benchmark_serving.py \ --backend vllm \ --dataset-name sharegpt \ --request-rate inf \ --num-prompts 2000 \ --concurrency 64 \ --model meta-llama/Meta-Llama-3.1-8B-Instruct性能曲线分析与瓶颈定位随着并发数从 1 逐步攀升系统的表现呈现出明显的阶段性特征。在低并发阶段1-16TTFT 保持在极低水平约 50ms-80ms此时系统资源充裕GPU 计算单元并未满载响应速度主要受限于网络往返和内核启动开销。当并发数进入中等区间32-64时RPS 线性增长Token/s 迅速爬升至峰值。对于 MI300X 而言其高达 5.2TB/s 的 HBM3 带宽优势在此刻展露无遗显存读取不再是瓶颈计算单元利用率接近饱和。然而真正的考验出现在高并发区间64。我发现当并发数超过某个阈值后RPS 不再增长甚至出现回落而 TTFT 开始指数级飙升。通过rocm-smi和性能分析工具追踪确认此时的瓶颈并非算力不足而是显存带宽饱和与上下文切换开销过大。大量的 KV Cache 读写操作占用了带宽导致新的请求需要排队等待显存资源。这一现象在 70B 大模型上尤为明显因为单个请求占用的显存块更多加剧了碎片化和竞争。关键参数调优max-num-seqs 的平衡艺术面对高并发下的性能衰退盲目增加显卡数量并非最优解调整 vLLM 的批处理策略往往能立竿见影。其中--max-num-seqs参数是控制单次迭代中最大序列数的关键阀门。默认配置下vLLM 可能会尝试接纳过多并发请求进入批处理队列导致单个步长的计算时间拉长进而推高 TTFT。在我的测试中将max-num-seqs从默认的较大值限制在256左右时系统在 64 并发下的表现最为稳健。虽然这略微牺牲了极端的峰值吞吐量但显著平滑了延迟曲线避免了长尾请求拖垮整体体验。此外针对 AMD 平台的特性我还调整了--block-size参数。在显存碎片化严重的场景下适当增大 block size如从 16 调整为 32可以减少页表管理开销提升显存连续读取效率。配合--gpu-memory-utilization 0.90的设置预留 10% 的显存给驱动和系统缓冲有效防止了因瞬时峰值导致的 OOM 崩溃。生产环境配置建议经过多轮压测与参数微调针对 AMD Instinct GPU 上的 vLLM 部署我总结出以下生产级推荐配置显存利用率设定为0.90-0.92严禁设为 1.0必须为驱动预留空间。最大序列数根据模型大小动态调整8B 模型可设为 51270B 模型建议控制在 128-256 之间。并发控制在网关层实施限流将单实例并发数控制在压测得出的“性能拐点”之前通常为该实例最大理论 RPS 的 80%。监控告警重点监控显存带宽利用率和 TTFT 分位数P99一旦 P99 延迟超过阈值立即触发自动扩容或降级策略。通过这次压测我们不仅验证了 AMD 平台在大模型推理上的高性价比更掌握了一套科学的容量评估方法。只有经过真实流量洗礼的配置才能在生产环境中稳如磐石。如果你也想亲手验证这些数据或者需要大规模算力来复现上述压测场景现在有个绝佳的机会。200 小时 GPU 算力已就位快来领取https://marketing.csdn.net/questions/Q2604140858304426315?utm_sourceAIpaper