第25章:容器化部署——Docker中运行Ollama

发布时间:2026/6/22 22:18:15
第25章:容器化部署——Docker中运行Ollama 1. 项目背景业务场景某公司的AI平台在单机上跑了三个月,一切看似稳定。直到运维老李收到新任务:“把AI服务迁移到新的GPU服务器上,同时要能快速在测试环境复现生产问题。”老李开始手动迁移:装系统依赖→装CUDA驱动→装Ollama→复制模型文件→配置环境变量→启动服务。整个过程花了4个小时,中间CUDA版本不对重装了两次,模型文件拷贝因为断网重传了一次。更崩溃的是,第二周又买了一台GPU服务器——老李又得重复一遍。而且每次迁移后,生产环境和测试环境总有微妙的差异——"在我机器上没问题"成了新的口头禅。CTO拍板:“用Docker。一键部署,环境一致,版本可控。”痛点环境差异噩梦:不同的CUDA版本、Python版本、系统库版本导致"在我的机器上可以跑"。迁移成本高:每次扩容/换机器需要手动配置所有依赖。模型文件分散:模型在各自机器的~/.ollama目录里,无统一管理。多服务编排复杂:AI平台不只是Ollama,还有网关、向量库、监控——单独启动太麻烦。版本回滚难:Ollama升级后出问题,没有镜像快照,回退需要手动操作。一句话总结:容器化不是"会不会"的问题,而是"什么时候必须做"的问题——当服务