非常抱歉, 今天下午 16:55~17:05 左右, 由于 docker swarm 集群的突发不稳定问题造成新版博客后台 (目前处于灰度发布阶段) 无法正常使用, 由此给您带来麻烦, 请您谅解.
出故障期时, 新版博客后台的 2 个容器都无法正常启动.
- AME NODE DESIRED STATE CURRENT STATE
- i_web.1 prod-swarm-w3 Running Assigned 5 minutes ago
- i_web.2 prod-swarm-w4 Running Assigned 2 hours ago
发现问题后, 我们进行了删除 stack 并重新部署的操作.
- docker stack rm i
- ./deploy-production.sh 2.0.6
- NAME NODE DESIRED STATE CURRENT STATE
- i_web.1 prod-swarm-w3 Running Assigned 42 seconds ago
- i_web.2 prod-swarm-w7 Running Starting 42 seconds ago
重新部署后发现 prod-swarm-w7 节点上的容器可以正常启动, 而 prod-swarm-w3 节点上的容器问题依旧, 由此确认是 prod-swarm-w3 节点出了问题, 于是立即卸载该节点.
docker node update --availability drain prod-swarm-w3
卸载后, 新版博客后台很快恢复了正常.
我们已经决定用 k8s 取代 docker swarm , 但目前 k8s 集群还没部署好, 在这即将与 docker swarm 说 88 的时刻, 又被 docker swarm 坑了一次, 都怪我们当时贪图省事, 选对了集装箱 (docker 容器) 却上错了船(docker swarm), 我们会深刻吸取这次上错船的教训.
来源: https://www.cnblogs.com/cmt/p/11929312.html