针对上周 docker swarm 集群的频繁故障 (详见故障一 故障二故障三), 我们今天对 docker swarm 集群的部署进行了如下调整
将 docker engine 由 17.12.0-ce, build c97c6d6 升级至 17.12.1-ce, build 7390fc6 , 这是 docker 在 2 月 27 日发布的最新稳定版
- ~# docker -v
- Docker version 17.12.1-ce, build 7390fc6
将之前的 5 个 manager 节点 + 1 个 worker 节点 调整为 3 个 manager 节点 + 3 个 worker 节点, 3 个 manager 节点的阿里云服务器配置为 1 台 4 核 8 G + 2 台 2 核 4 G ,3 个 worker 节点的配置为 3 台 4 核 8 G , 应用容器尽量部署在 worker 节点上
使用新的部署后, 昨天 18:00 左右集群又出现了宕机, 当时怎么处理也无法恢复, 最后实在没办法, 通过阿里云控制台强制重启所有节点服务器后, 竟然神奇地一切恢复正常
在目前问题没有根本解决的情况下, 我们会采取这样的应急措施: 部署一个备用 docker swarm 集群, 当主集群出现故障时, 切换到备用集群
另外在周末遇到一次节点服务器死机的情况, ssh 登录无响应, 通过阿里云控制台管理终端登录也没有响应, 唯有通过阿里云控制台强制重启服务器
来源: https://www.cnblogs.com/cmt/p/8589687.html