昨天 18:00 之后我们将自建 docker swarm 集群上的所有应用都切换到了阿里云 swarm 容器服务 (非 swarm mode , 不支持 overlay 网络) 的集群上
今天晚上我们通过阿里云容器服务控制台将 1 个节点移出集群(当时集群中一共有 9 个节点)
没想到这样一个常规操作竟然造成了博问站点故障
故障时间 20:53-20:55 左右, 由此给您带来麻烦, 请您谅解
发现故障时, 我们通过阿里云容器服务控制台重新部署博问应用后恢复正常
故障相关日志如下:
2018-3-22 20:53:28
伸缩服务 q_web 失败: Conflict: The name q_web_1 is already assigned. You have to delete (or rename) that container to be able to assign q_web_1 to a container again.
2018-3-22 20:53:28
伸缩服务 q_web 失败: Conflict: The name q_web_2 is already assigned. You have to delete (or rename) that container to be able to assign q_web_2 to a container again.
另外, 我们又发现重启集群中的 1 个节点也会造跑在这个节点上的所有应用故障, 而不像我们自建 docker swarm 集群那样会自动将容器迁移到其他节点而且, 节点重启后应用不能自动恢复, 需要手工一个一个重新部署应用
来源: https://www.cnblogs.com/cmt/p/8626825.html