今天 11:29 - 11:39 左右, docker swarm 集群 3 个 manager 节点同时出现异常, 造成整个集群宕机, 由此给您带来很大的麻烦, 请您谅解
受此次故障影响的站点有: 博问, 闪存, 班级, 园子, 短信息, 招聘, 小组, 网摘, 新闻, openapi
最近我们刚刚确认我们所有遇到的 docker swarm 不稳定问题都与部分节点的异常状况有关, 即使是一直让我们非常头疼的 docker-flow-proxy 路由问题, 也是因为路由容器所在的节点出现异常状况, 只要通过阿里云控制台重启这台节点服务器, 就能恢复正常
我们的 docker swarm 集群节点部署是这样的: 5 台阿里云 2 核 4G 服务器作为 manager 节点, 1 台阿里云 4 核 8G 服务器作为 worker 节点基于这样的部署, 我们想即使部分节点出现异常状况也不会带来影响, 发现后重启节点服务器就行了但没想到今天 3 个节点同时出现异常状况最终通过阿里云控制台重启这些异常节点后恢复正常
对于节点的这种异常状况, 我们目前毫无头绪, 不知是我们的应用问题还是 docker 的问题还是阿里云服务器的问题, 目前唯一的线索是: 节点服务器持续运行时间越长, 出现异常状况的概率越高, 出现异常状况后通过阿里云控制台重启服务器立马恢复正常
对于目前无法确定是船的问题还是集装箱的问题还是货物的问题的困难处境, 我们的临时解决方法是改进对节点服务器的监控, 及时发现出现异常状况的节点进行重启操作
更新: 根据我们的进一步分析, 更保险的临时解决方法是当发现一个节点出现异常状况时要重启所有 manager 节点服务器
来源: https://www.cnblogs.com/cmt/p/8566696.html