集群故障处理之处理思路以及健康状态检查 (三十二)

前言

按照笔者的教程, 大家应该都能够比较顺畅的完成 k8s 集群的部署, 不过由于环境, 配置以及对 Linux,k8s 的不了解会导致很多问题, 异常和故障, 这里笔者分享一些处理技巧和思路, 以及部分常见的问题, 以供大家参考和学习.

总之, 出现问题不要慌, 先根据异常, 故障症状初步推敲问题的所在, 然后结合相关命令, 工具, 日志推敲出具体问题. 其中, 具体的日志内容是关键, 请务必获得相关异常的详细日志进行诊断, 而不是被表象所迷惑, 或者根据表象问题 (比如 "XXXX"pod 崩溃了) 去猜, 搜索或者请教他人. 总体上, 思路如下图所示:

如果问题实在无法解决或者无法确定是哪里的配置以及操作不当引起的, 可以试着重置节点以及重置集群.

如果出现问题, 我们应该怎么去分析和解决问题呢? 下面, 笔者将分享一些思路和经验:

健康状态检查 -- 初诊

组件, 插件健康状态检查

Kubernetes 组件异常分析

节点健康状态检查

Pod 健康状态检查

健康状态检查 -- 初诊

首先, 我们需要根据表象进行初步诊断, 以便沿着线索按图索骥.

组件, 插件健康状态检查

使用命令:

kubectl get componentstatus

或

kubectl get cs

健康情况下如下图所示:

Kubernetes 组件 (插件) 部分默认基于 systemd 运行, 比如 kubelet,docker 等, 我们需要使用以下命令确保其处于活动 (active) 状态:

systemctl status kubelet docker

而大部分的 Kubernetes 的组件则运行在命名空间为 "kube-system" 的静态 Pod 之中(参见 "kubeadm init" 一节), 我们可以使用以下命令来查看这些 Pod 的状态:

kubectl get pods -o wide -n kube-system

Kubernetes 组件异常分析

k8s 组件主要分为 Master 组件和节点组件, Master 组件对集群做出全局性决策(比如调度), 以及检测和响应集群事件. 如果 Master 组件出现问题, 可能会导致集群不可访问, Kubernetes API 访问出错, 各种控制器无法工作等等. 而节点组件在每个节点上运行, 维护运行的 Pod 并提供 Kubernetes 运行时环境. 如果节点组件出现问题, 可能会导致该节点异常并且该节点 Pod 无法正常运行和结束.

因此, 根据不同的组件, 可能会出现不同的异常.

kube-apiserver 对外暴露了 Kubernetes API, 如果 kube-apiserver 出现异常可能会导致:

集群无法访问, 无法注册新的节点

资源 (Deployment,Service 等) 无法创建, 更新和删除

现有的不依赖 Kubernetes API 的 pods 和 services 可以继续正常工作

etcd 用于 Kubernetes 的后端存储, 所有的集群数据都存在这里. 保持稳定的 etcd 集群对于 Kubernetes 集群的稳定性至关重要. 因此, 我们需要在专用计算机或隔离环境上运行 etcd 集群以确保资源需求. 当 etcd 出现异常时可能会导致:

kube-apiserver 无法读写集群状态, apiserver 无法启动

Kubernetes API 访问出错

kubectl 操作异常

kubelet 无法访问 apiserver, 仅能继续运行已有的 Pod

kube-controller-manager 和 kube-scheduler 分别用于控制器管理和 Pod 的调度, 如果他们出现问题, 则可能导致:

与本文相关文章

暂无,快来抢沙发吧！