非常非常抱歉, 今晚 19:34 ~ 21:16 园子所使用的阿里云 RDS 数据库服务器突然出现 CPU 100% 问题, 造成全站无法正常访问, 由此您带来了很大的麻烦, 请您谅解.
故障经过是这样的. 19:34 这个时间点本来是一个访问低峰, 数据库压力比访问高峰时低很多, 但数据库服务器却异想天开, 吃饱了撑着地让自己的 CPU 满负荷工作 (到现在我们都没想通, 难道是服务器晚饭吃多了想帮助消化?). 开始我们以为是某个应用引起的, 一个一个应用排查与重启, 但 CPU 不为所动, 依然百分百. 接着, 我们一边向阿里云提交工单求助, 一边通过阿里云 RDS 控制台进行主备切换, 虽然控制台显示切换成功后, 但 "实例可用性" 中主备库信息无任何变化, 实际主备库切换并没有成功, 绝招也失灵. 请阿里云帮忙手动进行主备切换, 但阿里云操作后反馈由于数据库访问压力大, 手动也切换不过去, 建议我们重启实例. 最终, 我们决定重启实例, 重启实例后一切恢复正常. 是的, 就是用最笨的方法 -- 重启 -- 解决了问题, 在故障期间我们采取的所有措施都是徒劳, 让人哭笑不得.
望着今晚被狂风暴雨突袭后一片狼藉的园子, 心中说不出的难受和愧疚. 真的很抱歉, 我们一直在努力建设园子, 但今天的故障又告诉我们, 没那么容易, 我们的努力还不够, 我们别无选择, 唯有更加努力.
来源: https://www.cnblogs.com/cmt/p/11461524.html