2018 年 12 月 6 日, 对于日本运营商软银, 简直是噩梦般的一天.
下午 13 点 39 分, 软银东日本和西日本两大中心机房的 18 台 4G 核心网网元突发故障, 造成全网大量用户无法正常通信.
软银被这突如其来的大故障惊呆了, 从 CTO 到工程师, 上上下下忙成一团, 整整花了近两个小时才定位出故障原因, 直到下午 18 点 04 分才恢复故障.
本次故障历时 4 小时 25 分, 共计造成约 3060 万软银用户无法正常通信, 是日本通信史上一次罕见的重大通信事故.
事故发生后, 软银高层向用户公开道歉, 并承诺以后将加强设备备份管理, 严防事故再次发生.
由于故障发生在白天, 影响范围广, 对软银造成了极大的负面影响, 股票大跌, 5 天内超过 1 万户用户解约.
估计连日本总务省也惊呆了, 直到 20 天后, 也就是今天, 才官方公布确认 "收到软银提交的严重事故报告".
以下内容来自软银的故障报告...
概要
发生时间:
2018 年 12 月 6 日 13:39 至 18:04(4 小时 25 分钟)
影响内容:
•4G LTE 移动电话无法进行语音通话和数据通信.
• 部分 LTE 固话和家庭 Wi-Fi 无法正常使用
• 由于 4G 网络故障, 导致 3G 网络拥塞
影响范围:
全国(约 3060 万线用户)
故障原因:
4G 核心网设备 (MME) 软件缺陷导致.
故障原因分析
故障具体原因为核心网网元 MME(移动管理实体), 即 4G 分组交换设备的数字证书 (TSL 证书) 过期导致.
TLS(Transport Layer Security, 传输层安全)是为网络通信提供安全及数据完整性的一种安全协议.
软银解释到, 他们在东日本和西日本两大中心机房合计部署了 18 台分组交换设备, 这些设备都是按照远期需求配置, 有足够的负荷冗余量, 目前仅使用了 30%-40% 的负荷.
同时, 18 台设备相互备份, 且均为池化部署, 这意味着即使任何一台甚至多台设备发生故障都不会影响服务正常提供.
但是, 数字证书过期这种事就不一样了.
TSL 数字证书过期, 意味着系统无法识别那些连接分组交换设备的其他设备是否合法, 此时, 系统检测到异常, 根据软银现网设置, 会采用重启的方式来试图恢复.
不过, 数字证书过期这种事, 即使重启 N 次, 也是无法恢复的, 因此, 就发生了不断重启的死循环, 从而导致了这次重大故障.
此外, 由于 4G 网络服务中断, 导致大量用户转移到 3G 网络, 这也造成 3G 网络严重拥塞.
数字证书过期了
为什么没有及早发现?
软银解释到, 该分组交换设备的数字证书不同于其他网络设备.
通常, 对于其他网络设备, 我们在购买设备后, 是可以自行确认数字证书到期时间的.
但分组交换设备的数字证书是通过嵌入式软件固化在相应硬件里的, 作为运营商, 我们无法确认到期时间.
解决措施
临时解决措施
本次故障是由 2018 年 4 月升级的 Ver.1.14 版本引起, 而之前的 Ver.1.08 版本没有问题, 因此, 临时解决措施是从 Ver.1.14 版本回滚到 Ver.1.08 版本, 但这会导致一些 4G 物联网功能无法使用.
中期解决措施
1)全网普查所有设备的相关证书是否到期, 包括全网基站设备.
2)制定更加严格的新设备和新软件版本入网测试规范.
3)要求在设备升级后一年内, 保留旧版本软件, 以在新版软件出现类似问题后, 快速回滚到旧版本.
永久性措施
1)要求以后所有购买的网络设备和软件, 运营商均可自行检查数字证书是否到期.
2)更改系统异常检测和应急机制, 当系统检测到网络异常时, 不再只是重启恢复, 而是设置异常告警级别, 根据门限判定是重启还是继续运行.
3)由于引起本次重大事故的原因之一是由于所有设备都来自同一家供应商, 因此, 要求在 2019 年 6 月 30 日之前引入多家设备供应商, 以分散风险.
看完软银的故障报告, 感觉是字里行间透露出一万个 "万万没想到", 尽管各种备份容灾都做到位了, 但意外还是发生了. 真是网络安全无小事, 运维责任重如山, 令人警醒.
来源: http://network.51cto.com/art/201812/589509.htm