现在, 网络中断时长已经成为考核数据中心的一项必选指标, 很多数据中心都要求全年无故障, 如此除了建设完备的冗余网络之外, 还要解决故障时设备无法及时登录的问题.
数据中心网络是由成千上万台设备连接在一起组成的. 这么多设备不出一点问题是不可能的, 所以数据中心都有自己的网络运维团队. 不过, 很多时候出现网络故障时, 很多设备无法再通过网络登陆, 导致短时间不能定位问题并恢复业务, 尤其是无人值守的数据中心, 运维的人员根本来不及去现场, 这样网络中断时间可能达到小时级. 现在, 网络中断时长已经成为考核数据中心的一项必选指标, 很多数据中心都要求全年无故障, 如此除了建设完备的冗余网络之外, 还要解决故障时设备无法及时登录的问题.
其实, 任何一台网络设备都设计了管理口, 串口, 调试口, 这些端口独立于转发层面, 即使设备网络转发出了问题, 这些端口依然可以正常使用, 这样就能在网络故障时检查和分析设备的运行状态, 快速定位问题. 除非设备的 CPU 出了故障, 或者软件彻底跑飞, 这样影响到了管理口, 这时也只能将设备隔离或重启设备来快速恢复业务. 这些端口只能到机房接上线缆才能登录, 也是非常不方便的, 对于大型数据中心, 机房分散到全国各地, 网络工程师还没有机房多, 出了问题根本无法保证人在现场, 所以很多人倾向于建设一套 OOB 网络.
OOB(Out Of Band)带外网络, 是指通过一套与任何数据转发网络都没有关联的独立网络, 网络控制中心可以连接到各个服务器或任意一台网络设备的管理口或串口, 当数据转发网络出问题时, OOB 网络不受影响, 这样就可以通过 OOB 访问设备. 有了 OOB, 无疑是给数据中心网络一根救命稻草, 在关键时候能起到大作用. OOB 的作用不止于此, 将设备管理和数据转发层面分开, 正是未来网络发展的大趋势, OOB 也属于这方面的技术之一; OOB 仅跑管理流量, SNMP, 监控等网络功能都可以放到 OOB, 避免受转发数据的影响; OOB 网络架构简单, 流量也不大, 不涉及复杂网络协议, 只要二三层互通即可, 所以几乎不出问题, 可靠性非常高, OOB 不像数据网络要经常因为业务调整网络, OOB 只要保证互通即可, OOB 可以采用一些价格便宜的低性能网络设备实现互联即可, 建设和维护 OOB 网络, 对于数据中心成本并不高, 很多数据中心都开始建设 OOB.OOB 将所有网络设备集中管理起来, 方便研究整个网络的设备运行行为, 找出不足, 可提升网络运维的效率.
不过, 任何事情都有两面性, 建设 OOB 这件事儿也有弊端. 首先, OOB 也是通过互联网连接起来, 如果是运营商网络故障, 比如传输设备中断, OOB 和数据网络都中断, 有 OOB 也无济于事, OOB 的控制范围都是在数据中心内部网络, 外部就不受其控制了; 其次, 网络设备的管理口, 串口, 调试口作用是不同的, OOB 一般连接的是管理口, 不可能将三个口都串接到 OOB 中, 这样一旦需要串口 (完全独立与数据转发和管理口, 几乎不受网络影响, 除非串口本身坏了或者设备 CPU 故障) 和调试口(虽然几乎很少用到, 主要是设备开发过程中使用, 但偶尔定位问题使用也非常有效), 还是需要人员到机房现场才行; 第三, OOB 的网络一旦出问题, 只能现场处理, 无法再通过网络去访问 OOB 网络中的设备, 所以 OOB 网络的运维成本不低, 尽量要确保 OOB 不出问题, 网络越简单越好; 第四, OOB 网络里都是设备的管理数据, 重要性很高, 尤其是各个设备的登陆密码和方式, 一旦被人窃取, 相当于将整个网络向人敞开, 非常不安全. OOB 网络中设备大多防攻击能力很差, 若部署额外的安全设备, OOB 的投入成本就会变高, 这时就要在安全性和可靠性方面上做取舍. 总之, OOB 也不能解决一切网络问题, 认为有了 OOB, 网络运行就能高枕无忧了是不对的, OOB 会带来新的问题, 只不过从可靠性角度来看, OOB 的确会增强网络安全性, 尤其是在网络故障时, OOB 能起到大作用, 是网络的救命稻草.
在数据中心网络中建设 OOB 已经成为必然趋势, 尤其是高标准数据中心, 必须有这样一套 OOB 网络. OOB 的网络设备可以选择转发性能低一些, 网络协议单一的傻瓜式设备就可以, 尽可能地降低建设成本. 同样 OOB 也要求是 7*24 小时的高可用性, 随时随地可以访问 OOB, 试想如果突然无法通过 OOB 访问数据中心的网络设备, 就好比人突然失明一样, 虽然还没遇到危险, 但也是一件非常恐怖的事儿, 所以一定要确保 OOB 网络的可靠性. 将 OOB 的网络建设简单就是这样的目的, 减少故障风险点.
数据中心有了这根救命稻草 OOB, 也不要掉以轻心, OOB 并不能解决任何网络问题. 当某些设备 CPU 挂死, 两个转发通道都不能转发时, 有 OOB 也无济于事, 如果这时 OOB 还能连接串口, 又给了处理故障的一线机会, 通过串口采集必要信息, 并对设备执行重启去恢复业务, 如果连串口都不响应了, 恐怕只能对设备进行现场断电, 设备下线处理了. 所以, OOB 只不过是在网络中断时, 提供了这样一个快捷通道, 给了数据中心网络一根救命稻草, 至于关键时候能否救命就要看造化了. 这就好比是公路上的应急通道, 公路上出现了交通事故, 交警可以通过应急通道快速抵达事故现场, 紧急车辆也可以通过应急通道通过. 不过, 我们更多时候看到的是, 一旦出了交通事故, 应急车道就会被普通车辆占满, 导致事故处理时间更久. 数据中心的 OOB 网络一定要完全独立于数据转发网络, 两者完全独立, 互不影响, 这样才能避免出现象公路上应急通道被堵的情况.
来源: http://network.51cto.com/art/201805/573012.htm