以往容灾只有银行, 证券等金融行业的大企业才做的起, 通威云容灾项目的初衷是打造一个低成本的容灾项目, 让中国企业不会在谈到容灾时因为技术和成本问题望而却步. 通威 FBC 平台云容灾项目的顺利交付, 不仅成就了通威, AWS 以及知行志成三方, 也给传统企业进行云容灾开辟出了一条通路.
时隔三年, 再见通威股份有限公司 CIO 周勇, 是在位于成都的通威总部, 现代化的办公环境, 富有科技感的 IT 创新体验中心, 都给笔者留下了深刻印象. 在周勇的引导下, 笔者参观了通威的信息化展厅以及先进的私有云机房, 切身地感受了信息化建设给通威带来的巨大变革.
回顾三年前, 彼时的通威正在迈开 IT 转型的步伐, 建设集中一体化运营的 ERP 系统, 建立通心粉社区, 打造全球水产人的网上家园, 建立通威智能水产养殖系统实现智能养殖, 以私有云为架构建立 FBC 融合业务云平台开启云化转型, 这一系列的信息化建设举措为通威业务的快速发展夯实了基础.
通威股份有限公司 CIO 周勇
通威股份是较早一批采用统一通讯系统的企业, 目前已更新至第三代云视频会议系统, 企业内部跨地域, 跨国之间的视频会议均免费, 内部沟通与协作十分高效. 此外, 通威已完成 SRM 供应商 & 协同管理系统, HRM 人力资源管理系统, 决策分析 BI 系统等信息化建设工作, 为助力集团业务发展, 促进管理提升打下了良好基础.
借助先进的技术平台和管理思想, 通威构建了面向未来的数字神经网络, 这让通威更具竞争力, 与此同时, 业务对 IT 的重度依赖, 也让周勇身上的负担越来越重. 通威的私有云数据中心采用了双电源, 三条互联网线路, 通威大楼也配备发电机, 周勇提到:"虽然我们的私有云数据中心非常先进, 但是随着业务对 IT 的依赖度越来越高, 一旦机房, 网络出现问题, 一个电话都打不出去, 对业务造成的影响更是无法估量, IT 团队时刻处于提心吊胆的状态."
从隐患存在到事故发生只需要一根引线, 有一年 9 月底, 由于光纤被挖断, 通威当天要进行月度结算, 数据中心的运算量非常大, 如果不能快速修复, 对于已经上市的通威来说可能造成较高的收入结算影响. 这样的后果显然不是 IT 团队能承担的, 还好当天事故得以快速解决, 没有造成严重的后果, 但是这样玩心跳的状态显然不是周勇想要的.
公有云容灾方案初探
要想保证私有云上 IT 系统的稳定性和连续性, 容灾模式是必然选择. 对于像通威这样以农业为主的传统企业来说, 99% 以上的企业都没有做容灾, 成本太高, 技术难度大, 建设周期长, 管理维护复杂, 扩展性差是主要原因.
传统容灾不可取, 周勇很快想到用公有云环境做容灾的可行性, 这是公有云的创新应用, 可参考的案例非常少, 合作伙伴的选择更需谨慎. 另外, 公有云容灾涉及到将传统核心系统向公有云迁移的问题, 受传统 IT 架构的影响, 数据上云容易, 要想保证公有云和本地数据中心的数据同步却是一个很大的难题.
经过慎重的综合考察, 通威选择与 AWS 及 AWS 高级咨询合作伙伴四川知行志成科技有限公司共同探索公有云容灾方案. 提及选择 AWS 的原因, 周勇认为主要有三个理由: 一是 AWS 在全球云计算领域领军者的地位; 二是 AWS 在中国拥有大量的实践案例, 也有中国本地的数据中心, 业务与支撑服务发展状态良好; 三是 AWS 对创新项目的支持非常给力, 双方在背后均付出了大量的努力.
云迁移的思路, 一般都是从简单应用开始, 通威则恰恰相反. 在周勇看来, 与其对 HR 等独立性较强, 集成度较低的单个系统做容灾测试, 不如直接做复杂核心系统的容灾, 因为核心系统的容灾对企业来说更有价值, 对企业业务的影响更大.
"坦率地说, AWS 开始做我们的项目, 也不一定非常有底." 周勇如是说:"基于 IaaS 环境做容灾, 迁移到云上没有问题, 但是我们选了 FBC 融合业务云平台这个复杂的核心系统来做, 所以他们也不是很有底, 但是他们做到了, 而且做成了一个非常好的方案和服务."
FBC 融合业务云平台的复杂度在于它是一个应用集, 包含了门户, BPM(流程管理), 身份管理, BI,SLA,EBS(企业服务总线), 知识管理等各类应用. FBC 与三十余个系统集成, 是通威当之无愧的核心系统, 与之有关联的接口多达 500 余个. FBC 一旦出现问题, 所有的业务系统可能都会受其影响, 对 FBC 进行云容灾, 风险和难度可想而知.
周勇回忆, 通威云容灾项目从 2018 年 6 月开始进行技术方案测试, 到 2018 年 10 月, 云上, 云下迁移的技术方案已全部完成测试验证. 在随后的一年里, 通威一方面进行 AWS 技术认证, 另一方面针对非云架构的自有系统, 进行改造和解耦来适应云架构, 解决数据传输速度和效率问题的同时, 也攻克了多用户在云上运行效率的难关.
普适性, 低成本的云容灾成为可能
值得一提的是, 2019 年 6 月份, 通威遇到了云容灾项目中的一大瓶颈, 那就是大量数据交互的问题. 系统和接口的改造带来了集成方式和网络环境的变化, 同时也会带来效率, 集成和速度方面的问题. 通威的本地数据中心用的是双路光纤, 万兆光纤通信, 系统和数据放在云上, 传输效率是否会大打折扣是周勇非常担心的问题. 经过对比测试后发现, 在云上用 500 Mbps 与本地的万兆光纤进行数据传输, 足以满足业务的访问需求, 随后项目团队又测试了 200 Mbps 的云上传出方案, 也足以支撑实际生产环境中数据交换集成对网络环境的要求. 至此, 通威打通了私有云数据中心与 AWS 公有云之间的通路, 其核心应用 FBC 系统成功在 AWS 云上实现容灾, 形成了具有安全性, 高可用, 可扩展的混合云架构.
通威混合云容灾备份架构图
在笔者看来, 周勇是一个怀揣梦想, 勇于探索的实干家. 以往容灾只有银行, 证券等金融行业的大企业才做的起, 通威云容灾项目的初衷是打造一个低成本的容灾项目, 让中国企业不会在谈到容灾时因为技术和成本问题望而却步. 通威 FBC 平台云容灾项目的顺利交付, 不仅成就了通威, AWS 以及知行志成三方, 也给传统企业进行云容灾开辟出了一条通路. 周勇强调:"200 Mbps 意味着什么? 意味着这是一款云上灾备的普适性, 低成本的方案, 这个项目做完了, 中国企业的传统数据中心在云上做灾备, 没有做不成的."
为了降低项目的总体成本, 实现云容灾的普适性, 通威与 AWS 进行了多次尝试. 一是更换了项目灾备软件中核心的 VRP(通用路由平台), 将 VRP 的成本降到很低的水平; 二是考虑到云上资源的占用差异, 将业务中断时间设置为 30 分钟, 在节约成本的同时, 30 分钟内就可以切换到云上, 快速恢复核心业务, 解决了 IT 的核心问题. 另外, 云上的服务器无需开机, 企业只需支付日常的存储费用, 只有在异常事件发生需要启动云容灾时才会开机, 因此可以将容灾费用降低至十分之一, 百分之一甚至更低水平.
当前, 中国的大部分企业都处于轻基础架构, 重应用的状态, 因此企业需要一个庞大的 IT 团队去维护基础架构. 通威云容灾项目的另一个核心价值, 在于能将 IT 团队从复杂, 繁琐的运维管理工作中解放出来, 有更多的时间和精力去关注业务和创新, 为企业的 IT 转型提供更重要的支撑.
探索未来
将 FBC 系统迁移至公有云只是通威云容灾的初步探索, 接下来周勇期望继续探索企业上云路径, 将 ERP 以外的系统全部在云上做灾备, 尝试将公有云作为主环境, 用本地数据中心做备份环境, 甚至不再扩建本地数据中心, 而是采用多云数据灾备的形式, 在保障企业已有 IT 投入的同时, 能够跟上技术发展的潮流.
未来, 通威 IT 团队将在三个方面继续发力, 一是通过数字中台实现前端业务的转型创新, 二是探索混合云建设路径, 三是摸索提高 IT 团队响应效率的管理方法, 如流程驱动, 敏捷开发模式, DevOps 及 IT 运维转型等. 通威 IT 团队将通过以上三种途径, 助力通威提升数字化竞争力, 加快数字化转型进程.
来源: http://cloud.51cto.com/art/201909/602950.htm