新型冠状病毒肆虐, 为了防止疫情蔓延, 社会各界纷纷延期复工和开学. 但同时教育部也提出要利用线上模式保障防控疫情期间学生们 "停课不停学".
各大学校与教育机构响应号召, 使得近期在线教育需求激增. 在线教育学生的学习时间较为集中, 高峰时段呈现出大流量, 高并发的特点, 对在线教育机构的业务弹性和稳定性提出极大挑战.
面对突增流量压力, 如何迅速动态弹性扩容以及高效管控运维成为迫切问题, 原有的架构方案亟需有效升级.
阿里云的弹性裸金属服务器(神龙)+ 容器的解决方案, 可以完美满足类似场景, 深受在线教育企业认可, 并被数家网上教学, 远程协作平台企业应用. 这不仅提升了系统整体的可用性和可靠性, 也大大简化业务应用开发迭代流程, 从繁重的 IT 系统支撑工作, 转向在线业务的研发与用户的支持,"疫情期间" 轻装上阵.
弹性裸金属服务器基于阿里云自研的神龙 X-Dragon 架构, 神龙将网络 / 存储的虚拟化开销 offload 到一张叫 MOC 卡的 FPGA 硬件加速卡上, 降低了原 ECS 约 8% 的计算虚拟化的开销, 同时通过大规模 MOC 卡的制造成本优势, 摊平了神龙整体的成本开销.
神龙类物理机特性, 可进行二次虚拟化, 使得对于新技术的演进发展留足了空间, 对于采用一些多样的虚拟化的技术, 像 Kata,Firecracker 等成为了可能.
这使神龙与容器形成了天作之合. 经阿里巴巴 618 测试数据显示, 容器运行在云上神龙反而比非云物理机的性能要好 10%-15%. 主要是因为虚拟化开销已经 offload 到 MOC 卡上, 神龙的 CPU/Mem 是无虚拟化开销的, 而上云后运行在神龙上的每个容器都独享 ENI 弹性网卡, 性能优势明显.
基于容器化构建方式, 可以满足业务快速发放和弹性的要求. 底层采用神龙弹性裸金属服务器, 配合容器服务一起, 可以满足在线教育大流量, 高并发, 高稳定, 低成本的业务诉求.
该方案具备如下五大优势:
1, 极致性能, 利用率提升: 阿里云容器 K8S 服务可直接运行于阿里云裸金属 (神龙) 服务器上, CPU 和内存无任何虚拟化性能损失, 同时基于神龙技术架构优势, 使得整体性能比同等配置物理机更优. 在广泛的容器化场景中, 使用 Kubernetes 的容器调度能力, 可以实现应用的混布, 提升 3 倍以上的资源利用率, 充分利用到神龙 (X-Dragon) 弹性裸金属服务器的极致性能, 打造更高性价比.
2, 快速创建, 极简运维: 相比传统物理机数小时交付, 弹性裸金属 (神龙) 服务器可分钟级完成实例创建和启动, 并利用 Kubernetes 的调度和编排能力, 通过阿里云容器 k8s 服务与阿里云基础设施的紧密协同(SLB, VPC, NAS, SLS 等等), 在非常短的时间内, 支持业务极速部署, 极大的简化, 降低了运维的成本, 并且提高了在线教育业务架构自动化程度, 满足高峰时段弹性需求.
3, 增强网络功能和性能: 相比传统物理机, 弹性裸金属 (神龙) 服务器可支持 32 块甚至更多的 ENI 弹性网卡, 阿里云 K8S Terway 容器网络, 配合多 ENI 弹性网卡, 可充分发挥神龙服务器高带宽, 高 PPS 特性, 容器间跨主机的网络带宽相对宿主机几乎无性能损耗, 高质量地支持高峰时段大流量和高并发的网络请求.
4, 物理级别的隔离 + 应用层面的加密: 弹性裸金属 (神龙) 服务器的 CPU 和内存具备零虚拟化和彻底独占的特点, 具备更高的安全隔离性, 保障服务器的平稳性.
5, 高容错性与多可用区冗灾: 弹性裸金属 (神龙) 服务器的宕机自动迁移恢复结合 K8S 的容器容错漂移, 大大提高了系统的高可用性, 以及极大的提高了运维的自动化纠错能力. 同时基于弹性裸金属 (神龙) 服务器的多可用区部署, 阿里云 K8S 将实现真正意义的物理级别机器上构建应用的跨地域冗灾, 为在线教育业务的可用性保驾护航.
参考资料:
2684 亿背后的虚拟化技术: 双 11 All on 神龙 | 问底中国 IT 技术演进
阿里巴巴大规模神龙裸金属 Kubernetes 集群运维实践
弹性裸金属服务器 (神龙) 产品页
阿里云上万个 Kubernetes 集群大规模管理实践
来源: https://yq.aliyun.com/articles/744337