最新消息, 尽管大多数云计算厂商已经在其数据中心内部部署 RDMA(Remote Direct Memory Access) 网络, 但阿里巴巴已经抢先一步: 其数据中心集群内的 RDMA 网络规模居于全球领先地位, 目前已有数十个数据中心支持 RDMA 网络, 延时可显著降低 90%, 最大程度满足人工智能, 科学计算等场景需求.
阿里云北京冬奥云数据中心
当用户在阿里云选择高性能云盘 ESSD, 云原生数据库 POLARDB, 云超算 SCC, 机器学习 PAI 等产品时, 均运行在 RDMA 网络之上. 也正因为如此, 这些广受欢迎的创新产品背后已经共享了网络的技术红利.
RDMA 是目前业内最受欢迎的高性能网络技术, 能大大节约数据传输时间, 被认为是提高人工智能, 超算等效率的关键. 数据显示, 在未使用 RDMA 网络时, 语音识别训练每次迭代任务时长为 650ms 至 700ms, 其中通信时延就占 400ms.
为了提高数据传输速度, 满足用户需求, 亚马逊, 微软等主要云厂商都在投入该技术的研发和部署, 但鲜有企业实现 RDMA 在数据中心的大规模应用.
在 2016 年, 阿里巴巴开始投入专项研究, 以改造 RDMA, 提高传输性能. 从网卡底层开始设计满足大规模应用的网络, 并结合阿里自研交换机实现性能最大化, 最终建成全球最大规模数据中心内的 "高速网", 使得集群极大地突破了传输速度瓶颈, 并将时延显著降低 90%.
以 2018 年天猫双 11 为例, 基于 RDMA 网络技术的云存储和电商数据库服务器可以从容地应对峰值流量考验.
而上汽集团乘用车也正采用加入高速 RDMA 互联支持的云超算 SCC 集群进行模拟仿真, 整体提升效率 25%.
"RDMA 网络已经成为人工智能, 科学计算等高性能计算, 存储业务的必备技术, 我们将继续探索更高带宽的网络技术, 未来将部署 100G 高速网络, 为企业提供稳定, 低延时的网络服务." 阿里巴巴基础设施首席网络架构师蔡德忠向记者表示.
作为全球前三, 国内第一的云服务商, 阿里云在全球 19 个地域拥有 56 个可用区, 网络总带宽已达到 PB 级别超大规模, 目前正在测试 400G 网络的研发, 推出的 400G QSFP-DD 行业标准已受到全球企业广泛支持.
来源: https://yq.aliyun.com/articles/693509