在该实例发布之前, 业内均采用以单颗物理 GPU 为单位的云端异构计算服务, 这有利于客户获得强有力的计算能力. 如阿里云在 2017 年 10 月推出了业界最全的异构计算家族, 以及基于一个异构平台的高性能计算平台 E-HPC, 为用户提供单颗起步至超大规模的弹性计算服务. 当用户业务遇到业务高峰时可以在数分钟内实现扩容, 大幅降低了企业使用异构计算能力的门槛, 目前已服务于新浪微博, 旷视科技, 中国工程院等众多企业和机构.
然而, 在不少使用异构计算服务的场景中,"计算资源过剩" 问题也尤为明显. 以云游戏为例, 企业通常仅需要一颗物理 GPU 几分之一的计算能力即可流畅完成图形或视觉计算; 人工智能领域也存在类似问题, 深度学习推理场景对 GPU 的计算资源消耗可能仅仅是训练阶段的数十分之一, 甚至更少. 对于这类应用场景而言, 轻量级计算异构产品可以提升系统灵活性, 并大幅降低成本.
而阿里云本次首家提供云上轻量级 GPU 实例, 意味着用户可以用更细粒度的计算资源开启业务. 该产品基于 NVIDIA Tesla P4 GPU, 支持多种规格, 企业可以按需选择实例规格或者在云市场选择 NVIDIA Quadro 虚拟工作站, 适用于云游戏, AR/VR 以及图形处理等随需应变的 GPU 计算场景.
阿里云表示, 5 月还将发布基于 NVIDIA T4 的 GPU 异构计算产品 VGN6i 实例, NVIDIA T4 采用最新的 Turing 架构, 在虚拟化环境中更为灵活, 可加速深度学习和推理工作流程的 Tensor Core, 以及可加速光线追踪和批量渲染的 RT Core.
该产品由阿里云与 NVIDIA 合作研发, 集成了阿里云智能资源调度技术, 用户可以按需选择适量的计算资源; 同时, 还采用了安全隔离技术, 实现不同用户之间的强隔离, 有效防止信息泄漏; 除此之外, QoS 控制技术保障了每个用户的 GPU 资源不被其他租户抢占.
阿里云智能异构计算产品专家张新涛表示,"随着轻量级 GPU 异构计算产品的推出, 阿里云实现了 GPU 的异构计算场景全覆盖, 可以为用户提供从从轻量到高性能计算的服务."
云端异构计算并非单纯地堆积硬件性能, 需要做深度的软硬件结合及优化才能发挥其性能优势. 阿里巴巴集团在异构计算领域拥有多年研发经验, 该技术大规模应用于拍立淘, 商品分类等场景.
作为全球前三, 国内第一的云服务商, 阿里云拥有丰富的异构计算产品, 具备智能调度, 自动运维, 实时扩容等能力, 结合业界首个自研的异构计算加速框架 Ali-Perseus, 可以同时支持 TensorFlow,Caffe,MxNet,Pytorch 等流行机器学习框架在集群训练和推理时的加速, 最高可以将深度学习任务成本降低 50% 以上.
2018 年 12 月, 在斯坦福大学发布的最新 DAWNBench 深度学习推理榜单, 阿里云异构计算获得了图像识别性能及成本双料冠军.
来源: https://yq.aliyun.com/articles/694276