还记得 8 月份占据各家科技头条的有史以来最大芯片吗?
这个名为 Cerebras Wafer Scale Engine(WSE)的 "巨无霸" 面积达到 42225 平方毫米, 拥有 1.2 万亿个晶体管, 400000 个核心, 片上内存 18 Gigabytes, 内存带宽 19 PByte/s,fabric 带宽 100 Pbit/s, 是目前芯片面积最大的英伟达 GPU 的 56.7 倍.
就在刚刚, 在超级计算 2019 峰会 (Supercomputing 2019 Event) 上, 这家备受瞩目的硅谷初创公司 Cerebras, 又宣布了大消息, 发布了号称世界上最快的深度学习计算系统 CS-1.
Cerebras 同时还宣布, CS-1 已经获得了美国政府超级计算机项目的认可.
目前, 第一台 CS-1 已经向美国能源部的 Argonne 国家实验室交付完毕, 将投入处理大规模的人工智能计算问题, 比如研究癌症药物的相互作用.
尽管 CS-1 的性能还没有得到相关验证, 但似乎仍为大规模人工智能计算提供了一种新可能.
一, 专为人工智能计算设计的超级计算系统
Cerebras 其实是一家刚刚成立三年的硅谷初创公司, 但凭借几次重要发布, 目前已经融资超过 2 亿美元.
Cerebras 主页
如此受瞩目是因为其在人工智能芯片制造上采取了一种不同以往的方法 -- 将所有数据保存在一块巨大的芯片上, 以便系统更快运行.
AI 系统一般会搭载许多芯片协同工作. 但这存在一个显著问题, 在芯片之间进行数据传输很慢, 并且会限制芯片的分析速度.
成立之初, Cerebras 就希望建立一种专门为深度学习优化的新型计算机, 为特定的工作负载选择正确的计算机体系结构.
Cerebras 表示, 与其他系统相比, CS-1 的每一个组件都专门针对人工智能工作优化, 可以以更小的尺寸和更少的能源消耗下提供更高的计算性能.
CS-1 高度达到 26 英寸(约 66 厘米), 大概相当于一个小的行李箱. 据相关报道, 一个机架中包含了 1,000 个 GPU 的集群, 50 千瓦的功率. 单个 Cerebras 芯片的内核数量是单个 GPU 的 78 倍以上, 内存是 3,000 倍, 内存带宽是 10,000 倍, 此外它还具有 33000 倍的带宽(PB/s).
CS-1 的侧视图
这个性能有多强大呢? 对比一下谷歌的 TPU v3,CS-1 功耗是它的五分之一, 体积只有它的三十分之一, 但速度却是整个 TPU v3 的三倍.
二, 搭载全世界最大芯片, 几分钟完成传统芯片几个月的任务
Cerebras 为 CS-1 设计了专门的系统和软件平台, 以从史上最大芯片 WSE 上的 40 万个计算内核和 18G 高性能片上存储器中提取极限处理能力.
在人工智能计算中, 芯片越大越好. 更大的芯片处理信息更快, 能在更短的时间内得到训练结果. 但是, 仅有优异的处理器性能还远不足够. 像 WSE 这样的高级处理器必须与专用的软件相结合才能实现破纪录的性能. 因此, Cerebras 专门为这一巨型芯片开发了 CS-1 内置系统和软件平台, 各方面都为加速人工智能计算专门设计.
Cerebras 首席执行官安德鲁. 费尔德曼 (Andrew Feldman) 在接受 VentureBeat 采访时说:"这是从 300 毫米晶圆中切割出的最大" 正方形 ". 尽管我们拥有最大, 最快的芯片, 但我们知道, 一个非凡的处理器未必足以提供非凡的性能. 如果想提供非常快的性能, 那么就需要构建一个系统. 而且并不是说把法拉利的引擎放进大众汽车里, 就能得到法拉利的性能. 如果想要获得 1000 倍的性能提升, 需要做的就是打破瓶颈."
Cerebras 首席执行官安德鲁. 费尔德曼(Andrew Feldman)
Cerebras 表示, 他们是唯一一家从头开始建立专用系统这一任务的公司. 通过优化芯片设计, 系统设计和软件的各个方面, CS-1 目前的性能令人满意.
通过 CS-1 和配套的系统软件, AI 需要几个月才能完成的工作现在可以在几分钟内完成, 而需要几个星期完成的工作可以在几秒钟内迅速完成.
CS-1 不仅从根本上减少了训练时间, 而且还为降低延迟设立了新的标杆. 对于深度神经网络, 单一图像的分类可以在微秒内完成, 比其他解决方案快几千倍.
"这是一台由 40 万个专用人工智能处理器组成的人工智能系统." 费尔德曼说.
三, 已经与 Argonne 国家实验室达成合作
来源: http://www.open-open.com/news/view/5264648534976031259