Achronix Robert Blake: 面向 AI 应用开发的 Speedster7t, 性能升级且成本大幅降低

如今, 人工智能已成为引领科技发展的重要驱动力, 全球各科技公司纷纷布局人工智能. 随着技术的不断突破, 人工智能的应用领域越来越广泛, 对计算力的要求也越来越高. 传统的计算模式, 已经难以满足人工智能计算力的需求, 而性能更强的定制化芯片开始逐步应用到数据中心当中.

近日, 国际一流的 FPGA 厂商 Achronix 半导体公司在京召开了新品发布会, 正式推出了专门为人工智能加速的 Speedster7t 系列新产品. Achronix Semiconductor 总裁兼首席执行官 Robert Blake 在发布会现场表示, 我们正处于智能化, 自学习计算的高增长阶段的早期, 这种计算将广泛影响我们日的常生活. peedster7t 是 Achronix 历史上最令人激动的发布, 代表了建立在四个架构代系的硬件和软件开发基础上的创新和积淀, 以及与我们领先客户之间的密切合作. Speedster7t 是灵活的 FPGA 技术与 ASIC 核心效率的融合, 从而提供了一个全新的'FPGA+'芯片品类, 它们可以将高性能技术的极限大大提升.

全新架构设计的 Speedster7t 性能直接 ASIC

据介绍, Speedster7t 采用了 TSMC 的 7nm FinFET 工艺制造, 是专为接收来自多个高速来源的大量数据而设计, 同时还需要将那些数据分发到可编程片上算法性和处理性单元中, 然后以尽可能低的延迟来提供那些结果. Speedster7t 系列产品包括高带宽 GDDR6 接口, 400G 以太网端口和 PCI Express Gen5 等接口, 所有这一切单元都互相连接以提供 ASIC 级带宽, 同时保留 FPGA 的完全可编程性.

Speedster7t FPGA 的核心是其全新机器学习处理器 (MLP) 中大规模的可编程计算单元平行阵列, 它们可提供业界最高的, 基于 FPGA 的计算密度. MLP 是高度可配置的, 计算密集型的单元模块, 可支持 4 到 24 位的整点格式和高效的浮点模式, 包括对 TensorFlow 的 16 位格式的支持, 以及可使每个 MLP 的计算引擎加倍的增压块浮点格式的直接支持.

MLP 与嵌入式存储器模块紧密相邻, 通过消除传统设计中与 FPGA 布线相关的延迟, 来确保以 750 MHz 的最高性能将数据传送到 MLP. 这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于 FPGA 的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-Operations Per Second).

高性能计算和机器学习系统的关键之处是高片外存储器带宽, 从而为多个数据流提供存储源和缓冲. Speedster7t 器件是唯一支持 GDDR6 存储器的 FPGA, 该类存储器是具有最高带宽的外部存储器件. 每个 GDDR6 存储控制器都能够支持 512 Gbps 的带宽, Speedster7t 器件中有多达 8 个 GDDR6 控制器, 可以支持 4 Tbps 的 GDDR6 累加带宽, 并且以很小的成本就可提供与基于 HBM 的 FPGA 等效存储带宽.

除了这种非凡的存储带宽, Speedster7t 器件还包括业界最高性能的接口端口, 以支持极高带宽的数据流. Speedster7t 器件拥有多达 72 个业界最高性能的 SerDes, 可以达到 1 到 112 Gbps 的速度. 还有带有前向纠错 (FEC) 的硬件 400G 以太网 Mac, 支持 4x 100G 和 8x 50G 的配置, 以及每个控制器有 8 个或 16 个通道的硬件 PCI Express Gen5 控制器.

Robert Blake 表示, 通过将 FPGA 的可编程性与 ASIC 的布线结构和计算引擎完美地结合在一起, Speedster7t 系列产品创造了一类全新的 "FPGA +" 技术.

高带宽二维片上网络提供了高效的数据移动性

为了解决大数据带来的高带宽的问题, Speedster7t 架构采用了一个可横跨和垂直跨越 FPGA 逻辑阵列的创新性的, 高带宽的二维片上网络(NOC), 它们连接到所有 FPGA 的高速数据和存储器接口. 它们就像叠加在 FPGA 互连这个城市街道系统上的空中高速公路网络一样, Speedster7t 的 NoC 支持片上处理引擎之间所需的高带宽通信. NoC 中的每一行或每一列都可作为两个 256 位实现, 单向的, 行业标准的 AXI 通道, 工作频率为 2Ghz, 同时可为每个方向提供 512 Gbps 的数据流量.

通过在 Speedster 中实现专用二维 NoC, 极大地简化了高速数据移动, 并确保数据流可以轻松地定向到整个 FPGA 结构中的任何自定义处理引擎. 最重要的是, NOC 消除了传统 FPGA 使用可编程路由和逻辑查找表资源在整个 FPGA 中移动数据流中出现的拥塞和性能瓶颈. 这种高性能网络不仅可以提高 Speedster7t FPGA 的总带宽容量, 还可以在降低功耗的同时提高有效 LUT 容量.

256 位的 AES-GCM 加密算法确保应用的安全防护功能

众所周知, 在处理大量的数据过程中, 除了性能和网络带宽之外, 数据安全也是至关重要的因素, 而 Speedster7t FPGA 系列产品在设计时就充分考虑到了这一点.

据介绍, 在面临第三方攻击的威胁时, 可用最先进的比特流安全保护功能应对, 它们具有的多层防御能力可保护比特流的保密性和完整性. 密钥是基于防篡改物理不可克隆技术 (PUF) 进行加密, 比特流由 256 位的 AES-GCM 加密算法进行加密和验证. 为了防止来自旁侧信道的攻击, 比特流被分段, 每个数据段使用单独导出的密钥, 且解密硬件采用差分功率分析 (DPA) 计数器措施.

此外, 2048 位 RSA 公钥认证协议被用来激活解密和认证硬件. 用户可以确信的是当他们加载其安全比特流时, 它是预期的配置, 这是因为它已通过 RSA 公钥, AES-GCM 私钥和 CRC 校验进行了身份验证.

Robert Blake 告诉记者, Achronix 在 SpeedcoreeFPGA IP 中采用了与 Speedster7t FPGA 中使用的同一种技术, 可支持从 Speedster7t FPGA 到 ASIC 的无缝转换. FPGA 应用通常具有必须保持可编程性的功能, 而其他固定功能则是专用于特定的系统应用. 对于 ASIC 的转换而言, 固定功能可以被固化进 ASIC 结构中, 从而减小芯片面积, 成本和功耗. 当使用 SpeedcoreeFPGA IP 将 Speedster7t FPGA 转换为 ASIC 时, 客户有望节省高达 50% 的功耗并降低 90% 的成本.

来源: http://server.51cto.com/CPU-596958.htm

与本文相关文章

暂无,快来抢沙发吧！