对于 R7x0 这样的 2U 主力服务器机型, 说实话我觉得不是特别好写. 一方面不如四路有特点, 另外又是互联网等行业消耗最多的, 可以说乃服务器厂商必争之地. 正如业内同行所言, 比较有追求的厂商在某些功能参数上如果落后领先者一代, 因为只要你愿意投入下一代产品就可能追上.
不过, 指标归指标, 品质归品质. 服务器的 R.A.S.(可靠性, 可用性, 可维护性)才是更重要的实力体现. 关于 13G PowerEdgeR730 的品质, 多听听用户端的口碑就好, 不需要我在这里主观评论什么.
支持 3/6 块共 900W GPU:PCIe 散热设计非易事
今天介绍这台 R740xd 样机, 前面板是 2U 12 个 3.5 英寸盘位的布局.
在机箱后端选配了 2 个 3.5 英寸热插拔驱动器位, 当然该机型还有更多灵活的选择.
还是看机箱上盖内侧的贴纸说明, 最上面的配置是除了 NDC(网卡模块)之外 7 个全高 PCIe 扩展槽;
往下是前端配 12 个 3.5 英寸盘(0-11), 后背 4 个 2.5 英寸盘位;
如果前端换成 24 个 2.5 寸硬盘 / SSD, 后面再加上 4 个就是 28 块. 当然机箱中部还可以有(+4), 这个我在下文中会介绍;
如果都是 3.5 寸盘, R740xd 前后端一共是 12+2 的配置, 同样可以在机箱中部加盘(+4).
这里我想特别提一下 GPU 支持, 因为好几位朋友都问到我 R740(xd)支持 3 块 300W 双插槽 GPU 的事情. 据我了解, Dell 可能不是第一家做到这点的, 但要做到解决好散热却不太容易.
上图引用自技术文档《Direct from Development -PowerEdge Multi-Vector Cooling》, 应该代表了 R740 系列服务器 7 个 PCIe 扩展槽可以支持最大的散热气流量, LFM 单位表示线性英尺每分钟. 一般负载下风扇不需要全速运转, 可以根据对应位置的传感器温度值来做精细调节.
与 PowerEdge 14G 服务器同步更新的 iDRAC9 管理界面中, PCIe Airflow 设置部分可以识别扩展卡是否为第三方, 类型(FC HBA,RAID 或者 SSD). 对于第三方 PCIe 扩展卡, Dell 可能识别不准其功耗, 如果自动的 200LFM 风量不够合适, 也可以手动调节. 最终都会反应到 6 个系统风扇的转速上.
注: 根据 690LFM 支撑 150W GPU 来推算, 200LFM 大约能支持 40 多瓦功耗的 PCIe 扩展卡, 如果 20W 以内改到 100LFM 应该问题不大. 我这么算也可能不准:)
拆下来的风扇排. 从这个角度还可以看到 PowerEdge R740xd 的 SAS 背板, 上面带热管散热片的就是 Expander 芯片. 由于 R740xd 还可以支持最多 24 个 2.5 英寸 U.2 NVMe SSD, 所以可选不同的热插拔背板.
NVDIMM: 电池保护, Oracle 数据库和 SDS 应用
PowerEdge R740 服务器支持 12 个 NVDIMM, 虽然这台样机没有配, 不过从这张图上可以看出对应电池模块固定的位置. 如果想从平面变成三维理解, 可以接着往下看.
在 7 月 12 日的 PowerEdge 14G 发布会上, Dell 列举了 2 家合作伙伴在应用中测试 NVDIMM 的价值, 其中一家是大名鼎鼎的 Oracle 服务商云和恩墨. 上图中列举的是 NVDIMM 放 Redo log 性能提高 20 倍, 对比平台配置信息没有详细讲.
NVDIMM 就是 DRAM 内存的性能, 受限于 Backupto Flash 掉电保护设计, 目前容量应该在单条 8-32GB 之间. 如果想兼顾性能 (低延时) 和容量, 使用 3D XPoint Memory 的 Intel Optane SSD P4800X 375GB 表现也不错, 参见《》一文.
另一家合作伙伴是 XSKY, 也是 Dell 发起的 "未来就绪企业云联盟" 成员, 我在《》中曾经提到过两家公司的共同案例. 本次介绍了将 PMEM(持久化内存)用于 Ceph 的 Journal 存储, 延时可降低 7 倍.
此外, 这个方案中还用到了 PowerEdge 14G 服务器的 25GbE 网卡, iWARP(RDMA)支持可以减少 CPU 负担, 降低存储网络延时.
打开上盖的 Dell PowerEdge R740xd
机箱内部驱动器托架, PERC,NDC 等
上面就是 R740xd 机箱中部的驱动器托架, 看着和上一代 R730xd 差别不大, 主要变化应该是支持 2.5 英寸转换套件. 由于这里的视角是从机箱后端看, 所以最左边那个盘位应该就是和 NVDIMM 电池共用的.
加上这 4 个盘位, R740xd 支持的最大 3.5 英寸硬盘可达 18 块, 2.5 寸驱动器最多 32 个.
上图是拆下的机箱后端那 2 个 3.5 英寸热插拔托架, 分量够重可见钢板厚度.
也许有朋友会问, 机箱后端能否设计更多的盘位? 内部托架如果使用 2.5 寸盘可否支持更多? 我认为这里要考虑 2 个问题, 不一定最大就好:
1, 硬盘控制器(SAS RAID 卡, HBA), 扩展器支持的端口数量. 比如 48 口 SAS Expander, 如果支持双 RAID 卡上行占据 16 lane, 剩下正好是 32 盘位;
2, 散热, 散热, 散热, 重要的事情讲三遍. 因为机箱内部和后端的硬盘 / SSD 进风温度没有前面板那么乐观, 这个和 GPU 支持是同样的道理.
我拆下其中一颗 CPU 的散热器, 下面露出 LGA-3647 插座.
Dell PERC SAS/SATA RAID 卡模块的样子没有变, 14G 服务器除了 PERC9 还可选新一代 PERC10(H740p,H840),Cache 容量可以更大.
为什么还用电池而不是电容, 理由参见《》.
Dell 服务器专用的 NDC 网络子卡模块, 这里同样配置了 Broadcom 10G/GbE 2+2P 57800-t rNDC. 大家还记得上一篇中它在 PowerEdge R940 中是怎么转成竖插的吗?
细心的朋友可能看到了它 --IDSDM Dual-SD 模块插在 NDC 和电源之间的主板边缘位置.
今天先写到这里吧, 下周有时间继续给大家分享别的 Xeon Scalable 服务器.
来源: https://www.sohu.com/a/157070881_314773