为大数据选择新的硬件, 存储和其它数据中心基础设施, 这是 IT 专业人员们所面临的新挑战. 推行大数据战略的压力往往来自高层, 因为管理者相信, 能有效运用数据的企业将比落后者具备更大优势. 大数据战略需要数据中心基础架构作出的改变主要有五点:
一, 围绕大数据选择存储
在成功的大数据策略下, 企业可以将来自内部的高质量数据与 Hadoop 挖掘自多个云供应商的低质量数据进行整合. 这也就改善了业务相关数据的质量, 让分散在各地的数据能组织成为具备一致和及时性的大数据资源.
大数据正在改变中央数据仓储和松耦合数据集市的决策基础, 后者的存储库规模要小得多, 既可以替代中央数据仓库, 也可以成为中央数据仓库的数据源. 随着各地办事机构或者国际子公司的增加, 中央管理层在业务线扩大的同时更需要高质量的数据来维持管控力度, 避免权力的分散.
二, 支持大数据的硬件
大数据导致的存储需求量每年都将增长 60% 至 80%. 鉴于这种快速增长和当前的成本限制, IT 采购者应选择在可扩展性和存储速度上最具成本效益的硬件. 类似大型机的向上扩展体系结构重新兴起, 因为它们能够经济高效地扩展, 降低总体拥有成本. 同样, 在提升性能方面, 固态硬盘 (SSD) 和固态卡带都比传统磁盘做得更好.
三, 大数据分析和报告能力
虽然嵌入式分析工具已经可以利用报告和自动优化功能改善业务流程, 但大数据再次改变了分析规则. 例如, 和传统上对单个客户进行主要行为分析洞察相比, 大数据战略能为每个客户创建一个迭代和洞察分析线程, 让公司能跟踪客户并更好地维持与所有客户的长期关系.
典型的大数据分析从业人员被称为数据科学家, 和常规的 IT 主管不同, 他们更可能同时担任 CMO. 然而, IT 专业人员必须明白他们公司的大数据策略对数据科学家的工作产生的影响.
四, 利用 SSD 的存储分层策略
存储成本很高, 而且越快的存储也就越昂贵. 最重要的是, 大数据要求存储同时提供大容量和 "大" 性能. 存储分层在存储资源池中提供多种成本 / 性能选项, 从昂贵的高性能固态存储到传统的串行 SCSI(SAS)磁盘存储, 这些选项的组合降低了总拥有成本. 在主内存和磁盘之间增加一个固态层将有助于将大数据任务的性能维持在高位, 而且不会引起存储成本失控.
SSD 的用量应遵从 "90-10" 的存储分层规则: 成本和速度的最佳组合比例是: 使用大约 10% 的 SSD 和 90% 的机械硬盘. 这一策略让 IT 公司用仅增加 10% 成本的代价就能获得 90% 以上的性能提升. 主内存和 SSD 的容量比例也遵从同样的规则.
五, 企业中的 Hadoop
Hadoop 为数据密集型应用提供 "紧贴着"MapReduce 文件系统处理程序框架的分布式文件系统. 此文件系统支持针对富文本数据的并行事务扩展, 例如社交媒体数据. 许多 IT 公司通过在企业内创建自己的 Hadoop 版本来解决从 web 获取 Hadoop 数据源的问题. 然而, 缺乏专业知识是一种挑战: 精通这种发展中的 Web 数据管理框架的专业和艺术的 IT 管理人员犹如凤毛麟角.
组织开发他们自己的数据管理工具时应该留意, 如 IBM,Oracle 和 EMC 的这些主要供应商, 往往既提供专有产品用于访问 Hadoop 数据, 也可进行定制开发, 让 IT 公司不需要专门的数据归纳措施就能访问需要的数据. 如果您决定搭建自己的数据平台, 供应商也提供整合服务, 使 Hadoop 更贴合现有 IT 资源来高效运作.
每个公司围绕大数据的相关决策都会有所不同. 请记住, 随着围绕大数据的技术演变, 大数据战略也应当及时调整, 与时俱进.
来源: http://bigdata.51cto.com/art/201806/577417.htm