近日, 大数据领域的两大巨头公司 Cloudera 和 Hortonworks 宣布平等合并, Cloudera 以股票方式收购 Hortonworks,Cloudera 股东最终获得合并公司 60% 的股份. 这笔交易意味着 Hadoop 市场再也无法维持两大竞争对手对峙的状态了.
在 Hadoop 的世界中, 规模最大, 知名度最高的公司就是 Cloudera.Cloudera 努力为开源 Hadoop 提供支持, 同时将数据处理框架延伸到一个全面的 "企业数据中心" 范畴. Hortonworks 也是企业级全球数据管理平台, 同时也是服务和解决方案的领先供应商, 为 100 强企业中的一多半提供'任何类型数据'的可操作信息. 此次最大的两家数据服务商 Cloudera 和 Hortonworks 宣布合并, 表示要创建世界领先的数据平台.
本次交易要点:
1, 创建世界领先的数据平台, 增加规模和资源, 提供业界第一个企业级数据云, 提高公共云的易用性和灵活性;
2, 制定清晰的行业标准;
3, 加速市场发展, 推动物联网, 流媒体, 数据仓库, 混合云, 机器学习, 人工智能等领域的创新
4, 利用补充产品扩大市场机会, 包括 Hortonworks DataFlow 和 Cloudera Data Science Workbench
5, 加强与公共云供应商和系统集成商的伙伴关系
6, 预计将产生重大的经济利益并改善利润率:
收入约为 7.2 亿美元
超过 2,500 名客户
800 多名客户超过 $ 100,000 ARR
超过 120 家客户的 ARR 超过 100 万美元
超过 1.25 亿美元的年度成本协同增效
CY20 的现金流超过 1.5 亿美元
超过 5 亿美元的现金, 没有债务
顾问, 管理层以及董事会等动向
交易完成后, Cloudera 的首席执行官 Tom Reilly 将担任首席执行官; Hortonworks 的首席运营官 Scott Davidson 将担任首席运营官; Hortonworks 的首席产品官 Arun C.Murthy 将担任合并后公司的首席产品官; Cloudera 的首席财务官 Jim Frankola 将担任合并后公司的首席财务官. Hortonworks 的首席执行官 RobBearden 将加入董事会. 现任 Cloudera 董事会成员 MartyCole 将担任董事会主席.
新成立公司的董事会最初将由九名董事组成. 包括 Bearden 先生在内的四位董事将来自 Hortonworks 现有的董事会. 包括 Reilly 先生在内的五位董事将来自 Cloudera 现有的董事会. 合并后的董事会将选出第十名董事.
其中, Morgan Stanley&Co.LLC 担任 Cloudera 的财务顾问, Fenwick&West.LLP 担任其法律顾问. Qatalyst Partners 担任 Hortonworks 的财务顾问, Latham&Watkins.LLP 担任其法律顾问.
Hadoop 多年来一直是大数据的代名词, 但市场和客户需求已经发生了变化, 此次两大公司合并无疑会是对 Hadoop 的一记重创. 在几大趋势的推动下, Hadoop 的影响正在逐渐降低!
公有云浪潮正在上升
第一个大趋势是企业向公有云的转变. 各种规模的公司都在增加对 AWS,Azure 和 Google Cloud 服务的采用, 而牺牲了内部部署基础架构和软件. 根据 IDC 和 Gartner 的报告, 企业服务器收入连续下降. 前三大云提供商 (占云市场份额的 90%) 提供自己的托管 Hadoop/Spark 服务, 例如亚马逊的 Elastic Map Reduce(EMR). 这些都是完全集成的产品, 具有较低的购置成本并且更便宜. 如果企业正在转向云计算, 那么选择这类将 Hadoop 产品视为其中一部分的云平台既省时又省力, 这几乎是一个很自然的决策. 并且, 具有讽刺意味的是, Cloudera 并没有加入云时代, 这个在 Hadoop 上优势明显的公司并未发掘这一先机.
存储成本 降低
第二大趋势是什么? 云存储的经济性正在碾压 Hadoop 的存储成本. 在 2005 年推出时, Hadoop 分布式文件系统 (HDFS) 是革命性的一大改进, 它将服务器与普通硬盘驱动器结合, 并将它们转变为能够由 Java 应用程序兼容并行 IO 的分布式存储系统. 当时, 我们没有类似的东西可以选择, 它就是一个关键组件, 允许并行处理不适合单个机器运行的大规模数据集. 但那是 13 年前的事了, 如今有许多便宜得多的替代品, 主要是对象存储服务, 如 AWS S3,Azure Blob 存储和 Google 云端存储. 一个 TB 的云对象存储成本约每月 20 美元, 而 HDFS 每月约 100 美元(不包括运营成本). 例如, 谷歌的 HDFS 服务仅仅是将 HDFS 操作转换为对象存储操作, 但价格却便宜了 5 倍.
更快, 更好, 更便宜的云数据库
Hadoop 的问题并不止于此, 因为它不仅受到云供应商 Hadoop/Spark 服务和对象存储服务的直接竞争. 第三大趋势是 "无服务器", 它的出现完全消除了运行 Hadoop 或 Spark 的需要. Spark 的一个常见用例是为用户处理 ad-hoc 分布式 SQL 查询. 谷歌率先在 2011 年推出了名为 BigQuery 的革命性服务, 以完全不同的方式解决了同样的问题. 它允许对存储在其对象存储服务中的任何数据量运行即席查询(无需将其加载到 HDFS 等特殊存储中), 用户只需为计算时间付费: 如果需要 1,000 个 core, 只需 3.5 秒即可运行查询, 这就是所支付的全部费用. 企业无需配置服务器, 安装操作系统, 安装软件, 配置所有内容以将集群扩展到 1,000 个节点, 以及像 Hadoop/Spark 一样提供和关注集群. 谷歌做了所有这些繁琐的工作, 因此这个名字叫 "无服务器". 有些银行运行着 2000 个节点的 Hadoop/Spark 集群, 由数十名 IT 人员操作和维护, 无法与 BigQuery 的灵活性, 速度和规模相匹敌, 还必须支付所有硬件, 软件和人员费用才能运行和维护 Hadoop.
BigQuery 就是一个例子. 其他云数据库服务同样具有大规模, 高度灵活, 全球分布等特点. 初创公司 Snowflake,Google Big Table,AWS Aurora 和 Microsoft Cosmos 等, 他们所提供的服务比安装 Hadoop/Spark 更容易使用, 用户可以在 5 分钟内启动并运行, 整个过程只需要数十美元, 不需要 50 万美元的采购订单和数周的安装, 配置和培训.
容器, Kubernetes 和机器学习
第四大趋势是容器和 Kubernetes. Hadoop / Spark 不仅仅是一个存储环境, 也是一个计算环境. 同样, 早在 2005 年, Hadoop 的另一个革命性产品诞生, 这就是 MapReduce,Map-Reduce 方法为 Java 应用程序的并行计算提供了框架. 但 Cloudera 和 Hortonworks 基础设施以 Java 为中心 (以 Scala 为中心的 Spark) 与今天的数据科学家在 Python 和 R 中进行机器学习是不一致的. 企业需要不断迭代和改进机器学习模型并让其学习生产数据, 这就意味着 Python 和 R 模型是本地部署所必需的, 如果你希望借助机器学习的能力.
容器和 Kubernetes 与 Python 和 R 一样, 为分布式计算提供了更加灵活和强大框架. 无论如何, 这些都是软件开发团队的目标, 他们或许并不打算在 Hadoop/Spark 之上分发新的微服务应用程序, 因为这过于复杂和有所限制.
经过了近 10 年, Cloudera 和 Hortonworks 才得以成为大数据世界的中心, 然而, 如今大数据的重心已经转移到其他地方. 领先的云计算公司没有像 Cloudera 和 Hortonworks 一样运行大型 Hadoop/Spark 集群, 他们更喜欢在容器等之上运行分布式云数据库和应用程序. 他们使用 Python,R 和其他非 Java 语言进行机器学习. 越来越多的企业正在转向类似的方法, 因为他们希望获得相同的速度和规模效益.
本文作者
Mathew Lodge 是 Anaconda 的产品和营销高级副总裁. 他在云计算和产品方面拥有 20 多年的丰富经验. 在加入 Anaconda 之前, 他曾担任 Weaveworks 的首席运营官, Weaveworks 是容器和微服务网络和管理初创公司; 他曾担任 VMware 云服务部门的副总裁, 并共同创立了 VMware 的 vCloud Air IaaS 服务.
来源: http://bigdata.51cto.com/art/201810/584876.htm