|
|
51CTO旗下网站
|
|
移动端

大数据的提升:Hadoop即服务的迅猛发展

Haadoop是一个基于开放源代码的软件框架,能够跨分布式集群高吞吐量处理大数据量。利基市场几年前就开始进入主流市场。随着数字化运动的快速扩展,Hadoop提供了充足的使用案例,允许使用普通商品硬件进行大数据处理。

作者:shania译来源:企业网D1Net|2018-02-09 15:34

云服务已经成为企业加快数字化活动的重要地点,以下便是评估HaaS提供商需要考虑的事项:

  • Haadoop是一个基于开放源代码的软件框架,能够跨分布式集群高吞吐量处理大数据量。
  • 利基市场几年前就开始进入主流市场。随着数字化运动的快速扩展,Hadoop提供了充足的使用案例,允许使用普通商品硬件进行大数据处理。
  • 从单一服务器到多个服务器群也是高度可扩展的,每个集群都能够自我运行计算和存储。Hadoop在应用程序层就能提供高可靠性,因此集群硬件是现成的,能够使得节点轻松互换,节约成本。

大数据的提升:Hadoop即服务的迅猛发展

云化趋势

尽管早期采用者通常能够使用内部部署,利用多个Apache发行版中的一个进行设置,无可否认的是,企业正在越来越多的利用云服务。相比之下,自己DIY的方法便是乏味和耗时的。

由于市场需大于供,拥有资深Hadoop经验的技术娴熟的工程师便是非常罕见且昂贵的。购买硬件是一回事,但是在尝试错误的猜想中构建分析平台也是一段漫长而昂贵的过程。

由于数字化时代的上市时间分秒必争,因此越来越多的公司正在利用Hadoop即服务(HaaS)产品,这些产品正在迅速出现,并且享有较高的采用率。

从用户角度将云作为首选目标看待时间有意义的事情,由于规模经济化,单位成本变得更加低廉,企业获得高效率的同时减少了成本支出,并且获得了更大的灵活性。

除了商业利益之外,云最重要的是开辟了一系列全新的数字用例,特别是在物联网和其他需要实时数据处理的场景中。其中,AWS的Elastic Map Reduce(EMR)便是这个领域的开拓性产品之一。

虽然,基本上所有的大型服务提供商都在他们的产品组合中增加了一个基于云的Hadoop托管服务,但是发行商本身却在努力“框化”他们的框架,而Cloudera的Altus就是最近的例子之一。Altus允许用户使用MapReduce上的Hive或者Spark上的Spark按需运行数据处理作业。Cloudera already基本上宣布他们打算将服务扩展到其他领先的公有云(例如微软Azure),而其他供应商可能会遵循这项规则。

市场发展

在强大的云需求面前,越来越多的企业开始接纳Hadoop即服务。HaaS本质上是PaaS服务的一项子集,包括虚拟存储和计算资源,以及基于Hadoop的处理和分析框架。服务提供商通常运行多租户HaaS环境,允许在共享基础设施上托管多个客户。

联合市场研究公司(Allied market Reserch)研究发现,随着各组织越来越多采用“Cloud First”的战略模式,预计到2020年哈斯商学院将获得169亿美元的收入。从2014年到2020年,该公司的年度复合增长了(CAGR)将达到70.8%。从收入角度来看,北美仍然位居首位,其次便是欧洲和亚太地区。

哈斯商学院的爆发预计将会在2020年使其在Hadoop市场上的增长相形见绌。根据IDC的研究,公共云部署已经占到全球商业分析软件市场的12%,预计到2020年将达到25%的CAGR。除了大型企业,中小型企业也越来越多地选择HaaS,以获得可操作的见解,并创建以数据为中心的业务模型。

哈斯商学院预计会在2020中集中爆发,而此时Hadoop市场将会出现状况。根据IDC的研究表明,公有云部署已经达到商业分析软件市场的12%。预计到2020年将会达到25%的CAGR.

考虑HaaS时需要考虑的事情

虽然利用HaaS无疑有大量的用例,但也有一些缺点。将数据载入云中可能会产生延迟并需要额外的带宽。虽然高度标准化的HaaS环境只需要点击几下便可以方便部署,但涉及权限将有服务提供商自行决定。此外,云中的数据将会展现重力并导致锁定效应。以下便是评估HaaS提供商时需要考虑的一些示例:

1. 弹性

Hadoop支持针对各种工作负载的弹性