虽然相当一部分企业还没有找到更好的Hadoop使用方式,但这并不能阻止其不断在这一领域加大投入。根据Gartner的初步估计,2016年Hadoop发行版支出达到8亿美元,较2015年增长40%。遗憾的是,仍然只有14%的企业实际报告了Hadoop部署情况,仅稍高于上一年的10%。
一大亮点:Hadoop部署开始逐步转移至云端,并在这里找到更大的成功机遇。
人人都爱Hadoop
也许有些人认为Hadoop已经被Spark或者其它大数据基础设施所取代——实际上这一结论并不确切。
根据Gartner的定义,Hadoop概念涵盖了全部“商业化打包及支持的开源Hadoop相关项目版本”。换言之,除了传统的HDFS与MapReduce之外,Gartner还在其中融入了YARN、Pig、Hive、HBase、ZooKeeper、Avro、Flume、Kafka、Oozie、Parquet、Solr、Spark及Sqoop等项目。
事实上,正如Gartner分析师Merv Adrian所言,“这项调查主要面向各类大数据项目”。不过主流媒体给出的,各类大数据Hadoop项目都已经得到广泛接纳的观点则并不属实。
正如Gartner所指出,企业似乎一直在对Hadoop进行相关实验,但却多数未能将其纳入生产阶段:
除了2016年年内Hadoop部署量增长缓慢外,部署通道本身也呈现出下滑趋势。即使从更为狭义的Hadoop概念角度进行分析,大数据的实践比例也仍然相当有限:
总体而言,大数据技术确实引发了广泛关注,但还没能获得全面成功。
走向云环境
当然,大数据领域也不乏优胜者。Hortonworks就迎来了强劲的季度表现,其营收同比增长39%。2016年,该公司的营收总额近2亿美元,其中1.26亿来自其Hadoop平台的订阅收益。
不过其之所以能够获得成功,很大程度上要得益于对云计算的积极接纳。正如该公司在财报会议上所言,近25%的Hortonworks客户正立足公有云运行其软件,而两年前这一比例还仅为0%。
虽然这种云转型趋势可能夫给Amazon Web Services或者微软Azure带来更多收益,但作为一股强大的发展趋势,这将给大数据行业中的每家从业厂商带来推动作用。
将Hadoop部署方案迁移至云端的主要驱动因素之一,在于Hadoop自身的工作复杂性。考虑到用于补充及加速Hadoop创新的相关项目不断涌现,主流企业根本不可能跟上这样的节奏。因此除了谷歌这样资产雄厚的企业之外,Gartner表示其它企业“经常需要使用不成熟或者原本不受支持的软件”方可实现最新最强大的数据流分析能力。
作为回应,Gartner还表示,“基于云的交付模式允许企业更好地接纳Hadoop生态系统中的各类组件(通常为Apache项目),将始终存在的Hadoop组件升级工作留给云供应商处理,这将使得存储与计算的分离与管理工作更为轻松。”
坦率地讲,云正是大数据项目的理想归宿。正如AWS产品战略负责人Matt Wood所提到,“那些乐于购买昂贵基础设施的客户已经发现问题的影响范围与出现领域存在极快的变化速度。在他们还在努力为原本的问题寻找答案时,新的业务问题已经出现了。”换言之,云不仅能够为大数据技术提供可管理性,更能够帮助其真正实现生产能力。
不过如前文所述,这一波迁移浪潮可能并不会给传统Hadoop供应商带来收益增值。考虑到越来越多的数据开始驻留在Amazon、微软与谷歌提供的云平台上,也许未来企业将更倾向于直接使用这些平台提供的原生Hadoop服务。