Spark项目为何会在云环境中大放光芒?

译文
云计算 Spark
就在上个月,多家在云及商业计算领域声名显赫的巨头公开表达(并决定投资)了对Apache Spark数据分析项目的兴趣。是什么让这些老牌劲旅对这款年轻的技术方案青眼有加?

 最近几个月以来,业界对于Apache Spark项目的兴趣与投入迎来了显著提升,而这皆要归功于云客户规模的不断拓展。

[[143232]]

就在上个月,多家在云及商业计算领域声名显赫的巨头公开表达(并决定投资)了对Apache Spark数据分析项目的兴趣。是什么让这些老牌劲旅对这款年轻的技术方案青眼有加?

这种兴奋当然不会毫无来由,事实上这项***发展前景的技术已经得到了广泛应用。不过要想让该项目真正在云环境下变成吸金利器,我们还面临着两个重大课题——一是便捷性,二是规模化。

Spark的吸引力

最近几个月来,对Spark项目表现出深厚兴趣的厂商包括:

• IBM。除了将Spark支持能力加入自家Bluemix PaaS之外,IBM方面还将SystemML机器学习算法构建技术贡献给Spark。

• 微软。将Spark支持能力纳入自家Azure HDInsight(微软的云托管Hadoop版本)。

• Amazon。其Elastic MapReduce服务将能够运行以Scala、Python以及Java语言开发的Spark应用程序。

• 华为。这家中国网络巨头最近公布了一个名为Astro的项目,其将Spark、Spark SQL以及HBase打包于一款产品当中。Spark目前也被华为公司用于其基于Hadoop的FusionInsight产品,并作为服务由华为开发的新兴云平台交付。

Spark之所以拥有出众的吸引力,是因为它能够在Hadoop当中提供强大的内存内数据处理组件,专门应对实时及批量事件。在雅虎公司,也就是Hadoop项目的发源地,Spark已经成为分析运营流程当中的核心与基石。

对于以上厂商而言,Spark项目能够为其云业务提供***技术支持——无论是否配合Hadoop(虽然一般情况下会配合Hadoop)。随着市场价格竞争趋于白热化甚至开始探底,云供应商之间的竞争目前仍然主要受限于原本的内部数据中心层面,而往往无法真正发挥云体系的规模化等独特优势。(事实上,在我们目前所处的阶段中,越来越多的业务数据开始在云中生成,而不再像过去那样单纯将数据迁移至云端。)

点燃下一场燎原烈火

Spark在这一过程中的作用同样非常关键,因为未来的主要发展方向以及项目的潜在影响都取决于Spark将如何以云资源的方式实现部署。

IBM公司正默默为Spark项目作出贡献。而Spark开发厂商Databricks则有着自己的计划,希望能够起到更为彻底的效果。其Tungsten项目为Spark的内存利用及分配方式作出了重大改造,旨在借此提高性能水平。这不仅有利于吸引更多开发商的加入,同时也有助于Spark以“即服务”的方式实现交付。

颇具讽刺意味的是,Spark在云环境下的人气明显更高,其甚至直接威胁到了Databricks公司自身的商业模式。Andy Oliver曾对Daatabricks公司的Spark产品进行过一番审查,并发现该公司“绝不成为数据科学领域的Tableau”的口号完全没能成为现实。另外,以上列出的各大竞争参与者虽然不一定会与自家Spark产品产生这种交集关系,但此类产品的出现实际上更为直接地对Spark工作负载作出了补充。

Spark在其它多个方面还有待完善及成熟——包括说明文档、商业支持、中间件集成以及为用户提供更多预置Spark应用程序等等。除了***一项,其它任务非常适合由Spark项目的企业贡献者及赞助商们来完成——当然,除非这帮家伙提供贡献的目的完全是为了确保Spark能够在其云平台上运作良好,并为其客户提供服务。

原文标题:Why Spark is spiking in the cloud

责任编辑:Ophira 来源: 51CTO
相关推荐

2011-02-24 17:19:40

IBMwatson

2012-01-13 09:53:09

JavaSUNUbuntu

2013-03-21 11:48:55

eLTE华为

2013-09-22 16:50:43

百度校园校园助手开发者

2009-09-23 10:23:49

2013-11-29 14:42:45

NetApp FASNetApp统一存储

2021-08-11 11:17:42

人工智能奥运会机器人

2009-11-13 09:30:47

袁萌Linux桌面Linux

2015-12-23 15:54:07

锐捷

2019-08-26 09:47:03

内部威胁防护威胁防护BCS 2019

2022-12-10 23:41:10

AI应用设计领域

2021-03-08 11:35:04

人工智能智慧路灯云计算

2012-05-08 14:32:19

2013-11-13 13:43:04

3D打印3D打印技术

2017-10-16 10:33:13

数据机器学习房产

2014-08-11 09:42:39

云项目云计算

2021-09-17 22:49:55

比特币加密货币货币

2022-07-28 14:54:06

电信业务

2009-10-14 19:22:30

多路服务器曙光
点赞
收藏

51CTO技术栈公众号