Spark是什么

来自:Spark in Action – Community Feedback for 2012 Hadoop Summit

Spark是一个集群计算框架,主要是用于大数据海量数据的快速分析,既可以通过清晰的Scala API能够无缝对一个分布式集合操作,也可以通过in-memory计算原型能够实现超越 Hadoop MapReduce 三十倍的性能。

Spark是一年前发布的,已经被很多感兴趣公司应用到产品阶段,可以加速Hive报表处理时间,也可以实现大规模的机器学习,可以实时回答用户的查询等等。

正在开发的新特性将在2012年6月召开的hadoop大会上讨论,包括Hive on Spark(Shark)和流处理(Spark Streaming).

[该贴被banq于2012-03-13 16:27修改过]