大数据主题

Spark - 大数据Big Data处理框架

　　Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReducer快40倍左右。

　　Spark是hadoop的升级版本，Hadoop作为第一代产品使用HDFS，第二代加入了Cache来保存中间计算结果，并能适时主动推Map/Reduce任务，第三代就是Spark倡导的流Streaming。

　　Spark兼容Hadoop的APi，能够读写Hadoop的HDFS HBASE 顺序文件等。

　　传统Hadoop如下图性能慢原因有：磁盘IO 复制和序列化等等，涉及图中的HDFS

spark原理

而在Spark中，使用内存替代了使用HDFS存储中间结果：

Spark架构图

Spark的编程模型

弹性的分布数据集(RDD) ：分布式对象集合能够跨集群在内存中保存。多个并行操作，失败自动恢复。

使用内存集群计算，内存访问要比磁盘快得多。有Scala Java Python API,能够从Scala和Python访问。

下面是一个简单的对日志log计数的代码：

/*** SimpleJob.scala ***/

import spark.SparkContext
import SparkContext._

object SimpleJob {
def main(args: Array[String]) {

val logFile = "/var/log/syslog" // Should be some file on your system
val sc = new SparkContext("local", "Simple Job", "$YOUR_SPARK_HOME",
List("target/scala-2.9.3/simple-project_2.9.3-1.0.jar"))
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}
}

运行原理图：

sparkp