Spark一个简单案例

　　Spark是一个类似Map-Reduce的集群计算框架，用于快速进行数据分析。

在这个应用中，我们以统计包含"the"字符的行数为案例，.为建立这个应用，我们使用 Spark 0.9.1, Scala 2.10.3 & sbt 0.13.0.

在构建这个应用之前，必须准备:-

1). 下载 Spark 0.9.1.

2). 解压Unzip

3). 到 Spark目录

4) 运行 ./sbt/sbt assembly

为了使用 sbt 成功构建Spark，我们需要sbt 0.13.0 或其以后版本必须首先已经安装就绪。

在构建Spark以后，我们开始建立我们的这个应用案例，下面步骤：

1). 运行 mkdir SimpleSparkProject.

2). 创建一个.sbt 文件，在目录 SimpleSparkProject/simple.sbt

name := "Simple Project"

version := "1.0"

scalaVersion := "2.10.3"

libraryDependencies += "org.apache.spark" %% "spark-core" % "0.9.1"

resolvers += "Akka Repository" at "http://repo.akka.io/releases/"

3). 创建代码文件：SimpleSparkProject/src/main/scala/SimpleApp.scala

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

object SimpleApp {

def main(args: Array[String]) {

val logFile = "src/data/sample.txt"

val sc = new SparkContext("local", "Simple App", "/path/to/spark-0.9.1-incubating",

List("target/scala-2.10/simple-project_2.10-1.0.jar"))

val logData = sc.textFile(logFile, 2).cache()

val numTHEs = logData.filter(line => line.contains("the")).count()

println("Lines with the: %s".format(numTHEs))

}

4). 然后到SimpleSparkProject 目录

5). 运行 sbt package

6). 运行 sbt run

下载这个演示应用，可以按 here.