在 Apache Spark 中使用机器学习进行客户细分


在这个项目中,我们将执行机器学习最重要的应用之一——客户细分。无论何时您需要找到最佳客户,我们都会在 Apache Spark 和 Scala 中实施客户细分。
客户细分是将公司的客户划分为反映每组客户之间相似性的组的做法。细分客户的目标是决定如何与每个细分中的客户建立联系,以最大化每个客户对业务的价值。
客户细分是无监督学习最重要的应用之一。在这个机器学习项目中,我们将使用 K-means 聚类,这是对未标记数据集进行聚类的基本算法。
 
属性信息或数据集详细信息:

  1. 客户ID
  2. 性别
  3. 年龄
  4. 年收入(千元)
  5. 支出分数 (1-100)

使用的技术
  1. Apache Spark
  2. Spark SQL
  3. Apache Spark MLLib
  4. Scala
  5. DataFrame-based API
  6. Apache Zeppelin Notebook

我们将学习:
  1. 准备处理数据。
  2. 本课程介绍 Apache Spark 中的数据流、加载数据和处理数据的基础知识,向您展示 Apache Spark 如何非常适合机器学习工作。
  3. 了解 Apache Zeppelin 的基础知识
  4. 定义机器学习管道
  5. 训练机器学习模型
  6. 测试机器学习模型
  7. 评估机器学习模型(即检查预测值和实际值)
  8. 目标是为您提供实用的工具,这些工具将在未来对您有益。这样做时,您将开发一个具有实际使用机会的模型。

详细步骤点击标题