机器学习项目 - 使用 Apache Spark 创建电影推荐引擎


在这个项目中,我们将为每个用户生成前 10 名电影推荐,并为每部电影生成前 10 名用户推荐。
无论年龄、性别、种族、肤色或地理位置如何,每个人都喜欢电影。推荐系统是一个过滤程序,其主要目标是预测用户对特定领域项目或项目的“评级”或“偏好”。推荐系统包含一类可以向用户建议“相关”项目的技术和算法。他们通过多种技术根据过去的数据预测未来的行为。
 
属性信息或数据集详细信息:

  1. 用户身份
  2. 电影ID
  3. 评分
  4. 时间戳

 
使用的技术
  1. Apache Spark
  2. Spark SQL
  3. Apache Spark MLLib
  4. Scala
  5. DataFrame-based API
  6. Databricks Notebook

使用 Apache Spark 机器学习创建电影推荐引擎的项目,使用 Databricks 平台社区版服务器,它允许您执行您的 Spark 代码,只需通过电子邮件 ID 注册即可在他们的服务器上免费执行。
在这个项目中,我们探索了 Databricks 平台上的 Apache Spark 和机器学习。
我们将看看如何设置 Spark Cluster 并开始使用它。然后我们将看看我们如何使用 Spark Cluster 来获取进入 Spark Cluster 的数据,这是一个使用机器学习模型处理数据的过程,并以预测的形式生成某种输出。这几乎就是我们将要了解的有关预测模型的内容。
在这个项目中,我们将创建电影推荐引擎,该引擎将为每个用户生成前 10 名电影推荐,并为每部电影生成前 10 名用户推荐。
我们将学习:

  1. 准备处理数据。
  2. 本课程介绍 Apache Spark 中的数据流、加载数据和处理数据的基础知识,向您展示 Apache Spark 如何非常适合机器学习工作。
  3. 通过注册免费社区版服务器来学习 Databricks notebook 的基础知识
  4. 定义机器学习管道
  5. 训练机器学习模型
  6. 测试机器学习模型
  7. 评估机器学习模型(即检查预测值和实际值)
  8. 目标是为您提供实用的工具,这些工具将在未来对您有益。这样做时,您将开发一个具有实际使用机会的模型。

详细点击标题