在这个项目中,我们将为每个用户生成前 10 名电影推荐,并为每部电影生成前 10 名用户推荐。
无论年龄、性别、种族、肤色或地理位置如何,每个人都喜欢电影。推荐系统是一个过滤程序,其主要目标是预测用户对特定领域项目或项目的“评级”或“偏好”。推荐系统包含一类可以向用户建议“相关”项目的技术和算法。他们通过多种技术根据过去的数据预测未来的行为。
属性信息或数据集详细信息:
- 用户身份
- 电影ID
- 评分
- 时间戳
使用的技术
- Apache Spark
- Spark SQL
- Apache Spark MLLib
- Scala
- DataFrame-based API
- Databricks Notebook
使用 Apache Spark 机器学习创建电影推荐引擎的项目,使用 Databricks 平台社区版服务器,它允许您执行您的 Spark 代码,只需通过电子邮件 ID 注册即可在他们的服务器上免费执行。
在这个项目中,我们探索了 Databricks 平台上的 Apache Spark 和机器学习。
我们将看看如何设置 Spark Cluster 并开始使用它。然后我们将看看我们如何使用 Spark Cluster 来获取进入 Spark Cluster 的数据,这是一个使用机器学习模型处理数据的过程,并以预测的形式生成某种输出。这几乎就是我们将要了解的有关预测模型的内容。
在这个项目中,我们将创建电影推荐引擎,该引擎将为每个用户生成前 10 名电影推荐,并为每部电影生成前 10 名用户推荐。
我们将学习:
- 准备处理数据。
- 本课程介绍 Apache Spark 中的数据流、加载数据和处理数据的基础知识,向您展示 Apache Spark 如何非常适合机器学习工作。
- 通过注册免费社区版服务器来学习 Databricks notebook 的基础知识
- 定义机器学习管道
- 训练机器学习模型
- 测试机器学习模型
- 评估机器学习模型(即检查预测值和实际值)
- 目标是为您提供实用的工具,这些工具将在未来对您有益。这样做时,您将开发一个具有实际使用机会的模型。
详细点击标题