tomaztk/Spark-for-data-engineers:面向数据工程师的Apache Spark学习教程


Spark for data Engineers 是一个Github存储库(点击标题),将为读者提供概述、代码示例和示例,以更好地处理 Spark。
数据分析师、数据科学家、商业智能分析师和许多其他角色需要按需提供数据。与数据孤岛、许多分散的数据库、Excel 文件、CSV 文件、JSON 文件、API 和潜在不同风格的云存储作斗争可能是乏味、令人伤脑筋和耗时的。
将遵循一组步骤、程序和流程的自动化流程从数据库中获取数据子集、列、二进制文件,并将它们合并在一起以满足业务需求和潜力,这对于许多组织和团队来说仍然是一项有利的工作。
Spark 是这项任务的绝对赢家,也是采用的绝佳选择。
数据工程应具备以下程度和能力:

  1. 系统架构
  2. 编程
  3. 数据库设计和配置
  4. 接口和传感器配置

除此之外,与熟悉技术工具一样重要,数据架构和管道设计的概念更为重要。如果没有对以下方面的扎实概念理解,这些工具就毫无价值:
  1. 数据模型
  2. 关系型和非关系型数据库设计
  3. 信息流
  4. 查询执行和优化
  5. 数据存储对比分析
  6. 逻辑运算

Apache Spark 拥有涵盖这些主题的所有内置技术,并且有能力实现将功能系统组装在一起以实现目标的具体目标。
Apache Spark 旨在构建更快、更可靠的数据管道,涵盖低级别和结构化 API,并为流式数据、机器学习、数据工程和构建管道以及扩展 Spark 生态系统带来工具和包。
数据工程师的职位与分析职位略有不同。为数据工程师学习 Spark 将侧重于以下主题,而不是数学、统计和高级分析技能:
  1. 安装和设置环境
  2. 数据转换、数据建模
  3. 使用关系和非关系数据
  4. 设计管道、ETL 和数据移动
  5. 编排和架构视图

目录/精选博文
  1. 什么是 Apache Spark博客文章
  2. 安装 Apache Spark博客文章
  3. 绕过 Apache Spark 中的 CLI 和 WEB UI博客文章
  4. Spark 架构——本地和集群模式博文
  5. 设置 Spark 集群博客文章
  6. 设置 IDE博客文章
  7. 使用 R 和 Python 启动 Spark博客文章
  8. 创建 RDD 文件博客文章
  9. RDD 操作博客文章
  10. 使用数据框博客文章
  11. 使用包和 Spark DataFrames博客文章
  12. Spark SQL博客文章
  13. Spark SQL 分桶和分区博客文章
  14. Spark SQL 查询提示和执行博客文章
  15. Spark Streaming 简介博文
  16. Spark 流的数据帧操作博客文章
  17. Spark 流的水印和连接博客文章
  18. Spark 流的时间窗口博客文章
  19. Spark Streaming 的数据工程博客文章