tomaztk/Spark-for-data-engineers：面向数据工程师的Apache Spark学习教程

Spark for data Engineers 是一个Github存储库(点击标题)，将为读者提供概述、代码示例和示例，以更好地处理 Spark。
数据分析师、数据科学家、商业智能分析师和许多其他角色需要按需提供数据。与数据孤岛、许多分散的数据库、Excel 文件、CSV 文件、JSON 文件、API 和潜在不同风格的云存储作斗争可能是乏味、令人伤脑筋和耗时的。
将遵循一组步骤、程序和流程的自动化流程从数据库中获取数据子集、列、二进制文件，并将它们合并在一起以满足业务需求和潜力，这对于许多组织和团队来说仍然是一项有利的工作。
Spark 是这项任务的绝对赢家，也是采用的绝佳选择。
数据工程应具备以下程度和能力：

系统架构
编程
数据库设计和配置
接口和传感器配置

除此之外，与熟悉技术工具一样重要，数据架构和管道设计的概念更为重要。如果没有对以下方面的扎实概念理解，这些工具就毫无价值：

数据模型
关系型和非关系型数据库设计
信息流
查询执行和优化
数据存储对比分析
逻辑运算

Apache Spark 拥有涵盖这些主题的所有内置技术，并且有能力实现将功能系统组装在一起以实现目标的具体目标。
Apache Spark 旨在构建更快、更可靠的数据管道，涵盖低级别和结构化 API，并为流式数据、机器学习、数据工程和构建管道以及扩展 Spark 生态系统带来工具和包。
数据工程师的职位与分析职位略有不同。为数据工程师学习 Spark 将侧重于以下主题，而不是数学、统计和高级分析技能：

安装和设置环境
数据转换、数据建模
使用关系和非关系数据
设计管道、ETL 和数据移动
编排和架构视图

目录/精选博文