Spark for data Engineers 是一个Github存储库(点击标题),将为读者提供概述、代码示例和示例,以更好地处理 Spark。
数据分析师、数据科学家、商业智能分析师和许多其他角色需要按需提供数据。与数据孤岛、许多分散的数据库、Excel 文件、CSV 文件、JSON 文件、API 和潜在不同风格的云存储作斗争可能是乏味、令人伤脑筋和耗时的。
将遵循一组步骤、程序和流程的自动化流程从数据库中获取数据子集、列、二进制文件,并将它们合并在一起以满足业务需求和潜力,这对于许多组织和团队来说仍然是一项有利的工作。
Spark 是这项任务的绝对赢家,也是采用的绝佳选择。
数据工程应具备以下程度和能力:
- 系统架构
- 编程
- 数据库设计和配置
- 接口和传感器配置
除此之外,与熟悉技术工具一样重要,数据架构和管道设计的概念更为重要。如果没有对以下方面的扎实概念理解,这些工具就毫无价值:
- 数据模型
- 关系型和非关系型数据库设计
- 信息流
- 查询执行和优化
- 数据存储对比分析
- 逻辑运算
Apache Spark 拥有涵盖这些主题的所有内置技术,并且有能力实现将功能系统组装在一起以实现目标的具体目标。
Apache Spark 旨在构建更快、更可靠的数据管道,涵盖低级别和结构化 API,并为流式数据、机器学习、数据工程和构建管道以及扩展 Spark 生态系统带来工具和包。
数据工程师的职位与分析职位略有不同。为数据工程师学习 Spark 将侧重于以下主题,而不是数学、统计和高级分析技能:
- 安装和设置环境
- 数据转换、数据建模
- 使用关系和非关系数据
- 设计管道、ETL 和数据移动
- 编排和架构视图
目录/精选博文
- 什么是 Apache Spark(博客文章)
- 安装 Apache Spark(博客文章)
- 绕过 Apache Spark 中的 CLI 和 WEB UI(博客文章)
- Spark 架构——本地和集群模式(博文)
- 设置 Spark 集群(博客文章)
- 设置 IDE(博客文章)
- 使用 R 和 Python 启动 Spark(博客文章)
- 创建 RDD 文件(博客文章)
- RDD 操作(博客文章)
- 使用数据框(博客文章)
- 使用包和 Spark DataFrames(博客文章)
- Spark SQL(博客文章)
- Spark SQL 分桶和分区(博客文章)
- Spark SQL 查询提示和执行(博客文章)
- Spark Streaming 简介(博文)
- Spark 流的数据帧操作(博客文章)
- Spark 流的水印和连接(博客文章)
- Spark 流的时间窗口(博客文章)
- Spark Streaming 的数据工程(博客文章)