ApacheSpark大数据教程

SeaTunnel用于海量数据的同步和转换

SeaTunnel 是一个分布式、高性能的数据集成平台，用于海量数据（离线和实时）的同步和转换。SeaTunnel 原名 Waterdrop，2021 年 10 月 12 日起更名为 SeaTunnel。SeaTunnel是一个非常好用的超高性能分布式数据集成平台，支持海量数

机器学习库Spark MLlib简介与教程

Spark MLlib是 Apache Spark 的机器学习组件。 Spark 的主要吸引力之一是能够大规模扩展计算，而这正是机器学习算法所需要的。但局限性是所有机器学习算法都无法有效并行化。每个算法都有自己的并行化挑战，无论是任务并行还是数据并行。

Spark已死？DBT会替代？

数据世界再次发生变化。自从 Hadoop 出现以来，人们就将工作负载从他们的数据仓库转移到了新的闪亮的数据湖中。没过多久，2010 年开源的 Spark 就成为了数据湖上的标准处理引擎。现在我们看到一个反向趋势，回到数据仓库。随着这一趋势，DBT 几乎已成为在现代云原生数据仓库上进行

未来Hadoop还会有生命吗？

在过去的几年里，Hadoop 得到了无数赞誉——Hadoop 是一个以大象命名的强大的、用于存储和处理数据的开源框架。许多在 Hadoop 生态系统中投入巨资的组织发现自己处于十字路口，想知道 Hadoop 之后的生活是什么样的，以及未来会怎样。本文讨论了 Hadoop 之后的生活，并为进入

数据湖+数据仓库 = 数据湖库架构

传统OLAP和OLTP是分离，数据是从业务数据存储库中提取，然后将其存储在数据湖中，下一步就是进行ETL数据提取转换和分析，然后，将这些数据的关键子集转移到数据仓库中，以生成用于决策的业务洞察力。这样做的问题有：可维护性差：由于存在数据湖和

能够替代Hadoop用作数据湖新的开源项目 - unpocodejava

数据湖通常与面向 Hadoop 的对象存储相关联。在这种情况下，组织的数据首先上传到 Hadoop 平台，然后对驻留在 Hadoop 集群节点上的数据应用数据挖掘和分析工具。我们发现 Hadoop 的核心是它的存储层HDFS（Hadoop 分布式文件系统），它可以跨多个服务器存储和

Spark SQL 教程：通过示例了解 Spark SQL

Apache Spark 是一个闪电般的集群计算框架，专为快速计算而设计。随着大数据生态系统中实时处理框架的出现，公司在其解决方案中严格使用 Apache Spark。Spark SQL 是 Spark 中的一个新模块，它将关系处理与 Spark 的函数式编程 API 集成在一起。它支持通过

Scala在Databricks的大规模应用

Databricks 拥有数百名开发人员和数百万行代码，是最大的 Scala 应用之一。这篇文章将在 Databricks 对 Scala 进行一次广泛的介绍，从开始到使用、风格、工具和挑战，从这篇文章中，您将了解在 Databricks 中使 Scala 工作的所有大大小小的信息，对于支持

谓词下推：计算和存储分开进行分析是低效的？

将计算和存储分开进行分析是非常低效的，也许我们应该支持谓词和投影下推到存储？谓词下推predicate pushdown是指提取 where 子句条件并使用它们修剪您从磁盘读取的数据的优化（从执行引擎“下推”到存储层/引擎）。可以大幅减少 I/O、缓存流失和/或网络 I/O。包括启用

系统设计：使用Scala、Spark和Hadoop构建推荐系统

推荐系统是一种广泛使用的机器学习技术，在电子商务（亚马逊、阿里巴巴）、视频流（Netflix、Disney+）、社交网络（Facebook、Linkedin）和许多其他领域都有很多应用。由于这些服务中的数据量很大，现在大多数行业级推荐系统都是建立在 Spark 和 Hadoop 等大数据框架

Apache Hadoop Yarn与Kubernetes比较选择 - codehunter

Kubernetes用于将 Docker 容器内核扩展为一个平台。Kubernetes 开发采用自下而上的方法。它在指定每个容器/pod 资源需求方面有很好的优化，但它缺乏一个有效的全局调度程序，可以将资源划分为逻辑分组。Kubernetes 设计允许多个调度程序在集群中运行。每个调度程序都

用于Hadoop的MongoDB连接器库

用于 Hadoop 的 MongoDB 连接器是一个库，它允许将 MongoDB（或其数据格式的备份文件，BSON）用作 Hadoop MapReduce 任务的输入源或输出目标。它旨在提供更大的灵活性和性能，并可以轻松地将 MongoDB 中的数据与 Hadoop 生态系统的其他部分集成，

Spark流教程：使用 Apache Spark 的Twitter情绪分析

Spark Streaming 是核心 Spark API 的扩展，它支持实时数据流的可扩展、高吞吐量、容错流处理。Spark Streaming 可用于流式传输实时数据，并且可以实时进行处理。Spark Streaming 不断增长的用户群由 Uber、Netflix 和 Pinteres

Spark GraphX简介与教程

GraphX是 Apache Spark 用于图形和图形并行计算的 API。GraphX 在单个系统内统一了 ETL（提取、转换和加载）过程、探索性分析和迭代图计算。图的用法可以在 Facebook 的朋友、LinkedIn 的连接、互联网的路由器、天体物理学中星系和恒星之间的关系以及谷歌的

BDA：Hadoop生态大数据工具的漏洞扫描器

BDA 是 Hadoop 和 Spark 等大数据工具的漏洞扫描器。它搜索配置弱点并报告它们。Hadoop 和 Spark 是少数遇到大量数据的应用程序之一。因此，通过保护这些应用程序，可以实现巨大的飞跃，因为它涵盖了大量数据。用途和受众BDA 通常用于应用程序测试、漏洞扫描

Hadoop YARN 架构

Hadoop YARN代表又一个资源管理器，随着 Hadoop 2.x 的出现，YARN 成为 Hadoop 生态系统的一部分，YARN 管理集群环境中的资源，在 Hadoop 2.x 之前我们没有任何资源管理器吗？当然，在 Hadoop 2.x 之前我们有一个资源管理器，它

使用 PySpark 创建新列的 4 种不同方式 - Soner

了解如何在 Spark 数据框中创建新列？我们生活在大数据时代。收集、存储和传输数据变得非常容易。随着数据量的增加，传统的工具开始变得不够用。当数据太大而无法通过传统工具和技术进行处理时，我们应该使用允许分布式计算的工具和技术，例如Spark。Spark 是一种用于大

关于Delta Lake的ACID事务机制简介

近年来，随着大数据利用用例的多样化，需要为分布式存储添加更多功能。这几年诞生了几款OSS存储层SW，可以原样使用HDFS等分布式存储和Apache Spark等分布式处理框架，为分布式存储添加新功能。其中，Delta Lake通过将ACID事务的功能赋予分布式存储来提高数据集的可靠性，本文将