ApacheSpark大数据教程

Spark和Hadoop之间的主要技术差异和选择

22-03-02 847

Hadoop 和 Spark 都是开源软件的集合，由 Apache 软件基金会维护，用于大规模数据处理。Hadoop 是两者中较老的一个，曾经是处理大数据的首选。然而，自从 Spark 推出以来，它的.

谓词下推：计算和存储分开进行分析是低效的？

22-02-03 1203 1

将计算和存储分开进行分析是非常低效的，也许我们应该支持谓词和投影下推到存储？谓词下推predicate pushdown是指提取 where 子句条件并使用它们修剪您从磁盘读取的数据的优化（从执行引擎.

系统设计：使用Scala、Spark和Hadoop构建推荐系统

22-02-03 1425 1 8K

推荐系统是一种广泛使用的机器学习技术，在电子商务（亚马逊、阿里巴巴）、视频流（Netflix、Disney+）、社交网络（Facebook、Linkedin）和许多其他领域都有很多应用。由于这些服务中.

Spark已死？DBT会替代？

22-02-02 2021 1 2K

数据世界再次发生变化。自从 Hadoop 出现以来，人们就将工作负载从他们的数据仓库转移到了新的闪亮的数据湖中。没过多久，2010 年开源的 Spark 就成为了数据湖上的标准处理引擎。现在我们看到一.

Scala在Databricks的大规模应用

22-01-20 1091 3K

Databricks 拥有数百名开发人员和数百万行代码，是最大的 Scala 应用之一。这篇文章将在 Databricks 对 Scala 进行一次广泛的介绍，从开始到使用、风格、工具和挑战，从这篇文.

Apache Hadoop Yarn与Kubernetes比较选择 - codehunter

22-01-14 2897

Kubernetes用于将 Docker 容器内核扩展为一个平台。Kubernetes 开发采用自下而上的方法。它在指定每个容器/pod 资源需求方面有很好的优化，但它缺乏一个有效的全局调度程序，可以.

SeaTunnel用于海量数据的同步和转换

22-01-13 16044 4

SeaTunnel 是一个分布式、高性能的数据集成平台，用于海量数据（离线和实时）的同步和转换。SeaTunnel 原名 Waterdrop，2021 年 10 月 12 日起更名为 SeaTunne.

数据湖+数据仓库 = 数据湖库架构

22-01-13 1062 3K

传统OLAP和OLTP是分离，数据是从业务数据存储库中提取，然后将其存储在数据湖中，下一步就是进行ETL数据提取转换和分析，然后，将这些数据的关键子集转移到数据仓库中，以生成用于决策的业务洞察力。这样.

用于Hadoop的MongoDB连接器库

22-01-11 968

用于 Hadoop 的 MongoDB 连接器是一个库，它允许将 MongoDB（或其数据格式的备份文件，BSON）用作 Hadoop MapReduce 任务的输入源或输出目标。它旨在提供更大的灵活.

未来Hadoop还会有生命吗？

22-01-08 1253 2K

在过去的几年里，Hadoop 得到了无数赞誉——Hadoop 是一个以大象命名的强大的、用于存储和处理数据的开源框架。许多在 Hadoop 生态系统中投入巨资的组织发现自己处于十字路口，想知道 Had.

能够替代Hadoop用作数据湖新的开源项目 - unpocodejava

22-01-03 2626 2K

数据湖通常与面向 Hadoop 的对象存储相关联。在这种情况下，组织的数据首先上传到 Hadoop 平台，然后对驻留在 Hadoop 集群节点上的数据应用数据挖掘和分析工具。我们发现 Hadoop .

Spark SQL 教程：通过示例了解 Spark SQL

21-12-29 1759 9K

Apache Spark 是一个闪电般的集群计算框架，专为快速计算而设计。随着大数据生态系统中实时处理框架的出现，公司在其解决方案中严格使用 Apache Spark。Spark SQL 是 Spar.

Spark流教程：使用 Apache Spark 的Twitter情绪分析

21-12-29 982 7K

Spark Streaming 是核心 Spark API 的扩展，它支持实时数据流的可扩展、高吞吐量、容错流处理。Spark Streaming 可用于流式传输实时数据，并且可以实时进行处理。Spa.

机器学习库Spark MLlib简介与教程

21-12-29 2111 6K

Spark MLlib是 Apache Spark 的机器学习组件。 Spark 的主要吸引力之一是能够大规模扩展计算，而这正是机器学习算法所需要的。但局限性是所有机器学习算法都无法有效并行化。每个算.

Spark GraphX简介与教程

21-12-29 2636 5 7K

GraphX是 Apache Spark 用于图形和图形并行计算的 API。GraphX 在单个系统内统一了 ETL（提取、转换和加载）过程、探索性分析和迭代图计算。图的用法可以在 Facebook .

BDA：Hadoop生态大数据工具的漏洞扫描器

21-12-28 971 1

BDA 是 Hadoop 和 Spark 等大数据工具的漏洞扫描器。它搜索配置弱点并报告它们。Hadoop 和 Spark 是少数遇到大量数据的应用程序之一。因此，通过保护这些应用程序，可以实现巨大的.

Hadoop YARN 架构

21-12-26 906 2K

Hadoop YARN代表又一个资源管理器，随着 Hadoop 2.x 的出现，YARN 成为 Hadoop 生态系统的一部分，YARN 管理集群环境中的资源，在 Hadoop 2.x 之前我们没有任.

使用 PySpark 创建新列的 4 种不同方式 - Soner

21-12-25 2677 5K

了解如何在 Spark 数据框中创建新列？我们生活在大数据时代。收集、存储和传输数据变得非常容易。随着数据量的增加，传统的工具开始变得不够用。当数据太大而无法通过传统工具和技术进行处理时，我们应该使用.

关于Delta Lake的ACID事务机制简介

21-12-25 1277 6K

近年来，随着大数据利用用例的多样化，需要为分布式存储添加更多功能。这几年诞生了几款OSS存储层SW，可以原样使用HDFS等分布式存储和Apache Spark等分布式处理框架，为分布式存储添加新功能。.

机器学习项目 - 使用 Apache Spark 创建电影推荐引擎

21-12-24 804

在这个项目中，我们将为每个用户生成前 10 名电影推荐，并为每部电影生成前 10 名用户推荐。无论年龄、性别、种族、肤色或地理位置如何，每个人都喜欢电影。推荐系统是一个过滤程序，其主要目标是预测用户对.

在 Apache Spark 中使用机器学习进行客户细分

21-12-23 924 1

在这个项目中，我们将执行机器学习最重要的应用之一——客户细分。无论何时您需要找到最佳客户，我们都会在 Apache Spark 和 Scala 中实施客户细分。客户细分是将公司的客户划分为反映每组客户.

ML与BI结合的产品：Tellius

21-12-23 871

AI 和 BI 的世界在分析连续体中占据不同的位置，最常通过描述性分析、预测性分析和规范性分析等概念来理解：用户可以利用描述性分析和 BI 工具来探索过去发生的事情；而预测分析则利用在现实世界数据上训.

Apache Spark、Hadoop和Zookeeper因使用Log4j 1.x被列为未受CVE-2021-44228影响？

21-12-23 1807

在这次Log4Shell或log4j2 CVE-2021-44228漏洞事件中，Apache Spark、Hadoop和Zookeeper被列为不受影响，因为它们使用 Log4j 1.x。Log4j .

tomaztk/Spark-for-data-engineers：面向数据工程师的Apache Spark学习教程

21-12-22 795 6K

Spark for data Engineers 是一个Github存储库(点击标题)，将为读者提供概述、代码示例和示例，以更好地处理 Spark。数据分析师、数据科学家、商业智能分析师和许多其他角色.

使用 Debezium 和 Apache Iceberg 创建数据湖

21-10-21 1822 3K

今天为数据分析、数据报告或机器学习构建数据湖已经是一种常见的做法。在这篇博文中，我们将描述一种构建数据湖的简单方法。该解决方案使用基于 Debezium 的实时数据管道，支持 ACID 事务、SQL .

以Kafka事件中心+Spark为核心构建新一代数据湖平台 - DZone

21-05-29 1126 6K

几个月前我一直在考虑撰写“什么是新的企业数据平台？” 在过去的几年中，我一直是新数据平台的数据解决方案架构师和产品负责人。我学到了很多东西，我想与社区分享我的经验。当我们设计和构建数据平台时，我们致力.

Apache Spark：数据框，数据集和RDD之间的区别 - Baeldung

20-10-21 1408 9K

Apache Spark是一个快速的分布式数据处理系统。它执行内存中的数据处理，并使用内存中的缓存和优化的执行，从而实现快速性能。它为流行的编程语言（例如Scala，Python，Java和R）提供了.

只需10分钟即可在Deep Java Library中使用Spark进行深度学习 - Qing Lan

20-06-12 3750 10K

Apache Spark是一种广泛使用的数据处理技术，并且被机器学习用户大量使用。Spark可用于对产品进行分类，预测需求并个性化建议。尽管Spark支持多种编程语言，但首选的Spark SDK是为S.

Hazelcast IMDG和Spark 2实现大数据项目 — tomask79

19-10-15 1404 12K

将HBase中的数据放入Hazelcast IMDG，从Spark以RDD方式访问，这是一个非常广泛使用的解决方案。先决条件 Spring Boot演示应用程序（入门版1.5.9），其数据存储在Haz.

Apache Spark编程教程

19-01-12 2189 14K

Apache Spark是一个分布式计算平台，在当今非常流行，特别是因为与Hadoop mapreduce相比性能要好得多，Spark比基于磁盘的hadoop mapreduce 快了近100倍。让我.