ApacheSpark大数据教程

     

Spark和Hadoop之间的主要技术差异和选择

847

Hadoop 和 Spark 都是开源软件的集合,由 Apache 软件基金会维护,用于大规模数据处理。Hadoop 是两者中较老的一个,曾经是处理大数据的首选。然而,自从 Spark 推出以来,它的.

谓词下推:计算和存储分开进行分析是低效的?

1203 1

将计算和存储分开进行分析是非常低效的,也许我们应该支持谓词和投影下推到存储?谓词下推predicate pushdown是指提取 where 子句条件并使用它们修剪您从磁盘读取的数据的优化(从执行引擎.

系统设计:使用Scala、Spark和Hadoop构建推荐系统

1425 1 8K
推荐系统是一种广泛使用的机器学习技术,在电子商务(亚马逊、阿里巴巴)、视频流(Netflix、Disney+)、社交网络(Facebook、Linkedin)和许多其他领域都有很多应用。由于这些服务中.

Spark已死?DBT会替代?

2021 1 2K

数据世界再次发生变化。自从 Hadoop 出现以来,人们就将工作负载从他们的数据仓库转移到了新的闪亮的数据湖中。没过多久,2010 年开源的 Spark 就成为了数据湖上的标准处理引擎。现在我们看到一.

Scala在Databricks的大规模应用

1091 3K

Databricks 拥有数百名开发人员和数百万行代码,是最大的 Scala 应用之一。这篇文章将在 Databricks 对 Scala 进行一次广泛的介绍,从开始到使用、风格、工具和挑战,从这篇文.

Apache Hadoop Yarn与Kubernetes比较选择 - codehunter

2897

Kubernetes用于将 Docker 容器内核扩展为一个平台。Kubernetes 开发采用自下而上的方法。它在指定每个容器/pod 资源需求方面有很好的优化,但它缺乏一个有效的全局调度程序,可以.

SeaTunnel用于海量数据的同步和转换

16044 4

SeaTunnel 是一个分布式、高性能的数据集成平台,用于海量数据(离线和实时)的同步和转换。SeaTunnel 原名 Waterdrop,2021 年 10 月 12 日起更名为 SeaTunne.

数据湖+数据仓库 = 数据湖库架构

1062 3K

传统OLAP和OLTP是分离,数据是从业务数据存储库中提取,然后将其存储在数据湖中,下一步就是进行ETL数据提取转换和分析,然后,将这些数据的关键子集转移到数据仓库中,以生成用于决策的业务洞察力。这样.

用于Hadoop的MongoDB连接器库

968

用于 Hadoop 的 MongoDB 连接器是一个库,它允许将 MongoDB(或其数据格式的备份文件,BSON)用作 Hadoop MapReduce 任务的输入源或输出目标。它旨在提供更大的灵活.

未来Hadoop还会有生命吗?

1253 2K

在过去的几年里,Hadoop 得到了无数赞誉——Hadoop 是一个以大象命名的强大的、用于存储和处理数据的开源框架。许多在 Hadoop 生态系统中投入巨资的组织发现自己处于十字路口,想知道 Had.

能够替代Hadoop用作数据湖新的开源项目 - unpocodejava

2626 2K

数据湖 通常与面向 Hadoop 的对象存储相关联。在这种情况下,组织的数据首先上传到 Hadoop 平台,然后对驻留在 Hadoop 集群节点上的数据应用数据挖掘和分析工具。我们发现 Hadoop .

Spark SQL 教程: 通过示例了解 Spark SQL

1759 9K

Apache Spark 是一个闪电般的集群计算框架,专为快速计算而设计。随着大数据生态系统中实时处理框架的出现,公司在其解决方案中严格使用 Apache Spark。Spark SQL 是 Spar.

Spark流教程 :使用 Apache Spark 的Twitter情绪分析

982 7K
Spark Streaming 是核心 Spark API 的扩展,它支持实时数据流的可扩展、高吞吐量、容错流处理。Spark Streaming 可用于流式传输实时数据,并且可以实时进行处理。Spa.

机器学习库Spark MLlib简介与教程

2111 6K

Spark MLlib是 Apache Spark 的机器学习组件。 Spark 的主要吸引力之一是能够大规模扩展计算,而这正是机器学习算法所需要的。但局限性是所有机器学习算法都无法有效并行化。每个算.

Spark GraphX简介与教程

2636 5 7K
GraphX是 Apache Spark 用于图形和图形并行计算的 API。GraphX 在单个系统内统一了 ETL(提取、转换和加载)过程、探索性分析和迭代图计算。图的用法可以在 Facebook .

BDA:Hadoop生态大数据工具的漏洞扫描器

971 1

BDA 是 Hadoop 和 Spark 等大数据工具的漏洞扫描器。它搜索配置弱点并报告它们。Hadoop 和 Spark 是少数遇到大量数据的应用程序之一。因此,通过保护这些应用程序,可以实现巨大的.

Hadoop YARN 架构

906 2K

Hadoop YARN代表又一个资源管理器,随着 Hadoop 2.x 的出现,YARN 成为 Hadoop 生态系统的一部分,YARN 管理集群环境中的资源,在 Hadoop 2.x 之前我们没有任.

使用 PySpark 创建新列的 4 种不同方式 - Soner

2677 5K

了解如何在 Spark 数据框中创建新列?我们生活在大数据时代。收集、存储和传输数据变得非常容易。随着数据量的增加,传统的工具开始变得不够用。当数据太大而无法通过传统工具和技术进行处理时,我们应该使用.

关于Delta Lake的ACID事务机制简介

1277 6K

近年来,随着大数据利用用例的多样化,需要为分布式存储添加更多功能。这几年诞生了几款OSS存储层SW,可以原样使用HDFS等分布式存储和Apache Spark等分布式处理框架,为分布式存储添加新功能。.

机器学习项目 - 使用 Apache Spark 创建电影推荐引擎

804

在这个项目中,我们将为每个用户生成前 10 名电影推荐,并为每部电影生成前 10 名用户推荐。无论年龄、性别、种族、肤色或地理位置如何,每个人都喜欢电影。推荐系统是一个过滤程序,其主要目标是预测用户对.

在 Apache Spark 中使用机器学习进行客户细分

924 1

在这个项目中,我们将执行机器学习最重要的应用之一——客户细分。无论何时您需要找到最佳客户,我们都会在 Apache Spark 和 Scala 中实施客户细分。客户细分是将公司的客户划分为反映每组客户.

ML与BI结合的产品:Tellius

871

AI 和 BI 的世界在分析连续体中占据不同的位置,最常通过描述性分析、预测性分析和规范性分析等概念来理解:用户可以利用描述性分析和 BI 工具来探索过去发生的事情;而预测分析则利用在现实世界数据上训.

Apache Spark、Hadoop和Zookeeper因使用Log4j 1.x被列为未受CVE-2021-44228影响?

1807

在这次Log4Shell或log4j2 CVE-2021-44228漏洞事件中,Apache Spark、Hadoop和Zookeeper被列为不受影响,因为它们使用 Log4j 1.x。Log4j .

tomaztk/Spark-for-data-engineers:面向数据工程师的Apache Spark学习教程

795 6K

Spark for data Engineers 是一个Github存储库(点击标题),将为读者提供概述、代码示例和示例,以更好地处理 Spark。数据分析师、数据科学家、商业智能分析师和许多其他角色.

使用 Debezium 和 Apache Iceberg 创建数据湖

1822 3K
今天为数据分析、数据报告或机器学习构建数据湖已经是一种常见的做法。在这篇博文中,我们将描述一种构建数据湖的简单方法。该解决方案使用基于 Debezium 的实时数据管道,支持 ACID 事务、SQL .

以Kafka事件中心+Spark为核心构建新一代数据湖平台 - DZone

1126 6K
几个月前我一直在考虑撰写“什么是新的企业数据平台?” 在过去的几年中,我一直是新数据平台的数据解决方案架构师和产品负责人。我学到了很多东西,我想与社区分享我的经验。当我们设计和构建数据平台时,我们致力.

Apache Spark:数据框,数据集和RDD之间的区别 - Baeldung

1408 9K

Apache Spark是一个快速的分布式数据处理系统。它执行内存中的数据处理,并使用内存中的缓存和优化的执行,从而实现快速性能。它为流行的编程语言(例如Scala,Python,Java和R)提供了.

只需10分钟即可在Deep Java Library中使用Spark进行深度学习 - Qing Lan

3750 10K
Apache Spark是一种广泛使用的数据处理技术,并且被机器学习用户大量使用。Spark可用于对产品进行分类,预测需求并个性化建议。尽管Spark支持多种编程语言,但首选的Spark SDK是为S.

Hazelcast IMDG和Spark 2实现大数据项目 — tomask79

1404 12K

将HBase中的数据放入Hazelcast IMDG,从Spark以RDD方式访问,这是一个非常广泛使用的解决方案。先决条件 Spring Boot演示应用程序(入门版1.5.9),其数据存储在Haz.

Apache Spark编程教程

2189 14K

Apache Spark是一个分布式计算平台,在当今非常流行,特别是因为与Hadoop mapreduce相比性能要好得多,Spark比基于磁盘的hadoop mapreduce 快了近100倍。让我.