#ApacheSpark大数据工具

SeaTunnel用于海量数据的同步和转换

22-01-13 1865 2 banq

SeaTunnel 是一个分布式、高性能的数据集成平台,用于海量数据(离线和实时)的同步和转换。 SeaTunnel 原名 Waterdrop,2021 年 10 月 12 日起更名为 SeaTun... 详细

Apache Wayang :跨平台数据处理系统

22-03-18 179 banq

Wayang 使用户能够在多个数据处理平台上运行数据分析。为此,Wayang 在现有平台之上提供了一个抽象,以便在任何平台集之上运行数据分析任务。因此,用户可以专注于其应用程序的逻辑,而不是底层平台... 详细

Spark和Hadoop之间的主要技术差异和选择

22-03-02 303 banq

Hadoop 和 Spark 都是开源软件的集合,由 Apache 软件基金会维护,用于大规模数据处理。Hadoop 是两者中较老的一个,曾经是处理大数据的首选。然而,自从 Spark 推出以来,它... 详细

谓词下推:计算和存储分开进行分析是低效的?

22-02-03 296 banq

将计算和存储分开进行分析是非常低效的,也许我们应该支持谓词和投影下推到存储? 谓词下推predicate pushdown是指提取 where 子句条件并使用它们修剪您从磁盘读取的数据的优化(从执行... 详细

系统设计:使用Scala、Spark和Hadoop构建推荐系统

22-02-03 384 banq

推荐系统是一种广泛使用的机器学习技术,在电子商务(亚马逊、阿里巴巴)、视频流(Netflix、Disney+)、社交网络(Facebook、Linkedin)和许多其他领域都有很多应用。由于这些服务... 详细

Spark已死?DBT会替代?

22-02-02 553 banq

数据世界再次发生变化。自从 Hadoop 出现以来,人们就将工作负载从他们的数据仓库转移到了新的闪亮的数据湖中。没过多久,2010 年开源的 Spark 就成为了数据湖上的标准处理引擎。 现... 详细

Scala在Databricks的大规模应用

22-01-20 380 banq

Databricks 拥有数百名开发人员和数百万行代码,是最大的 Scala 应用之一。这篇文章将在 Databricks 对 Scala 进行一次广泛的介绍,从开始到使用、风格、工具和挑战,从这篇... 详细

Apache Hadoop Yarn与Kubernetes比较选择 - codehunter

22-01-14 690 banq

Kubernetes用于将 Docker 容器内核扩展为一个平台。Kubernetes 开发采用自下而上的方法。它在指定每个容器/pod 资源需求方面有很好的优化,但它缺乏一个有效的全局调度程序,可... 详细

数据湖+数据仓库 = 数据湖库架构

22-01-13 552 banq

传统OLAP和OLTP是分离,数据是从业务数据存储库中提取,然后将其存储在数据湖中,下一步就是进行ETL数据提取转换和分析,然后,将这些数据的关键子集转移到数据仓库中,以生成用于决策的业务洞察力。这... 详细

用于Hadoop的MongoDB连接器库

22-01-11 460 banq

用于 Hadoop 的 MongoDB 连接器是一个库,它允许将 MongoDB(或其数据格式的备份文件,BSON)用作 Hadoop MapReduce 任务的输入源或输出目标。它旨在提供... 详细

未来Hadoop还会有生命吗?

22-01-08 495 banq

在过去的几年里,Hadoop 得到了无数赞誉——Hadoop 是一个以大象命名的强大的、用于存储和处理数据的开源框架。许多在 Hadoop 生态系统中投入巨资的组织发现自己处于十字路口,想知... 详细

能够替代Hadoop用作数据湖新的开源项目 - unpocodejava

22-01-03 911 banq

数据湖 通常与面向 Hadoop 的对象存储相关联。在这种情况下,组织的数据首先上传到 Hadoop 平台,然后对驻留在 Hadoop 集群节点上的数据应用数据挖掘和分析工具。 我们发现 H... 详细

Spark SQL 教程: 通过示例了解 Spark SQL

21-12-29 870 banq

Apache Spark 是一个闪电般的集群计算框架,专为快速计算而设计。随着大数据生态系统中实时处理框架的出现,公司在其解决方案中严格使用 Apache Spark。Spark SQL 是 Spa... 详细

Spark流教程 :使用 Apache Spark 的Twitter情绪分析

21-12-29 311 banq

Spark Streaming 是核心 Spark API 的扩展,它支持实时数据流的可扩展、高吞吐量、容错流处理。Spark Streaming 可用于流式传输实时数据,并且可以实时进行处理。Sp... 详细

机器学习库Spark MLlib简介与教程

21-12-29 487 banq

Spark MLlib是 Apache Spark 的机器学习组件。 Spark 的主要吸引力之一是能够大规模扩展计算,而这正是机器学习算法所需要的。但局限性是所有机器学习算法都无法有效并行化。每个... 详细

共有 481 2 3 4 下一页