• SeaTunnel 是一个分布式、高性能的数据集成平台,用于海量数据(离线和实时)的同步和转换。SeaTunnel 原名 Waterdrop,2021 年 10 月 12 日起更名为 SeaTunnel。SeaTunnel是一个非常好用的超高性能分布式数据集成平台,支持海量数
  • GraphX是 Apache Spark 用于图形和图形并行计算的 API。GraphX 在单个系统内统一了 ETL(提取、转换和加载)过程、探索性分析和迭代图计算。图的用法可以在 Facebook 的朋友、LinkedIn 的连接、互联网的路由器、天体物理学中星系和恒星之间的关系以及谷歌的
  • 数据世界再次发生变化。自从 Hadoop 出现以来,人们就将工作负载从他们的数据仓库转移到了新的闪亮的数据湖中。没过多久,2010 年开源的 Spark 就成为了数据湖上的标准处理引擎。现在我们看到一个反向趋势,回到数据仓库。随着这一趋势,DBT 几乎已成为在现代云原生数据仓库上进行 icon
  • 推荐系统是一种广泛使用的机器学习技术,在电子商务(亚马逊、阿里巴巴)、视频流(Netflix、Disney+)、社交网络(Facebook、Linkedin)和许多其他领域都有很多应用。由于这些服务中的数据量很大,现在大多数行业级推荐系统都是建立在 Spark 和 Hadoop 等大数据框架 icon
  • Kubernetes用于将 Docker 容器内核扩展为一个平台。Kubernetes 开发采用自下而上的方法。它在指定每个容器/pod 资源需求方面有很好的优化,但它缺乏一个有效的全局调度程序,可以将资源划分为逻辑分组。Kubernetes 设计允许多个调度程序在集群中运行。每个调度程序都 icon
  • 了解如何在 Spark 数据框中创建新列?我们生活在大数据时代。收集、存储和传输数据变得非常容易。随着数据量的增加,传统的工具开始变得不够用。当数据太大而无法通过传统工具和技术进行处理时,我们应该使用允许分布式计算的工具和技术,例如Spark。Spark 是一种用于大 icon
  • 数据湖 通常与面向 Hadoop 的对象存储相关联。在这种情况下,组织的数据首先上传到 Hadoop 平台,然后对驻留在 Hadoop 集群节点上的数据应用数据挖掘和分析工具。我们发现 Hadoop 的核心是它的存储层HDFS(Hadoop 分布式文件系统),它可以跨多个服务器存储和 icon
  • 将计算和存储分开进行分析是非常低效的,也许我们应该支持谓词和投影下推到存储?谓词下推predicate pushdown是指提取 where 子句条件并使用它们修剪您从磁盘读取的数据的优化(从执行引擎“下推”到存储层/引擎)。可以大幅减少 I/O、缓存流失和/或网络 I/O。包括启用 icon
  • Spark MLlib是 Apache Spark 的机器学习组件。 Spark 的主要吸引力之一是能够大规模扩展计算,而这正是机器学习算法所需要的。但局限性是所有机器学习算法都无法有效并行化。每个算法都有自己的并行化挑战,无论是任务并行还是数据并行。 icon
  • BDA 是 Hadoop 和 Spark 等大数据工具的漏洞扫描器。它搜索配置弱点并报告它们。Hadoop 和 Spark 是少数遇到大量数据的应用程序之一。因此,通过保护这些应用程序,可以实现巨大的飞跃,因为它涵盖了大量数据。用途和受众BDA 通常用于应用程序测试、漏洞扫描 icon
  • Apache Spark 是一个闪电般的集群计算框架,专为快速计算而设计。随着大数据生态系统中实时处理框架的出现,公司在其解决方案中严格使用 Apache Spark。Spark SQL 是 Spark 中的一个新模块,它将关系处理与 Spark 的函数式编程 API 集成在一起。它支持通过 icon
  • 近年来,随着大数据利用用例的多样化,需要为分布式存储添加更多功能。这几年诞生了几款OSS存储层SW,可以原样使用HDFS等分布式存储和Apache Spark等分布式处理框架,为分布式存储添加新功能。其中,Delta Lake通过将ACID事务的功能赋予分布式存储来提高数据集的可靠性,本文将 icon
  • 在过去的几年里,Hadoop 得到了无数赞誉——Hadoop 是一个以大象命名的强大的、用于存储和处理数据的开源框架。许多在 Hadoop 生态系统中投入巨资的组织发现自己处于十字路口,想知道 Hadoop 之后的生活是什么样的,以及未来会怎样。本文讨论了 Hadoop 之后的生活,并为进入 icon
  • Databricks 拥有数百名开发人员和数百万行代码,是最大的 Scala 应用之一。这篇文章将在 Databricks 对 Scala 进行一次广泛的介绍,从开始到使用、风格、工具和挑战,从这篇文章中,您将了解在 Databricks 中使 Scala 工作的所有大大小小的信息,对于支持 icon
  • 传统OLAP和OLTP是分离,数据是从业务数据存储库中提取,然后将其存储在数据湖中,下一步就是进行ETL数据提取转换和分析,然后,将这些数据的关键子集转移到数据仓库中,以生成用于决策的业务洞察力。这样做的问题有: 可维护性差:由于存在数据湖和 icon
  • Spark Streaming 是核心 Spark API 的扩展,它支持实时数据流的可扩展、高吞吐量、容错流处理。Spark Streaming 可用于流式传输实时数据,并且可以实时进行处理。Spark Streaming 不断增长的用户群由 Uber、Netflix 和 Pinteres icon
  • 用于 Hadoop 的 MongoDB 连接器是一个库,它允许将 MongoDB(或其数据格式的备份文件,BSON)用作 Hadoop MapReduce 任务的输入源或输出目标。它旨在提供更大的灵活性和性能,并可以轻松地将 MongoDB 中的数据与 Hadoop 生态系统的其他部分集成, icon
  • Hadoop YARN代表又一个资源管理器,随着 Hadoop 2.x 的出现,YARN 成为 Hadoop 生态系统的一部分,YARN 管理集群环境中的资源,在 Hadoop 2.x 之前我们没有任何资源管理器吗?当然,在 Hadoop 2.x 之前我们有一个资源管理器,它 icon