中台数据工程教程

2021年数据库回顾 - OtterTune

对于数据库行业来说，这是疯狂的一年，随着年底的临近，在我们进入 2022 年时值得反思和评估。以下是一些亮点以及我对它们对数据库领域可能意味着什么的一些想法。 PostgreSQL 的统治地位开发人员的传统观念已经转变：Postgre

学习Hadoop最佳书籍推荐

Apache Hadoop是一项杰出的技术，它推动了当前的 IT 行业。许多高端数据处理框架，如 Amazon S3、Apache Spark、Databricks 都是建立在 Hadoop 之上的。学习 Hadoop 是软件工程师的首要任务之一，没有比书更适合学习的地方了。因此，我向您

HBase 教程：什么是 HBase？

HBase 是一个用 Java 编写的开源、多维、分布式、可扩展和 NoSQL 数据库。HBase 运行在HDFS（Hadoop 分布式文

未来云计算市场将重新洗牌 - erikbern

目前有云计算厂商提供从硬件开始的端到端整体解决方案，五年以后，如果云供应商专注于最低层，而其他（纯软件）供应商则专注于上层如何呢？下面是我对云计算供应商（AWS、Azure、GCP）的一个理论。云供应商将越来越多地关注最低层：基本上是通过API租用其数据中心的容量。<

Spark SQL 教程：通过示例了解 Spark SQL

Apache Spark 是一个闪电般的集群计算框架，专为快速计算而设计。随着大数据生态系统中实时处理框架的出现，公司在其解决方案中严格使用 Apache Spark。Spark SQL 是 Spark 中的一个新模块，它将关系处理与 Spark 的函数式编程 API 集成在一起。它支持通过

通过 Apache Zeppelin深入了解Delta Lake

Delta Lake 是一个开源项目，可以在数据湖之上构建 Lakehouse 架构。网上有很多关于如何使用 Delta Lake 的教程。这个帖子有点不一样，是给那些想知道Delta Lake内部机制，特别是交易日志的人看的：以互动方式了解Delta Lake的内部机制。可以查看这

应该考虑实施 DataOps 的 5 个理由

自2015 年DataOps 术语出现以来，受到了数据科学家、分析师和数据经理以及从事数据使用和数据价值工作的人员的欢迎。通过将敏捷方法应用于数据处理管道来驱动数据价值，是 DataOps 方法的主要目标。在本文中，我将解释 DataOps 究竟是什么、DevOps 和 DataOp

Hadoop 3.0 中的新功能

这篇“ Hadoop 3.0 的新特性”博客重点关注 Hadoop 3 中的预期变化，因为它仍处于 alpha 阶段。Apache 社区已经合并了许多更改，并且仍在处理其中的一些更改。因此，我们将更广泛地审视预期的变化。Apache Hadoop 3 将结合 Hadoop-2.x 的

安装 Hadoop：设置单节点 Hadoop 集群

安装Hadoop有两种方式，即单节点和多节点。单节点集群意味着只有一个DataNode在一台机器上运行和设置所有的NameNode、DataNode、ResourceManager和NodeManager。这用于学习和测试目的。例如，让我们考虑医疗保健行业内的样本数据集。因此，为了测

Spark流教程：使用 Apache Spark 的Twitter情绪分析

Spark Streaming 是核心 Spark API 的扩展，它支持实时数据流的可扩展、高吞吐量、容错流处理。Spark Streaming 可用于流式传输实时数据，并且可以实时进行处理。Spark Streaming 不断增长的用户群由 Uber、Netflix 和 Pinteres

Spark GraphX简介与教程

GraphX是 Apache Spark 用于图形和图形并行计算的 API。GraphX 在单个系统内统一了 ETL（提取、转换和加载）过程、探索性分析和迭代图计算。图的用法可以在 Facebook 的朋友、LinkedIn 的连接、互联网的路由器、天体物理学中星系和恒星之间的关系以及谷歌的

BDA：Hadoop生态大数据工具的漏洞扫描器

BDA 是 Hadoop 和 Spark 等大数据工具的漏洞扫描器。它搜索配置弱点并报告它们。Hadoop 和 Spark 是少数遇到大量数据的应用程序之一。因此，通过保护这些应用程序，可以实现巨大的飞跃，因为它涵盖了大量数据。用途和受众BDA 通常用于应用程序测试、漏洞扫描

"Hadoop-as-a-Service"已经成为云数据分析的主流趋势

Hadoop 是指通过处理框架在商品硬件集群上存储数据和运行应用程序的开源软件。Hadoop也是一种用于大数据分析的分布式处理技术。大数据分析是用于检查大数据以发现各种隐藏模式、未知相关性、市场趋势、客户偏好和其他有助于组织做出各种决策的信息的过程。Hadoop 允许存储这些类型的数据，具有

Hadoop YARN 架构

Hadoop YARN代表又一个资源管理器，随着 Hadoop 2.x 的出现，YARN 成为 Hadoop 生态系统的一部分，YARN 管理集群环境中的资源，在 Hadoop 2.x 之前我们没有任何资源管理器吗？当然，在 Hadoop 2.x 之前我们有一个资源管理器，它

GridGain的数据湖加速器简介

由 Hadoop 提供支持的数据湖是大规模分析和报告的绝佳选择。Hadoop 可横向扩展且具有成本效益，并可实现跨越大数据集的长期运行的操作。实时分析用例的持续增长以及查询操作和历史数据集的需求——其中操作必须在几秒钟内完成而不是几分钟，或者几毫秒而不是几秒钟——带来了新的挑战。然而

基于Hadoop的Apache Hudi 0.10 发布

Apache Hudi 0.10 发布，Hadoop关联http://www.linuxeden.com/a/96092 使用 Apache Hudi 在 U

使用 PySpark 创建新列的 4 种不同方式 - Soner

了解如何在 Spark 数据框中创建新列？我们生活在大数据时代。收集、存储和传输数据变得非常容易。随着数据量的增加，传统的工具开始变得不够用。当数据太大而无法通过传统工具和技术进行处理时，我们应该使用允许分布式计算的工具和技术，例如Spark。Spark 是一种用于大

面试Hadoop DBA的重要问题

Apache Hadoop 是一种基于 Java 的跨平台开源软件框架，用于日益流行的“大数据”世界，用于分布式存储和处理大型数据集。Hadoop 最突出的用户是 Yahoo!、Facebook、公共云空间，如 Microsoft Azure、谷歌计算引擎和亚马逊网络服务，以及超过一半的财富