Hadoop大数据教程

2021年数据库回顾 - OtterTune

对于数据库行业来说，这是疯狂的一年，随着年底的临近，在我们进入 2022 年时值得反思和评估。以下是一些亮点以及我对它们对数据库领域可能意味着什么的一些想法。 PostgreSQL 的统治地位开发人员的传统观念已经转变：Postgre

学习Hadoop最佳书籍推荐

Apache Hadoop是一项杰出的技术，它推动了当前的 IT 行业。许多高端数据处理框架，如 Amazon S3、Apache Spark、Databricks 都是建立在 Hadoop 之上的。学习 Hadoop 是软件工程师的首要任务之一，没有比书更适合学习的地方了。因此，我向您

Github上开源分布式数据库TiDB的星级已达到 30,000

TiDB（“Ti”代表 Titanium）是一个开源的 NewSQL 数据库，支持混合事务和分析处理 (HTAP) 工作负载。它兼容 MySQL，具有水平可扩展性、强一致性和高可用性。TiDB 是一个分布式数据库，使用 MySQL Wire 协议。TiDB 旨在支持事务处理 (OLT

机器学习库Spark MLlib简介与教程

Spark MLlib是 Apache Spark 的机器学习组件。 Spark 的主要吸引力之一是能够大规模扩展计算，而这正是机器学习算法所需要的。但局限性是所有机器学习算法都无法有效并行化。每个算法都有自己的并行化挑战，无论是任务并行还是数据并行。

HBase 教程：什么是 HBase？

HBase 是一个用 Java 编写的开源、多维、分布式、可扩展和 NoSQL 数据库。HBase 运行在HDFS（Hadoop 分布式文

改变数字分析生态系统的10个大数据公司

以颠覆性解决方案彻底改变数字生态系统的 10 大大数据公司： A3logics - 重点领域：大数据、IT 咨询、SaaS 开发服务行业：房地产与住房 IT、教育与电子学习、航运与物流、零售与电子商务、旅游与休闲、银行与金融、食品与餐厅、石油与燃气、媒体和娱乐

了解数据分析项目生命周期

在处理数据分析项目时，应该遵循一些固定的任务来获得预期的输出。所以在这里我们将构建一个数据分析项目周期，这将是一组标准的数据驱动流程，以有效地将数据引导到洞察力。项目生命周期的定义数据分析过程应遵循使用输入数据集有效实现目标的序列。该数据分析过程可能包括识别数据分析问题、设计和收集数据集、数

Apache Oozie 教程：使用 Oozie 调度 Hadoop 作业

在这个 Apache Oozie 教程博客中，我们将介绍： Apache Oozie 简介 Oozie 工作流 Oozie 协调员 Oozie 捆绑包字数统计工作流作业基于时间的字数统计协调员工作我们将通过介绍 Apa

面向银行和金融部门的Hadoop

Hadoop 是用 Java 编写的基于 Apache 的开源框架。它是著名的大数据工具之一，它使用其文件系统 HDFS（Hadoop 分布式文件系统）提供分布式存储和使用 Map-Reduce 编程模型的分布式处理功能。Hadoop 使用商品硬件集群来存储和运行应用程序。由于 Ha

应该考虑实施 DataOps 的 5 个理由

自2015 年DataOps 术语出现以来，受到了数据科学家、分析师和数据经理以及从事数据使用和数据价值工作的人员的欢迎。通过将敏捷方法应用于数据处理管道来驱动数据价值，是 DataOps 方法的主要目标。在本文中，我将解释 DataOps 究竟是什么、DevOps 和 DataOp

Hadoop 3.0 中的新功能

这篇“ Hadoop 3.0 的新特性”博客重点关注 Hadoop 3 中的预期变化，因为它仍处于 alpha 阶段。Apache 社区已经合并了许多更改，并且仍在处理其中的一些更改。因此，我们将更广泛地审视预期的变化。Apache Hadoop 3 将结合 Hadoop-2.x 的

HDFS 命令：用于管理HDFS的Hadoop Shell命令大全

在使用 Hadoop 文件系统时最常用的重要 HDFS 命令及其工作方式。 fsck HDFS 命令用于检查 Hadoop 文件系统的健康状况。命令： hdfs fsck / ls <

安装 Hadoop：设置单节点 Hadoop 集群

安装Hadoop有两种方式，即单节点和多节点。单节点集群意味着只有一个DataNode在一台机器上运行和设置所有的NameNode、DataNode、ResourceManager和NodeManager。这用于学习和测试目的。例如，让我们考虑医疗保健行业内的样本数据集。因此，为了测

Spark流教程：使用 Apache Spark 的Twitter情绪分析

Spark Streaming 是核心 Spark API 的扩展，它支持实时数据流的可扩展、高吞吐量、容错流处理。Spark Streaming 可用于流式传输实时数据，并且可以实时进行处理。Spark Streaming 不断增长的用户群由 Uber、Netflix 和 Pinteres

Spark GraphX简介与教程

GraphX是 Apache Spark 用于图形和图形并行计算的 API。GraphX 在单个系统内统一了 ETL（提取、转换和加载）过程、探索性分析和迭代图计算。图的用法可以在 Facebook 的朋友、LinkedIn 的连接、互联网的路由器、天体物理学中星系和恒星之间的关系以及谷歌的

BDA：Hadoop生态大数据工具的漏洞扫描器

BDA 是 Hadoop 和 Spark 等大数据工具的漏洞扫描器。它搜索配置弱点并报告它们。Hadoop 和 Spark 是少数遇到大量数据的应用程序之一。因此，通过保护这些应用程序，可以实现巨大的飞跃，因为它涵盖了大量数据。用途和受众BDA 通常用于应用程序测试、漏洞扫描

"Hadoop-as-a-Service"已经成为云数据分析的主流趋势

Hadoop 是指通过处理框架在商品硬件集群上存储数据和运行应用程序的开源软件。Hadoop也是一种用于大数据分析的分布式处理技术。大数据分析是用于检查大数据以发现各种隐藏模式、未知相关性、市场趋势、客户偏好和其他有助于组织做出各种决策的信息的过程。Hadoop 允许存储这些类型的数据，具有

Hadoop YARN 架构

Hadoop YARN代表又一个资源管理器，随着 Hadoop 2.x 的出现，YARN 成为 Hadoop 生态系统的一部分，YARN 管理集群环境中的资源，在 Hadoop 2.x 之前我们没有任何资源管理器吗？当然，在 Hadoop 2.x 之前我们有一个资源管理器，它