Hadoop大数据分布式处理系统简介

21-12-22 banq


Hadoop 是一个用于存储数据和运行应用程序的框架。为任何类型的数据提供大容量存储是其主要功能之一。此外,它具有强大的处理能力,因此它能够一次处理多个并发任务。

 
Hadoop 模块

  • Hadoop 分布式文件系统 (HDFS) - HDFS 是一种能够在标准低端硬件上运行的分布式文件系统。该系统可确保更好的数据吞吐量以及强大的容错能力和大数据集支持。
  • 另一个资源协商器 (YARN) - YARN 负责管理和监控集群节点。此外,它还有助于安排作业和任务。
  • MapReduce - 对进行并行数据计算的程序很有用。此外,输入数据被转换为计算数据集。
  • Hadoop 通用 - 它带有通用的 Java 库,在整个模块中都很有用。

 

Hadoop的组件
随着 Hadoop 的引入,在集群服务器中使用存储和处理能力变得更加容易。它充当构建其他应用程序的构建块。在过去的几年中,Hadoop 生态系统因其各种特性而呈现出显着的增长。该生态系统由许多用于收集、存储、分析和管理大数据的应用程序和工具组成。下面给出了一些最流行和最常用的组件。

  • Spark- 这是一个开源平台,适用于分布式处理中的大量数据工作负载。此外,它还确保了快速性能、通用批处理、流分析、机器学习和图形数据库。
  • Presto——Hadoop 的这个开源工具有利于支持 ANSI SQL 标准,包括复杂查询、聚合、连接和窗口函数。此外,它还能够处理来自多个来源(如 (HDFS) 和 Amazon S3)的数据。
  • Hive - 该工具允许用户通过使用 SQL 接口来利用 Hadoop MapReduce。这导致大规模执行分析。
  • HBase- HBase 是一个与 Amazon S3 一起运行的开源数据库。最重要的是,它使用 Hadoop 分布式文件系统 (HDFS),是一个分布式大数据存储,由具有不可数行和列的表创建。
  • Zeppelin - 这可以称为笔记本,允许用户探索交互式数据。

 

Hadoop 对大数据的好处

  • 弹性 - 它确保弹性,因为存储在节点中的数据会自动复制到集群的其他节点中。它支持容错并在节点出现故障时提供数据备份。
  • 扩展性 - Hadoop 在分布式环境中运行,因此具有可扩展性。它使设置能够根据需要扩展。这有助于在设置中存储多达数 PB 的数据。
  • 低成本 - 这是开源软件,与关系数据库系统相比,它的成本较低。
  • 数据多样性 - 该平台将数据存储为非结构化、半结构化和结构化三种格式。它允许以任何格式转储数据,而无需验证预定模式。但是,数据在检索时适合任何模式。这是有益的,因为它可以使用相同的数据得出多种见解。
  • 速度——借助分布式文件系统、并发处理和 MapReduce 模型,确保更快地执行复杂查询。