Hadoop生态系统中各种组件介绍 - theinsaneapp

20-10-21 banq

Hadoop生态系统是一套可以共同解决大数据问题的服务。四个核心组件是MapReduce,YARN,HDFS和Common。让我们详细讨论这个话题。在此之前,我们将列出大数据生态系统中使用的所有组件 :

1. Hadoop Yarn
2. Hadoop HDFS
3. Mapreduce
4. Pig
5. Hive
6. Apache H Base
7. HUE
8. Zookeper
9. Ambari
10. Sqoop
11. Oozie
12. Flume
13. H Catalog
14. Thrift
15. Drill
16. Mahout
17. Avro
18. Chukwa and More..

  

Hadoop核心组件

1. Hadoop分布式文件系统:

HDFS的功能

-地球上最可靠的存储系统 

-可扩展且可靠

-高度容错 

2. MapReduce: 

MapReduce的功能是

-简单,可大规模扩展且具有容错能力 

-编程模型正在Mapreduce中处理大量数据

-它需要对数据进行计算 

3.Resource Negotiator: 

-提供跨多个工作负载的稳定,可靠和共享的运营服务 

-分布式资源管理层 

-它使Hadoop能够提供通用的处理平台

 

Hadoop高级数据处理组件 

只有2个组件属于此类别:

1.HIVE: 

HIVE的特征

-它使用户能够对大量数据执行临时分析 

-Hadoop上的数据仓库

-具有类似SQL的界面来查询数据 

-Hive旨在简化数据汇总 

2.PIG

PIG的特点

-这是一个使用高级语言分析大型数据集的平台

-顶级数据处理引擎  

-向下编译为MapReduce作业 

-它使用Pig拉丁语 

 

Hadoop NoSQL组件 

HBase是属于此类别的唯一部分。Hbase的功能是

-按照Bigtable建模的分布式NoSQL数据库 

-它具有面向列的NoSQL DB 

-通过随机读写处理大数据 

-它也是可扩展且容错的 

 

Hadoop数据分析组件

此类别下列出了五个组件:

1.Hama: 

Hama的特点是.. 

-提供类似SQL的查询界面和以顶点/神经元为中心的编程模型

-这是大数据分析的框架

-批量同步并行(BSP)计算 

-这是一个跨平台的分布式计算框架 

2.Drill: 

独特功能:-

-Drill提供更快的洞察力,而没有数据加载,架构创建的开销

-适用于Hadoop的无架构SQL查询引擎

-大型数据集的交互式分析

-分析非关系数据存储中的多结构和嵌套数据

3.Crunch: 

独特功能

-它是编写,测试和运行MapReduce管道的框架 

-Crunch简化了诸如加入和数据聚合之类的复杂任务 

-它在MapReduce和Spark之上运行 

4. Mahout: 

Mahout功能包括:-

-这是Hadoop之上的可扩展机器学习库,也是使用最广泛的库 

-一种流行的数据科学工具可自动从大数据中找到有意义的模式

-分布式线性代数框架

-它支持多个分布式后端,例如Spark 

5. Lucene: 

-Lucene是高性能的文本搜索引擎 

-信息检索软件库

-用于搜索和索引

-准确高效的搜索算法

-跨平台,可扩展,强大和准确。 

 

Hadoop数据序列化组件 

Avro和Thrift归类于此类别 

1. Avro: 

-Avro是一个数据序列化框架 

-它以紧凑,快速的二进制数据格式序列化数据 

-它使用JSON定义类型和协议 

-它还提供了一个容器文件,用于存储持久数据 

2.Thrift:

Thrift的特点是.. 

-Thrift提供了语言不可知的框架 

-接口定义语言和二进制通信协议 

-它的远程过程调用(RPC)框架

 

Hadoop数据传输组件

Chukwa,Sqoop和Flume属于此类。 

1. Sqoop:

-此工具旨在有效地在Hadoop和RDBMS之间传输批量数据 

-Sqoop并行化数据传输 

-允许从外部数据存储导入数据 

-使用MapReduce导入和导出数据

2. Chukwa: 

-Chukwa是用于监视大型分布式系统的数据收集系统 

-它提供可扩展且强大的工具包来分析日志C> huu 

-专为日志收集和分析而设计 

3. Flume:数据收集和汇总系统 

-Flume是用于流式传输事件数据的服务。它可靠,可扩展,容错且可自定义 

-具有分布式管道架构 

 Hadoop中使用的管理组件

1. HCatalog: 

-这是表和存储管理层 

-它是Hive,Pig和MapReduce之间的接口 

-它提供对Hive Metastore表的访问。Hcatalog具有共享的架构和数据类型

2. Oozie:基于服务器的工作流计划系统 

-提供工作流程管理和协调,并根据预定义的时间表运行工作流程

 

Hadoop监控组件 

1. Ambari:Hadoop部署,管理和监视工具 

-它提供了用于跨多个主机安装Hadoop的向导 

-Ambari是用于启动,停止和重新配置Hadoop服务的中央管理,它包含用于监控Hadoop集群的运行状况和状态的仪表板 

2. ZooKeeper:高度可靠的分布式协调系统 

-集中式服务,用于维护配置信息,并允许分布式进程相互协调。它是可靠,快速,简单和可扩展的组件。

              

猜你喜欢