Hadoop生态系统中各种组件介绍 - theinsaneapp

20-10-21 banq

Hadoop生态系统是一套可以共同解决大数据问题的服务。四个核心组件是MapReduce,YARN,HDFS和Common。让我们详细讨论这个话题。在此之前,我们将列出大数据生态系统中使用的所有组件 :

1. Hadoop Yarn
2. Hadoop HDFS
3. Mapreduce
4. Pig
5. Hive
6. Apache H Base
7. HUE
8. Zookeper
9. Ambari
10. Sqoop
11. Oozie
12. Flume
13. H Catalog
14. Thrift
15. Drill
16. Mahout
17. Avro
18. Chukwa and More..

  

Hadoop核心组件

1. Hadoop分布式文件系统:
HDFS的功能
-地球上最可靠的存储系统 
-可扩展且可靠
-高度容错 

2. MapReduce: 
MapReduce的功能是
-简单,可大规模扩展且具有容错能力 
-编程模型正在Mapreduce中处理大量数据
-它需要对数据进行计算 

3.Resource Negotiator: 
-提供跨多个工作负载的稳定,可靠和共享的运营服务 
-分布式资源管理层 
-它使Hadoop能够提供通用的处理平台
 

Hadoop高级数据处理组件 
只有2个组件属于此类别:

1.HIVE: 
HIVE的特征
-它使用户能够对大量数据执行临时分析 
-Hadoop上的数据仓库
-具有类似SQL的界面来查询数据 
-Hive旨在简化数据汇总 

2.PIG
PIG的特点
-这是一个使用高级语言分析大型数据集的平台
-顶级数据处理引擎  
-向下编译为MapReduce作业 
-它使用Pig拉丁语 
 

Hadoop NoSQL组件 
HBase是属于此类别的唯一部分。Hbase的功能是
-按照Bigtable建模的分布式NoSQL数据库 
-它具有面向列的NoSQL DB 
-通过随机读写处理大数据 
-它也是可扩展且容错的 
 

Hadoop数据分析组件
此类别下列出了五个组件:

1.Hama: 
Hama的特点是.. 
-提供类似SQL的查询界面和以顶点/神经元为中心的编程模型
-这是大数据分析的框架
-批量同步并行(BSP)计算 
-这是一个跨平台的分布式计算框架 

2.Drill: 
独特功能:-
-Drill提供更快的洞察力,而没有数据加载,架构创建的开销
-适用于Hadoop的无架构SQL查询引擎
-大型数据集的交互式分析
-分析非关系数据存储中的多结构和嵌套数据

3.Crunch: 
独特功能
-它是编写,测试和运行MapReduce管道的框架 
-Crunch简化了诸如加入和数据聚合之类的复杂任务 
-它在MapReduce和Spark之上运行 

4. Mahout: 
Mahout功能包括:-
-这是Hadoop之上的可扩展机器学习库,也是使用最广泛的库 
-一种流行的数据科学工具可自动从大数据中找到有意义的模式
-分布式线性代数框架
-它支持多个分布式后端,例如Spark 

5. Lucene: 
-Lucene是高性能的文本搜索引擎 
-信息检索软件库
-用于搜索和索引
-准确高效的搜索算法
-跨平台,可扩展,强大和准确。 
 

Hadoop数据序列化组件 
Avro和Thrift归类于此类别 

1. Avro: 
-Avro是一个数据序列化框架 
-它以紧凑,快速的二进制数据格式序列化数据 
-它使用JSON定义类型和协议 
-它还提供了一个容器文件,用于存储持久数据 

2.Thrift:
Thrift的特点是.. 
-Thrift提供了语言不可知的框架 
-接口定义语言和二进制通信协议 
-它的远程过程调用(RPC)框架
 

Hadoop数据传输组件
Chukwa,Sqoop和Flume属于此类。 

1. Sqoop:
-此工具旨在有效地在Hadoop和RDBMS之间传输批量数据 
-Sqoop并行化数据传输 
-允许从外部数据存储导入数据 
-使用MapReduce导入和导出数据

2. Chukwa: 
-Chukwa是用于监视大型分布式系统的数据收集系统 
-它提供可扩展且强大的工具包来分析日志C> huu 
-专为日志收集和分析而设计 

3. Flume:数据收集和汇总系统 
-Flume是用于流式传输事件数据的服务。它可靠,可扩展,容错且可自定义 
-具有分布式管道架构 

 Hadoop中使用的管理组件

1. HCatalog: 
-这是表和存储管理层 
-它是Hive,Pig和MapReduce之间的接口 
-它提供对Hive Metastore表的访问。Hcatalog具有共享的架构和数据类型

2. Oozie:基于服务器的工作流计划系统 
-提供工作流程管理和协调,并根据预定义的时间表运行工作流程
 

Hadoop监控组件 

1. Ambari:Hadoop部署,管理和监视工具 
-它提供了用于跨多个主机安装Hadoop的向导 
-Ambari是用于启动,停止和重新配置Hadoop服务的中央管理,它包含用于监控Hadoop集群的运行状况和状态的仪表板 

2. ZooKeeper:高度可靠的分布式协调系统 
-集中式服务,用于维护配置信息,并允许分布式进程相互协调。它是可靠,快速,简单和可扩展的组件。