Hadoop生态系统是一套可以共同解决大数据问题的服务。四个核心组件是MapReduce,YARN,HDFS和Common。让我们详细讨论这个话题。在此之前,我们将列出大数据生态系统中使用的所有组件 :
1. Hadoop Yarn
2. Hadoop HDFS
3. Mapreduce
4. Pig
5. Hive
6. Apache H Base
7. HUE
8. Zookeper
9. Ambari
10. Sqoop
11. Oozie
12. Flume
13. H Catalog
14. Thrift
15. Drill
16. Mahout
17. Avro
18. Chukwa and More..
|
Hadoop核心组件
1. Hadoop分布式文件系统:
HDFS的功能
-地球上最可靠的存储系统
-可扩展且可靠
-高度容错
2. MapReduce:
MapReduce的功能是
-简单,可大规模扩展且具有容错能力
-编程模型正在Mapreduce中处理大量数据
-它需要对数据进行计算
3.Resource Negotiator:
-提供跨多个工作负载的稳定,可靠和共享的运营服务
-分布式资源管理层
-它使Hadoop能够提供通用的处理平台
Hadoop高级数据处理组件
只有2个组件属于此类别:
1.HIVE:
HIVE的特征
-它使用户能够对大量数据执行临时分析
-Hadoop上的数据仓库
-具有类似SQL的界面来查询数据
-Hive旨在简化数据汇总
2.PIG:
PIG的特点
-这是一个使用高级语言分析大型数据集的平台
-顶级数据处理引擎
-向下编译为MapReduce作业
-它使用Pig拉丁语
Hadoop NoSQL组件
HBase是属于此类别的唯一部分。Hbase的功能是
-按照Bigtable建模的分布式NoSQL数据库
-它具有面向列的NoSQL DB
-通过随机读写处理大数据
-它也是可扩展且容错的
Hadoop数据分析组件
此类别下列出了五个组件:
1.Hama:
Hama的特点是..
-提供类似SQL的查询界面和以顶点/神经元为中心的编程模型
-这是大数据分析的框架
-批量同步并行(BSP)计算
-这是一个跨平台的分布式计算框架
2.Drill:
独特功能:-
-Drill提供更快的洞察力,而没有数据加载,架构创建的开销
-适用于Hadoop的无架构SQL查询引擎
-大型数据集的交互式分析
-分析非关系数据存储中的多结构和嵌套数据
3.Crunch:
独特功能
-它是编写,测试和运行MapReduce管道的框架
-Crunch简化了诸如加入和数据聚合之类的复杂任务
-它在MapReduce和Spark之上运行
4. Mahout:
Mahout功能包括:-
-这是Hadoop之上的可扩展机器学习库,也是使用最广泛的库
-一种流行的数据科学工具可自动从大数据中找到有意义的模式
-分布式线性代数框架
-它支持多个分布式后端,例如Spark
5. Lucene:
-Lucene是高性能的文本搜索引擎
-信息检索软件库
-用于搜索和索引
-准确高效的搜索算法
-跨平台,可扩展,强大和准确。
Hadoop数据序列化组件
Avro和Thrift归类于此类别
1. Avro:
-Avro是一个数据序列化框架
-它以紧凑,快速的二进制数据格式序列化数据
-它使用JSON定义类型和协议
-它还提供了一个容器文件,用于存储持久数据
2.Thrift:
Thrift的特点是..
-Thrift提供了语言不可知的框架
-接口定义语言和二进制通信协议
-它的远程过程调用(RPC)框架
Hadoop数据传输组件
Chukwa,Sqoop和Flume属于此类。
1. Sqoop:
-此工具旨在有效地在Hadoop和RDBMS之间传输批量数据
-Sqoop并行化数据传输
-允许从外部数据存储导入数据
-使用MapReduce导入和导出数据
2. Chukwa:
-Chukwa是用于监视大型分布式系统的数据收集系统
-它提供可扩展且强大的工具包来分析日志C> huu
-专为日志收集和分析而设计
3. Flume:数据收集和汇总系统
-Flume是用于流式传输事件数据的服务。它可靠,可扩展,容错且可自定义
-具有分布式管道架构
Hadoop中使用的管理组件
1. HCatalog:
-这是表和存储管理层
-它是Hive,Pig和MapReduce之间的接口
-它提供对Hive Metastore表的访问。Hcatalog具有共享的架构和数据类型
2. Oozie:基于服务器的工作流计划系统
-提供工作流程管理和协调,并根据预定义的时间表运行工作流程
Hadoop监控组件
1. Ambari:Hadoop部署,管理和监视工具
-它提供了用于跨多个主机安装Hadoop的向导
-Ambari是用于启动,停止和重新配置Hadoop服务的中央管理,它包含用于监控Hadoop集群的运行状况和状态的仪表板
2. ZooKeeper:高度可靠的分布式协调系统
-集中式服务,用于维护配置信息,并允许分布式进程相互协调。它是可靠,快速,简单和可扩展的组件。