Hadoop大数据批处理教程

　　 Hadoop是一个基于Java开发的处理巨大数据量的平台.软件，能够分布式运行且复制数据，也可以在一个集群上运行多个流程，管理由用户创建的并行任务，可以处理非结构化数据半结构化数据和结构化数据，实现灵活的数据分析和机器学习，低成本且可扩展。

　　Hadoop为部署在低成本的硬件上设计。提供高吞吐量的应用数据访问，并且适合于拥有大数据集的应用程序使用。

　　MapReduce曾经是谷歌的秘密武器：是将复杂的问题分开并在多台计算机传播他们的一种方式。 Hadoop是MapReduce的一个开源实现，它有自己的文件系统HDFS（Hadoop分布式文件系统）。Hadoop集群排序1 TB的数据只花了209秒。

Hadoop有多个版本：

Apache Hadoop:

Cloudera Hadoop:

　　Cloudera的分布为Apache的Hadoop（CDH）设置了基于Hadoop的数据管理平台的新标准。它是当今最全面的平台，能显著加快您在组织中部署Apache的Hadoop。

　　Hadoop可安装模式

独立模式：要在独立模式下部署Hadoop的，我们只需要设置JAVA_HOME的路径。在这种模式下，不需要启动守护流程，不需要的节点名称格式因为数据保存在本地磁盘上。
伪分布式模式：在这种模式下，所有的守护流程（名称节点，数据节点，secondaryNameNode，JobTracker的，TaskTracker必须）在一台机器上运行。
分布式模式：守护流程 (nameNode, jobTracker, secondaryNameNode(Optionally)) 运行在主节点(名称节点NameNode) ，而其他守护(dataNode and taskTracker) 运行在从节点(DataNode).

　　本教程以简明扼要地方式介绍Hadoop原理，以及如何使用Hadoop

相关参考