大数据主题

Hadoop大数据批处理教程

Hadoop是什么?

   Hadoop是一个基于Java开发的处理巨大数据量的平台.软件, 能够分布式运行且复制数据,也可以在一个集群上运行多个流程,管理由用户创建的并行任务,可以处理非结构化数据 半结构化数据和结构化数据,实现灵活的数据分析和机器学习,低成本且可扩展。

  Hadoop为部署在低成本的硬件上设计。提供高吞吐量的应用数据访问,并且适合于拥有大数据集的应用程序使用。

  MapReduce曾经是谷歌的秘密武器:是将复杂的问题分开并在多台计算机传播他们的一种方式。 Hadoop是MapReduce的一个开源实现,它有自己的文件系统HDFS(Hadoop分布式文件系统)。Hadoop集群排序1 TB的数据只花了209秒。

Hadoop有多个版本:

Apache Hadoop:

  • Hadoop Common通用包.
  • HDFS分布式文件系统
  • MapReduce核心
  • Avro 数据序列化系统
  • Chukwa 为管理大型分布式系统的数据收集
  • HBase可伸缩的分布式数据库
  • Hive数据仓库
  • Mahout机器学习和数据挖掘库包
  • Pig高层次的数据流脚本语言 用于并行计算的执行框架。
  • ZooKeeper高性能的服务负载平衡器

Cloudera Hadoop:

  Cloudera的分布为Apache的Hadoop(CDH)设置了基于Hadoop的数据管理平台的新标准。它是当今最全面的平台,能显著加快您在组织中部署Apache的Hadoop。

  Hadoop可安装模式

  1. 独立模式:要在独立模式下部署Hadoop的,我们只需要设置JAVA_HOME的路径。在这种模式下,不需要启动守护流程,不需要的节点名称格式因为数据保存在本地磁盘上。
  2. 伪分布式模式:在这种模式下,所有的守护流程(名称节点,数据节点,secondaryNameNode,JobTracker的,TaskTracker必须)在一台机器上运行。
  3. 分布式模式:守护流程 (nameNode, jobTracker, secondaryNameNode(Optionally)) 运行在主节点(名称节点NameNode) ,而其他守护(dataNode and taskTracker) 运行在从节点(DataNode).

  本教程以简明扼要地方式介绍Hadoop原理,以及如何使用Hadoop

  1. HDFS是什么
  2. Map/Reduce
  3. Hadoop应用job编程 测试和安装
  4. Hadoop2.2和Yarn安装教程
  5. Hive - 类似SQL的数据分析工具
  6. HBase - 一个NoSQL数据库
  7. 使用MapReduce实现Join原理
  8. Spring for Apache Hadoop源码案例下载

 

相关参考

Hadoop 擅长什么?

Hadoop专题

Storm大数据实时处理

NoSQL

Spark - 大数据Big Data处理框架

大数据专题