大数据主题
Hadoop大数据批处理教程
Hadoop是什么?
Hadoop是一个基于Java开发的处理巨大数据量的平台.软件, 能够分布式运行且复制数据,也可以在一个集群上运行多个流程,管理由用户创建的并行任务,可以处理非结构化数据 半结构化数据和结构化数据,实现灵活的数据分析和机器学习,低成本且可扩展。
Hadoop为部署在低成本的硬件上设计。提供高吞吐量的应用数据访问,并且适合于拥有大数据集的应用程序使用。
MapReduce曾经是谷歌的秘密武器:是将复杂的问题分开并在多台计算机传播他们的一种方式。 Hadoop是MapReduce的一个开源实现,它有自己的文件系统HDFS(Hadoop分布式文件系统)。Hadoop集群排序1 TB的数据只花了209秒。
Hadoop有多个版本:
Apache Hadoop:
- Hadoop Common: 通用包.
- HDFS: 分布式文件系统
- MapReduce: 核心
- Avro: 数据序列化系统
- Chukwa: 为管理大型分布式系统的数据收集
- HBase: 可伸缩的分布式数据库
- Hive: 数据仓库
- Mahout: 机器学习和数据挖掘库包
- Pig: 高层次的数据流脚本语言 用于并行计算的执行框架。
- ZooKeeper: 高性能的服务负载平衡器
Cloudera Hadoop:
Cloudera的分布为Apache的Hadoop(CDH)设置了基于Hadoop的数据管理平台的新标准。它是当今最全面的平台,能显著加快您在组织中部署Apache的Hadoop。
Hadoop可安装模式
- 独立模式:要在独立模式下部署Hadoop的,我们只需要设置JAVA_HOME的路径。在这种模式下,不需要启动守护流程,不需要的节点名称格式因为数据保存在本地磁盘上。
- 伪分布式模式:在这种模式下,所有的守护流程(名称节点,数据节点,secondaryNameNode,JobTracker的,TaskTracker必须)在一台机器上运行。
- 分布式模式:守护流程 (nameNode, jobTracker, secondaryNameNode(Optionally)) 运行在主节点(名称节点NameNode) ,而其他守护(dataNode and taskTracker) 运行在从节点(DataNode).
本教程以简明扼要地方式介绍Hadoop原理,以及如何使用Hadoop
- HDFS是什么
- Map/Reduce
- Hadoop应用job编程 测试和安装
- Hadoop2.2和Yarn安装教程
- Hive - 类似SQL的数据分析工具
- HBase - 一个NoSQL数据库
- 使用MapReduce实现Join原理
- Spring for Apache Hadoop源码案例下载
相关参考
Hadoop 擅长什么?
东南亚最大消费App经验:大数据分析为什么大多数会失败?
Hadoop专题
Storm大数据实时处理
NoSQL
Spark - 大数据Big Data处理框架
大数据专题