大数据专题

什么是大数据?

   你可能会问什么是大数据,它几乎是每一个业务领域的最新趋势?难道仅仅是炒作?

   事实上"大数据"是一个非常简单的术语 - 它只是说 - 一个非常大的数据集。有多大?确切答案是"你能想象的一样大"!

   这个数据集为何能如此大规模?因为数据可能来自无处不在,无时不变的: RFID传感器,流量数据,用于收集气象信息传感器,手机的GPRS包,社交媒体网站的发布,数码照片和视频,在网上购买的交易记录,你的名字!大数据是一个巨大的数据集,包含来自于每一个信息源产生的我们感兴趣的数据。

   大数据的特点是四个主要方面:数量,品种繁多,速度和准确性(价值)英文:Volume, Variety, Velocity,和 Veracity ,被称为"大数据的四大V" 。

Volume数量

   数量是指能够捕捉,存储和访问的业务数据量。仅在过去的两年中,产生全球90%的数据。目前大部分组织已经不堪重负如此巨大的数据量,已经积累至TB级甚至PB级,其中一些需要进行组织,保存和分析。

Variety品种

   全球80%的数据是半结构化的。传感器,智能设备和社交媒体都是生成此类数据,网站日志,社交媒体论坛,音频,视频,点击流,电子邮件,文件,传感器系统等也都是。传统的分析解决方案可以很好工作于结构化数据,例如关系型数据库中的数据以及形成的模式。支持各种数据类型的存储和分析在今天需求扩大,需要综合表示各种类型的数据,不能简单地捕获传统的关系数据库管理的数据,而且很容易地实现存储和数据分析的大数据技术呼之欲出。

Velocity速度

   速度就是需要实时的数据分析,"有时耽误2分钟为时已晚!" 。为获得竞争优势,意味着你的竞争对手可能会在你几分钟甚至几秒钟之前识别趋势或机会。另一个例子是对时间敏感的处理过程,例如,捕捉信息欺诈,因为它时刻会流进您的企业,因此必须实时加以分析。时间敏感的数据有一个很短的保质期;一些有名的织都在近实时对它们进行分析。

Veracity 真实性价值

   基于数据我们创造机会和获取价值。数据是所有决定的支持,所以如果你正在寻找可以对您的业务有重大影响的决策,你会希望尽可能多的信息来可以支持你的决策。然而,分离单独的数据量并不能提供足够的信任,数据的真实性和质量是最重要的,因此,建立在大数据解决方案的决策是最大挑战,是实现成功决策的坚实基础。

下面是基于Java支持大数据的产品:

Hadoop

   Hadoop分HDFS和Map/reduce,HDFS是Hadoop的主要分布式存储。一个HDFS集群主要由一个NameNode(管理文件系统的元数据)和存储实际数据的DataNode组成。 HDFS是专门设计用于存储大量的数据,实现了存取优化。

   Hadoop的MapReduce是一个软件框架,可方便地编写应用程序处理大量的数据(多是TB数据集),在服务器硬件数千个节点的大型集群上实现一个可靠的,容错的方式并行运行的系统。

详细进入:Hadoop大数据批处理架构

 

Apache HBase 

   Apache HBase是Hadoop的数据库,一个分布式的,可扩展的数据存储。它提供了随机,实时读/写访问大数据,并进行了优化承载非常大的数据表 - 数十亿行乘以百万列 -,实现服务器硬件之上集群。在其核心Apache HBase是一个分布式的面向列的数据库,属于谷歌的Bigtable:Apache HBase在Hadoop和HDFS之上提供了类似于Bigtable的能力。

详细进入:NOSQL之旅---HBase

 

Apache Cassandra

   Apache Cassandra是一个高性能,可扩展性和高线性可用的数据库,可以运行在服务器或云基础设施上,为关键任务数据提供完美的平台,。 Cassandra支持多个数据中心之间复制是同类产品中最好,为用户提供更低的延迟,甚至不惧怕停电。 Cassandra的数据模型提供了便利的列索引,高性能试图和强大的内置缓存。

详细进入:Cassandra专题

 

Apache Hive

   Apache蜂巢Hive是Hadoop的数据仓库系统,方便简单的数据汇总工具,对存储在Hadoop兼容的文件系统上大型数据集实现查询和分析。Hive提供了查询数据类似SQL的语言称为HiveQL。同时,这语言也可以让传统的map / reduce程序员嵌入他们的自定义maperhe reducer.

详细进入:Hive架构

 

Apache Pig

   Apache Pig是一个用于分析大型数据集的平台。它包含一个高层次的编写数据分析程序的脚本语言,Pigde 程序的显着属性是它适合进行大量的并行化,轮流处理非常大的数据集。pig的基础设施层由产生的序列Map-Reduce程序的编译器组成。猪的语言称为Pig Latin,易于开发编程并考虑了扩展性与易用性。

 

Apache Chukwa

   是一个开源大型分布式系统的数据采集监视系统。它是建立在Hadoop分布式文件系统(HDFS)和Map/ Reduce框架之上,并继承了Hadoop的可伸缩性和健壮性。 Chukwa还包括一个灵活而强大的工具包,用于显示,监测和分析结果,以便做出最佳地使用所收集的数据。

 

Apache Ambari

  是一个基于Web的工具,用于配置,管理和监控的Apache Hadoop集群,包括支持HBase,Hadoop的MapReduce,Hadoop的HDFS,蜂房Hive,HCatalog的ZooKeeper,Oozie,Pig和Sqoop。还提供了仪表盘查看集群的健康,如热图,并能够虚拟化查看MapReduce,Pig和Hive应用,以用户友好的方式来诊断其性能特点。

 

Apache ZooKeeper

  是一种集中式的服务(负载平衡器),维护配置信息,提供命名,提供分布式的同步,并提供团体服务。Apache ZooKeeper协调运行在Hadoop集群上的分布式应用程序。

ZooKeeper在服务发现中应用

 

Apache Sqoop

  Apache Sqoop的是一个专为Apache Hadoop设计的转换工具,在与关系数据库的结构化数据存储之间高效地传输大量数据。

 

Apache Oozie

  Apache Oozie是一个管理Apache Hadoop作业的可扩展的,可靠的和可扩展的工作流调度系统。 Oozie工作流程的工作都是由DAG(irected Acyclical Graphs)指挥。Oozie协调工作常是由频繁的数据到达触发的Oozie工作流工作。 Oozie集成支持几种类型的Hadoop作业开箱(Java map-reduce, Streaming map-reduce, Pig, Hive, Sqoop and Distcp)以及系统的具体工作(shell脚本)。

Apache Mahout

  Apache Mahout是一个可扩展的机器学习和数据挖掘库。目前Mahout的支持主要是四个用例:
推荐挖掘:试图找到用户的行为和可能会喜欢的项目。
集群:找到文本文件相关处,然后将他们分为局部文件。
分类:从现有的分类中学习,能够分配到正确的类别。
频繁项集挖掘:需要项目组(查询会话中,购物车的内容),并确定,其中个别项目通常一起出现。

使用Mahout实现自然语言处理

 

Apache HCatalog

  Apache HCatalog是一个使用Apache的Hadoop创建的数据表和存储管理服务。这包括:

  • 提供一个共享的架构和数据类型的机制。
  • 提供一个表抽象,使用户不必关心在哪里或如何存储他们的数据。
  • 数据处理工具,如Pig,地Map Reduce,和Hive提供的互操作性。

结构化数据与非结构化数据

大数据专题

猜你喜欢