大数据专题

如何为大数据项目选择最好的工具?

  如果你正在尝试为一个大数据项目选择正确的工具?下面这个图表(和三个简单的规则)可以帮助引导您完成选项。

这个图表是基于由微软研究院高级研究项目经理叶文明在Build 2014上介绍。 "在选择合适的工具是非常重要的,技能仍然是最大的挑战“

三个准则:

  • 使用数据来驱动决策,而不是仅仅为了自身的利益跟踪它。
  • 不断更新和完善您的指标。
  • 使用自动化来进行更多的实验和提出更多的问题。

下面这个图标分为三个部分:批处理 交互分析和实时流处理。

 

Batch processing
批处理

Interactive analysis
交互分析

Stream processing
实时流处理

运行查询时间 分钟到小时级别 毫秒到分钟级别 从不停止
数据量 TB到 PB GB 到 PB 持续不断的流
编程模型 MapReduce 查询 DAG
用户 面向开发者 开发者和分析师 面向开发者
开源工具 HadoopSpark Drill, Shark, ImpalaHbase Storm, Apache S4, Kafka