大数据专题
如何为大数据项目选择最好的工具?
如果你正在尝试为一个大数据项目选择正确的工具?下面这个图表(和三个简单的规则)可以帮助引导您完成选项。
这个图表是基于由微软研究院高级研究项目经理叶文明在Build 2014上介绍。 "在选择合适的工具是非常重要的,技能仍然是最大的挑战“
三个准则:
- 使用数据来驱动决策,而不是仅仅为了自身的利益跟踪它。
- 不断更新和完善您的指标。
- 使用自动化来进行更多的实验和提出更多的问题。
下面这个图标分为三个部分:批处理 交互分析和实时流处理。
|
Batch processing |
Interactive analysis |
Stream processing |
运行查询时间 | 分钟到小时级别 | 毫秒到分钟级别 | 从不停止 |
数据量 | TB到 PB | GB 到 PB | 持续不断的流 |
编程模型 | MapReduce | 查询 | DAG |
用户 | 面向开发者 | 开发者和分析师 | 面向开发者 |
开源工具 | Hadoop, Spark | Drill, Shark, ImpalaHbase | Storm, Apache S4, Kafka |