命令行工具可以比Hadoop集群快235倍 - Adam Drake

22-03-08 banq

当我在浏览网页和赶上一些我定期访问的网站时,我发现了一篇来自Tom Hayden的很酷的文章,关于使用亚马逊弹性Map Reduce(EMR)和mrjob来计算他从millionbase档案馆下载的国际象棋游戏的一些输赢比率的统计数据,并且总体上对EMR感到有趣。由于数据量只有大约1.75GB,包含大约200万个棋谱,我对使用Hadoop来完成这个任务持怀疑态度,但我可以理解他使用mrjob和EMR来学习和娱乐的目的。因为这个问题基本上只是看每个文件的结果行,并汇总不同的结果,所以似乎非常适合用shell命令进行流处理。我试了一下,对于同样的数据量,我能够用我的笔记本电脑在大约12秒内得到结果(处理速度大约为270MB/秒),而Hadoop的处理则需要大约26分钟(处理速度大约为1.14MB/秒)。

在报告了用集群中的7台c1.medium机器处理数据所需的时间为26分钟后,汤姆说:

这可能比在我的机器上串行运行要好,但可能还不如我在本地做一些巧妙的多线程应用好。

这绝对是正确的,尽管即使是串行处理也可能胜过26分钟。虽然汤姆做这个项目是为了好玩,但人们经常使用Hadoop和其他所谓的大数据(tm)工具来进行现实世界的处理和分析工作,而这些工作可以用更简单的工具和不同的技术来更快地完成。

一种特别未被使用的数据处理方法是使用标准的外壳工具和命令。这种方法的好处是巨大的,因为用shell命令创建一个数据管道意味着所有的处理步骤都可以并行完成。这基本上就像在你的本地机器上拥有你自己的风暴集群。甚至连Spouts、Bolts和Sinks的概念也转移到shell管道和它们之间的命令。你可以很容易地用基本命令构建一个流处理管道,与许多现代大数据(TM)工具相比,它将具有非常好的性能。

另外一点是批处理与流分析方法。汤姆在文章的开头提到,在加载10000个游戏并在本地进行分析后,他的内存有点不足了。这是因为所有的游戏数据都被加载到RAM中进行分析。然而,考虑一下这个问题,可以用流式分析轻松解决,基本上不需要任何内存。我们将创建的流处理管道将比Hadoop的实现快235倍以上,并且几乎不使用任何内存。
....

 
这条命令语句是:

find . -type f -name '*.pgn' -print0 | xargs -0 -n4 -P4 mawk '/Result/ { split($0, a, "-"); res = substr(a[1], length(a[1]), 1); if (res == 1) white++; if (res == 0) black++; if (res == 2) draw++ } END { print white+black+draw, white, black, draw }' | mawk '{games += $1; white += $2; black += $3; draw += $4; } END { print games, white, black, draw }'


这条find | xargs mawk | mawk管道让我们的运行时间缩短到大约 12 秒,或大约 270MB/秒,这比 Hadoop 实现快了大约 235 倍。
 

结论
希望这说明了一些关于使用和滥用 Hadoop 等工具进行数据处理任务的要点,这些任务可以通过简单的 shell 命令和工具在单台机器上更好地完成。如果您有大量数据或确实需要分布式处理,那么可能需要像 Hadoop 这样的工具,但这些天我经常看到使用 Hadoop 的地方传统的关系数据库或其他解决方案在性能方面要好得多,实施成本和持续维护。

点击标头见原文