使用Python分析大量数据应该学些什么?


如果您想使用 Python 分析大量数据,该研究什么?
对于大数据,我们不能相信只有语言就足够了。Python 之所以合适,是因为它可以方便地管理数学库、简洁且易于管理异构和多维数据结构,但大数据还需要 IT 结构。例如,我们需要一个系统来管理非常大的文件,并且我们需要结构来映射和减少这些巨大的文件。
Apache Hadoop及其专用的 HDFS 文件系统已成功解决了这些问题。
Python 通过Pydoop 库与它惊人地交互。
推荐的步骤如下:

  • 从两个方面开始:学习必要的数学,通过您编写的简单教育程序加深 Python 的各个方面。通过这种方式,您将同时学习 Python 和所需的数学,您将学习在代码中以实用的方式使用数学。
  • 只有当你对前一点感到非常强大时,研究它是如何工作的以及如何安装hadoop,开始玩pydoop,做一些非常简单的事情:尽管库和语言在理论上很简单,但这将是一个荆棘床。
  • 一旦你了解了这些工具,就可以找到一些实际的应用程序并投入使用。它将付出痛苦和弃绝、迷失的夜晚和各种诅咒的代价。你经常会想放手,不要。
  • 一旦您解决了一些实际问题,您将准备好在使用大数据的工作世界中面对自己。显然你会非常初级,一开始会非常困难。如果您没有明确的行业工作路径,请使用您的案例研究来介绍自己。