Dojo
最新
最佳
搜索
订阅
解道Jdon
架构设计
领域驱动
DDD介绍
DDD专辑
战略建模
领域语言UL
领域事件
商业分析
工作流BPM
规则引擎
架构师观点
数据工程
产品经理
系统思维
微服务
微服务介绍
微服务专辑
模块化设计
SOA
API设计
clean架构
SpringBoot
分布式事务
分布式架构
Kubernetes
DevOps
编程设计
GoF设计模式
模式专辑
面向对象
函数式编程
编程语言比较
编程工具比较
形式逻辑
前端编程
Reactive编程
Jdon框架
Rust语言
ChatGPT
Web3
模因梗
幽默梗
程序员吐槽
面试技巧
Java入门
数字化转型
认知偏差
道德经
GitHub工具
更多话题
使用Python分析大量数据应该学些什么?
22-01-23
banq
如果您想使用 Python 分析大量数据,该研究什么?
对于大数据,我们不能相信只有语言就足够了。Python 之所以合适,是因为它可以方便地管理数学库、简洁且易于管理异构和多维数据结构,但大数据还需要 IT 结构。例如,我们需要一个系统来管理非常大的文件,并且我们需要结构来映射和减少这些巨大的文件。
Apache
Hadoop
及其专用的 HDFS 文件系统已成功解决了这些问题。
Python 通过Pydoop 库与它惊人地交互。
推荐的步骤如下:
从两个方面开始:学习必要的数学,通过您编写的简单教育程序加深 Python 的各个方面。通过这种方式,您将同时学习 Python 和所需的数学,您将学习在代码中以实用的方式使用数学。
只有当你对前一点感到非常强大时,研究它是如何工作的以及如何安装hadoop,开始玩pydoop,做一些非常简单的事情:尽管库和语言在理论上很简单,但这将是一个荆棘床。
一旦你了解了这些工具,就可以找到一些实际的应用程序并投入使用。它将付出痛苦和弃绝、迷失的夜晚和各种诅咒的代价。你经常会想放手,不要。
一旦您解决了一些实际问题,您将准备好在使用大数据的工作世界中面对自己。显然你会非常初级,一开始会非常困难。如果您没有明确的行业工作路径,请使用您的案例研究来介绍自己。
Python
Hadoop大数据
数据工程