什么是数据分析中的“数据”? - Cassie Kozyrkov


我们的感官感知到的一切都是数据,尽管它存储在我们颅内潮湿的东西中还有一些不足之处。把它写下来更可靠一点,尤其是当我们在电脑上写下来的时候。当这些笔记组织良好时,我们称它们为数据。
 
人类的记忆是一个漏桶:当我们记录数据时,我们会对我们丰富感知的现实产生不忠实的破坏,但之后我们可以将未破坏的结果副本以完美的保真度传输给我们物种的其他成员。
 
当我们分析数据时,我们正在访问别人的记忆。
而人类的记忆是一个漏桶。
 
如果你曾经希望自己能变魔术,那就学着写代码吧。
简而言之,这是编程:将互联网上查询后刚刚学到的魔法词拿来,看看调整它们时会发生什么,然后像乐高积木一样将它们放在一起来完成你的竞标。
 
分析和总结
有各种统计数据汇总方法:min()、max()、mean()、median()、mode()、variance() ……都试试吧!或者试试这个神奇的词,看看会发生什么。统计数据是对数据进行聚合的任何方式。
 
绘图和可视化
事实证明,一张图片的价值可能超过一千字——每个数据点一个,然后是一些。
直方图是总结和显示我们的样本数据的一种方式(在众多方式中)。对于更流行的数据值,它们的块更高。
将条形图和直方图视为人气竞赛。
要在电子表格软件中制作一个,神奇的咒语是一系列点击各种菜单。
 
什么是分布?
分布是指包含所有数据样本(您关心的所有信息),而不仅仅是样本(您手头碰巧拥有的数据),因此我们能做的最好的事情就是使用一个好的样本对其进行猜测。
 
什么是数据科学?
“数据科学是使数据有用的学科。”
它的三个子领域:

  • 涉及挖掘大量信息以获取灵感(分析)、
  • 根据有限的信息(统计数据)明智地做出决策,
  • 以及使用数据中的模式来自动化任务(ML/AI)。

所有的数据科学都归结为:知识就是力量。
宇宙充满了等待收获和充分利用的信息。虽然我们的大脑在导航我们的现实方面非常出色,但它们并不擅长存储和处理某些类型的非常有用的信息。
这就是为什么人类首先转向粘土片,然后转向纸,最后转向硅寻求帮助。我们开发了用于快速查看信息的软件,如今知道如何使用它的人称自己为数据科学家或数据分析师。真正的英雄是那些构建工具的人,这些工具使这些从业者能够更好、更快地掌握信息。顺便说一句,即使是互联网也是一种分析工具——我们只是很少这么想,因为即使是孩子也可以进行这种数据分析。
 
我们都是数据分析师,而且一直都是。