数据科学中最痛苦的方程式:数据 + 假设 = 预测 - Kozyrkov


逻辑推理 = 数据 + 假设,(统计)数据并不能给你真相;在统计学中,你所知道的并不是你希望你知道的。
以下是一些标准的误解:

  • “如果我找到正确的方程,我就能知道未知数。”
  • “如果我对我的数据进行足够的数学运算,我可以减少我的不确定性。”
  • “统计可以将数据转化为真理!”

它们听起来像童话故事,难道不是吗?因为他们就是童话!
如何基于过去预测未来?在过去和将来之间有一条鸿沟,你如何可能从你知道的东西跳到你不知道的东西?你需要一座桥梁来跨越那个鸿沟……而那座桥梁就是”假设“,所有数据科学中最痛苦的方程式:数据 + 假设 = 预测。
 
什么是假设?
如果我们真正掌握了所有的事实(而且我们知道我们的事实实际上是真实的事实),我们就不需要”假设“(或统计学家)。”假设“是你用来弥合你所知道的和你希望知道的之间差距的丑陋补丁。当你遗漏了事实的时候,你必须用它们来计算。
说得更直白一点:“假设”并不是事实,它是你编出来的胡说八道,正是因为你的知识中有巨大的漏洞。如果你有用你的过度自信来欺负别人的习惯,花点时间提醒自己,把任何基于假设的东西都称为真理是一种延伸。最好开始把整个事情当作一个个人决策工具,不完美但总比没有好(在特定情况下)。

统计是你在一个不确定的世界里尽力做到最好的尝试。

“假设”总是需要的。
 
假设是下判断做决定的一部分
给我看一个“无假设”的现实世界的决定,我会快速说出一大堆你甚至都不知道自己在做的隐含假设。

当你读报纸时,你是否假设所有的事实都被核实了?当你制定2020年的计划时,你是否认为不会出现全球大流行?如果您分析了数据,您是否认为捕获的信息没有错误?你假设你的随机数发生器是随机的吗(当你选择网上购物时,你是否认为从你的银行账户中提取的金额是正确的?你最后吃的零食呢,你以为不会毒死你吗?当你吃药的时候,你知道它的长期安全性和有效性吗?或者你认为呢?

不管你喜不喜欢,假设都是决策(下判断或做决定)的一部分。
(banq注:假设是上下文的上文,判断结果是上下文的下文,中间是你下判断的逻辑推演,业务逻辑)
一个对真实世界数据的恰当的探索应该包含一系列写下来的假设,在这些假设中,数据科学家可以清楚地说出他们必须切入的视角。
两个人可以从同样的数据得出完全不同的有效结论!所需要的只是使用不同的假设。
统计数据为您提供了一种更周到的决策工具,但没有一种正确的方法可以使用它。这是一个个人决策工具。
 
科学?
当科学家使用统计数据得出结论时,这意味着什么?很简单,他们已经形成了一种观点,并决定与世界分享:科学家的工作就是不情愿地形成意见。