图灵奖获得者：数据科学家或将取代业务分析师?

商业智能BI会给你一张大数字表格；数据科学家会给你一个预测模型那么，如果你是这家公司的首席执行官，你宁愿拥有哪一个？
你更愿意拥有预测模型。
因此，在未来十年或二十年内将发生的事情是，数据科学家将取代商业分析师，成为研究零售数据的人。此外，数据科学家还将做所有这些其他的事情。因此，这将是一个更大的市场，它将使目前的商业业务分析师被淘汰。

在了解数据库系统的基础知识方面，可能没有比Michael Stonebraker 博士更好的谈话对象了，他与 Eugene Wong 在 1974 年创建了第一个工作关系数据库系统 INGRES。更了不起的是，从那以后的40年里，他一直跟上数据库系统的发展步伐。在加州大学伯克利分校，他很快就为对象关系数据库管理系统 Postgres 扩展了 INGRES 的工作。后来，他在麻省理工学院共同设计了 Aurora/Borealis 流处理引擎、C-Store 面向列的 DBMS、H-Store 事务处理引擎（后来成为 VoltDB）、SciDB 阵列数据库管理系统，以及Data Tamer 数据管理系统。2014 年，计算机协会授予 Stonebraker图灵奖，
这是他在thenewstack接受采访摘要：

数据仓库是面向历史客户的数据记录。仓库被商业智能人员访问，他们试图实现更好的库存周转或更好地了解他们的客户，或其他。而这与数据科学家想做的事情非常非常不同。
现在有一个新兴的数据库系统用户社区，他们自称为数据科学家。我最喜欢的数据科学应用的例子是我三四年前听过的一个创业公司的商业推介。他们与拉斯维加斯的一家大酒店合作。该酒店希望将每晚的客房收入最大化。而这显然是每个酒店都想做的事。你可以降低你的价格，把房间填满，或者你可以收取高价，有很多空房间，或者你可以有动态定价，根据提前多久，你对人们收取多少钱。
因此，如果你是一个数据科学家：为什么我不收集大量的历史数据，为什么我不收集大量的其他特征，比如现在有多少游客在拉斯维加斯，天气如何，等等。
所以你有很多特征，例如天气，历史上的平均温度。和历史酒店入住率。您获得了很多特征，并且您拥有尽可能多的历史记录。然后你想为这些特征拟合一个预测模型。
预测模型希望根据所有这些不同的特征来预测酒店入住率或您想要收取的价格。因此，如果您可以建立拟合模型，请查看模型输出，然后根据该预测模型的建议设置价格。
所以这是数据科学家所做的一种事情。这只是一种非常、非常、不同于数据仓库或在线事务处理的活动。
假设我有一个数据仓库，可以显示现在的销售情况。还有一整套商业智能工具，可让您查找更多历史数据并以任何您想要的方式对其进行切片和切块，并获得一些商业洞察力。所以这些人被称为业务分析师。但是如果你把完全相同的数据交给数据科学家，他会说，我会为你建立一个预测模型，预测什么会卖，然后你就可以做正确的事。
那么，如果你是这家公司的 CEO，你更愿意拥有哪一个？您宁愿拥有预测模型。

通用电气有 75 个采购系统，所有这些不同采购系统的原因是通用电气非常分散或孤立。这 75 个采购系统中的每一个都有一个供应商数据库。为了每年节省 1 亿美元，你必须整合或统一这 75 个独立构建的数据库，总共有大约 900 万个供应商。
这些都是独立构建的。没有全局Key的概念，也没有唯一供应商 ID 的概念。你必须用非常不完善的数据拼凑出同样的客户是谁。因为在您的数据库中，它可能是 Staples, Incorporated，其地址位于 Gaithersburg。在我的数据库中，它只是名为 Staples，地址在波士顿。
因此，目前的公司 Tamr 所做的是大规模统一这些不同的数据库。它是一个 AI 机器学习系统，它将 Staples 的两个表示拼凑在一起，这两个表示实际上是同一件事。它会进行数据清理或主数据管理，他们编写了 500 条规则。根据这 500 条规则，他们在 2000 万笔交易中分类了 200 万笔。
而 500 条规则大约是一个人所能掌握的规则。我从未见过有 5,000 条规则的规则系统，因为技术无法扩展。因为人类无法理解大量的规则。
机器学习会扩展，规则系统不会扩展:可以将将 200 万条此类分类记录用作预测模型的训练数据，并将预测模型拟合到 2000 万条支出记录和分类 2000 万条记录使用 200 万作为训练数据。

另一个简单的例子是欧洲的汽车公司丰田。因此，从历史上看，丰田一直按国家/地区进行汽车分销。所以西班牙子公司，法国子公司，等等。所以问题是，如果你在西班牙买了一辆丰田汽车，然后搬到法国，丰田汽车就会患上健忘症。因为你是西班牙客户，而法国人根本不知道你是谁。
因此，丰田正在将 40 种语言的 250 个不同数据集中的 3000 万欧洲客户统一到一个统一的客户数据库中，以便他们能够提供更好的客户服务。所以另一个巨大的机器学习应用程序。
这种数据统一或数据集成或数据清理，数据准备，都是相同的东西，将不同的数据集放在一起。