数据科学: AI意味着重新思考数据基础

banq


虽然每个人都在谈论AI,但最终要花费比数据科学和机器学习算法更多的精力来构建生产级机器学习应用程序并产生业务价值。此外,通过机器学习和AI实现可持续的商业价值需要的不仅仅是灵巧的算法,它还需要重新考虑数据。
实际上,许多最新的算法都是公开可用的,例如Google搜索算法,甚至专利已经过期,自然语言处理BERT的最新模型都是开源的,而用于最新的图像分类ResNet可用,甚至可以在Keras和Pytorch等各种框架中实现。
但是,业务价值的主要部分不是算法,而是在生产级机器学习应用程序中采用该算法的能力,因此,真正的价值在于基础数据(通常不是开源)和数据基础结构。

重新思考数据
开始(重新)思考数据不仅是一个技术问题;首先,它等于问诸如

  • 有哪些可用数据?
  • 数据有什么质量?
  • 谁拥有数据?
  • 谁控制对数据的访问?
  • 谁负责数据及其质量?
  • 数据生产者和消费者之间当前的关系是什么?
  • 我们如何发展和改善这种至关重要的关系?

真正的价值是利用机器学习算法的能力
很多时候,并不是有关算法的知识,而是数据的可用性以及以无痛的方式将算法端到端地集成到公司基础结构中的能力,这些决定了是否可以创造业务价值。

缩短验证周期
拥有适当的数据基础架构,可以进行快速的端到端验证和试验,从而使人们可以更快地排除不成功的想法,并可以挑选出成功的想法。通过成功的机器学习应用程序来验证想法的能力对于构建成功的机器学习应用程序尤为关键,因为其中涉及许多活动部件,并且该应用程序通常会影响公司的各个部门。

对数据基础架构的态度
从历史上看,建立新的数据基础架构会带来极大的痛苦。这是因为它通常与大量的时间和金钱投资有关。此外,还有各种范例,例如数据湖,数据lakehousing数据网格,每种都有不同的好处和需要权衡的因素。但是,改善数据基础结构显然不仅仅是技术问题。实际上,更重要的是改变人们对公司数据重要性的观念。这种变化可能是通过数据科学项目产生可持续和不断增长的业务价值的最关键的单个步骤。