经历12个机器学习初创公司的经验分享 - Daniel Shenfeld


我和12家初创公司合作过。它们涵盖了从金融科技和医疗保健到ed-tech和biotech的垂直行业,从种子前到收购后,我的角色也各不相同,从深入到杂草的一号员工到数据科学和战略顾问的负责人。在所有这些中,我研究了有趣的机器学习和数据科学问题。所有人都试图建立伟大的产品。许多人都成功了。下面是这是我学到的:

它是关于构建产品,而不是关于AI
作为一名数学家,我最初的动机是机器学习科学和提出创新的算法和方法。但我很快就意识到即使是最精确的机器学习模型也无法自己创造价值。机器学习和AI的价值在它们提供产品的上下文背景下才有意义。弄清楚如何有效地做到这一点是建立ML驱动产品的真正意义所在。

这是关于问题,而不是关于方法
如果目标是构建产品,那么机器学习和AI是达到目的的手段。重要的是它们如何解决您的产品问题,而不是您使用的方法。大多数时候,快速而肮脏的解决方案反而会让你走得很远更深入。当一个简单的回归可以做得很好时,不要训练深度神经网络。

当您专注于问题时,您有时可能会发现机器学习不是解决问题的正确工具。许多问题主要与流程有关。即使在这些情况下,数据科学家也可以贡献很多价值,因为他们自然倾向于采用严格的数据驱动方法。

寻找数据和产品之间的协同作用
机器学习的真正价值很少来自于采用现有产品并将其与机器学习模型的预测相结合。当然,这会增加一些增量值。但在强大的AI产品中,机器学习不仅仅是一个附加功能。它是价值创造的引擎,产品建立在引擎的基础上:产品和数据必须协同运作。

如果做得好,这会产生强大的良性循环,我称之为“ 产品/数据适合 ”:产品有效地实现了数据的潜在价值,同时继续生成必要的数据以进一步改进产品。

特别是,人工智能不能仅仅停留在数据科学和工程团队中。组织的其他部分,从产品到管理层,需要参与对话以加速价值创造过程。这需要大量的教育和参与,超越工程师通常习惯于构建软件,即使在初创公司。

数据优先,AI其次
机器学习和人工智能需要大量数据,更重要的是需要高质量的数据。如果您从头开始构建产品,请从第一天开始考虑数据收集。如果您要将AI技术引入现有产品,请准备好在进入AI部分之前在数据工程和重新架构方面投入大量资金。

这并不意味着您必须在实现任何价值之前预先加载所有工作。更好的数据操作意味着更好的分析,这对任何组织的学习和改进都至关重要。利用这些胜利来展示价值并产生组织支持。当您的分析非常坚实时,您就可以开始考虑真正的机器学习了。

投资有效沟通
建立优质产品需要优秀的产品经理和高管的支持。虽然许多人被人工智能和深度学习的力量所吸引,但很少有非技术人员真正理解这些技术。有效地讨论机器学习和人工智能需要对统计数据有重要的理解,如果产生沟通差距,这通常会导致不切实际的期望

一个关键因素是维持关于业务指标的持续对话 以及它们如何转化为建模指标。这给产品经理带来了很多责任,但对数据科学家也同样如此,他们必须开发领域专业知识并深入理解业务考虑才能真正有效。

快而脏并不是那么脏
正如我上面提到的,快速而肮脏的方法会让你走得很远。部分地这是因为今天的快速和肮脏是昨天的缓慢和精确。像word2vec这样的工具几乎像回归一样易于使用,并且不断引入强大的新工具。对于任何数据科学家来说,对各种构建模块及其之间的粘合剂的充分了解至关重要。

开源工具爆炸式增长的一个后果是,在大多数情况下,开发专有的ML平台并不是一个好主意。当然,您应该拥有专有算法,这些算法采用众所周知的构建块并使其适应您的问题和域。但是将深度学习研究留给谷歌的人们 - 关注业务问题,还记得吗?

如有疑问,请显示数据
早期产品开发中最重要的活动是获得市场反馈。但机器学习需要大量数据,这需要很长时间才能获得。这就产生了一个问题:如何在没有太多数据的情况下获得有关数据产品的市场洞察力?

最好的解决方案通常是向用户显示数据。人类一次只能处理少量数据,所以如果你没有多少数据也没关系。您的用户如何使用您显示的数据?他们在哪里沾沾自喜,他们想在哪里深入挖掘?公开以前无法访问的信息可能非常强大,并且可以为您提供有关数据潜在业务价值的强大指导。

建立信任
信任是大多数技术成功的主要因素。最终,每种技术都被人类使用,必须得到人类的信任。在机器学习应用的背景下,这些人中的一些人可能担心他们的工作被自动化。其他人依靠您的技术提供的信息做出重要决定。
人工智能产品可以解决这些问题,例如通过尝试为人类做出决策而不是赋予人类决策权,将导致信任的快速侵蚀。
信任很容易丢失,难以重新获得。
构建人们信任的产品。