亚马逊Alexa失败教训：产品脆性案例研究

亚马逊的人工智能-脆性案例研究：我坚信系统（包括建立系统的过程），它会破坏人，而不是人破坏系统。访问数据以获得洞察力的过程和技术对于现代组织的生存至关重要。作者以亚马逊（与Alexa）的人工智能为例，研究了脆弱性如何导致竞争劣势。

一年前，Mihail Eric写了一篇博客文章，详细介绍了他在亚马逊内部从事人工智能工作的经历：Alexa如何在成为地球上顶级对话系统方面失败。这是一个伟大的第一人称帐户，有很多细节的问题，使亚马逊跟上其同行在LLM大模型领域。从我的角度来看，埃里克的帖子是一个很好的案例研究，弹性工程研究人员称之为脆性，这是一个研究人员用来指弹性的反面的术语。

在《适应性系统如何失败的基本模式》（Basic Patterns in How Adaptive Systems Fail）一书中，研究人员大卫·伍兹（David Woods）和马修·布兰拉特（Matthieu Branlat）指出，脆弱的系统往往会受到以下三种模式的影响：

失代偿：随着挑战的级联，适应能力耗尽
目的交叉：局部适应但全局适应不良的行为
陷入过时的行为：世界发生了变化，但系统仍然停留在以前的适应性策略（过度依赖过去的成功）

埃里克的文章展示了这三种模式在亚马逊内部是如何明显的。

失代偿Decompensation
需要几周的时间才能获得任何内部数据进行分析或实验...实验必须在资源有限的计算环境中运行。想象一下，当您只能获得CPU时，尝试训练Transformer模型。对于一家拥有世界上最大的加速硬件集合之一的公司来说，这是不可接受的。

如果您曾经看到过服务在接收到外部请求的峰值后崩溃，那么您已经看到了补偿系统故障。当一个系统无法满足对其提出的要求时，就会发生这种情况。

在组织中，你可以看到当决策非常分层时出现的失代偿失败模式：你最终不得不等待决策请求向上传递给有权做出决策的人，然后再向下传递。与此同时，世界并没有静止不动地等待做出这一决定。

正如埃里克的文章中糟糕的技术流程部分所描述的那样，亚马逊无法跟上其竞争对手在开发人工智能技术方面取得进展的速度，尽管亚马逊拥有取得进展所需的人才和计算资源。组织内部需要资源的人无法及时获得资源。这减缓了人工智能的发展，因此，他们被竞争对手超越。

相互矛盾的工作
Alexa的组织结构是分散的，这意味着有多个小团队在地理位置上处理有时相同的问题。

这给组织动力学引入了一种近乎达尔文主义的味道，团队争先恐后地完成工作，以避免被重组和归入竞争团队。

结果是一个被敌对的中层管理人员所困扰的组织，他们对为了Alexa的更大利益而合作没有兴趣，只想保留自己的封地。

我的团队旨在跨越项目，我们找到与我们的研究/产品兴趣一致的团队，并敦促他们在雄心勃勃的努力中进行合作。我们遇到的阻力和缺乏行动是令人心碎的。

如果说失调是集权不力的结果，那么，目标交叉的工作则是分权不力的结果。在一个去中心化的组织中，各个单位能够更快地工作，但存在着对齐的风险：如果每个人都在朝着不同的方向划船，那么让每个人都划得更快并不会有帮助。

在Eric的文章中的碎片化组织结构部分，他生动地，几乎痛苦地详细描述了亚马逊的分散组织结构是如何对他们不利的。

陷入过时的行为
Alexa以客户为中心，我认为这是令人钦佩的，也是每个公司都应该实践的原则。在Alexa内部，这意味着每一项工程和科学工作都必须与一些下游产品保持一致。

这确实给我们的团队带来了压力，因为我们应该为平台的未来进行实验性的押注。在一个典型的季度里，如果没有黑客或捷径，这些赌注就不可能像预期的那样融入产品。

因此，我们必须不断地向高级领导层证明我们的存在，并使用可以被视为更面向客户的指标来按摩我们的项目。

…

这在每周的会议中引入了产品/科学冲突，以跟踪项目的进展，导致经理每隔几个月就流失一次，最终导致工作的失败。

我一般不喜欢管理类书籍，但《什么让你走到这一步，却不会让你走到那一步》一书很好地总结了第三种失败模式：组织继续采用过去很适合解决问题的方法，但现在却不适合解决问题。

在他的文章的产品科学错位部分，Eric描述了亚马逊传统的以客户为中心的开发方法如何与开发人工智能所需的研究型工作不匹配。亚马逊并没有改变他们的工作方式来促进人工智能研究人员的活动，而是让研究人员努力适应亚马逊现有的产品模式。最终，这一努力失败了。