Nemo：Facebook 的数据发现

Facebook 写了关于其数据发现引擎 Nemo 的文章。Nemo 有两个主要组件，索引和服务，前端位于服务部分的顶部。索引又分为每天发生的批量索引和立即更新索引的即时索引。对于 Serving，Nemo 对采用基于 spaCy 的 NLP 库特别感兴趣，该库执行文本解析和 ML 方法进行后处理。

大型公司为数百万甚至数十亿人提供服务，这些人依赖这些公司提供的服务来满足他们的日常需求。为了保持这些服务运行并提供有意义的体验，它们背后的团队需要快速找到最相关和最准确的信息，以便他们能够做出明智的决策并采取行动。出于多种原因，找到正确的信息可能很困难。问题可能在于发现——相关表的名称可能晦涩难懂，或者不同的团队可能构建了重叠的数据集。或者，问题可能是信心问题——某人正在查看的仪表板可能在六个月前被另一个来源取代。

许多公司，如Airbnb、Lyft、Netflix和Uber，已经为这一挑战构建了自己的定制解决方案。对我们来说，让数据发现过程简单而快速是很重要的。每次我们需要做出决定时，通过数据专家汇集一切以定位必要的数据是不可扩展的。所以我们构建了 Nemo，一个内部数据发现引擎。Nemo 使工程师能够快速发现他们需要的信息，并对结果的准确性充满信心。
我们有十几种不同类型的数据工件，包括存储原始数据的Hive 表、Scuba表、仪表板、AI 数据集和Cubrick。在 Nemo 之前，内部调查表明，找到正确的数据是数据工程师的主要痛点。Nemo 显着改善了这一点，将数据搜索成功率提高了 50% 以上，即使工件总数增加了两倍多，每秒查询次数 (QPS) 增加了一倍多。