深入探讨知识图谱和应用


我们大多数人都知道计算中的图形是一种令人愉悦且灵活的数据建模方式,它支持各种复杂的算法和数据科学与计算。但是知识图谱与图的不同之处在于应用了一种组织原则,可以帮助人类和软件快速解释它。因此,我们不是将智能行为重复编码到应用程序中,而是直接将其一次性编码到数据中!

因此,我们可以说知识图谱是代表现实世界实体及其之间关系的结构化知识库。大多数 KG 将这些知识存储在称为i]主谓宾[/b 格式的三元组中,该格式符合资源描述框架 (RDF) 标准。特定 SPO 三元组的存在表明相应的三元组拥有特定类型的关系。

KGs 使用分类法进行层次结构
分类法是一种分类方案,允许更宽更窄的层次结构。具有相似属性的项目被归入同一类别,分类法有助于将一个类别与全球其他类别联系起来。这种层次结构允许将特定的东西(如产品)放在底部,而更一般的东西(如品牌和产品)则放在层次结构的顶部。此类“组织原则”中的层次结构由通过 subcategory_of 关系连接的类别节点构成。

将本体用于多级关系的知识图谱
分类法通过引入关系的子类别来帮助组织;本体允许定义类别之间更复杂的关系,如 part_of、compatible_with 和 depends_on。

因此,按照本体论的说明,我们不仅可以纵向(分层)探索类别,还可以进行横向比较。

除此之外,它们可以以模块化的方式构建,通过复杂的分层使用使它们更加紧凑。因此,本体论有助于使知识具有可操作性。

如何实现知识图谱?
现在我们已经了解了 KG 和不同的组织原则,下一个问题是如何实施它们。实施 KGs 通常包括以下步骤:

  1. 第一步是从结构化/非结构化数据库中收集数据,或者从图像和视频中收集文本或多媒体数据。
  2. 下一步将是对其进行预处理以删除不相关和冗余的信息,以确保数据采用可轻松用于构建 KG 的格式
  3. 第三步是从数据中提取实体和关系。命名实体识别、关系提取和对象检测可以实现这一点。
  4. 一旦提取了实体和关系,下一步就是构建知识图谱。Neo4j或 Titan等图数据库可以实现这一点。
  5. 然后,通过使用提取的实体和关系填充 KG 来遵循它。
  6. 一旦构建了知识图谱,就可以查询它以获得有用的信息。
  7. 最后,KG 应该定期维护,用新数据更新,并监控错误。
值得注意的是,这些步骤并不是离散的,可能会因具体用例和技术而异。此外,OpenAI、GPT 3和 Google 的Tensor等库和框架可以帮助完成这些步骤。


在现实世界中,您会在哪里找到知识图谱?
现在我们知道如何构建 KG,了解 KG 的用法 对您来说会很有趣。

  • 欺诈识别 – 以图形视觉方式表示欺诈场景,这是知识图的核心,允许财务顾问识别以扩展他们的机器学习算法工作,以考虑可能与手头主题没有直接关系的更多异构数据集,或者重新考虑传统机器学习功能可以忽略的特征和变量。如果您的机器学习算法已将它们确定为非欺诈,那么它们很可能不是。例如,以前的模型没有将电子邮件地址作为确定欺诈的重要特征。但是,如果两个客户拥有相同的电子邮件地址,则可能会发出危险信号:他们可能是同一个人。在这种情况下,电子邮件地址与通过同一电子邮件地址连接到另一个客户的实体(客户)相关。
  • 数据治理——随着金融公司内的各个部门随着时间的推移生成新数据,出现的数据差异会导致质量不一致并且对整个组织缺乏用处。图充当语义层,对元数据进行建模并为数据元素添加丰富的描述性含义。组合的元数据和关系形成了一个语义层,它完全描述了数据的含义,并允许在其粒度上可视化所有数据。通过可视化数据,知识图允许用户识别重复或不一致的数据,因为这些数据将与其他实体具有相互关联的关系。最后,从关系中看到的模式可以帮助组织开发分析以了解数据的可用性。
  • 管理信息——幼稚园在金融领域也有其适用性。汤森路透于 2017 年推出了其首个知识图,以提供金融生态系统的全面视图,并帮助组织简化其“投资、目标和前景”。他们的知识图汇集了有关组织、人员、工具和报价、供应商-客户备案和报告、元数据和分类法、并购交易等信息。它允许金融机构将其用作研究项目、风险评估等的基础。
  • 内幕交易 – 涉及在两个或多个个人或实体之间交换信息。从事内幕交易计划的调查人员必须通过不同类型的数据来寻找关系和信息泄漏,以找到所需的人。传统上,SEC 和其他政府机构检查电话、消息、电子邮件交换和开源信息等来源,并将它们全部结合起来以寻找新的模式。可以想象,使用传统方法会使这个过程复杂化。知识图使我们能够表示所有这些不同的数据源,即使在最小的关系中也能进行模式识别,并在新信息到达时不断地被提供。