基于知识图谱的元数据中心的好处 - Ontotext


如今,越来越多的企业意识到,更多的数据并不等于更深入的知识和更好的业务决策。

元数据
元数据描述数据并包括诸如数据的年代、创建位置、所有者以及与哪些概念(或其他数据)相关的信息。它使我们能够理解我们的数据,因为它告诉我们数据是什么以及如何最好地使用它。因此,利用元数据已成为试图从数据中提取价值的企业的核心能力。

尽管许多类型的数据库都存储元数据和数据,但语义图数据库具有独特的优势。他们平滑地集成来自多个来源的异构数据,并使用语义模式和语义元数据来描述这些数据。由此产生的知识图为企业提供了一个单一的访问点,可以访问与其业务相关的所有类型的有价值信息。这些信息相互关联并置于上下文中,这使得查找和分析变得容易。

但是,为了让这些优势变得切实可见,让我们在我称之为 Fantastic FinServ 的投资银行的背景下看看它们。Fantastic FinServ 是一家虚构的公司,但它与许多实际以这种方式使用知识图谱的组织有相似之处。与该领域的许多公司一样,Fantastic Finserv 在知识方面展开竞争。为了赢得客户并让他们满意,其分析师必须展示其客户行业的全面知识,并提供别处无法获得的独特见解。


连接所有类型的数据点
首先,Fantastic Finserv 必须处理各种各样的数据。这包括传统的结构化数据,例如:

  • 参考数据——用于将数据与组织外部信息相关联的数据。想想邮政编码、货币、国家代码、产品列表、客户群等。
  • 运营数据——由 Fantastic Finserv 本身生成的数据。它包括有关员工、竞争对手、库存、车队以及任何其他对业务运营有日常影响的信息。
  • 交易数据——运营数据的一个子类别,由记录的业务事件组成。这会捕获有关订单、付款、客户、发票等的信息。

结构化数据以行和列的形式出现,并整齐地存储在表格中。
几十年来,它一直是企业数据团队的生计。大多数传统的数据管理方法,如关系数据库和数据仓库,都侧重于结构化数据。但在现代世界中,越来越多的数据来自非结构化来源,这就是知识图谱占据上风的地方


非结构化和半结构化数据
非结构化数据可能看起来有点矛盾,但它只是指不在表中的数据。半结构化数据由 JSON 或 XML 等格式组成,这些格式具有严格定义的结构,但不是由列和行组成。视频、图片和书面文档被认为是完全非结构化数据,因为如果没有机器学习等高级工具,就无法自动提取其中的信息。

由于处理半结构化和非结构化数据的难度更大,企业历来忽视这些格式的数据。但 80-90% 的数据是非结构化的,导致这些企业错过了潜在的洞察力。知识图的灵活和动态结构使这些来源更易于使用,并允许组织像管理结构化数据资产一样管理它们。

因此,Fantastic Finserv 可以合并和管理竞争对手留下的额外信息源。电子邮件、文档、新闻文章,甚至演讲录音都可以在其知识图中进行链接和查询。这为公司提供了一个独特的知识库,可以从中汲取知识,从而将其与所有依赖相同表格数据订阅的竞争对手区分开来。尤其是在发展中经济体工作时,这种系统地使用非传统数据源的能力让 Fantastic Finserv 更具优势。

知识(元数据)层
除了能够简单地处理所有格式和来自多个来源的数据之外,知识图还增加了一个额外的层。该层通过将信息置于上下文中并使用元数据将其相互关联,将信息从数据转换为知识。

从本质上讲,知识图谱就像一张概念图。

它将数据存储为通过高度定义的关系相互连接的对象。
通过这些作为元数据形式的定义,知识图谱开始显示紧急信息。

例如,假设 Fantastic Finserv 有一位客户需要有关东南亚初创企业的信息,因为它正在考虑在该地区进行收购。这个问题看起来很简单,但什么是“初创企业”?不同的数据源可能有相互冲突的定义,而客户则完全不同。

使用知识图,Fantastic Finserv 可以将自己对初创企业的定义直接构建到图中,并将其与其他组织对概念的理解方式联系起来。然后,它可以查询图表以获取有关潜在客户的信息。它向客户提供的报告将不同于其他银行能够提供的报告,因为图表中固有的稳健定义将使它能够将公司识别为从未在数据层中明确提及的初创企业. 这些知识反而被捕获在元数据层中。

应用
语义元数据的健壮性和灵活性使得语义知识图非常适合作为组织内的元数据中心。这样的中心将有关公司数据的数据集中在一个可搜索的位置,对企业有巨大的好处。

Fantastic Finserv 元数据中心就像一个数据目录,允许其分析师使用存储在图中的资产描述快速查找和了解公司可能拥有的不同数据资产。他们花费更少的时间搜索正确的数据,将更多的时间用于执行实际分析,从而提高报告的质量和深度。分析师还可以使用知识图作为数据结构来创建新的数据产品。

在数据结构中,数据是从各种源系统中自动提取或虚拟化的。这些系统中的每一个都有自己的数据处理方法——不同的标签、模式、格式和数据类型。如果这听起来像元数据,那是因为它是。知识图可以存储有关来自每个系统的数据的所有元数据,从而使数据本身与软件开发人员的设计决策分离开来。

因此,知识图可以有效地虚拟化整个结构中的查询,因为它知道如何使用每个源系统的语言。得益于元数据中心,Fantastic Finserv 分析师可以定义和查询从多个平台提取综合结果的数据产品,从而实现传统方法无法实现的信息综合。

结论
元数据中心利用关于数据的数据的力量来帮助企业更好地利用他们已经拥有但无法获得的信息。它使他们能够了解他们拥有的数据资产并轻松找到他们需要的东西。

对于像 Fantastic FinServ 这样的公司,利用知识图作为元数据中心提供了竞争优势。在以知识为基础的行业中,以意义为中心的数据处理方法无可替代。能够组合和分析元数据以获取知识可能意味着成功与失败之间的区别。随着我们从数据革命转向新的元数据革命,这些功能将变得比以往任何时候都更加重要。