使用知识图解开生命科学数据挑战


知识图结合信息以创建描述不同实体之间关系的互连网络。它们目前简化了我们的许多日常数字体验,支撑着谷歌搜索、社交媒体网站和流媒体推荐引擎等应用程序。凭借其定义复杂和重叠关系的能力,例如,在细胞水平上可视化蛋白质和分子之间发生的数百种相互作用,知识图谱在生命科学中具有丰富的应用。如果使用得当,它们可以深入了解新的治疗目标,揭示疾病的机制,或识别某些基因突变的连锁反应。  

知识图谱是如何构建的? 
要构建知识图谱,可以使用命名实体识别 (NER)、自然语言处理 (NLP) 和机器学习来识别、理解和连接数据。知识图以机器可以处理的方式表示数据和知识实体之间的特定关系,称为三元组。这些三元组要么从现有本体中提取,要么自动提取并定义两个事物之间的特定关系。

例如,在“The wasp gene is implicated in Wiskott-Aldrich syndrome”这句话中,NER 可用于将术语“wasp”识别为基因(而非昆虫),并使用来自 HGNC 基因本体的数据对其进行注释(标签:WAS,ID:HGNC_12731)。
可以提取三元组‘WAS—(implicated in)—Wiskott-Aldrich syndrome’,并从 HGNC 本体中添加额外的三元组。

因此,知识图谱可用于可视化、描述和映射复杂、重叠的关系。这种丰富的模型比使用关键字搜索文献产生更多相关信息,并帮助研究人员更快地找到相关信息和见解。 
格式良好的数据对于任何知识图谱都至关重要,并且它必须与应用程序相关。必须仔细管理和获取数据,使其真正有效。然而,研究数据、研究报告、图像和其他文本在没有任何上下文的情况下往往缺乏意义,这对依赖大量数据才能开始学习的机器来说是一个挑战。  

有意义的数据  
构建知识图的数据可以来自许多来源:临床试验记录、期刊文章、公共数据库(如 BioGRID 和 ClinVar)、第三方工具和数据库,以及专有和实验数据。为了真正充分利用数据,在设计知识图谱时应牢记最终目标。这包括使用专门的本体来协调数据集并使它们可搜索。  
这个阶段可能需要语义技术将非结构化文本转化为结构化信息,归类并提取关系信息。这将带来更深入的见解,突出联系并降低复杂性。通过应用特定领域的本体和使用交叉检查的 ID,知识图可以提高科学的严谨性。自动化的 AI 过程不是一个“封闭的盒子”,它让研究人员对所做的决定更有信心。  
为知识图谱构建数据集的关键任务是确保数据公平,即可查找、可访问、可互操作和可重用。如果没有全面、统一且可比的数据,用于查询知识图谱的系统和指令将更具挑战性。  
一旦干净、准确描述和适当格式化,知识图中的数据就可以互操作;它可以交换和利用,为构建图形模型提供了坚实的基础。  

成功之路 
知识图谱是一种动态信息源——可以实时或根据需要更新——并不断从定义的数据源中提取新信息。这使它们能够基于传入信息的语义网络进行进化。通过深入挖掘数据和利用潜在知识,研究人员可以回答诸如适应症的潜在目标是什么、哪些药物相互相互作用,或者药物是否可以重新用于治疗具有相似生物途径的另一种疾病等问题。 
在生命科学中使用知识图的机会是巨大的。他们的力量在于识别和利用数据和知识实体之间的关系来寻找答案,但良好的数据实践和可信来源对于利用这种方法是必要的。在知识图中使用数据有可能加速药物发现,产生对临床结果的见解或预测,并最终更快地为患者提供治疗。