这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
知识图是生物医学等领域常用的知识表示形式。我们开发了一个开放的基于生物医学知识图的系统,称为在面向知识的路径中链接的生物医学对象推理(ROBOKOP)。ROBOKOP由前端用户界面和后端知识图组成。ROBOKOP用户界面允许用户提出问题并探索答案子图。用户还可以通过对底层知识图的直接Cypher查询提出问题,该知识图目前包含大约600万个节点或生物医学实体,以及描述节点之间关系的1.4亿个边或谓词,这些边或谓词来自30多个经过筛选的数据源。
我们的目标是应用robokopp来调查来自美国国家环境健康科学研究所环境多态性登记处(EPR)的工作场所暴露和免疫介导疾病的数据。
我们分析了EPR调查数据,并确定了工作场所化学品暴露与免疫介导疾病之间的45种关联,这些关联由研究参与者自我报告(n= 4574),其中20种关联在
ROBOKOP成功地返回了在驾驶示例上下文中提出的三个查询的答案集。答案集包括潜在的中介基因,以及可能解释所观察到的关联的支持证据。
我们展示了ROBOKOP的真实应用,以生成工作场所化学品暴露与免疫介导疾病之间关联的机制假设。我们预计ROBOKOP将在许多生物医学领域和其他科学学科中得到广泛应用,因为它具有广泛性、发现和生成机械假设的速度以及开放性。
“知识图”(KGs)已成为跨科学学科(包括生物医学)的知识表示的常用方法[
虽然像Monarch这样的kg是公开的,但许多更复杂的kg仍然是专有的。也许最著名的专有KG是freebase衍生的谷歌KG,它支持谷歌的网页搜索功能[
在这里,我们概述了ROBOKOP及其在国家环境健康科学研究所环境多态性登记处(EPR)数据中的实际应用。具体来说,我们重点研究了一项EPR研究,旨在探索工作场所暴露对免疫介导疾病(IMDs)的影响,如哮喘、过敏、多发性硬化症、类风湿关节炎和溃疡性结肠炎。我们首先对自我报告的暴露和IMD症状进行了探索性分析,以确定工作场所化学品暴露与IMD之间的显著相关性。然后,我们使用ROBOKOP(1)通过确定ROBOKOP KG中是否存在合理的联系来验证统计学上显著的关联;(2)提出可能解释这些关联的生物学机制,并作为后续测试的假设。
ROBOKOP是一个基于生物医学KG的问答系统,由前端用户界面(UI)和后端KG组成,两者都是公开可用的[
用于在面向知识的路径(ROBOKOP)知识图中链接的生物医学对象推理的高级模式,显示由Biolink模型定义的节点类。请注意,该模式提供了一个用户指南,通过提供ROBOKOP知识图中连接的节点的可视化概述来帮助正确构造查询。
ROBOKOP用户界面允许用户提出查询,并快速探索排名和得分的答案集或子图。ROBOKOP查询是元图[
一个给定的查询通常会产生许多答案或子图,特别是对于没有多少关于节点和边的规范或有多个节点和边的查询。因此,根据与查询的相关性对子图进行排序以及支持证据的强度对于用户探索结果至关重要。ROBOKOP答案排序算法[
ROBOKOP KG也可以直接查询,独立于UI,使用Cypher查询语言[
EPR是一项对近2万名当前参与者的研究,旨在更好地了解环境暴露与健康和疾病的遗传决定因素之间的相互作用[
IMD定义为自我报告的过敏反应(过敏性鼻炎、花粉热或季节性过敏;过敏(季节性除外));哮喘状态;或自身免疫性疾病(牛皮癣、甲状腺疾病[非癌症]、甲状腺功能亢进、甲状腺功能减退、克罗恩病、多发性硬化症、乳糜泻、干燥病、类风湿性关节炎、溃疡性结肠炎、硬皮病或系统性硬化症、恶性贫血、肌炎或狼疮)。EPR调查数据提取于2018年12月。总样本量为4574名参与者。
进行了探索性分析,以检查每种IMD与具体工作场所化学品之间的关系,这些化学品被分为18类(
共有45个暴露- imd相关性在
我们使用三个典型关联来突出ROBOKOP应用程序,选择这些关联是因为它们在
工作场所一氧化碳暴露与多发性硬化症之间的关联在化学水平上都是显著的(OR 6.4583, 95% CI 1.8524-18.2844;
我们向ROBOKOP提出了以下问题,但结构像一个机器问题:
排名靠前的答案集有858篇PubMed出版物,由OmniCorp提供,支持多发性硬化症和癌症之间的联系
在面向知识的路径(ROBOKOP)中链接的生物医学对象的推理高级别问题(A)作为机器问题或元图(B)实现,旨在探索可能调解工作场所暴露于一氧化碳和环境多态性注册参与者自我报告多发性硬化症之间观察到的关联的基因。用户在ROBOKOP用户界面中选择节点和边(或通过直接Cypher查询),使用中提供的模式将所需的自然语言问题转换为可执行的机器问题
排名靠前的答案子图表明涉及
工作场所氨暴露与哮喘之间的关联在化学水平上均显著(OR 2.0422, 95% CI 1.4426-2.8524;
向ROBOKOP提出的查询旨在识别可能介导氨和哮喘之间联系的潜在基因,其结构与研究中的查询相似
排名最低的答案子图
工作场所异丙醇暴露与变应性鼻炎、花粉热或季节性过敏之间的关联在化学水平上是显著的(or 1.3990, 95% CI 1.1415-1.7155;
与其他两个示例一样,向ROBOKOP提出的查询旨在识别中间基因,结构类似,除了“过敏性疾病”被用作疾病节点,而不是“过敏性鼻炎、花粉热或季节性过敏”,因为后一种疾病节点在ROBOKOP中不可用。
ROBOKOP鉴定出以下三个中介基因:
我们在EPR队列中确定了工作场所化学品暴露与IMD状况之间的45个显著相关性,其中20个相关性在
ROBOKOP为一个以一氧化碳-基因-多发性硬化症为结构的问题确定了合理的答案子图,从而支持了工作场所暴露于一氧化碳和多发性硬化症之间的统计关联。ROBOKOP进一步鉴定了编码TNF的基因,
ROBOKOP返回的多个答案子图支持了工作场所氨暴露和哮喘之间的统计关联。编码ADA的基因,
ROBOKOP提供了几个答案子图来支持工作场所暴露于异丙醇和过敏性疾病之间的统计关联。编码IL6的基因
ROBOKOP有几个限制,在解释这里的结果或使用应用程序时应该考虑这些限制。首先,工作场所化学品暴露和IMD之间的许多关联涉及复杂的化学混合物,如“调色剂”、“传动液”和“机油”。ROBOKOP目前将这些实体映射到医学主题标题术语,但该应用程序没有适当的方法来将这些混合物映射到构成给定混合物的单个化学品。我们正在考虑克服这一限制的方法。其次,ROBOKOP,像所有基于KG的应用程序一样,受到KG完成的挑战的限制。例如,如果在ROBOKOP KG基础上的策划数据源之一没有建立暴露-基因关系,那么这种关系将不会被识别。我们正在开发算法,通过推断KG中的边来克服这一限制,但目前,这仍然是一个限制。第三,ROBOKOP断言的证据来自以下两个主要来源:(1)用于创建KG的策展知识来源和(2)PubMed摘要中术语的共现。用于对答案子图进行排名的排名和评分算法是基于这两个证据来源,第一个来源比第二个来源更重要。其他相关因素,如发表日期和主题的研究数量(相对于出版物),目前没有考虑,但可能会被纳入应用程序的未来版本。 Fourth, as a prototype system, ROBOKOP does not yet support natural language processing capabilities or other sophisticated approaches to aid users. We encourage users to contact the developers and/or post GitHub issues should they encounter any challenges when generating queries and/or evaluating answer subgraphs. Fifth, while not a limitation of ROBOKOP itself, the workplace chemical exposure–IMD associations reported here were derived from survey data (ie, participant self-report) and were not confirmed by clinical record review or expert judgement. As such, the potential exists for misclassification and/or bias in both the reported exposures and the reported IMDs. Moreover, the timing between workplace exposure and the onset of IMD cannot be determined due to limitations of the survey design and participant recollection at the time the survey was administered. Finally, as this was an exploratory analysis, we did not adjust the ORs for small sample sizes or control for potential covariates such as age, sex, and race.
ROBOKOP在支持现实世界观察和产生机械假设方面展示了其潜力。在本文中,我们重点研究了工作场所化学品暴露与IMDs之间的显著关联,这是一项更大的EPR研究的一部分。然而,我们注意到ROBOKOP还有其他用途。事实上,ROBOKOP的一个关键特征是它作为一个通用的问答系统在生物医学领域的通用性,具有支持各种机器问题的能力。例如,我们正在使用ROBOKOP来探索药物和临床结果之间的关联,包括不良事件,使用来自电子健康记录的数据。我们还在测试ROBOKOP是否可以用于支持医学院入学考试中的人类推理,我们有了很有希望的初步结果[
ROBOKOP的第二个关键特征是它支持快速发现的能力。例如,这里给出的示例用例只花了很少的时间来构建和执行,交互式UI甚至允许新手用户提出问题并探索答案子图。从ROBOKOP答案子图中收集到的机制见解很快得到了实现,从而实现了对结果的快速首次分析和对支持证据的评估。此外,ROBOKOP通过一个查询揭示了所有可能介导所观察到的暴露- imd关联的潜在基因;实际上,用户不需要花费数小时、数天或更长的时间来阅读可用的文献。ROBOKOP提供的这种发现速度也允许调查人员快速反驳可能只是虚假发现的关联(例如,如果ROBOKOP没有返回答案子图)。在本文强调的示例中,我们主要关注三个示例暴露- imd关联。虽然这看起来并不多,但一个完整的文献综述,以确定潜在的新见解,消除虚假的发现,并探索支持证据,将比使用ROBOKOP进行最初的首次分析所需的时间多得多。我们计划利用ROBOKOP的速度,在单核苷酸多态性和表型之间的关联的大规模分析中进行发现,这是更广泛的EPR工作和其他几项研究的一部分。
ROBOKOP的第三个关键特征是它的开放性。事实上,访问ROBOKOP,无论是通过UI还是直接通过Cypher查询底层KG,都不需要登录身份验证或帐户;相反,任何拥有URL的人都可以访问系统。此外,ROBOKOP KG可独立于应用程序下载[
在面向知识路径(ROBOKOP)知识图数据源中链接的生物医学对象的推理。
研究了工作场所化学品暴露与免疫介导疾病的关系。
工作场所暴露与免疫介导疾病之间的显著关联,被确定为环境多态性登记的一部分。
腺苷脱氨酶
比较毒理基因组学数据库
环境多态性登记处
白细胞介素- 6
免疫介导性疾病
知识图谱
优势比
基于知识导向路径的生物医学对象推理
肿瘤坏死因子
用户界面
作者要感谢生物医学数据翻译联盟的支持和智力投入。我们也承认并感谢更广泛的生物医学对象推理与知识导向路径(ROBOKOP)团队的贡献,包括Vinicius Alves、Jim Balhoff、Steven Cox、Yaphet Kabede、Daniel Korn、Eugene Muratov和Max Wang。此外,我们感谢环境多态性Registry (EPR)执行领导委员会成员和EPR IMD研究小组的其他成员,包括Farida Akhtari、Montserrat Ayala-Ramirez、Perry Blackshear、Askia Dunnon、David Fargo、Michael Fessler、Stavros Garantziotis、Janet E Hall、Nathaniel MacNell、John McGrath、Alison Motsinger-Reif和Christine Parks进行了有益的讨论,以及Jeremy Erickson、Andy Rooney和Vickie Walker对手稿的有益评论。这项工作得到了美国国立卫生研究院国家转化科学推进中心(OT2TR002514)和美国国立卫生研究院国家环境卫生科学研究所(ZID ES103354-01)内部研究项目临床研究分支的支持。
通讯作者(KF)可通过kfecho@copperlineprofessionalsolutions.com或kfecho@renci.org联系。
所有作者都以实质性的方式对本文所述的工作做出了贡献,并批准了该手稿提交期刊。
没有宣布。