JMI JMIR Med Inform JMIR医学信息学 2291 - 9694 卡塔尔世界杯8强波胆分析 加拿大多伦多 v9i7e26714 34283031 10.2196/26714 原始论文 原始论文 生物医学知识图谱系统提出现实世界环境健康观察的机制假设:队列研究和信息学应用 洛维斯 基督教 杰里米 程ydF4y2Ba 金鹰 Devarakonda 没吃 Fecho Karamarie 博士学位 1
复兴计算研究所 北卡罗来纳大学教堂山分校 欧罗巴路100号,540室 教堂山,北卡罗莱纳州,27517 美国 1 919 445 9640 kfecho@copperlineprofessionalsolutions.com
2 https://orcid.org/0000-0002-6704-9306
Bizon 克里斯 博士学位 1 https://orcid.org/0000-0002-9491-7674 米勒 弗雷德里克 医学博士 3. https://orcid.org/0000-0003-2831-9593 牧羊人 医学博士 3. https://orcid.org/0000-0002-9133-7906 施密特 查尔斯 博士学位 3. https://orcid.org/0000-0002-3148-2263 威廉 二元同步通信 3. https://orcid.org/0000-0003-2130-3097 莫顿 肯尼斯 博士学位 4 https://orcid.org/0000-0002-9352-8669 帕特里克 博士学位 4 https://orcid.org/0000-0002-6693-6106 Tropsha 亚历山大 博士学位 1 5 https://orcid.org/0000-0003-3802-8896
复兴计算研究所 北卡罗来纳大学教堂山分校 教堂山,北卡罗来纳州 美国 Copperline专业解决方案 少不了,数控 美国 国家环境健康科学研究所 达勒姆数控 美国 CoVar应用技术 达勒姆数控 美国 艾舍曼药学院 北卡罗来纳大学教堂山分校 教堂山,北卡罗来纳州 美国 通讯作者:Karamarie Fecho kfecho@copperlineprofessionalsolutions.com 7 2021 20. 7 2021 9 7 e26714 22 12 2020 25 2 2021 26 4 2021 27 4 2021 ©Karamarie Fecho, Chris Bizon, Frederick Miller, Shepherd Schurman, Charles Schmitt, William Xue, Kenneth Morton, Patrick Wang, Alexander Tropsha。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 20.07.2021。 2021

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

知识图是生物医学等领域常用的知识表示形式。我们开发了一个开放的基于生物医学知识图的系统,称为在面向知识的路径中链接的生物医学对象推理(ROBOKOP)。ROBOKOP由前端用户界面和后端知识图组成。ROBOKOP用户界面允许用户提出问题并探索答案子图。用户还可以通过对底层知识图的直接Cypher查询提出问题,该知识图目前包含大约600万个节点或生物医学实体,以及描述节点之间关系的1.4亿个边或谓词,这些边或谓词来自30多个经过筛选的数据源。

客观的

我们的目标是应用robokopp来调查来自美国国家环境健康科学研究所环境多态性登记处(EPR)的工作场所暴露和免疫介导疾病的数据。

方法

我们分析了EPR调查数据,并确定了工作场所化学品暴露与免疫介导疾病之间的45种关联,这些关联由研究参与者自我报告(n= 4574),其中20种关联在 P<。05after false discovery rate correction. We then used ROBOKOP to (1) validate the associations by determining whether plausible connections exist within the ROBOKOP knowledge graph and (2) propose biological mechanisms that might explain them and serve as hypotheses for subsequent testing. We highlight the following three exemplar associations: carbon monoxide-multiple sclerosis, ammonia-asthma, and isopropanol-allergic disease.

结果

ROBOKOP成功地返回了在驾驶示例上下文中提出的三个查询的答案集。答案集包括潜在的中介基因,以及可能解释所观察到的关联的支持证据。

结论

我们展示了ROBOKOP的真实应用,以生成工作场所化学品暴露与免疫介导疾病之间关联的机制假设。我们预计ROBOKOP将在许多生物医学领域和其他科学学科中得到广泛应用,因为它具有广泛性、发现和生成机械假设的速度以及开放性。

知识图谱 知识表示 数据探索 普遍性 发现 开放的科学 免疫介导性疾病
简介

“知识图”(KGs)已成为跨科学学科(包括生物医学)的知识表示的常用方法[ 1].在KG中,多个专家策划的“知识来源”被集成到一个图结构中,节点表示实体,边提供节点之间的关系。在生物医学KG中,节点表示生物医学实体,例如 药物 疾病,边描述连接节点的关系,例如 对待(例如, 药物治疗疾病).填充生物医学KG的策划知识来源包括两个数据库,例如DrugBank [ 2]和比较毒性基因组学数据库[ 3.],以及本体,如君主病本体[ 4]和人类表型本体[ 5].各种推理工具和推理算法通常应用于kg [ 1],从而允许用户构造复杂的查询,例如, 如果基因X与化学暴露Y和疾病Z都有关,那么基因X的蛋白质产物可能代表潜在的药物靶点.事实上,kg的成功应用包括药物再利用[ 6]及寻找新的药物靶点[ 7].

虽然像Monarch这样的kg是公开的,但许多更复杂的kg仍然是专有的。也许最著名的专有KG是freebase衍生的谷歌KG,它支持谷歌的网页搜索功能[ 8].作为生物医学数据翻译计划的一部分[ 9- 11],我们开发了一个开放的基于kg的生物医学系统,称为“基于知识导向路径链接的生物医学对象推理”(ROBOKOP) [ 12 13].ROBOKOP的设计是为了回答诸如 哪些基因与COVID-19感染的恢复有关?为什么伊马替尼治疗哮喘有效?哪些生物途径与中风相关的发病率相关?请注意,这些问题意味着查询中的术语之间存在复杂的机械关系,例如 药物而且 疾病.ROBOKOP KG旨在以连接查询条件的假定机械路径的形式提供答案。

在这里,我们概述了ROBOKOP及其在国家环境健康科学研究所环境多态性登记处(EPR)数据中的实际应用。具体来说,我们重点研究了一项EPR研究,旨在探索工作场所暴露对免疫介导疾病(IMDs)的影响,如哮喘、过敏、多发性硬化症、类风湿关节炎和溃疡性结肠炎。我们首先对自我报告的暴露和IMD症状进行了探索性分析,以确定工作场所化学品暴露与IMD之间的显著相关性。然后,我们使用ROBOKOP(1)通过确定ROBOKOP KG中是否存在合理的联系来验证统计学上显著的关联;(2)提出可能解释这些关联的生物学机制,并作为后续测试的假设。

方法 ROBOKOP

ROBOKOP是一个基于生物医学KG的问答系统,由前端用户界面(UI)和后端KG组成,两者都是公开可用的[ 12- 15].ROBOKOP KG采用Biolink模型[ 16]作为一种高级本体,它可以应用于将领域知识表示为生物医学实体之间的关系图。ROBOKOP KG目前包含600万个节点和1.4亿条边,其中节点代表广泛的生物实体,如基因、生物过程、解剖特征、疾病和表型,而边代表谓词,如 原因, 增加表达.ROBOKOP KG来自30多个精心策划的生物医学数据源( 多媒体附件1)已集成到图形结构( 图1).经过筛选的数据源是公开可用的,可以通过直接导入到本地Neo4j实例进行访问。有些数据源只是部分完整和/或需要预处理。

用于在面向知识的路径(ROBOKOP)知识图中链接的生物医学对象推理的高级模式,显示由Biolink模型定义的节点类。请注意,该模式提供了一个用户指南,通过提供ROBOKOP知识图中连接的节点的可视化概述来帮助正确构造查询。

ROBOKOP用户界面允许用户提出查询,并快速探索排名和得分的答案集或子图。ROBOKOP查询是元图[ 17- 19中所示实体类型的问题图 图1.元图或机器问题有一个一般的结构,由用户在感兴趣的高级问题的基础上定义。用户可以选择节点作为命名实体,指定为CURIE(紧凑统一资源标识符)或仅指定为实体类型。下拉菜单为用户提供了对自由文本节点条目的选择。答案被构造为在拓扑和类型上匹配查询的子图,以及节点和边的任何所需属性。

一个给定的查询通常会产生许多答案或子图,特别是对于没有多少关于节点和边的规范或有多个节点和边的查询。因此,根据与查询的相关性对子图进行排序以及支持证据的强度对于用户探索结果至关重要。ROBOKOP答案排序算法[ 13]使用基于同时引用源节点和目标节点的PubMed摘要数量的度量对每个子图中的每条边进行加权。发布支持和谓词断言由用于创建KG ( 多媒体附件1).另一项名为OmniCorp的ROBOKOP服务提供出版支持[ 20.],它包含了一个PubMed标识符图,这些标识符链接到在摘要中引用的概念(即ROBOKOP KG中的潜在节点)。OmniCorp是通过使用SciGraph命名实体识别应用程序编程接口处理所有PubMed摘要构建的。 21并将标题和摘要中的文本与预定的生物本体中的概念相匹配。ROBOKOP答案排序算法根据答案子图的叶子之间的距离为每个答案子图计算一个置信分数,将边缘权重视为电阻,由欧姆定律定义[ 22].发表次数越多的答案子图排名越高,来自策划知识来源的发表次数比来自OmniCorp提供的发表共现的发表次数更重要。信心分数随后增加了“信息量”分数,其灵感来自NAGA评分模型[ 23),并处理更具体的新断言(例如, 疾病X与基因相互作用 NPC1),比一般的断言(例如, 疾病X与免疫系统相互作用).

ROBOKOP KG也可以直接查询,独立于UI,使用Cypher查询语言[ 24]在KG中查找与查询结构匹配的子图。示例Cypher查询可在网上找到[ 15].

应用用例描述

EPR是一项对近2万名当前参与者的研究,旨在更好地了解环境暴露与健康和疾病的遗传决定因素之间的相互作用[ 25].该登记簿包含有关参与者接触和疾病史的调查数据,以及DNA样本和其他生物测量数据。作为更广泛努力的一部分,调查人员一直在探索工作场所暴露对imd的影响。

IMD定义为自我报告的过敏反应(过敏性鼻炎、花粉热或季节性过敏;过敏(季节性除外));哮喘状态;或自身免疫性疾病(牛皮癣、甲状腺疾病[非癌症]、甲状腺功能亢进、甲状腺功能减退、克罗恩病、多发性硬化症、乳糜泻、干燥病、类风湿性关节炎、溃疡性结肠炎、硬皮病或系统性硬化症、恶性贫血、肌炎或狼疮)。EPR调查数据提取于2018年12月。总样本量为4574名参与者。

进行了探索性分析,以检查每种IMD与具体工作场所化学品之间的关系,这些化学品被分为18类( 多媒体附件2).这些化学品的调查问题来自EPR“暴露调查- A部分:外部暴露,B部分:工作中的化学和金属暴露”,一般结构如下:“请选择任何一个 重金属你所接触过的 每周锻炼15分钟以上在你做过的任何工作中(选择所有适用的)。”当样本量由于数据缺失或阳性病例很少而较小时,使用卡方分析或Fisher精确检验来检查工作场所化学品暴露与个体imd之间的关联。错误发现率校正应用于关联试验。化学药品分别检查,也按化学班级检查。具有下限和上界的比值比(or)按惯例计算,且不因样本量小而进行调整。由于这是一个探索性分析,显著性水平设置为 α=。05或。10,我们没有控制潜在的协变量,如年龄,性别和种族。

结果 应用用例结果

共有45个暴露- imd相关性在 P<。10,with 20 associations significant at P<。05after false discovery rate correction. In all cases, workplace chemical exposures were associated with increased odds of self-reported IMD ( 多媒体).染料是与IMD相关的最常见的工作场所暴露类别。没有发现酸或胶水/粘合剂与IMD条件之间的关联。“过敏或过敏反应(季节性过敏除外)”和“过敏性鼻炎、花粉热或季节性过敏”是与工作场所化学品接触相关的最常见的IMD状况。

基于应用用例结果的roboop衍生机制断言

我们使用三个典型关联来突出ROBOKOP应用程序,选择这些关联是因为它们在 P<。05,evident at both the level of the specific chemical and the chemical class, and representative of different chemical classes and IMDs: (1) carbon monoxide-multiple sclerosis, (2) ammonia-asthma, and (3) isopropanol-allergic rhinitis, hay fever, or seasonal allergies. An overview of ROBOKOP results for each of these examples is provided below, with various functionalities of the interactive UI highlighted in the first example.

一氧化碳和多发性硬化

工作场所一氧化碳暴露与多发性硬化症之间的关联在化学水平上都是显著的(OR 6.4583, 95% CI 1.8524-18.2844; P=.006)和化学类水平(OR 3.8902, 95% CI 1.2521-10.3546; P= 03)。

我们向ROBOKOP提出了以下问题,但结构像一个机器问题: 哪些基因可能介导一氧化碳暴露和多发性硬化症之间的联系?中显示通用问题、机器问题和答案集 图2.ROBOKOP鉴定出7个子图和潜在的中介基因如下: 肿瘤坏死因子(肿瘤坏死因子), 脑源性神经营养因子(脑源性神经营养因子), IL10(白细胞介素- 10”), 神经生长因子(神经生长因子), IRF8(干扰素调节因子8), KCNMA1(钾钙活化通道亚家族M α 1),以及 CASP8(半胱天冬酶8)。

排名靠前的答案集有858篇PubMed出版物,由OmniCorp提供,支持多发性硬化症和癌症之间的联系 肿瘤坏死因子和44篇PubMed出版物,同样由OmniCorp提供,支持一氧化碳和癌症之间的联系 肿瘤坏死因子 图3).另外25份PubMed出版物(来自OmniCorp)支持一氧化碳和多发性硬化症之间的联系,其中几份表明与血红素加氧酶-1有关,血红素加氧酶被描述为一种将血红素氧化为胆红素和一氧化碳的酶。〇多发性硬化症 肿瘤坏死因子该协会由HETIO和Pharos共同建立。一氧化碳 肿瘤坏死因子CTD建立了相关性,CTD的发表支持再次表明血红素加氧酶-1的作用[ 26].

在面向知识的路径(ROBOKOP)中链接的生物医学对象的推理高级别问题(A)作为机器问题或元图(B)实现,旨在探索可能调解工作场所暴露于一氧化碳和环境多态性注册参与者自我报告多发性硬化症之间观察到的关联的基因。用户在ROBOKOP用户界面中选择节点和边(或通过直接Cypher查询),使用中提供的模式将所需的自然语言问题转换为可执行的机器问题 图1作为向导。由此产生的聚合答案图(C)和答案子图列表(D)显示了6个潜在的中介基因。答案图和答案子图列表都是交互式的,用户可以探索。例如,在(D)中,用户可以单击每个答案子图来探索知识来源、谓词断言和发布支持。TNF:肿瘤坏死因子;BDNF:脑源性神经营养因子;IL10:白细胞介素- 10”;NGF:神经生长因子;IRF8:干扰素调节因子8;KCNMA1:钾钙活化通道亚家族M α 1; CASP8: caspase 8.

排名靠前的答案子图表明涉及 肿瘤坏死因子(肿瘤坏死因子)(A)作为一种潜在基因,可能调节工作场所暴露于一氧化碳和多发性硬化症之间观察到的显著相关性。“生物医学对象推理与知识导向路径(ROBOKOP)”机器问题的结构如下:一氧化碳-基因-多发性硬化症。示例发布支持一氧化碳和 肿瘤坏死因子提示血红素氧合酶-1的作用(B)。一氧化碳节点的元数据(C)。

氨与哮喘

工作场所氨暴露与哮喘之间的关联在化学水平上均显著(OR 2.0422, 95% CI 1.4426-2.8524; P=.001)和化学等级(OR 1.5210, 95% CI 1.1938-1.9311; P =04)。

向ROBOKOP提出的查询旨在识别可能介导氨和哮喘之间联系的潜在基因,其结构与研究中的查询相似 图2(ammonia-gene-asthma)。ROBOKOP通过聚合答案图确定了9个答案集或单独的路径。中间基因为 艾达(腺苷脱氨酶), PRKG1(蛋白激酶cgmp依赖性1), S100B(钙结合蛋白B), 肿瘤坏死因子 MPO(髓过氧物酶), 白细胞介素6(白细胞介素- 6), IL1B(β) PDE4A(磷酸二酯酶4A),和 PARP1(聚adp -核糖聚合酶1)。

排名最低的答案子图 艾达作为中介基因。与 艾达表明ADA通过将腺苷转化为肌苷和氨代谢腺苷。对于这个答案子图,哮喘和氨之间的关系得到了93篇PubMed论文的支持,由OmniCorp确定。一个 艾达使用Monarch建立了与哮喘的关系,OmniCorp提供了32篇支持PubMed的出版物。许多支持性出版物暗示了两者之间的关系 艾达基因突变与哮喘、过敏和免疫功能[ 27].

异丙醇与过敏性鼻炎、花粉热或季节性过敏

工作场所异丙醇暴露与变应性鼻炎、花粉热或季节性过敏之间的关联在化学水平上是显著的(or 1.3990, 95% CI 1.1415-1.7155; P=.02)和化学类水平(OR 1.2323, 95% CI 1.0287-1.4764; P= .09点)。

与其他两个示例一样,向ROBOKOP提出的查询旨在识别中间基因,结构类似,除了“过敏性疾病”被用作疾病节点,而不是“过敏性鼻炎、花粉热或季节性过敏”,因为后一种疾病节点在ROBOKOP中不可用。

ROBOKOP鉴定出以下三个中介基因: 白细胞介素6 肿瘤坏死因子, CSF2(集落刺激因子2)。排名第二的答案集中的中介基因为 白细胞介素6.异丙醇- 白细胞介素6CTD与PubMed建立了合作关系,其中一份出版物由CTD提供,另外两份出版物由OmniCorp提供。一个 白细胞介素6-过敏性疾病关系由Pharos建立,79篇支持PubMed的出版物由OmniCorp贡献。许多出版物[ 28]提示涉及先天免疫反应(如嗜碱性粒细胞、嗜酸性粒细胞和肥大细胞),几篇论文提示涉及神经免疫(如“过敏情绪”和海马炎症)[ 29].

讨论 调查结果及相关工作总结

我们在EPR队列中确定了工作场所化学品暴露与IMD状况之间的45个显著相关性,其中20个相关性在 P<。05而且largely unexpected a priori. Statistical evidence for an association, while important, does not establish a causal relationship or provide any insights into underlying mechanisms. Thus, we applied the open ROBOKOP KG system to validate the observed associations by demonstrating plausible connections between exposures and IMD conditions, and we provide mechanistic insights or hypotheses to explain them. We highlighted the following three use case applications: carbon monoxide-multiple sclerosis, ammonia-asthma, and isopropanol-allergic disease.

ROBOKOP为一个以一氧化碳-基因-多发性硬化症为结构的问题确定了合理的答案子图,从而支持了工作场所暴露于一氧化碳和多发性硬化症之间的统计关联。ROBOKOP进一步鉴定了编码TNF的基因, 肿瘤坏死因子,作为几种潜在的中介基因之一。ROBOKOP元数据和出版物支持表明,血红素氧化酶-1(将血红素氧化为胆红素和一氧化碳)起中介作用[ 26].血红素氧合酶-1水平在多发性硬化症患者中降低,并在疾病加重期间进一步降低[ 30.],而外源性一氧化碳或释放一氧化碳或诱导血红素氧合酶-1的化学物质似乎对多发性硬化症的实验模型有治疗作用[ 31].这些结果表明血红素氧合酶-1, 通过一氧化碳具有体内平衡或抗炎作用,可以预防多发性硬化症或抑制疾病恶化。然而,最近的证据表明,胶质细胞中的慢性血红素加氧酶-1反应可能促进神经退行性变,从而加剧多发性硬化症和其他神经退行性疾病[ 32].

ROBOKOP返回的多个答案子图支持了工作场所氨暴露和哮喘之间的统计关联。编码ADA的基因, 艾达ROBOKOP将其确定为这种关系的几个潜在中间体之一。ROBOKOP元数据表明ADA通过将腺苷转化为肌苷和氨来代谢腺苷。ROBOKOP发现了一些出版物,表明两者之间存在关联 艾达突变与哮喘、过敏和免疫功能,包括一篇表明与阿斯匹林不耐受哮喘有关的出版物[ 27].最近的一项综述表明,ADA缺乏可能对多个器官系统产生不利影响,包括肺系统[ 33].一些较早的出版物表明,腺苷在哮喘患者中起着支气管收缩剂的作用[ 34],最近的一篇文章表明,接触氨与哮喘加重之间存在关联[ 35].这些结果支持了一种关系 艾达突变与肺部并发症,以及氨与已确诊呼吸系统疾病患者肺部并发症之间的关联。

ROBOKOP提供了几个答案子图来支持工作场所暴露于异丙醇和过敏性疾病之间的统计关联。编码IL6的基因 白细胞介素6,被ROBOKOP鉴定为几个潜在的中介基因之一,发表的支持表明参与先天免疫反应[ 28].此外,ROBOKOP还发现了一些文献支持,表明IL6参与了过敏性疾病的神经免疫和神经行为相关[ 29].虽然IL1被广泛认为在“疾病行为”中发挥着突出作用,但IL6似乎也发挥着作用[ 36 37].这些发现表明,异丙醇暴露与过敏性疾病之间的关系实际上可能反映了异丙醇与过敏性疾病的神经/神经行为相关因素之间的关系。具体来说,结果表明异丙醇可能引发先天性神经免疫反应,导致il - 6水平升高,进而可能引发过敏性疾病的神经行为症状。

限制

ROBOKOP有几个限制,在解释这里的结果或使用应用程序时应该考虑这些限制。首先,工作场所化学品暴露和IMD之间的许多关联涉及复杂的化学混合物,如“调色剂”、“传动液”和“机油”。ROBOKOP目前将这些实体映射到医学主题标题术语,但该应用程序没有适当的方法来将这些混合物映射到构成给定混合物的单个化学品。我们正在考虑克服这一限制的方法。其次,ROBOKOP,像所有基于KG的应用程序一样,受到KG完成的挑战的限制。例如,如果在ROBOKOP KG基础上的策划数据源之一没有建立暴露-基因关系,那么这种关系将不会被识别。我们正在开发算法,通过推断KG中的边来克服这一限制,但目前,这仍然是一个限制。第三,ROBOKOP断言的证据来自以下两个主要来源:(1)用于创建KG的策展知识来源和(2)PubMed摘要中术语的共现。用于对答案子图进行排名的排名和评分算法是基于这两个证据来源,第一个来源比第二个来源更重要。其他相关因素,如发表日期和主题的研究数量(相对于出版物),目前没有考虑,但可能会被纳入应用程序的未来版本。 Fourth, as a prototype system, ROBOKOP does not yet support natural language processing capabilities or other sophisticated approaches to aid users. We encourage users to contact the developers and/or post GitHub issues should they encounter any challenges when generating queries and/or evaluating answer subgraphs. Fifth, while not a limitation of ROBOKOP itself, the workplace chemical exposure–IMD associations reported here were derived from survey data (ie, participant self-report) and were not confirmed by clinical record review or expert judgement. As such, the potential exists for misclassification and/or bias in both the reported exposures and the reported IMDs. Moreover, the timing between workplace exposure and the onset of IMD cannot be determined due to limitations of the survey design and participant recollection at the time the survey was administered. Finally, as this was an exploratory analysis, we did not adjust the ORs for small sample sizes or control for potential covariates such as age, sex, and race.

结论

ROBOKOP在支持现实世界观察和产生机械假设方面展示了其潜力。在本文中,我们重点研究了工作场所化学品暴露与IMDs之间的显著关联,这是一项更大的EPR研究的一部分。然而,我们注意到ROBOKOP还有其他用途。事实上,ROBOKOP的一个关键特征是它作为一个通用的问答系统在生物医学领域的通用性,具有支持各种机器问题的能力。例如,我们正在使用ROBOKOP来探索药物和临床结果之间的关联,包括不良事件,使用来自电子健康记录的数据。我们还在测试ROBOKOP是否可以用于支持医学院入学考试中的人类推理,我们有了很有希望的初步结果[ 38].虽然ROBOKOP KG目前是根据生物医学知识来源构建的,但一般方法并不局限于生物医学领域。事实上,代表我们机构的领导层,我们正在开发一个ROBOKOP KG的新版本,重点是探索研究计划和研究者特征之间的关系。

ROBOKOP的第二个关键特征是它支持快速发现的能力。例如,这里给出的示例用例只花了很少的时间来构建和执行,交互式UI甚至允许新手用户提出问题并探索答案子图。从ROBOKOP答案子图中收集到的机制见解很快得到了实现,从而实现了对结果的快速首次分析和对支持证据的评估。此外,ROBOKOP通过一个查询揭示了所有可能介导所观察到的暴露- imd关联的潜在基因;实际上,用户不需要花费数小时、数天或更长的时间来阅读可用的文献。ROBOKOP提供的这种发现速度也允许调查人员快速反驳可能只是虚假发现的关联(例如,如果ROBOKOP没有返回答案子图)。在本文强调的示例中,我们主要关注三个示例暴露- imd关联。虽然这看起来并不多,但一个完整的文献综述,以确定潜在的新见解,消除虚假的发现,并探索支持证据,将比使用ROBOKOP进行最初的首次分析所需的时间多得多。我们计划利用ROBOKOP的速度,在单核苷酸多态性和表型之间的关联的大规模分析中进行发现,这是更广泛的EPR工作和其他几项研究的一部分。

ROBOKOP的第三个关键特征是它的开放性。事实上,访问ROBOKOP,无论是通过UI还是直接通过Cypher查询底层KG,都不需要登录身份验证或帐户;相反,任何拥有URL的人都可以访问系统。此外,ROBOKOP KG可独立于应用程序下载[ 15].ROBOKOP的开放性和访问它的多种途径使科学民主化,再加上应用程序提供的发现速度,应该会加速生物医学和许多其他领域的进步。

在面向知识路径(ROBOKOP)知识图数据源中链接的生物医学对象的推理。

研究了工作场所化学品暴露与免疫介导疾病的关系。

工作场所暴露与免疫介导疾病之间的显著关联,被确定为环境多态性登记的一部分。

缩写 艾达

腺苷脱氨酶

连续油管

比较毒理基因组学数据库

电子顺磁共振

环境多态性登记处

白细胞介素6

白细胞介素- 6

洛桑国际管理发展学院

免疫介导性疾病

公斤

知识图谱

优势比

ROBOKOP

基于知识导向路径的生物医学对象推理

肿瘤坏死因子

肿瘤坏死因子

用户界面

用户界面

作者要感谢生物医学数据翻译联盟的支持和智力投入。我们也承认并感谢更广泛的生物医学对象推理与知识导向路径(ROBOKOP)团队的贡献,包括Vinicius Alves、Jim Balhoff、Steven Cox、Yaphet Kabede、Daniel Korn、Eugene Muratov和Max Wang。此外,我们感谢环境多态性Registry (EPR)执行领导委员会成员和EPR IMD研究小组的其他成员,包括Farida Akhtari、Montserrat Ayala-Ramirez、Perry Blackshear、Askia Dunnon、David Fargo、Michael Fessler、Stavros Garantziotis、Janet E Hall、Nathaniel MacNell、John McGrath、Alison Motsinger-Reif和Christine Parks进行了有益的讨论,以及Jeremy Erickson、Andy Rooney和Vickie Walker对手稿的有益评论。这项工作得到了美国国立卫生研究院国家转化科学推进中心(OT2TR002514)和美国国立卫生研究院国家环境卫生科学研究所(ZID ES103354-01)内部研究项目临床研究分支的支持。

通讯作者(KF)可通过kfecho@copperlineprofessionalsolutions.com或kfecho@renci.org联系。

所有作者都以实质性的方式对本文所述的工作做出了贡献,并批准了该手稿提交期刊。

没有宣布。

尼科尔森 DN 格林 CS 构建知识图谱及其生物医学应用 计算结构生物技术 2020 18 1414 1428 10.1016 / j.csbj.2020.05.017 32637040 s2001 - 0370 (20) 30280 - 4 PMC7327409 wishard D Feunang Y 一个 E Marcu 一个 格兰特 J Sajed T 约翰逊 D C Sayeeda Z Assempour NgydF4y2Ba Iynkkaran Y Maciejewski 一个 盖尔 NgydF4y2Ba 威尔逊 一个 下巴 l 卡明斯 R D 在其 一个 诺克斯 C 威尔逊 DrugBank 5.0: 2018年对DrugBank数据库的重大更新 核酸测定 2018 01 04 46 D1 D1074 D1082 10.1093 / nar / gkx1037 29126136 4602867 PMC5753335 戴维斯 一个 Grondin C 约翰逊 R Sciaky D R Wiegers J Wiegers TC Mattingly CJ 比较毒理学基因组学数据库:2019年更新 核酸测定 2019 01 08 47 D1 D948 D954 10.1093 / nar / gky868 30247620 5106145 PMC6323936 Mondo疾病本体 2021-06-25 http://www.obofoundry.org/ontology/mondo.html 科勒 年代 卡莫迪 l Vasilevsky NgydF4y2Ba 雅各布森 J Danis D Gourdine J 加加 哈里斯 Matentzoglu NgydF4y2Ba McMurry 晶澳 Osumi-Sutherland D Cipriani V Balhoff 摩根大通 为人 T 蓝色 H Baynam G 帕尔默 R 格兰西 D 道金斯 H 西格尔 詹森 交流 Muaz 一个 WH Bergerson J Laulederkind SJF Yuksel Z Beltran) 年代 弗里曼 房颤 Sergouniotis π Durkin D 风暴 艾尔 Hanauer Brudno 贝罗 SM Sincan Rageth K 惠勒 Oegema R Lourghi H 德拉罗卡 毫克 汤普森 R 卡斯特罗 F 牧师 J Cunningham-Rundles C 对冲基金 一个 情人 钢筋混凝土 Hajek C 奥利 一个 Notarangelo l Similuk XA Gomez-Andres D Lochmuller H Dollfus H 罗森茨维格 年代 Marwaha 年代 早期 一个 沙利文 K 史密斯 C 米尔纳 JD Leroux D Boerkoel CF Klion 一个 卡特 MC Groza T 斯梅德利 D Haendel Mungall C 罗宾逊 PN 人类表型本体论(HPO)知识库和资源的扩展 核酸测定 2019 01 08 47 D1 D1018 D1027 10.1093 / nar / gky1105 30476213 5198478 PMC6324074 银行 DS Lizee 一个 赫斯勒 C Brueggeman l 程ydF4y2Ba SL 哈德利 D 绿色 一个 Khankhanian P Baranzini SE 生物医学知识的系统整合优先考虑药物的再利用 Elife 2017 09 22 6 e26726 10.7554 / eLife.26726 28936969 26726 PMC5640425 程ydF4y2Ba B Y 野生 DJ 利用语义关联数据评估药物靶标关联 PLoS计算生物学 2012 7 5 8 7 e1002574 10.1371 / journal.pcbi.1002574 22859915 pcompbiol - d - 11 - 01741 PMC3390390 Bollacker K 埃文斯 C 介绍, P 他是 T 泰勒 J Freebase:一个协作创建的图形数据库,用于构建人类知识 SIGMOD '08: 2008 ACM SIGMOD数据管理国际会议记录 2008 2008 ACM SIGMOD数据管理国际会议 2008年6月9日至12日 加拿大温哥华 1247 1250 10.1145/1376616.1376746 奥斯丁 CP Colvis 厘米 索思豪尔 NT 解构巴别塔的翻译 临床翻译科学 2019 03 12 2 85 10.1111 / cts.12595 30412342 PMC6440561 生物医学数据翻译协会 生物医学数据翻译计划:概念、文化和社区 临床翻译科学 2019 03 09 12 2 91 94 10.1111 / cts.12592 30412340 PMC6440573 生物医学数据翻译协会 迈向通用生物医学数据转换器 临床翻译科学 2019 03 09 12 2 86 90 10.1111 / cts.12591 30412337 PMC6440568 Bizon C 考克斯 年代 Balhoff J Kebede Y P 莫顿 K Fecho K Tropsha 一个 ROBOKOP KG和KGB:来自联邦资源的集成知识图表 J化学Inf模型 2019 12 23 59 12 4968 4973 10.1021 / acs.jcim.9b00683 31769676 莫顿 K P Bizon C 考克斯 年代 Balhoff J Kebede Y Fecho K Tropsha 一个 ROBOKOP:知识图的抽象层和用户界面,以支持问题回答 生物信息学 2019 12 15 35 24 5382 5384 10.1093 /生物信息学/ btz604 31410449 5549494 PMC6954664 Robokop:在面向知识的路径中链接的生物医学对象的推理 2021-06-25 https://robokop.renci.org 连接到Neo4j 2021-06-25 https://robokopkg.renci.org Biolink模型 2021-06-25 https://biolink.github.io/biolink-model/ Z Y R 太阳 Y Mamoulis NgydF4y2Ba X 元结构:大型异构信息网络中的计算相关性 KDD '16:第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集 2016 第22届ACM SIGKDD国际知识发现和数据挖掘会议 2016年8月13日至17日 旧金山,加州 1595 1604 10.1145/2939672.2939815 Y W V K X 基于元图学习的图语义接近搜索 2016 第32届国际数据工程会议(ICDE) 2016年5月16-20日 芬兰赫尔辛基 277 288 10.1109 / icde.2016.7498247 H J 首歌 Y D 异构信息网络中基于元图的推荐融合 KDD '17:第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集 2017 第23届ACM SIGKDD国际知识发现和数据挖掘会议 2017年8月13日至17日 纽约州纽约 635 644 10.1145/3097983.3098063 NCATS-gamma / omnicorp GitHub 2021-06-25 https://github.com/NCATS-Gamma/omnicorp SciGraph / SciGraph GitHub 2021-06-25 https://github.com/SciGraph/SciGraph/ 克莱因 DJ 兰迪ć 电阻的距离 数学化学 1993 12 12 1 81 95 10.1007 / bf01164627 Kasneci G Suchanek F Ifrim G Ramanath 威库姆 G NAGA:搜索和排名知识 2008 第24届数据工程国际会议 2008年4月7日至12日 墨西哥坎昆 10.1109 / icde.2008.4497504 密码查询语言 Neo4j 2021-06-25 https://neo4j.com/developer/cypher-query-language/ 探索你的基因如何与环境相互作用 环境多态性登记处,北卡罗来纳州DNA库 2021-06-25 https://dnaregistry.niehs.nih.gov/ Brouard 年代 Berberat 阿宝 Tobiasch E 塞尔登 国会议员 巴赫 跳频 苏亚雷斯 国会议员 血红素氧合酶-1来源的一氧化碳需要激活转录因子NF-κB来保护内皮细胞免受肿瘤坏死因子-α介导的凋亡 生物化学杂志 2002 05 277 20. 17950 17961 10.1074 / jbc.m108317200 年代 Y 公园 H 年代 年代 Y 最小值 K 公园 H 阿斯匹林不耐受哮喘中的腺苷脱氨酶和腺苷受体多态性 和地中海 2009 03 103 3. 356 63 10.1016 / j.rmed.2008.10.008 19019667 s0954 - 6111 (08) 00359 - 4 年代 J X D B Z H Z 大鼠变应性鼻炎与海马的炎症反应有关 Behav神经 2018 04 16 2018 8750464 10.1155 / 2018/8750464 29849816 PMC5926495 Trikojat K Luksch H Rosen-Wolff 一个 Plessow F 施密特 J Buske-Kirschbaum 一个 “过敏情绪”-季节性变应性鼻炎(SAR)患者的抑郁和焦虑症状及其与炎症、内分泌和过敏标志物的关系 大脑行为Immun 2017 10 65 202 209 10.1016 / j.bbi.2017.05.005 28495610 s0889 - 1591 (17) 30151 - 4 Fagone P 帕蒂 F 曼格诺 K Mammana 年代 椰子树 Touil-Boukoffa C Chikovani T Di马可 R Nicoletti F 血红素加氧酶-1在外周血单个核细胞中的表达与多发性硬化症的疾病活动性相关 J Neuroimmunol 2013 08 15 261 1 - 2 82 6 10.1016 / j.jneuroim.2013.04.013 23714423 s0165 - 5728 (13) 00097 - 0 Fagone P 曼格诺 K 椰子树 Perciavalle V Garotta G Romao C Nicoletti F 一氧化碳对多发性硬化症的治疗潜力 临床试验免疫 2012 02 167 2 179 87 10.1111 / j.1365-2249.2011.04491.x 22235993 PMC3278683 Schipper 首歌 W Tavitian 一个 Cressatti 血红素氧合酶-1在大脑衰老和疾病中的险恶面貌 食物一般 2019 01 172 40 70 10.1016 / j.pneurobio.2018.06.008 30009872 s0301 - 0082 (18) 30055 - 8 Flinn Gennery 基于“增大化现实”技术 腺苷脱氨酶缺乏症综述 孤儿J罕见病 2018 04 24 13 1 65 10.1186 / s13023 - 018 - 0807 - 5 29690908 10.1186 / s13023 - 018 - 0807 - 5 PMC5916829 Ng W Polosa R 教堂 腺苷支气管收缩在哮喘中的作用机制探讨 Br J临床药物 1990 30补充1 89年代 98年代 10.1111 / j.1365-2125.1990.tb05474.x 2268511 PMC1368104 霍尔斯特 G Thygesen 需要好好 C R 品牌 J 克里斯坦森 J Bø问økke J 奥立 H 托本 年代 氨、铵和哮喘风险:丹麦儿童基于登记的病例对照研究 环境流行病学 2018 2 3. e019 10.1097 / ee9.0000000000000019 Dantzer R 细胞因子,疾病行为和抑郁 北美免疫过敏诊所 2009 05 29 2 247 64 10.1016 / j.iac.2009.02.002 19389580 s0889 - 8561 (09) 00003 - 4 PMC2740752 伯顿 医学博士 斯帕克曼 约翰逊 RW 抑制大脑中的白细胞介素-6转信号,有助于从脂多糖诱导的疾病行为中恢复 J神经炎症 2011 05 19 8 1 54 10.1186 / 1742-2094-8-54 21595956 1742-2094-8-54 PMC3113341 Fecho K Bizon C 考克斯 年代 Balhoff J Kebede Y P 莫顿 K Ahalt 年代 Tropsha 一个 生物医学问答系统在MCAT问题推理中的应用 2020 AMIA 2020虚拟年度研讨会 2020年11月14日至18日 虚拟
Baidu
map