发表在第三卷第1号(2022):1 - 12月

本文的预印本(早期版本)可在以下网站获得https://preprints.www.mybigtv.com/preprint/37701,首次出版
遗传性疾病患者全外显子组测序数据中单核苷酸变异的诊断:使用人工智能变量优先排序的机器学习研究

遗传性疾病患者全外显子组测序数据中单核苷酸变异的诊断:使用人工智能变量优先排序的机器学习研究

遗传性疾病患者全外显子组测序数据中单核苷酸变异的诊断:使用人工智能变量优先排序的机器学习研究

原始论文

1国立台湾大学计算机科学与信息工程系,台北市

2国立台湾大学生物医学电子与生物资讯研究所,台北市

3.台北市国立台湾大学医院遗传学科

4台北市国立台湾大学医院儿科

通讯作者:

赖飞培博士

生物医学电子与生物信息学研究生院“,

国立台湾大学

罗斯福路四号段1号

台北市,106319

台湾

电话:886 2 33664924

传真:886 2 23628167

电子邮件:flai@ntu.edu.tw


背景:近年来,由于下一代测序(NGS)技术的快速发展,可以在短时间内对整个人类基因组进行测序。因此,NGS技术正被广泛应用于临床诊断实践,特别是在遗传性疾病的诊断中。虽然使用这些方法可以生成单核苷酸变异(SNV)的外显子组数据,但处理患者的DNA序列数据需要多种工具和复杂的生物信息学管道。

摘要目的:本研究旨在帮助医生在短时间内自动解读NGS产生的遗传变异信息。为了确定患有遗传疾病的患者的真正因果变异,目前,医生通常需要手动查看每个变异的大量特征,并在不同的数据库中搜索文献,以了解遗传变异的影响。

方法:我们构建了一个机器学习模型来预测外显子组数据中的致病变异。我们收集全外显子组测序(WES)和基因面板的测序数据作为训练集,然后整合多个基因数据库的变体注释进行模型训练。建立的模型对snv进行排序,并输出最可能的致病候选因子。为了进行模型检验,我们收集了台大医院108例罕见遗传病患者的WES数据。我们将测序数据和表型信息通过关键字提取工具从患者的电子医疗记录中自动提取到我们的机器学习模型中。

结果:经过筛选,我们在平均每人741个候选变异中,成功地在排名前10位的致病变异中找到了92.5%(124/134)。AI Variant priority能够将约61.1%(66/108)的患者的目标基因分配到最前面,其次是Variant priority,将其分配到44.4%(48/108)的患者。累积排名结果显示,我们的AI变体优先排序器在排名1、5、10和20处具有最高的准确性。这也表明,AI变体优先排序器表现出比其他工具更好的性能。采用人类表型本体(Human表现型本体,HPO)术语进行数据库查询后,排名前10的排名可以增加到93.5%(101/108)。

结论:我们成功地利用WES的测序数据和关键字提取工具自动提取的患者疾病的自由文本表型信息进行模型训练和测试。通过解释我们的模型,我们确定了变量的哪些特征是重要的。此外,我们在测试数据集中找到了一个满意的结果。通过查阅数据库,采用HPO术语后,排名前10的名单可以增加到93.5%(101/108)。该模型的性能与人工分析相似,并已用于台大医院的遗传诊断。

JMIR Bioinform Biotech 2022;3(1):e37701

doi: 10.2196/37701

关键字



背景

现代下基因组测序技术使一天内快速完成人类基因组测序成为可能[12].与传统的Sanger测序方法相比,由于其速度快,成本低[3.], NGS正迅速被引入临床和公共卫生实验室实践,特别是用于诊断遗传性疾病。

尽管NGS具有极高的通量,可以在短时间内生成大量的基因组数据,但解释这些数据并从数千个变异中找到致病候选基因仍然是一个挑战。为了确定患有遗传疾病的患者的真正病因变异,医生通常需要手动查看每个变异的大量特征,并在不同的数据库中搜索文献,以了解遗传变异的影响。另一个挑战是寻找与患者表现型密切相关的基因变异。医生经常手动从病人的电子病历(EMRs)中选择有用的关键词,在几个基因数据库中搜索文章,如在线人类孟德尔遗传(OMIM) [4和通用视图[5来确定一个变异是否与一种遗传疾病相关。因此,对医生来说,逐案处理这些费时费力的过程是一种负担,特别是在过去十年中,每年发表的与遗传疾病相关的种系突变的数量呈指数增长的情况下[6].

如今,许多研究使用机器学习方法来解决基因组学和遗传学中的许多问题。机器学习领域有望使计算机帮助人类理解庞大而复杂的数据集。在变体注释之后,会有一个包含数百列的变体列表,人类无法逐一解释这些列。由于机器学习大大超过了人类水平的性能,特别是在结构化数据的情况下,我们考虑使用机器学习方法来分析来自NGS的变体并找到目标基因。

为了解决这些问题,有一种高性能的方法从NGS结果中筛选候选变异,并立即找到与患者疾病相关的目标变异,这是非常重要和必要的。最近,Exomiser [7, DeepPVP [8, Xrare [9, VarSight [10, Phenolyzer [11]、面料宝石[12],月亮[2], cadd [13]、MetaSVM [14]已经被开发用来识别与罕见病诊断中患者表型相关的潜在致病变异。Exomiser整合的信息包括计算出的基因特异性表现型得分、变异等位基因频率(多媒体附件1),并预测几个等位基因的致病性,以优先考虑致病变异/相互作用。织物GEM利用贝叶斯因子对变异进行优先排序,并支持由Phevor [15,以及ANNOVAR、VAAST和fen - gen等工具的不同优先级结果。MOON集成了几个变量的注释结果和优先级排序工具,使用几种机器学习模型实现了变量优先级排序。由Phevor使用从患者电子健康记录(EHRs)中提取的人类表型本体(HPO)术语计算出的基因表型得分也被MOON考虑在内。CADD利用逻辑回归综合信息,包括周围序列的上下文、生物学约束、表观遗传测量和几种变异注释工具的结果,建立了变异毒性的预测模型。MetaSVM [14]收集包括polyphen2在内的9个毒性预测评分的结果[16],筛选[17, MutationTaster [18]建立支持向量机(SVM)毒性预测模型。尽管这些工具采用了不同的方法(包括逻辑回归和深度神经网络)来确定变量的优先级,但大多数工具只能识别HPO术语中定义的表型[19].在这项工作中,我们开发了基于机器学习方法的AI变体优先排序器模块,该模块可以从全外显子组测序(WES)数据中输出单核苷酸变异(SNVs)和小插入/删除(indels)的排名,并输入自由文本表型描述或EHR。

在这项研究中,我们旨在实现一个名为AI Variant priority的网站,该网站使用来自NGS生物信息学管道的数据和机器学习,对snv和患者表型中最可能的致病变异进行预测。从NGS管道生成的数据都是用ANNOVAR、Nirvana、Variant Effect Predictor (VEP)和InterVar等工具的注释和MViewer (Mutation Viewer)查询的多个数据库的附加信息构建的[20.].为了简化解释过程,我们集成了关键字提取工具,从EMRs自动生成表型。我们的系统采用MViewer筛选的候选变异和患者的EMRs作为输入和输出的snv列表,具有排名和致病概率。该系统可以帮助研究人员和医生专注于那些有较高致病可能性的疾病,而不是手动检查每个变体,并节省大量时间。此外,我们还为我们的系统实现了一个web应用程序编程接口(API),使排名功能集成到MViewer中。因此,医生可以用单一的应用来解释遗传变异的结果,而不是采用多种服务。

数据描述

在我们的研究中,我们专注于那些被诊断患有罕见孟德尔病的患者。我们的数据主要来自台大医院医学遗传学系的快速外显子组项目。为了使用更多的数据构建模型,我们还申请了dbGaP数据库(项目ID 201911)中存储的几个WES数据。我们使用的数据是dbGaP登录phs000711.v5。p1,贝勒霍普金斯孟德尔基因组学中心。

我们收集患者测序数据以满足本研究要求的条件如下:

  • 被诊断为遗传疾病的病人。
  • 接受WES或靶向测序并诊断出至少一种致病变异的患者。
  • 可获得表型信息的患者。

我们来自NTUH的数据包括患者人口统计数据、NGS生物信息学管道输出的可变呼叫格式(VCF)文件和来自电子病历的表型信息。来自dbGaP的数据还包括患者人口统计数据、VCF文件和临床情况。所有数据都已被识别,不会侵犯患者的隐私。我们将性别纳入患者人口统计信息中,作为我们模型的一个特征,因为一些人类遗传疾病与性别有关。性相关疾病是由X或Y染色体上的基因突变引起的,并通过家族遗传。

不同呼叫格式文件

作为NGS生物信息学管道的最终产品,VCF是存储DNA多态性数据(如snp、插入、删除和结构变异)的通用格式。该格式是为1000基因组计划开发的,也被其他项目广泛采用。每个VCF文件由两个部分组成:头部分和数据部分。头部包含关于数据部分中的标记和注释的元数据。它还可以用于提供与数据和文件的历史相关的信息。标题中的最后一行包含数据部分的列标题。数据部分被制表符分隔为9列,并报告每一行的一个突变。列包括CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO和FORMAT。

表型信息

对于来自NTUH的数据,我们从临床医生的病史总结中提取患者的表型信息。它主要记录病人的病情、临床诊断和每个病人入院的原因。我们还根据每个患者的症状收集医生提供的表型关键词进行模型验证。对于来自dbGaP的数据,由于没有电子病历,我们将使用患者的临床情况来代替。对于在OMIM数据库中可以找到的临床情况,我们将提取相应的表型描述作为我们研究的表型信息。


工作流

概述

图1展示了我们研究的工作流程。我们从WES和面板测序中收集每个患者的VCF,然后使用几种工具对变异进行注释。在变量注释之后,我们使用了我们内部的软件(MViewer [20.)以查询其他外部数据库并筛选候选变量。然后我们使用这些候选变体的基因名和关键字提取工具从EMRs中提取的关键字查询变体优先排序器[21].利用变异优先排序器生成的基因相似度分数和标注变异列作为特征训练机器学习模型。该模型将每个变体按其致病概率排序。我们将在下面的小节中演示每个步骤的细节。

图1。研究的工作流程。EMR:电子病历;indel:插入/删除;MViewer:突变查看器;SNV:单核苷酸变异;VCF:可变呼叫格式。
查看此图
变异注释

我们在VCF文件中收集了每位患者的NGS测序数据,并从包括ANNOVAR [22], vep [23,涅槃[24]、InterVar [25].对于上述工具无法提供的其他信息,我们使用软件导入了一些公共数据源,包括ClinVar [26],人类基因组突变数据库(HGMD) [27]、台湾生物库[28].对这些注释字段的详细描述总结在文本框1

注释字段的描述。

等位基因频率

这描述了特定等位基因在特定人群中的基因拷贝比例。等位基因频率的计算方法是用种群中特定等位基因的拷贝数除以种群中该基因的所有等位基因的总数。它指的是一个等位基因在人群中的普遍程度。

功能预测评分

一系列评分算法,能够基于变种的不同信息(如序列同源性、蛋白质结构和进化保守性)预测变种的潜在毒性。这些评分方法包括函数预测评分、守恒评分和集合评分。

致病性

ClinVar和人类基因突变数据库(HGMD)是两个公共数据库,其中存储了与人类遗传疾病相关的基因突变信息。两者都将变异分类为致病或与人工策治相关的疾病。

临床解释

美国医学遗传学和基因组学学院(ACMG)和分子病理学协会(AMP)在28项标准的基础上公布了人类疾病序列变异的临床解释标准和指南[29].这些标准如下:将变异分类为致病性或可能致病性的标准(总共16个)是非常强(PVS1)、强(PS1-PS4)、中等(PM1-PM6)或支持(PP1-PP5),而将变异分类为良性或可能良性的标准(总共12个)是独立(BA1)、强(BS1-BS4)或支持(BP1-BP7)。

能够约束

对基因表达水平的限制已被证明会影响人类基因变异的模式[30.].例如,一些基因由于功能的丧失而异常枯竭,被认为在表达方面受到限制。基因组聚集数据库(gnomAD)提供了预测约束指标跟踪集,其中包含预测的每个基因的致病性指标,并识别出针对各种类型突变的强选择基因。这些包括在基因、转录本和转录区域水平计算的约束指标的几个子轨迹。

疾病遗传

与变体相关的性状或疾病可以通过家族遗传的遗传模式,如常染色体显性遗传、常染色体隐性遗传、x连锁遗传和线粒体遗传。我们使用OMIM(人类在线孟德尔遗传)中定义的模式作为我们的数据。

其他人

有关遗传变异的附加信息,如基因名称、基因型和基因的不同转录本或近端调控区域的功能后果。

文本框1。注释字段的描述。
变体过滤

WES数据中平均每个先证者有40,000个变体。然而,大多数是良性的,与症状无关。只有一小部分变异可能是有害的或与患者的疾病有关。在标准的临床分析过程中,医生只关注可能致病或未知的变异。由于我们的模型旨在帮助研究人员和医生进行临床外显子组阅读,因此有必要减少变异的数量,专注于更可能导致疾病的变异。

为了生成候选变量,我们使用MViewer提供的过滤器来删除不太可能有害的变量。过滤器和标准列于表1.对于包含超过1列的过滤器,如果一个变量满足它们的任何一个条件,它将保留在数据中。经过变异筛选后,我们得到每个患者大约700个snv。

表1。过滤标准。
过滤器 标准
最大等位基因频率
  • 最大等位基因频率
  • ≤0.01(不含数据)
非同义错义突变
  • ExonicFunc.refgene
  • “产生”
停止增加
  • 结果
  • ExonicFunc.refgene
  • “stop_gained”
  • “stopgain”
拼接
  • 结果
  • Func.refgene
  • “splice_region_variant”
  • “splice_acceptor_variant”
  • “splice_donor_variant”
  • “拼接”
移码的
  • 结果
  • ExonicFunc.refgene
  • “frameshift_variant”
  • “feature_truncation”
  • “feature_elongation”
  • “转移”
初始密码子
  • 结果
  • “start_lost”
删除
  • 类型
  • 结果
  • ExonicFunc.refgene
  • “删除”
插入
  • 类型
  • 结果
  • ExonicFunc.refgene
  • “插入”
Inframe删除
  • 结果
  • ExonicFunc.refgene
  • “inframe_deletion”
  • “nonframeshift删除”
外显子/拼接网站
  • Func.refgene
  • 结果
  • “其实”
  • “拼接”
  • “coding_sequence_variant”
  • “frameshift_variant”
  • “incomplete_terminal_codon_variant”
  • “inframe_deletion”
  • “inframe_insertion”
  • “missense_variant”
  • “splice_acceptor_variant”
  • “splice_donor_variant”
  • “splice_region_variant”
表现型提取
概述

本研究使用的表型信息来自临床医生的病史总结。这些记录都是免费文本,文本长度从不到10个字到超过300个字不等。在临床分析过程中,医生手工翻阅病历,识别表型关键词,耗时较长。为了解决这一问题,我们使用了几个关键字提取工具,从自由文本医疗记录中自动生成与表型相关的关键字。以下部分列出了在我们的研究中应用的关键字提取工具。

MetaMap

MetaMap [31]是一个广泛使用的应用程序,提供对统一医学语言系统(UMLS)元辞典内概念的访问[32].UMLS mettathesaurus是来自各种生物医学命名系统的名称、关系和相关信息的汇编,这些命名系统代表了生物医学实践或研究的不同观点。它包括超过100万个生物医学概念和500万个概念名称[33].MetaMap能够将文本中的每个单词映射到UMLS概念,但我们只想关注与表型和疾病相关的单词。因此,我们提取了以下语义类型的词:(1)损伤或中毒,(2)细胞或分子功能障碍,(3)遗传功能,(4)疾病或综合征,(5)体征或症状,(6)组织。

Doc2Hpo

Doc2Hpo [34是一个使用自然语言处理(NLP)技术解析临床记录并得到表型概念curation作为HPO术语的web应用程序。有一个解析引擎可以从输入中自动识别显型概念。Doc2Hpo应用一种名为NegBio的算法在输入数据中进行否定检测。之后,有几个NLP引擎负责HPO概念提取。我们使用了其中的3个引擎并比较了它们的性能。第一个NLP引擎是一个基于字符串的方法,利用算法进行概念提取。第二个引擎是在线NCBO注释器[35用于HPO概念识别的API。我们采用的最后一个引擎是MetaMap Lite,它是MetaMap的一个快速版本,提供了近乎实时的命名实体识别。MetaMap Lite引擎首先识别文本中的临床术语,并将它们映射到标准UMLS概念。然后UMLS概念将进一步映射到HPO概念。Doc2Hpo生成的结果是HPO术语,而MetaMap提取的关键字是非HPO术语。

表型-基因相似度评分

构建基因与关键词之间联系的另一种方法是使用Okapi BM25排序函数。Okapi BM25通常由搜索引擎(如谷歌和Bing)使用,根据与给定搜索的相关性对匹配文档进行排序。该函数最突出的实例之一如下式所示:

分数(D)表示文档的Okapi BM25评分D当给出一个查询Q,包含关键字1,2……qnfD)是文档中的术语频率D;|D|是文档的长度D在单词;Avgdl是所有文档中的平均文档长度;k1,b为常量(分别=1.2和0.8);和IDF ()为查询词的逆文档频率(IDF)权重通常定义为:

IDF () = ln [(N- - - - - -n+ 0.5]/[n+ 0.5 + 1]

在哪里N是文件的数量和n包含关键字的数字。

在本研究中,我们提出了一种利用OMIM和GeneReviews中的基因描述作为文档,关键词作为查询的方法来实现Okapi BM25排序功能。因此,我们可以用Okapi BM25评分来表示基因描述与关键词之间的关系。关键词中基因描述的得分越高,说明该基因与关键词之间的联系越强。排名值是基于前面提到的Okapi BM25排名函数和其他一些参数。与Okapi BM25正则公式相比,rank值将IDF函数替换为Robertson-Spärck-Jones weight [36].IDF函数是对单词提供多少信息的度量,也就是说,该单词在所有文档中是常见的还是罕见的。例如,术语“the”在每个文档中都很常见,因此术语频率将倾向于错误地突出显示碰巧更频繁地使用“the”这个词的文档。因此,IDF函数致力于减少所有文档中频繁出现的单词的权重。与常规的IDF函数相比,Robertson-Spärck-Jones权重增加了文档的相关参数,提高了排名得分的精度。

我们从一个文本挖掘工具Variant priorities tizer中得到每个SNV的表型-基因相似度得分,该工具通过输入症状作为关键词输出基因的排名和得分。变体优先排序器使用Okapi BM25排序功能[37来构建基因和关键词之间的联系。来自OMIM, generviews, Entrez基因的基因描述[38,以及PubTator [39]作为数据源,关键词作为查询,采用全文搜索的方法实现Okapi BM25评分。它返回一个名为RANK的列,其中包含从0到1000的序号值。RANK分数基于以下公式:

其中ω是Robertson-Spärck-Jones权重[36],定义为ω = log [(r+ 0.5)∙(N- - - - - -n- - - - - -R+r+ 0.5)] / [(R- - - - - -r+ 0.5)∙(n- - - - - -r+ 0.5)],其中R是否有多少已知的相关文件r是包含这个术语的数量;特遣部队是在一个项目中查询的属性中单词出现的频率;qtf是查询中术语出现的频率;而且K定义如下:

Kk 1((1 -b) +b戴斯。莱纳姆:/ avgdl))

在哪里戴斯。莱纳姆:是属性长度,在字的出现;Avgdl是被查询属性的平均长度,以单词出现次数为单位;而且k1b,k3.是常量(分别=1.2、0.75和8.0)。

我们使用Variant priority API从每个数据源获取RANK值作为基因相似度评分,以表示每个snv与提取的关键字之间的关联。我们保留了等级值的最大值和最小值(总共4分)作为模型构建的两个独立特征。

道德的考虑

本回顾性队列研究由国立台湾大学医院机构审查委员会(IRB编号:201710066RINB)批准。我们确认所有的实验都是按照相关的指导方针和规定进行的。从电子病历中检索到的数据被识别,研究团队无法将其与患者身份联系起来。由于本研究为回顾性队列研究,数据不确定,因此无需书面知情同意,并由国立台湾大学附属医院IRB (201710066RINB)确认。本条例符合《健康保险携带与责任法案》(HIPAA),即对已识别健康信息的使用或披露没有限制。

数据预处理

步骤概述

在VCF文件的变体注释之后,我们将数据预处理为模型可接受的格式。数据预处理是机器学习中极为重要的一步,因为数据的质量直接影响模型的学习能力。它包括各种操作,每个操作都旨在帮助机器学习建立更好的预测模型。本研究中使用的数据预处理操作将在下面的小节中解释。

缺失值处理

在现实世界中,数据通常有缺失的值。例如,在基因型变量中,大多数机器学习方法都不能处理空值,识别和正确处理缺失值是关键。基本上,缺失的值可以使用各种技术处理,如删除或imputation [40].删除删除有一个或多个缺失值的观察的所有数据。但是,如果有许多列缺少值,则删除将导致数据缺乏。因此,对于一些列,我们用均值替换数据集中缺失的值,而对于一些列,我们只是简单地用有效值替换缺失的值,比如0。

一种热编码

许多机器学习算法不能直接操作分类数据。它们要求所有的输入特征都是数字的。基本上,分类数据包含标签值而不是数值。因此,分类数据必须转换为数字形式,以便在机器学习模型中使用。一种热编码是处理分类数据的普遍方法。一种热编码将分类列转换为多维向量。它创建新列,指示原始数据中每个可能值的存在。

例如,在基因型变量中,有3类:纯合子(hom)、杂合子(het)和半合子(hem)。因此,需要3个二元变量[home, het, hem]。如果一个变异的基因型是杂合的,我们使用[010来代表它。

数据归一化

对于连续数据,有一些具有不同的范围。如果我们在一些机器学习模型(如逻辑回归)中应用范围非常大的特征,范围更广的特征由于其值更大,在本质上对结果的影响更大。然而,这并不一定意味着这一特征是一个更重要的预测。因此,我们使用规范化技术作为解决方案来克服这个问题。归一化是对原始范围内的数据进行缩放,使所有值都在0和1的范围内。我们通过最小-最大归一化对所有连续值进行缩放。一般公式如下:

XNorm = (X - X分钟)/X马克斯- X分钟)

在哪里X是原值和XNorm是归一化值。这将使最大值映射为1,最小值映射为0。除了上述的数据预处理技术,我们还对不同的数据类型进行了不同的处理,并为模型构建创造了一些新的特性。在接下来的小节中,我们将详细介绍每种数据类型的预处理,并在最后将它们结合起来。

功能预测评分

功能预测评分,包括SIFT [17, PolyPhen2 HDIV [16, PolyPhen2 HVAR [16], LRT [41, MutationTaster [18, MutationAssessor [42], fathmm [43],证明[44, MetaSVM [14, MetaLR [14], m-cap [45], cadd [13, gerp++ [46], dann [47, fathmm-MKL [48],种族灭绝[49], fitCons [50, PhyloP [51, PhastCons [52]和SiPhy [53来自ANNOVAR。我们使用ANNOVAR提供的转换后的等级分数来代替原来的分数,因为所有这些分数总是在0和1的范围内。此外,不同算法转换的排名分数在同一方向上是单调的。也就是说,分数越高,表明变异越有可能具有破坏性[54].对于拼接点预测,我们使用VEP插件导入了MaxEntScan评分。我们定义了一个名为MaxEntScan意义的新列。当MaxEntScan alt值< 3且MaxEntScan变异量< 30%时,该值为1;否则该值为0。我们使用ClinVar报告的临床意义和计算HGMD评分。HGMD计算的等级分数是0到1之间的致病性概率,与HGMD的其他条目相比,1是最可能的致病原因。

临床解释

我们采用基于美国医学遗传学和基因组学学院/分子病理学协会(ACMG/AMP) 2015指南的每种遗传变异的临床解释,该指南由InterVar生成。我们计算了由Xrare开发的ACMG评分来代表其总体致病性。ACMG评分是基于多个证据(n=14)的加权和评分,每个项的权重如下:PVS1:6, PS1:4, PM1:2, PM2:2, PM4:2, PM5:2, PP2:1, PP3:1, BA1:9, BS1:3, BS2:3, BP3:1, BP4:1, BP7:2 [9].我们从基因组聚合数据库(gnomAD)中收集了包括pLI、pRec、syn_z和mis_z在内的基因级约束特征。我们使用OMIM中定义的继承模式作为数据。对于包含多个模式的变量,我们计算每个模式的出现次数,并将其存储为一个特征。我们还从ANNOVAR中获得了关于每个变体的一些附加信息,如基因型、变体击中的区域和读取深度。每个变体的质量也从VCF文件中收集。由于ANNOVAR注释的基因型不包含半合子等位基因,我们将所有男性患者X染色体的基因型特征替换为半合子等位基因。此外,我们使用Nirvana收集了一个基因的不同转录本或近端调控区域的功能结果。

标签

我们研究的目标是确定具有snv的致病变异(即,我们将一个变异分类为致病或非致病)。当机器学习算法学习如何从示例中为测试用例分配类标签时,有必要为所有输入训练集分配类标签。我们使用0/1标记来表示一个变体是否会引起疾病。如果一个变量是致病的,我们就给它标上标签1;否则标签为0。关于我们模型中使用的所有特性的详细信息载于多媒体附件2

特征选择

经过数据预处理,每个变量得到94个特征。为了降低输入数据集的高维,同时保留分类问题的歧视性信息,我们应用了来自scikit-learn的单变量特征选择技术[55]包,以识别数据集中的相关变量并删除无用的变量。特征选择有助于减少数据集中的噪声,让模型专注于相关信号。

scikit-learn单变量特征选择模块提供了几个评分函数。我们使用互信息分类器来选择最相关的变量。互信息[56]是一个非负的值,它衡量了变量的一般依赖性,而不对它们的基本关系的性质做任何假设[57].2个离散随机变量X和Y之间的互信息定义如下:

在哪里pxy的联合概率密度函数X而且Y,px),py)为边际密度函数。互信息决定了联合分布之间的相似性pxy)和因式边际分布的乘积。该值越大意味着两个变量之间的关系越大。当且仅当两个变量独立时,计算值等于0。

我们只使用训练集来执行特征选择过程,以确定相关变量。此外,我们选择的特征数量是基于10倍交叉验证的模型评估

建筑模型

为了利用机器学习算法构建模型,我们将数据分为两组。由于我们的模型旨在帮助医生进行临床外显子组数据解释过程,因此我们将来自dbGaP数据库的外显子组数据和来自NTUH的靶向基因面板测序数据设置为训练集,将来自NTUH的WES数据设置为测试数据。它只能用于模型评估。外部验证集由90个最新的NTUH WES数据组成,这有助于确保我们的模型能够在未来的临床应用中做出预测。关于训练和测试集的详细信息列于表2

为了建立机器学习模型,我们实现了随机森林算法[58由scikitlearn软件包提供。超参数的选择是基于网格搜索和10倍交叉验证。随机森林最初是由Leo Breiman在2001年提出的[58].它是从决策树演变而来的集成分类器。实际上,随机森林是决策树的组合,每棵树都依赖于一个独立采样的随机向量的值,森林中所有树的分布都是相同的[59].森林的树木生长如下:

  • 训练集是来自原始训练集的引导样本。
  • 要构建的树的数量和在每次分割m-try时作为候选变量随机抽样的变量的数量由用户设置,其中m-try小于变量的总数。
  • 在每个节点上随机选择m-try变量,在m-try中选择最佳分割点对节点进行分割。这个过程不断迭代,直到树生长到最大深度。
  • 对于测试用例预测,作为测试向量x在每棵树上,它被分配为的平均值y在它停止的节点上的值。森林中所有树木的平均值是的预测值x.分类的预测值为得到森林投票的多数票的类别。

我们用来测量分裂质量的函数是基尼杂质。基尼杂质是指如果根据数据集中的类分布对数据集中随机选择的元素进行随机标记,则对数据集中随机选择的元素进行错误分类的概率[60].在决策树学习中,它被定义为,在那里c是多少班和p|t)为随机选取一个类对象的概率在节点t.在训练决策树时,通过使基尼增益最大化来选择从根节点分离的最佳值,基尼增益由原始杂质减去分支的加权杂质来计算。

表2。本研究中使用的训练、测试和外部验证集。
数据 训练集 测试组 外部验证集
dbGaP一个,台大医院b面板 台大医院韦斯c 新NTUH WES
病人,n 381 108 90
过滤变体,n 125693年 80083年 109857年
使役变式,n 478 134 One hundred.

一个dbGaP:基因型和表型数据库。

b国立台湾大学:国立台湾大学医院。

cWES:全外显子组测序。

绩效评估

为了评估我们的模型在真正的因果变量优先化方面的性能,我们使用了VarSight中提到的排名统计数据。在我们将二元分类过程应用到所有变量之后,我们得到了每个变量的概率,它代表了该变量引起疾病的概率。我们将每个患者的变异按概率从高到低的顺序排列,并量化排在前1、5、10、20位的目标变异的百分比。


特征选择

对于特征选择,我们使用基于scikitlearn包中的SelectPercentile方法的单变量特征选择。我们选择的分类器是互信息分类器。只有训练集用于选择最相关的特征。进一步,我们应用10倍交叉验证来确定模型训练的特征数量。在图2,我们在使用不同百分比的特征进行10倍交叉验证时给出了前10个准确性。由于使用60%的特征准确率最高,因此选择估计互信息最高的56个特征(共94个特征的60%)进行最终的模型构建。

图2。使用不同百分比的特征进行10倍交叉验证的前10个精度。
查看此图

模型的性能

我们用我们的测试集来评估模型。正如在表2该测试集由108名接受WES治疗的患者组成,这些患者至少有一种由医生诊断的致病变异。多媒体附件3给出了它们的致因变体、关键字和相应的HPO术语的详细信息。关键词和HPO术语由医生根据每个患者的表型来确定。

使用不同关键字提取工具进行预测

图3显示目标变量和排序的百分比分布图4展示了使用不同关键字提取工具的模型的累积排名结果。当使用工具从摘要中提取表型时,我们的模型可以将超过40%(60/134,44.8%)的目标变异分配到最高的等级。无论使用何种关键字提取工具,模型的前10个精度都在90%左右(124/134,92.5%)。与专业医生提供的关键词相比,使用工具提取关键词的top 1准确率较低,但前10准确率相当。这表明,在大多数情况下,我们的模型能够成功地将真正的原因变量排在变量列表的前面,并且该排名受输入关键字的影响很小。

我们基于上一节中描述的方法构建了一个随机森林模型,并使用基于不同关键字提取工具的测试集对其进行评估。经过筛选,我们在平均每人741个候选变异中,成功地在排名前10位的致病变异中找到了92.5%(124/134)。该模型的性能与人工分析相似,并已用于台大医院的遗传诊断。

图3而且4分别显示使用不同关键字提取工具的模型的目标变量排名的百分比分布和累积排名结果。当使用工具从摘要中提取表型时,我们的模型可以将超过40%(60/134,44.8%)的目标变异分配到最高的等级。无论使用何种关键字提取工具,模型的前10个精度都在90%左右(124/134,92.5%)。与专业医生提供的关键词相比,使用工具提取关键词的top 1准确率较低,但前10准确率相当。这表明在大多数情况下,我们的模型能够成功地将真正的原因变量排在变量列表的前面,并且该排名受输入关键字的影响很小。

图3。职级的百分比分布。
查看此图
图4。职级的累积百分比分布。国家生物医学本体中心。
查看此图

其他机器学习方法

我们还评估了其他机器学习方法,并将其性能与随机森林进行了比较。这些方法包括逻辑回归、高斯朴素贝叶斯、RBF核支持向量机和梯度增强决策树。每种算法超参数的选择都是基于网格搜索和10倍交叉验证。我们使用MetaMap作为关键字提取工具,并使用我们的测试数据来测试每种方法的性能。各机器学习方法对目标变量的排序百分比分布和各模型的累积排序结果如所示图5而且6,分别。由于随机森林的前10个准确率最高,我们最终选择了随机森林作为我们的机器学习算法。

图5。职级的百分比分布。GBDT:梯度提升决策树;支持向量机:支持向量机。
查看此图
图6。职级的累积百分比分布。GBDT:梯度提升决策树;支持向量机:支持向量机。
查看此图

主要研究结果

我们已经实现了一个名为AI Variant priorities的网站,该网站使用来自NGS生物信息学管道的数据和机器学习,对snv和患者的表型数据中最可能的致病变异进行预测。该系统可以帮助研究人员和医生关注那些有较高致病可能性的人,并减少整个WES管道从DNA提取到临床诊断的平均周转时间(1天)。此外,我们还为我们的系统实现了web API,使排名功能可以集成到MViewer中。因此,医生可以用单一的应用来解释遗传变异的结果,而不是采用多种服务。

为了进行比较,我们使用我们的测试数据运行了包括AMELIE [61], VarElect [62, Exomiser, Phenolyzer和Variant priority tizer。由于AMELIE和Exomiser只能接受HPO术语定义的表型,我们输入了医生确定的HPO术语作为他们的输入。Phenolyzer可以识别疾病术语和HPO术语。但是,如果术语在它们的数据库中不匹配,它将不返回任何记录。因此,我们也使用HPO术语作为苯溶剂的输入。VarElect、Variant priority和我们的模型可以识别自由文本描述。因此,我们将医生提供的关键词作为测试输入。AMELIE、VarElect和变异优先级器只对基因列表而不是变异列表进行优先级排序。因此,我们评估的结果是基于基因的优先级,而不是基于变量的优先级。也就是说,对于每个患者,如果工具优先考虑目标基因在我们过滤的基因列表的前1、5、10、20、50和100,这个患者将被计数。 All the tools use the default settings provided in their websites to run.

图7而且8分别显示每个工具的目标基因排名的百分比和累积百分比分布。从图8,我们可以看到,在61.1%(66/108)的患者中,AI Variant priority能够将目标基因分配到最前面,其次是Variant priority(48/108, 44.4%)。它还显示了累积排名结果,这表明我们的AI变体优先排序器在排名1、5、10和20有最高的准确性。此外,AI变体优先级显示出比其他工具更好的性能。通过查阅数据库,采用HPO术语后,排名前10的名单可以增加到93.5%(101/108)。

与通过手动映射HPO术语到SNOMED临床术语(SNOMED CT)从SNOMED提取表型特征相比[63,我们的自动化方法探索了各种表型特征提取工具,并专注于罕见疾病的解释。我们还研究了过去3年发布的几种人工智能驱动的变体优先级排序方法,包括Fabric GEM [12],月亮[2和Exomiser。我们的方法和这些方法之间有几个不同之处,包括用于构建优先级模型的算法、考虑的特性和集成的数据库。然而,我们的方法与其他方法的主要不同之处在于将基因和表型之间的关系转化为数值的方法,这为以后的预测铺平了道路。面料GEM和MOON使用Phevor [15将表型-基因关系转化为数值,而Exomiser使用表型-基因关系[64来实现这一目标。

Phevor和表型digm都构建了连接HPO和其他本体论的新方法,以发现更多的基因疾病关联。Phevor收集HPO和基因本体论(GO)提供的所有疾病和基因的相关性,并构建几个网络(图),并沿发现的路径分配权重递减。特定基因节点上的权重之和表示该基因与相应HPO项的相关得分。phendigm利用OWLSim [65]计算不同本体论中不同表型之间的相似度,并使用相似度来估计给定HPO术语与不同基因之间的相关性大小。相比之下,我们的方法中使用的变异优先排序器从另一种知识来源:数据库的自由文本中提取表型-基因关系。我们对这些方法作了一个简单的比较表3而且4

图7。职级的百分比分布。AI:人工智能。
查看此图
图8。职级的累积百分比分布。AI:人工智能。
查看此图
表3。AI Variant priorities tizer, Fabric GEM, MOON, Exomiser的比较。
工具 人工智能一个变体优先排序器 织物的宝石 月亮 Exomiser
可变评分算法 随机森林 贝叶斯因子 决策树,贝叶斯模型,神经网络 基于规则的
Phenotype-gene得分 变体优先排序器 Phevor Phevor PhenoDigm
表型输入格式 纯文本 HPOb条款 从电子健康记录中提取的HPO术语 HPO条款

一个AI:人工智能。

bHPO:人类表型本体。

表4。变异优先级、Phevor和表型的比较。
工具 变体优先排序器 Phevor PhenoDigm
算法 霍加皮BM25 图算法 OWLSim
表型输入格式 纯文本 HPO一个条款 HPO条款
知识库 人类b, GeneReviews, Entrez Gene和PubTator HPO和GOc OMIM (HPO), Sanger-MGP [66, MGD [67]和ZFIN [68

一个HPO:人类表型本体。

b在线孟德尔人类遗传。

cGO:基因本体论。

功能的重要性

为了解释模型预测,我们使用了scikit-learn提供的特征重要性方法来确定哪个特征具有最大的预测能力。图9显示前20个重要功能。根据临床经验,变异与患者表型之间的联系是影响医生决定是否报告变异的关键因素。同样,从图中我们可以看到,最重要的特征是max bm25评分,它指的是给定的变量和关键字之间的相似度评分。在临床分析中影响报告决策的另一个重要因素是变异的严重程度。我们使用的对应特征是ACMG评分,它在特征重要性的第二位。相比之下,特征重要性的结果可能为医生或研究人员在寻找致病变异时可以考虑的特征提供信息。

图9。功能的重要性。
查看此图

外部验证

我们比较了来自测试集和外部验证集的排名的累积百分比分布。结果显示在图10而且11.在不同的区域,如前10和前5,它们的百分比值非常接近。外部验证集的top 1排名的百分比甚至高于测试集。有了这个结果,我们相信我们的方法已经显示出其强大的临床应用潜力。

图10。职级的百分比分布。
查看此图
图11。职级的累积百分比分布。
查看此图

限制

这项研究有几个潜在的局限性。首先,我们无法找到大量的数据进行训练和测试。这不仅限制了机器学习模型的教材数量,而且也限制了评估训练模型的可用度量。其次,本研究中使用的基因-表现型评分没有足够的能力来检测小的或中等的关联,因为它依赖于基因-表现型关系向数据库报告的频率。最后,该研究没有调整潜在的混杂因素,如饮食和体育活动。这可能会导致潜在的偏见,因为基因的表达方式可能会受到患者生活方式的影响。

总的来说,由于缺乏足够的数据,缺乏基因-表型关系的报道,以及缺乏对生活方式的观察,本研究可能存在潜在的偏倚。如果未来有更多的数据和报告,第一和第二种方法的影响可以减少。另一方面,生活方式和环境的影响仍然是一个需要更多专门研究的问题。

结论

在本研究中,我们提出了一个机器学习模型,AI变体优先排序器,以预测一个变体是否是罕见孟德尔障碍患者的致病原因。我们成功地将WES的测序数据和通过关键词提取工具自动提取的患者疾病的自由文本表型信息用于模型训练和测试。通过解释我们的模型,我们确定了变量的哪些特征是重要的。此外,我们在测试数据集中找到了一个满意的结果。在测试了108例患者的WES数据后,经过筛选过程,我们成功地在平均每人741个候选变异中,93.5% (n=101)的病例中找到了排名前10位的致病变异。该模型的性能类似于由NTUH医学遗传学系的医生手工分析,它已被用于帮助NTUH进行遗传诊断。

由于医生几乎所有的时间都在照顾他们的病人,为一个准确的基因诊断所花费的搜索时间是非常重要的。我们的AI预测模型能够以93.5%(101/108)的高概率提供前10个命中列表,从而帮助他们节省数周的时间,如果他们需要手动搜索前10个列表之外的内容的话。

要完全解释一种遗传疾病的致病变异不是一件容易的工作。由于工具提取关键字的精度影响模型的性能,在未来的工作中,我们将采用一些NLP技术,如双向编码器表示从变压器(BERT),以更适当地提取关键字。此外,已经建立了AI变体优先级器模型来分析WES数据中的snv和小索引,但我们还没有处理拷贝数变化(CNVs)。CNVs被认为是一种重要的遗传变异,与常见和复杂疾病相关,因此对几种孟德尔遗传疾病和体细胞遗传疾病有很大影响。因此,我们将收集cnv的数据,并扩展我们的系统来注释和过滤cnv。此外,我们将通过添加cnv作为我们的训练数据来扩大我们的数据集,使AI变体优先排序器模型能够预测任何类型的致病遗传变异。在实施AI变异优先排序器之前,使用变异优先排序器,整个WES管道从DNA提取到临床诊断的平均周转期为5.8 (SD 1.1)天。然而,在实施了AI Variant priority后,在NTUH进行快速三外显子组测序分析的平均周转期缩短到4.8 (SD 1.2)天。

致谢

本研究由台湾科学技术部(110-2634-F-002-032-)资助。本出版物中的分析基于从dbGaP网站下载的研究数据,dbGaP登录号为phs000744.v4。p2, phs001272.v1。p1, phs000971.v2。p1, phs000711.v6。p2,phs001232.v3.p2. W-LH applied for the data with project name “Variant prioritization for rapid exome analysis of rare genetic disease” (project ID 20911). Data were downloaded from the FTP site of dbGaP after approval.

作者的贡献

Y-SH研究模型和数据的可行性,进行形式化分析,开发软件,可视化数据,并撰写初始稿件。CH构思了这个想法,整理了数据,审核了手稿,并为软件开发团队提供了建议。N-CL和W-LH构思了这个想法,策划了病人的资料,并审查和编辑了草稿。Y-CC和I-CL对稿件进行了编辑、修改和加强。HW和Y-LL测试数据性能。FPL负责项目进度监督和项目支持,项目管理和审稿。

利益冲突

没有宣布。

多媒体附件1

等位基因频率。

DOCX文件,16kb

多媒体附件2

本研究中使用的特征描述。

XLSX文件(微软Excel文件),13kb

多媒体附件3

目标变量,HPO术语,以及测试用例的关键词。HPO:人类表型本体。

XLSX文件(微软Excel文件),24kb

  1. Behjati S, Tarpey PS.什么是下一代测序?Arch Dis儿童教育实践版2013年12月;98(6):236-238 [免费全文] [CrossRef] [Medline
  2. 奥布莱恩TD,坎贝尔NE,波特AB,莱托JH,库尔卡尼A,理查兹CS。人工智能(AI)辅助的外显子组再分析极大地帮助识别新的阳性病例,并减少了临床诊断实验室的分析时间。Genet Med 2022 1月24日(1):192-200。[CrossRef] [Medline
  3. Sanger F, Nicklen S, Coulson AR.用链终止抑制剂进行DNA测序。美国国家科学研究院1977年12月;74(12):5463-5467 [免费全文] [CrossRef] [Medline
  4. Hamosh A, Scott AF, Amberger J, Valle D, McKusick VA.人的在线孟德尔遗传(OMIM)。胡姆塔2000;15(1):57-61。[CrossRef] [Medline
  5. Adam MP, Everman DB, Mirzaa GM, Pagon RA, Wallace SE, Bean LJH,等编辑。GeneReviews。西雅图,华盛顿州:华盛顿大学,西雅图;1993.
  6. 为研究人员、从业者和提供者提供的精确医学。纽约:学术出版社;2019年11月16日。
  7. 史沫特莱D,雅各布森JOB, Jäger M, Köhler S, Holtgrewe M, Schubach M,等。用Exomiser进行下一代诊断和疾病基因发现。Nat protocol 2015 Dec;10(12):2004-2015 [免费全文] [CrossRef] [Medline
  8. Boudellioua I, Kulmanov M, Schofield PN, Gkoutos GV, Hoehndorf R. DeepPVP:基于表型的基于深度学习的病因变异的优先排序。BMC生物信息学2019 Feb 06;20(1):65 [免费全文] [CrossRef] [Medline
  9. 李强,赵凯,布斯塔曼特CD,马旭,王文华。Xrare:一种将表型和遗传证据联合建模用于罕见病诊断的机器学习方法。Genet Med 2019 9月21日(9):2126-2134 [免费全文] [CrossRef] [Medline
  10. Holt JM, Wilk B, Birch CL, Brown DM, Gajapathy M, Moss AC,未诊断疾病网络,等。VarSight:用二元分类算法优先处理临床报告的变异。BMC生物信息学2019 10月15日;20(1):496 [免费全文] [CrossRef] [Medline
  11. 杨宏,王凯。Phenolyzer:基于表型的人类疾病候选基因的优先排序。Nat Methods 2015年9月12日(9):841-843 [免费全文] [CrossRef] [Medline
  12. De La Vega FM, Chowdhury S, Moore B, Frise E, McCarthy J, Hernandez EJ,等。人工智能能够实现对罕见遗传病的全面基因组解读和候选诊断的提名。Genome Med 2021 10月14日;13(1):153 [免费全文] [CrossRef] [Medline
  13. Rentzsch P, Witten D, Cooper G, Shendure J, Kircher M. CADD:预测整个人类基因组变异的危害性。核酸Res 2019 1月08;47(D1):D886-D894 [免费全文] [CrossRef] [Medline
  14. 董超,魏鹏,简X, Gibbs R, Boerwinkle E,王凯,等。全外显子组测序研究中非同义snv毒性预测方法的比较与整合。Hum Mol Genet 2015 May 15;24(8):2125-2137 [免费全文] [CrossRef] [Medline
  15. Singleton MV, Guthery SL, Voelkerding KV, Chen K, Kennedy B, Margraf RL,等。Phevor结合了多种生物医学本体论,以准确识别单个个体和小核心家庭中的致病等位基因。Am J Hum Genet 2014 04 03;94(4):599-610 [免费全文] [CrossRef] [Medline
  16. Adzhubei IA, Schmidt S, Peshkin L, Ramensky VE, Gerasimova A, Bork P,等。一种用于预测破坏性错义突变的方法和服务器。Nat Methods 2010 Apr;7(4):248-249 [免费全文] [CrossRef] [Medline
  17. Ng PC, Henikoff S. SIFT:预测影响蛋白质功能的氨基酸变化。核酸Res 2003 july 01;31(13):3812-3814 [免费全文] [CrossRef] [Medline
  18. Schwarz JM, Cooper DN, Schuelke M, Seelow D. MutationTaster2:深度测序年龄的突变预测。Nat Methods 2014 Apr;11(4):361-362。[CrossRef] [Medline
  19. Robinson PN, Köhler S, Bauer S, Seelow D, Horn D, Mundlos S.人类表型本体论:注释和分析人类遗传疾病的工具。Am J Hum Genet 2008年11月;83(5):610-615 [免费全文] [CrossRef] [Medline
  20. 徐c。用于精准医学基因诊断的综合遗传变异分析系统(硕士论文)。NDLTD。台湾台北市:国立台湾大学;2018.URL:https://hdl.handle.net/11296/v9rcd8[2022-08-31]访问
  21. ChenT-F。基于文本挖掘的Exome数据变体优先排序器。南洋理工大学论文和论文库。台湾台北市:国立台湾大学;2018.URL:https://tdr.lib.ntu.edu.tw/handle/123456789/17687?mode=full[2022-08-31]访问
  22. 王凯,李敏,Hakonarson H. ANNOVAR:高通量测序数据对遗传变异的功能注释。核酸Res 2010 Sep;38(16):e164 [免费全文] [CrossRef] [Medline
  23. 迈凯轮W,吉尔L,亨特SE, Riat HS,里奇GRS,索曼A,等。综合变异效应预测器。Genome Biol 2016 Jun 06;17(1):122 [免费全文] [CrossRef] [Medline
  24. Stromberg M, Roy R, Lajugie J, Jiang Y, Li H, Margulies E. Nirvana:临床分级变异注释者。纽约州纽约:计算机协会;2017年出席:第八届ACM生物信息学、计算生物学和健康信息学国际会议;2017年8月20-23日;波士顿,MA。[CrossRef
  25. Li Q, Wang K. InterVar:根据2015年ACMG-AMP指南对遗传变异的临床解释。Am J Hum Genet 2017 Feb 02;100(2):267-280 [免费全文] [CrossRef] [Medline
  26. Landrum MJ, Lee JM, Riley GR, Jang W, Rubinstein WS, Church DM,等。ClinVar:序列变异和人类表型之间关系的公共档案。核酸Res 2014 Jan;42(数据库issue):D980-D985 [免费全文] [CrossRef] [Medline
  27. 斯坦森PD,鲍尔EV,莫特M,菲利普斯AD,希尔JA,托马斯NST,等。人类基因突变数据库(HGMD): 2003年更新。2003年7月;21(6):577-581。[CrossRef] [Medline
  28. 范晨,林杰,李晨。台湾生物银行:一个旨在帮助台湾向生物医学岛过渡的项目。药物基因组学2008 Feb;9(2):235-246。[CrossRef] [Medline
  29. Richards S, Aziz N, Bale S, Bick D, Das S, Gastier-Foster J, ACMG实验室质量保证委员会。序列变异解释的标准和指南:美国医学遗传学和基因组学学院和分子病理学协会的联合共识建议。Genet Med 2015 5;17(5):405-424 [免费全文] [CrossRef] [Medline
  30. Glassberg EC, Gao Z, Harpak A, Lant X, Pritchard JK。人类基因表达选择性约束的测定。bioRxiv 2022。[CrossRef
  31. 生物医学文本到UMLS mettathesaurus的有效映射:MetaMap程序。Proc AMIA Symp 2001:17-21 [免费全文] [Medline
  32. Aronson AR, Lang F. MetaMap概述:历史视角和最新进展。中国医学信息杂志2010;17(3):229-236 [免费全文] [CrossRef] [Medline
  33. 林德伯格DAB,汉弗莱斯BL,麦克雷AT。统一医学语言系统。Med Inform 2018年3月05;02(01):41-51。[CrossRef
  34. 刘超,Peres Kury FS,李铮,塔超,王坤,翁超。Doc2Hpo:一个高效、准确的HPO概念策展的web应用程序。核酸Res 2019 july 02;47(W1):W566-W570 [免费全文] [CrossRef] [Medline
  35. Tchechmedjiev A, Abdaoui A, Emonet V, Melzi S, Jonnagaddala J, Jonquet C.使用NCBO注释器注释和索引临床文本的增强功能。生物信息学2018 Jun 01;34(11):1962-1965 [免费全文] [CrossRef] [Medline
  36. Lee L. IDF回顾:Robertson-Spärck琼斯概率模型中的一个简单的新推导。纽约,纽约:ACM;2007年7月发表于:SIGIR '07:第30届国际ACM SIGIR信息研究与开发会议论文集;2007年7月23-27日;荷兰阿姆斯特丹751-752页。[CrossRef
  37. Robertson S, Walker S, Beaulieu MM. Okapi在trc -7:自动自组织,过滤,VCL和交互式跟踪。微软。盖瑟斯堡,马里兰州:国家标准与技术研究所;1999年1月https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/okapi_trec7.pdf[2022-08-31]访问
  38. Maglott D, Ostell J, Pruitt KD, Tatusova T. Entrez基因:NCBI的基因中心信息。核酸Res 2005 Jan 01;33(数据库issue):D54-D58 [免费全文] [CrossRef] [Medline
  39. 魏春,高华,陆铮。基于web的文本挖掘工具PubTator。核酸Res 2013年7月;41(Web Server issue):W518-W522 [免费全文] [CrossRef] [Medline
  40. Hintzsche JD, Robinson WA, Tan AC.分析和解释整个外显子组测序数据的计算工具综述。Int J Genomics 2016;2016:7983236 [免费全文] [CrossRef] [Medline
  41. Doniger SW, Kim HS, Swain D, Corcuera D, Williams M, Yang S,等。酵母中中性和有害多态的目录。PLoS Genet 2008 Aug 29;4(8):e1000183 [免费全文] [CrossRef] [Medline
  42. Reva B, Antipin Y, Sander C.预测蛋白质突变的功能影响:在癌症基因组学中的应用。核酸Res 2011 Sep 01;39(17):e118 [免费全文] [CrossRef] [Medline
  43. Shihab HA, Gough J, Cooper DN, Stenson PD, Barker GLA, Edwards KJ,等。利用隐马尔可夫模型预测氨基酸取代的功能、分子和表型后果。Hum Mutat 2013 Jan;34(1):57-65 [免费全文] [CrossRef] [Medline
  44. 蔡勇,葛西,陈安平。氨基酸取代和吲哚的功能效应预测。PLoS One 2012;7(10):e46688 [免费全文] [CrossRef] [Medline
  45. Jagadeesh KA, Wenger AM, Berger MJ, Guturu H, Stenson PD, Cooper DN,等。M-CAP能高灵敏度地去除临床外显子体中大部分意义不确定的变异。Nat Genet 2016 10月24日;48(12):1581-1586。[CrossRef
  46. Davydov EV, Goode DL, Sirota M, Cooper GM, Sidow A, Batzoglou S.使用gerp++识别高比例的人类基因组处于选择性约束下。PLoS Comput Biol 2010 Dec 02;6(12):e1001025 [免费全文] [CrossRef] [Medline
  47. 光达,陈燕,谢晓。丹恩:一种用于标注遗传变异致病性的深度学习方法。生物信息学2015年3月01;31(5):761-763 [免费全文] [CrossRef] [Medline
  48. 希哈布·哈,罗杰斯·MF,高夫·J,莫特·M,库珀·DN, Day INM,等。一种预测非编码序列和编码序列变异功能效应的综合方法。生物信息学2015 May 15;31(10):1536-1543 [免费全文] [CrossRef] [Medline
  49. 吕强,胡勇,孙杰,程艳,高宝凯,赵浩。综合分析注释数据预测人类基因组功能非编码区的统计框架。Sci Rep 2015年5月27日;5(1):10576-10513 [免费全文] [CrossRef] [Medline
  50. Gulko B, Hubisz MJ, Gronau I, Siepel A.计算人类基因组点突变适应度结果概率的方法。Nat Genet 2015 Mar;47(3):276-283 [免费全文] [CrossRef] [Medline
  51. Hubisz MJ, Pollard KS, Siepel A. PHAST和RPHAST:空间/时间模型的系统发育分析。Bioinform 2011 Jan;12(1):41-51 [免费全文] [CrossRef] [Medline
  52. Siepel A, Bejerano G, Pedersen JS, Hinrichs AS, Hou M, Rosenbloom K,等。脊椎动物、昆虫、蠕虫和酵母基因组中的进化保守元素。Genome Res 2005 Aug 15;15(8):1034-1050 [免费全文] [CrossRef] [Medline
  53. 葛伯伯M, Guttman M, Clamp M, Zody M, Friedman N,谢旭。利用偏差替换模式识别新的约束元素。生物信息学2009 july 15;25(12):i54-i62 [免费全文] [CrossRef] [Medline
  54. 刘鑫,吴晨,李晨,Boerwinkle E. dbNSFP v3.0:人类非同义和拼接位点snv的功能预测和注释的一站式数据库。Hum Mutat 2016年3月37日(3):235-241 [免费全文] [CrossRef] [Medline
  55. Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O. scikitlearn: python中的机器学习。机器学习研究学报2011;12:2825-2830 [免费全文
  56. 克拉斯科夫,Stögbauer H,格拉斯伯格P.估计互信息。理论物理。Rev. E 2004年6月23日;69(6):066138-1-066138-16。[CrossRef
  57. 罗斯BC。离散数据集和连续数据集之间的互信息。PLoS One 2014 Feb 19;9(2):e87357 [免费全文] [CrossRef] [Medline
  58. 布雷曼。随机森林。机器学习2001;45:5-32 [免费全文] [CrossRef
  59. 随机森林简单模型的一致性。加州大学伯克利分校,2004年。URL:https://www.stat.berkeley.edu/~breiman/RandomForests/consistencyRFA.pdf[2022-08-31]访问
  60. 逻辑熵:经典和量子逻辑信息论导论。熵(巴塞尔)2018 Oct 06;20(9):679 [免费全文] [CrossRef] [Medline
  61. Birgmeier J, Haeussler M, deisserth CA, Jagadeesh KA, Ratner AJ, Guturu H,等。AMELIE直接从原始文献加速了孟德尔患者的诊断。2017年8月2日在线预印本。[CrossRef
  62. Stelzer G, Plaschkes I, Oz-Levi D, Alkelai A, Olender T, Zimmerman S,等。VarElect: GeneCards套件的基于表型的变异优先排序器。BMC Genomics 2016 Jun 23;17 sul 2(S2):444-206 [免费全文] [CrossRef] [Medline
  63. 克拉克MM, Hildreth A, Batalov S,丁y, Chowdhury S, Watkins K,等。通过快速全基因组测序和自动表型分型和解释诊断危重儿童遗传疾病Sci Transl Med 2019 Apr 24;11(489):eaat6177。[CrossRef] [Medline
  64. Smedley D, Oellrich A, Köhler S, Ruef B, Sanger小鼠遗传学项目,Westerfield M,等。表型:分析策划注释,将动物模型与人类疾病相关联。数据库(Oxford) 2013;2013:bat025 [免费全文] [CrossRef] [Medline
  65. 华盛顿NL, Haendel MA, Mungall CJ, Ashburner M, Westerfield M, Lewis SE。使用基于本体的表型注释将人类疾病与动物模型联系起来。PLoS生物学2009 Dec 24;7(11):e1000247 [免费全文] [CrossRef] [Medline
  66. Ayadi A, Birling M, Bottomley J, Bussell J, Fuchs H, Fray M,等。小鼠大规模表型计划:欧洲小鼠疾病诊所(EUMODIC)和维康信托基金会桑格研究所小鼠遗传学项目概述。Mamm基因组2012年10月23日(9-10):600-610 [免费全文] [CrossRef] [Medline
  67. Bult CJ, Eppig JT, Blake JA, Kadin JA, Richardson JE,小鼠基因组数据库组。小鼠基因组数据库:人类疾病的基因型、表型和模型。核酸Res 2013 Jan;41(数据库issue):D885-D891 [免费全文] [CrossRef] [Medline
  68. Howe DG, Bradford YM, Conlin T, Eagle AE, Fashena D, Frazer K,等。斑马鱼生物模型数据库:增加对突变体和转基因的支持。核酸Res 2013年1月41日(数据库版本):D854-D860 [免费全文] [CrossRef] [Medline


ACMG:美国医学遗传学与基因组学学院
人工智能:人工智能
AMP:分子病理学协会
API:应用程序编程接口
伯特:来自变压器的双向编码器表示
CNV:拷贝数变化
EMR:电子病历
GBDT:梯度提升决策树
gnomAD:基因组聚合数据库
走:基因本体论
HGMD:人类基因组突变数据库
HIPAA:《健康保险携带与责任法案
HPO:人类表型本体论
IRB:机构检讨委员会
MViewer:突变查看器
门店:新一代测序
NLP:自然语言处理
台大医院:台大医院
人类:在线孟德尔人类遗传
SNV:单核苷酸变异
支持向量机:支持向量机
uml:统一医学语言系统
VCF:不同的呼叫格式
VEP:变异效应预测器


A Mavragani编辑;提交04.03.22;程YF、N Pontikos、C Liuu等同行评议;评论作者09.05.22;修订版收到29.07.22;接受22.08.22;发表15.09.22

版权

©黄玉珊,徐青,春玉昌,廖一成,王欣,林怡琳,胡武亮,李尼中,赖飞培。最初发表在JMIR生物信息学和生物技术(https://bioinform.www.mybigtv.com), 15.09.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是必须正确引用最初发表在《JMIR生物信息学和生物技术》上的原始作品。必须包括完整的书目信息,https://bioinform.www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。


Baidu
map