JBB JMIR Bioinform Biotech JMIR生物信息学和生物技术 2563 - 3570 卡塔尔世界杯8强波胆分析 加拿大多伦多 v3i1e37701 10.2196/37701 原始论文 原始论文 遗传性疾病患者全外显子组测序数据中单核苷酸变异的诊断:使用人工智能变异优先级的机器学习研究 Mavragani 孤挺花 Yen-Fu Pontikos 的派遣 Liuu Yu-Shan MSc 1 https://orcid.org/0000-0002-2876-9079 MSc 2 https://orcid.org/0000-0003-0560-1019 Chune Yu-Chang MSc 1 https://orcid.org/0000-0002-7290-9446 I-Cheng MSc 1 https://orcid.org/0000-0001-8261-7554 MSc 2 https://orcid.org/0000-0003-1929-6449 Yi-Lin MSc 3. https://orcid.org/0000-0002-3869-0479 Wuh-Liang 医学博士 4 https://orcid.org/0000-0001-6690-4879 Ni-Chung 医学博士 3. https://orcid.org/0000-0002-5011-7499 Feipei 博士学位 1 2
生物医学电子与生物信息学研究所“, 国立台湾大学 罗斯福路4段1号 台北市,106319 台湾 886 2 23628167 886 2 33664924 flai@ntu.edu.tw
https://orcid.org/0000-0001-7147-8122
计算机科学与信息工程系“, 国立台湾大学 台北市 台湾 生物医学电子与生物信息学研究所“, 国立台湾大学 台北市 台湾 医学遗传学系 台大医院 台北市 台湾 儿科 台大医院 台北市 台湾 通讯作者:赖飞培 flai@ntu.edu.tw Jan-Dec 2022 15 9 2022 3. 1 e37701 4 3. 2022 9 5 2022 29 7 2022 22 8 2022 ©黄玉珊,徐青,春玉昌,廖宜成,王欣,林怡琳,胡武良,李尼中,赖飞培。最初发表在JMIR生物信息学和生物技术(https://bioinform.www.mybigtv.com), 15.09.2022。 2022

这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用首次发表在JMIR生物信息学和生物技术上的原创作品。必须包括完整的书目信息,https://bioinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

近年来,得益于新一代测序(NGS)技术的快速发展,可以在短时间内对整个人类基因组进行测序。因此,NGS技术正被广泛应用于临床诊断实践,特别是遗传性疾病的诊断。虽然使用这些方法可以生成单核苷酸变异(SNV)的外显子组数据,但处理患者的DNA序列数据需要多种工具和复杂的生物信息学管道。

客观的

本研究旨在协助医生在短时间内自动解读由NGS产生的遗传变异信息。目前,为了确定遗传疾病患者的真正因果变异,医生通常需要手动查看每个变异的大量特征,并在不同的数据库中搜索文献,以了解遗传变异的影响。

方法

我们构建了一个机器学习模型,用于预测外显子组数据中的致病变异。我们从全外显子组测序(whole-exome sequencing, WES)和基因面板中收集测序数据作为训练集,然后整合多个基因数据库中的变体注释进行模型训练。建立的模型对snv进行排序,并输出最可能的致病候选。为了进行模型检验,我们收集了国立台湾大学医院108例罕见遗传性疾病患者的WES数据。我们将通过关键字提取工具从患者电子病历中自动提取的测序数据和表型信息应用到我们的机器学习模型中。

结果

经过筛选后,我们在平均每人741个候选变异中,成功地在排名前10位的致病变异中定位了92.5%(124/134)。AI Variant priority能够为大约61.1%(66/108)的患者将目标基因分配到最高级别,其次是Variant priority,为44.4%(48/108)的患者分配了目标基因。累积排名结果显示,我们的AI变体优先排序器在排名1、5、10和20处具有最高的准确性。这也表明AI变体优先排序器表现出比其他工具更好的性能。通过数据库查询,采用人类表型本体(Human Phenotype Ontology, HPO)术语后,前10名的排名可以增加到93.5%(101/108)。

结论

我们成功地将WES的测序数据和关键字提取工具自动提取的患者疾病的自由文本表型信息应用于模型训练和测试。通过解释我们的模型,我们确定了变量的哪些特征是重要的。此外,我们在测试数据集中找到了目标变量,取得了令人满意的结果。通过查询数据库采用HPO术语后,前10名的排名可以增加到93.5%(101/108)。该模型的性能与人工分析相似,并已用于台大医院的基因诊断。

新一代测序 遗传变异分析 机器学习 人工智能 whole-exome测序
简介 背景

现代次基因组测序(NGS)技术使人类基因组在一天内快速测序成为可能[ 1 2].与传统的Sanger测序方法相比,由于其速度快、成本低[ 3.], NGS正被迅速引入临床和公共卫生实验室实践,特别是用于遗传性疾病的诊断。

虽然NGS具有极高的吞吐量,并可以在短时间内生成大量的基因组数据,但解释这些数据并在数千个变体中找到致病候选者仍然是一个挑战。为了确定遗传疾病患者的真正因果变异,医生通常需要手动查看每个变异的大量特征,并在不同的数据库中搜索文献,以了解遗传变异的影响。另一个挑战是寻找与患者表型密切相关的遗传变异。医生经常从病人的电子病历(EMRs)中手动选择有用的关键词,以在多个基因数据库中搜索文章,例如在线孟德尔遗传在人(OMIM) [ 4]和GeneReviews [ 5来决定一种变异是否与一种遗传疾病相关。因此,对医生来说,逐个完成这些费力而耗时的过程是一种负担,特别是在过去十年中,每年发表的与遗传性疾病相关的生殖系突变的数量呈指数级增长的情况下。 6].

如今,许多研究使用机器学习方法来解决基因组学和遗传学中的许多问题。机器学习领域有望使计算机帮助人类理解庞大而复杂的数据集。在变体注释之后,有一个包含数百列的变体列表,人类无法逐个解释。由于机器学习显著超过了人类水平的性能,特别是在结构化数据方面,我们考虑使用机器学习方法来分析NGS中的变体并找到目标基因。

为了解决这些问题,有一种高性能的方法从NGS结果中过滤候选变异,并立即找到与患者疾病相关的目标变异是非常重要和必要的。最近,许多工具,如Exomiser [ 7], DeepPVP [ 8], Xrare [ 9], VarSight [ 10]、Phenolyzer [ 11]、面料宝石[ 12],月亮[ 2], cadd [ 13]和MetaSVM [ 14]已被开发用于识别在罕见疾病诊断中与患者表型相关的潜在致病变异。Exomiser集成信息,包括计算出的基因特异性表型评分,变异等位基因频率( 多媒体附件1),并预测几个等位基因的致病性,以优先考虑致病变异/相互作用。织物GEM利用贝叶斯因子在Phevor [ 15]以及ANNOVAR、VAAST、phengen等多种工具的变体优先级排序结果。MOON集成了几个变量的注释结果和优先级工具,使用几种机器学习模型来实现变量优先级。由Phevor使用从患者的电子健康记录(EHRs)中提取的人类表型本体论(HPO)术语计算的基因表型得分也被MOON考虑。CADD利用逻辑回归整合周围序列的上下文、生物学约束、表观遗传测量以及几种变体注释工具的结果等信息,建立了变体危害性预测模型。MetaSVM [ 14]汇总polyphen2等9个毒性预测评分结果[ 16],筛[ 17], MutationTaster [ 18]构建支持向量机(SVM)危害度预测模型。尽管这些工具采用了不同的方法,包括逻辑回归和深度神经网络,来确定变异的优先级,但大多数工具只能识别HPO术语中定义的表型[ 19].在这项工作中,我们开发了基于机器学习方法的AI变体优先排序器模块,可以在输入自由文本表型描述或EHR的情况下,从全外显子组测序(WES)数据中输出单核苷酸变体(SNVs)和小插入/删除(indels)的排序。

在这项研究中,我们的目标是实现一个网站,AI Variant priorities,该网站使用来自NGS生物信息学管道的数据和机器学习来预测snv和患者表型中最可能的致病变体。从NGS管道生成的数据都是用ANNOVAR、Nirvana、Variant Effect Predictor (VEP)和InterVar等工具的注释结构化的,以及MViewer (Mutation Viewer)查询的多个数据库的附加信息[ 20.].为了简化解释过程,我们集成了关键字提取工具,从EMRs中自动生成表型。我们的系统以MViewer过滤的候选变异和患者EMRs作为输入,并输出具有秩和致病概率的snv列表。该系统无需手动检查每个变异,可以帮助研究人员和医生专注于那些致病概率较高的变异,节省大量时间。此外,我们还为我们的系统实现了一个web应用程序编程接口(API),以便将排名功能集成到MViewer中。因此,医生能够通过单一应用来解释遗传变异的结果,而不是采用大量的服务。

数据描述

在我们的研究中,我们专注于被诊断患有罕见孟德尔疾病的患者。我们的资料主要来自国立台湾大学医院医学遗传科的快速外显子组项目。为了使用更多数据构建模型,我们还申请了存储在dbGaP数据库(项目ID 20911)中的几个WES数据。我们使用的数据是dbGaP访问phs000711.v5。p1由贝勒霍普金斯孟德尔基因组学中心。

为满足本研究的要求,我们收集患者测序数据的条件如下:

被诊断患有遗传疾病的病人。

接受WES或靶向测序并被诊断患有至少一种致病变异的患者。

有表型信息的患者。

我们来自NTUH的数据包括患者人口统计数据,NGS生物信息学管道输出的变体呼叫格式(VCF)文件,以及来自电子病历的表型信息。来自dbGaP的数据还包括患者人口统计、VCF文件和临床情况。所有数据都经过身份识别,不会侵犯患者隐私。我们将患者人口统计信息中的性别作为我们模型中的一个特征,因为一些人类遗传疾病与性别有关。与性别相关的疾病是由X或Y染色体上的基因突变引起的,并通过家族遗传。

可变呼叫格式文件

作为NGS生物信息学管道的最终产品,VCF是用于存储DNA多态性数据(如snp、插入、删除和结构变异)的通用格式。这种格式是为1000个基因组计划开发的,也被其他项目广泛采用。每个VCF文件由2两个部分组成:头部分和数据部分。标头包含关于数据部分中的标记和注释的元数据。它还可以用于提供与数据和文件的历史相关的信息。标头中的最后一行包含数据部分的列标题。数据部分分为9列,并为每行报告一个突变。列包括CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO和FORMAT。

表型信息

对于来自NTUH的数据,我们从临床医生的病史总结中提取患者的表型信息。主要记录患者病情、临床诊断、入院原因的简要总结。我们还根据每个患者的症状收集医生提供的表型关键词进行模型验证。对于来自dbGaP的数据,由于没有EHRs,我们将使用患者的临床情况。对于在OMIM数据库中可以找到的临床病症,我们将提取相应的表型描述作为我们研究的表型信息。

方法 工作流 概述

图1展示了我们的研究流程。我们从WES和面板测序中收集每个患者的VCF,然后使用多种工具注释变体。在变体注释之后,我们使用了我们内部的软件(MViewer [ 20.])查询额外的外部数据库,并筛选候选变量。然后我们使用这些候选变体的基因名和关键字提取工具从EMRs中提取的关键字查询Variant priority [ 21].利用变量优先排序器生成的基因相似度分数和注释变量列作为特征来训练机器学习模型。该模型对代表其致病概率的每个变体进行排序。我们将在以下部分演示每个步骤的细节。

研究工作流程。EMR:电子病历;indel:插入/删除;MViewer:突变查看器;SNV:单核苷酸变体;VCF:可变呼叫格式。

变异注释

我们在VCF文件中收集了每位患者的NGS测序数据,并从包括ANNOVAR [ 22], vep [ 23]、涅槃[ 24],以及InterVar [ 25].对于上述工具无法提供的额外信息,我们使用软件导入了一些公共数据源,包括ClinVar [ 26],人类基因组突变数据库(HGMD) [ 27],及台湾生物库[ 28].中总结了这些注释字段的详细描述 文本框1

注释字段的描述。

等位基因频率

这描述了特定等位基因在特定人群中的基因拷贝比例。等位基因频率的计算方法是将种群中特定等位基因的拷贝数除以该基因在种群中所有等位基因的总数。它指的是一个等位基因在一个群体中的普遍程度。

功能预测评分

一系列评分算法,能够根据变异中的不同信息(如序列同源性、蛋白质结构和进化守恒)预测变异的潜在危害性。这些评分方法包括功能预测评分、保护评分和集成评分。

致病性

ClinVar和人类基因突变数据库(HGMD)两个公共数据库中报告的临床意义变异,这些数据库存储了与人类遗传性疾病相关的基因突变信息。两者都将变异分类为引起疾病或由人工管理相关的疾病。

临床解释

美国医学遗传学和基因组学学院(ACMG)和分子病理学协会(AMP)根据28项标准发布了关于人类疾病序列变异的临床解释标准和指南[ 29].这些标准如下:将变异分类为致病性或可能致病性的标准(共16个)是非常强(PVS1)、强(PS1-PS4)、中等(PM1-PM6)或支持(PP1-PP5),而将变异分类为良性或可能良性的标准(共12个)是独立(BA1)、强(BS1-BS4)或支持(BP1-BP7)。

能够约束

基因表达水平的限制已被证明会影响人类遗传变异的模式[ 30.].例如,一些基因因功能丧失而异常耗尽,并被认为在表达方面受到限制。基因组聚合数据库(gnomAD)提供了预测约束指标跟踪集,其中包含预测的每个基因的致病力指标,并识别针对各种类型突变的强选择基因。这些包括在基因、转录本和转录本区域水平上计算的约束度量的几个子轨迹。

疾病遗传

与变异相关的性状或疾病可以通过家族遗传的遗传模式,如常染色体显性遗传、常染色体隐性遗传、x连锁遗传和线粒体遗传。我们使用OMIM(在线孟德尔人遗传)中定义的模式作为我们的数据。

其他人

关于遗传变异的附加信息,如基因名称、基因型和基因不同转录本或近端调控区域的功能后果。

变体过滤

在WES数据中,每个先证者平均有40000个变体。然而,大多数是良性的,与症状无关。这些变异中只有一小部分可能是有害的或与患者的疾病有关。在标准的临床分析过程中,医生只关注可能致病或未知的变异。由于我们的模型旨在帮助研究人员和医生进行临床外显子组阅读,因此有必要减少变异的数量,并专注于更有可能导致疾病的变异。

为了生成候选变量,我们使用MViewer提供的过滤器来删除不太可能有害的变量。过滤器和标准列在 表1.对于包含超过1列的过滤器,如果一个变量满足它们的任何标准,它将保留在数据中。在变异筛选后,我们得到每个患者大约700个snv。

过滤标准。

过滤器 标准
最大等位基因频率

最大等位基因频率

≤0.01(不含数据)

非同义错义突变

ExonicFunc.refgene

“产生”

停止增加

结果

ExonicFunc.refgene

“stop_gained”

“stopgain”

拼接

结果

Func.refgene

“splice_region_variant”

“splice_acceptor_variant”

“splice_donor_variant”

“拼接”

移码的

结果

ExonicFunc.refgene

“frameshift_variant”

“feature_truncation”

“feature_elongation”

“转移”

初始密码子

结果

“start_lost”

删除

类型

结果

ExonicFunc.refgene

“删除”

插入

类型

结果

ExonicFunc.refgene

“插入”

Inframe删除

结果

ExonicFunc.refgene

“inframe_deletion”

“nonframeshift删除”

外显子/拼接网站

Func.refgene

结果

“其实”

“拼接”

“coding_sequence_variant”

“frameshift_variant”

“incomplete_terminal_codon_variant”

“inframe_deletion”

“inframe_insertion”

“missense_variant”

“splice_acceptor_variant”

“splice_donor_variant”

“splice_region_variant”

表现型提取 概述

本研究使用的表型信息来自临床医生的病史总结。这些记录都是自由文本,文本长度从少于10字到超过300字不等。在临床分析过程中,医生手工翻阅病历、识别表型关键字耗时较长。为了解决这个问题,我们使用了几个关键字提取工具,从自由文本的医疗记录中自动生成与表型相关的关键字。在我们的研究中应用的关键字提取工具在以下部分中列出。

MetaMap

MetaMap [ 31]是一个广泛使用的应用程序,提供对统一医学语言系统(UMLS)中的异义龙概念的访问[ 32].UMLS mettathesaurus是一个来自各种生物医学命名系统的名称、关系和相关信息的汇编,代表了生物医学实践或研究的不同观点。它包含超过100万个生物医学概念和500万个概念名称[ 33].MetaMap能够将文本中的每个单词映射到UMLS概念,但我们只想关注那些与表型和疾病相关的单词。因此,我们提取了被归类为以下语义类型的词:(1)损伤或中毒,(2)细胞或分子功能障碍,(3)遗传功能,(4)疾病或综合征,(5)标志或症状,(6)组织。

Doc2Hpo

Doc2Hpo [ 34是一个使用自然语言处理(NLP)技术来解析临床记录并获得作为HPO术语的表型概念curation的web应用程序。有一个解析引擎可以自动从输入中识别显型概念。Doc2Hpo应用一种名为NegBio的算法在输入数据中进行否定检测。在此之后,有几个NLP引擎负责HPO概念提取。我们使用了其中的3个引擎,并比较了它们各自的性能。第一个NLP引擎是一个基于字符串的方法,它利用算法进行概念提取。第二个引擎是在线NCBO注释器[ 35HPO概念识别API。我们采用的最后一个引擎是MetaMap Lite,它是MetaMap的快速版本,提供了近乎实时的命名实体识别。MetaMap Lite引擎首先识别文本中的临床术语,并将它们映射到标准UMLS概念。UMLS概念将进一步映射到HPO概念。Doc2Hpo生成的结果是HPO术语,而MetaMap提取的关键字是非HPO术语。

表型-基因相似性评分

另一种构建基因和关键词之间联系的方法是使用Okapi BM25排序函数。Okapi BM25通常由搜索引擎(如谷歌和Bing)使用,根据匹配文档与给定搜索的相关性对其进行排名。该函数最突出的实例之一如下所示:

分数( D)表示文档的Okapi BM25分数 D当给定查询Q时,包含关键字1,2…… qn f D)是的术语频率 D;| D|是文档的长度 D在单词;Avgdl是所有文档中的平均文档长度; k1, b为常数(分别为=1.2和0.8);和IDF ()是查询词的逆文档频率(IDF)权重通常定义为:

IDF () = ln [ NgydF4y2Ba- - - - - - n+ 0.5]/[ n+ 0.5 + 1]

在哪里 NgydF4y2Ba文件的数量是多少 n包含关键字的数字。

在本研究中,我们提出了一种以OMIM和GeneReviews中的基因描述为文档,以关键词为查询来实现Okapi BM25排序功能的想法。因此,我们可以用Okapi BM25评分来表示基因描述与关键词之间的关系。关键词中的基因描述得分越高,说明该基因与关键词之间的联系越强。排名值基于前面提到的Okapi BM25排名函数和一些其他参数。与Okapi BM25正则公式相比,rank值将IDF函数替换为Robertson-Spärck-Jones weight [ 36].IDF函数用来衡量单词提供了多少信息,也就是说,这个单词在所有文档中是常见的还是罕见的。例如,术语“the”在每个文档中都很常见,因此术语频率将倾向于错误地突出恰好更频繁地使用单词“the”的文档。因此,IDF函数致力于减少在所有文档中频繁出现的单词的权重。与常规IDF函数相比,Robertson-Spärck-Jones权重增加了文档的相关参数,提高了rank评分的精度。

我们从变体优先排序器(Variant priority)获得每个SNV的表型-基因相似度评分,这是一种文本挖掘工具,通过输入症状作为关键字来输出基因的排名和评分。变体优先排序器使用Okapi BM25排序功能[ 37来构建基因和关键词之间的联系。来自OMIM, GeneReviews, Entrez的基因描述[ 38],以及PubTator [ 39]作为数据源,关键词作为查询,采用全文检索的方法实现Okapi BM25评分。它返回一个名为RANK的列,包括从0到1000的序数值。RANK评分的计算公式如下:

其中ω为Robertson-Spärck-Jones权重[ 36],定义为ω = log [( r+ 0.5)∙( NgydF4y2Ba- - - - - - n- - - - - - R+ r+ 0.5)] / [( R- - - - - - r+ 0.5)∙( n- - - - - - r+ 0.5)],其中 R是否有多少已知的相关文件和 r是包含该项的数; 特遣部队是在项目中查询的属性中单词的频率; qtf是查询中该词出现的频率;而且 K定义如下:

K k 1((1 - b) + b 戴斯。莱纳姆:/ avgdl))

在哪里 戴斯。莱纳姆:是属性长度,在单词出现时;Avgdl是正在查询的属性的平均长度,以单词出现次数为单位;而且 k1 b, k3.为常数(分别为=1.2、0.75和8.0)。

我们使用Variant priority API从每个数据源获取RANK值作为基因相似度评分,以表示每个SNVs与提取的关键字之间的关联。我们保留了rank值的最大值和最小值(总共4分)作为2个单独的特征来构建模型。

道德的考虑

本回顾性队列研究由台大医院机构评审委员会(IRB)批准(IRB编号:201710066RINB)。我们确认所有的实验都是按照相关的准则和规定进行的。研究小组从电子病历中检索到的数据已被识别,无法与患者的身份联系起来。由于这是一项回顾性队列研究,数据不确定,因此由台大医院IRB (201710066RINB)确认并免除了书面知情同意的需要。本规定符合《健康保险携带与责任法案》(HIPAA),即对未识别健康信息的使用或披露没有限制。

数据预处理 步骤概述

在VCF文件的变体注释之后,我们将数据预处理为模型可接受的格式。数据预处理是机器学习中极其重要的一步,因为数据的质量会直接影响模型的学习能力。它包括各种操作,每个操作都旨在帮助机器学习建立更好的预测模型。本研究中使用的数据预处理操作将在以下部分中解释。

缺失值处理

在现实世界中,数据通常有缺失值。例如,在基因型变量中,大多数机器学习方法不能处理空值,识别并正确处理缺失值是关键。基本上,缺失的值可以使用各种技术来处理,如删除或imputation [ 40].删除删除有一个或多个缺失值的观察的所有数据。但是,如果有许多列缺少值,则删除将导致数据缺乏。因此,对于一些列,我们通过用均值替换数据集中缺失的值来使用imputation,而对于一些列,我们只是简单地用有效值(如0)替换缺失的值。

一种热编码

许多机器学习算法不能直接对分类数据进行操作。它们要求所有的输入特征都是数字的。基本上,分类数据包含标签值而不是数值。因此,分类数据必须转换为数字形式,以便在机器学习模型中使用。一种热编码是处理分类数据的普遍方法。一种热编码将分类列转换为多维向量。它创建新列,指示原始数据中每个可能值的存在。

例如,在基因型变量中,有3类:纯合子(hom)、杂合子(het)和半合子(hem)。因此,需要3个二进制变量[hom, het, hem]。如果一个变异的基因型是杂合的,我们使用[ 0 1 0来代表它。

数据归一化

对于连续数据,有一些具有不同的范围。如果我们将范围非常不同的特征应用到一些机器学习模型中,如逻辑回归,范围更广的特征由于其值更大,对结果的内在影响更大。然而,这并不一定意味着这个特征作为一个预测因素更重要。因此,我们使用归一化技术来解决这个问题。归一化是从原始范围重新缩放数据,使所有值都在0到1的范围内。我们通过最小-最大归一化重新缩放所有连续值。一般公式如下:

XNorm = ( X - X分钟) / X马克斯 - X分钟)

在哪里 X是原值和 XNorm是规范化的值。这将使最大值映射为1,最小值映射为0。除了上述的数据预处理技术,我们对不同的数据类型进行了不同的处理,并为模型的建立创建了一些新的特征。在下面几节中,我们将详细介绍每种数据类型的预处理,并在最后将它们组合起来。

功能预测评分

功能预测评分,包括SIFT [ 17], polyphen2hdiv [ 16], PolyPhen2 HVAR [ 16]、轻铁[ 41], MutationTaster [ 18], MutationAssessor [ 42], fathmm [ 43], prove [ 44], MetaSVM [ 14], MetaLR [ 14], m-cap [ 45], cadd [ 13, gerp ++ [ 46], dann [ 47], fathmm-MKL [ 48],种族灭绝[ 49], fitCons [ 50], PhyloP [ 51]、PhastCons [ 52],和SiPhy [ 53都来自ANNOVAR。我们使用ANNOVAR提供的转换等级分数来代替原来的分数,因为所有这些分数都在0到1的范围内。此外,不同算法的转换等级分数在同一方向上是单调的。也就是说,得分越高,表明该变体更有可能具有破坏性[ 54].对于拼接位点预测,我们使用VEP插件导入MaxEntScan评分。我们定义了一个名为MaxEntScan significance的新列。当MaxEntScan alt小于3且MaxEntScan变化小于30%时,该值为1;否则值为0。我们使用ClinVar报告的临床意义,并计算HGMD的等级评分。HGMD计算等级评分是0到1之间的致病性概率,与其他HGMD条目相比,1是最有可能引起疾病的概率。

临床解释

我们采用了基于美国医学遗传学和基因组学学院/分子病理学协会(ACMG/AMP) 2015年指南的每种遗传变异的临床解释,该指南由InterVar生成。我们计算了Xrare开发的ACMG评分来代表其总体致病性。ACMG评分是基于多个证据(n=14)的加权和评分,每个项的权重如下:PVS1:6, PS1:4, PM1:2, PM2:2, PM4:2, PM5:2, PP2:1, PP3:1, BA1:9, BS1:3, BS2:3, BP3:1, BP4:1, BP7:2 [ 9].我们从基因组聚合数据库(gnomAD)中收集了包括pLI、pRec、syn_z和mis_z在内的基因级约束特征。我们使用OMIM中定义的继承模式作为数据。对于包含多个模式的变量,我们计算每个模式的出现次数,并将其存储为一个特征。我们还从ANNOVAR中获得了关于每个变体的一些附加信息,如基因型、变体击中的区域和读取深度。每个变体的质量也从VCF文件中收集。由于ANNOVAR标记的基因型不含半合子等位基因,我们将所有男性患者X染色体的基因型特征替换为半合子等位基因。此外,我们使用Nirvana收集了一个基因的不同转录本或近端调控区域的功能后果。

标签

我们研究的目标是用snv识别致病变异(即,我们将一个变异分类为致病或不致病)。由于机器学习算法从示例中学习如何为测试用例分配类标签,因此有必要为所有输入训练集分配类标签。我们使用0/1标记来表示一个变体是否引起疾病。如果一个变量是致病的,我们就给它贴上标签1;否则标签为0。关于我们模型中使用的所有特征的详细信息,请参见 多媒体附件2

特征选择

经过数据预处理,每个变量得到94个特征。为了降低输入数据集的高维,同时保留分类问题的歧视性信息,我们应用了scikit-learn中的单变量特征选择技术[ 55]包来识别数据集中的相关变量,并消除无用的变量。特征选择有助于减少数据集中的噪声,让模型专注于相关信号。

scikit-learn单变量特征选择模块提供了几个评分函数。我们使用互信息分类器来选择最相关的变量。互信息[ 56]是一个非负值,它衡量变量的一般依赖性,而不对它们的潜在关系的性质作任何假设[ 57].2个离散随机变量X和Y之间的互信息定义如下:

在哪里 p x y的联合概率密度函数 X而且 Y, p x), p y)为边际密度函数。互信息决定了联合分布之间的相似性 p x y)和因子边际分布的乘积。该值越大,表示两个变量之间的关系越大。当且仅当两个变量独立时,计算值等于0。

我们只使用训练集来确定相关变量,从而执行特征选择过程。此外,我们选择的特征数量是基于10倍交叉验证的模型评估

建筑模型

为了通过机器学习算法构建模型,我们将数据分为2组。由于我们的模型旨在协助医生进行临床外显子组数据解释过程,因此将来自dbGaP数据库的外显子组数据和来自NTUH的目标基因面板测序数据设置为训练集,将来自NTUH的WES数据设置为测试数据。只能用于模型评价。外部验证集包括90个最新的NTUH WES数据,这有助于确保我们的模型可以在未来的临床使用中进行预测。中列出了有关训练和测试集的详细信息 表2

为了建立机器学习模型,我们实现了随机森林算法[ 58]由scikitlearn软件包提供。超参数的选择基于网格搜索和10倍交叉验证。随机森林最初是由Leo Breiman在2001年提出的。 58].它是从决策树演化而来的集成分类器。实际上,随机森林是决策树的组合,这样每棵树都依赖于独立采样的随机向量的值,森林中所有树的分布都是相同的[ 59].森林的树木是这样生长的:

训练集是原始训练集的自举样本。

要构建的树的数量和在每次分裂m-try时作为候选随机抽样的变量的数量由用户设置,其中m-try小于变量的总数。

在每个节点上随机选择m-try变量,并在m-try间的最佳分裂点上对节点进行分裂。这个过程不断迭代,直到树生长到最大深度。

对于测试用例预测,作为测试向量 x在每棵树下,它被赋值为 y在它停止的节点上的值。森林中所有这些树木的平均值就是预测值 x.分类的预测值是得到森林投票多数的类别。

我们用来衡量分割质量的函数是基尼杂质。基尼杂质是数据集中随机选择的元素,如果根据数据集中的类分布随机标记,则错误分类的概率[ 60].在决策树学习中,它被定义为,在那里 c是班级的数量和 p| t)表示随机抽取一个类对象的概率在节点 t.训练决策树时,从根节点开始的最优分割是通过使基尼增益最大化来选择的,基尼增益是通过从原始杂质中减去分支的加权杂质来计算的。

本研究中使用的训练、测试和外部验证集。

数据 训练集 测试组 外部验证集
dbGaP一个,台大医院b面板 台大医院韦斯c 新NTUH WES
病人,n 381 108 90
过滤变量,n 125693年 80083年 109857年
致变变量n 478 134 One hundred.

一个dbGaP:基因型和表型数据库。

b国立台湾大学附属医院。

cWES:全外显子组测序。

绩效评估

为了评估我们的真实原因变量优先级排序的模型性能,我们使用了VarSight中提到的排名统计数据。在我们将二元分类过程应用于所有变体之后,我们得到了每个变体的概率,它代表了该变体引起疾病的概率。我们将每个患者的变异从最高概率到最低概率进行排序,并量化排名在前1、5、10、20的目标变异的百分比。

结果 特征选择

对于特征选择,我们使用了基于scikitlearn包中的SelectPercentile方法的单变量特征选择。我们选择的分类器是互信息分类器。只使用训练集来选择最相关的特征。此外,我们应用了10倍交叉验证来确定用于模型训练的特征数量。在 图2,我们使用不同百分比的特征在10倍交叉验证中给出前10个准确性。由于使用60%的特征可以达到最高的精度,因此选择估计互信息最高的56个特征(共94个特征的60%)进行最终的模型构建。

使用不同百分比的特征进行10倍交叉验证的前10个准确性。

模型的性能

我们用我们的测试集评估模型。正如在 表2该测试集包括108名接受WES的患者,他们至少有一种被医生诊断出的致病变体。 多媒体给出了它们的致病变体、关键字和相应的HPO术语的详细信息。关键字和HPO术语由医生根据每个患者的表型确定。

使用不同的关键字提取工具进行预测

图3显示目标变量和排名的百分比分布 图4显示了使用不同关键字提取工具的模型的累积排名结果。当使用工具从摘要中提取表型时,我们的模型可以将超过40%(60/134,44.8%)的目标变体分配到总变体的最高等级。无论使用什么关键字提取工具,模型的前10个精度都在90%左右(124/ 134,92.5%)。与专业医生提供的关键词相比,应用工具提取关键词的前1准确率较低,但前10准确率相当。这表明,在大多数情况下,我们的模型可以成功地将真正的原因变量排在变量列表的前面,并且该排名受到输入关键字的轻微影响。

我们基于前一节中描述的方法构建了一个随机森林模型,并使用基于不同关键字提取工具的测试集对其进行评估。经过筛选后,我们在平均每人741个候选变异中,成功地在排名前10位的致病变异中定位了92.5%(124/134)。该模型的性能与人工分析相似,并已用于台大医院的基因诊断。

图3而且 4分别显示使用不同关键字提取工具的目标变量排名的百分比分布和模型的累积排名结果。当使用工具从摘要中提取表型时,我们的模型可以将超过40%(60/134,44.8%)的目标变体分配到总变体的最高等级。无论使用什么关键字提取工具,模型的前10个精度都在90%左右(124/ 134,92.5%)。与专业医生提供的关键词相比,应用工具提取关键词的top 1准确率较低,但top 10准确率相当。这表示在大多数情况下,我们的模型可以成功地将真正的致病变量排在变量列表的前面,并且这个排名受到输入关键字的轻微影响。

职级百分比分布。

职级的累积百分比分布。国家生物医学本体中心。

其他机器学习方法

我们还评估了其他机器学习方法,并将它们的性能与随机森林进行了比较。这些方法包括逻辑回归、高斯朴素贝叶斯、RBF核支持向量机和梯度增强决策树。每种算法的超参数选择基于网格搜索和10倍交叉验证。我们使用MetaMap作为关键字提取工具,并使用测试数据来测试每种方法的性能。各机器学习方法对目标变量排序的百分比分布以及各模型的累积排序结果如所示 图5而且 6,分别。由于随机森林的前十名准确率最高,我们最终选择了随机森林作为我们的机器学习算法。

职级百分比分布。GBDT:梯度增强决策树;支持向量机:支持向量机。

职级的累积百分比分布。GBDT:梯度增强决策树;支持向量机:支持向量机。

讨论 主要研究结果

我们已经实现了一个网站,AI Variant priorities,它使用来自NGS生物信息学管道的数据,使用机器学习对snv和患者表型数据中最可能的致病变异进行预测。该系统可以帮助研究人员和医生专注于那些较高的致病概率,并减少整个WES管道的平均周转时间(1天),从DNA提取到临床诊断。此外,我们还为我们的系统实现了一个web API,以便将排名功能集成到MViewer中。因此,医生可以通过单一应用来解释遗传变异的结果,而不是采用大量的服务。

为了进行比较,我们使用测试数据运行了几个优先级排序工具,包括AMELIE [ 61], VarElect [ 62], Exomiser, Phenolyzer和Variant priority。由于AMELIE和Exomiser只能接受HPO术语定义的表型,所以我们输入了医生确定的HPO术语作为输入。Phenolyzer可以同时识别疾病术语和HPO术语。但是,如果这些术语在它们的数据库中不匹配,则不会返回任何记录。因此,我们也使用HPO术语作为Phenolyzer的输入。VarElect, Variant priority,和我们的模型可以识别自由文本描述。因此,我们将医生提供的关键词作为输入进行测试。AMELIE、VarElect和Variant priority tizer只对基因列表进行优先级排序,而不是对变体列表进行优先级排序。因此,我们评估了基于基因的优先排序结果,而不是基于变体的优先排序结果。也就是说,对于每个患者,如果工具将目标基因排在我们筛选的基因列表的前1、5、10、20、50和100,那么这个患者就会被计算在内。 All the tools use the default settings provided in their websites to run.

图7而且 8分别显示每个工具的目标基因排名的百分比和累积百分比分布。从 图8,我们可以看到,AI Variant priority能够将61.1%(66/108)的患者的目标基因分配到最上面,其次是Variant priority(48/108, 44.4%)。它还显示了累积排名结果,这表明我们的AI变体优先排序器在排名1、5、10和20处具有最高的准确性。此外,AI变体优先排序器显示出比其他工具更好的性能。通过查询数据库采用HPO术语后,前10名的排名可以增加到93.5%(101/108)。

与通过手动将HPO术语映射到SNOMED临床术语(SNOMED CT)从SNOMED中提取表型特征进行比较[ 63],我们的自动化方法探索了各种表型特征提取工具,并专注于罕见疾病的解释。我们还研究了过去3年发表的几种人工智能驱动的变种优先级方法,包括Fabric GEM [ 12],月亮[ 2和Exomiser。我们的方法和这些方法之间有几个不同之处,包括用于构建优先级模型的算法、考虑的特性和集成的数据库。然而,我们的方法与其他人的主要不同之处在于将基因和表型之间的关系转化为数值的方法,这为以后的预测铺平了道路。面料GEM和MOON采用Phevor [ 15将表型-基因关系转化为数值,而Exomiser使用的是PhenoDigm [ 64来实现这个目标。

Phevor和PhenoDigm都构建了连接HPO和其他本体的新方法,以发现更多的基因疾病关联。Phevor收集HPO和基因本体论(GO)提供的所有疾病和基因的相关性,并构建几个网络(图),并沿着找到的路径分配权重递减。特定基因节点上的权值之和表示该基因与对应HPO项的相关得分。PhenoDigm利用OWLSim [ 65],计算不同本体论中不同表型之间的相似性,并利用相似性估计给定HPO项与不同基因之间的相关性大小。相比之下,我们的方法中使用的变体优先排序器从另一种知识来源中提取表型-基因关系:数据库的自由文本。我们对这些方法作了简单的比较 表3而且 4

职级百分比分布。AI:人工智能。

职级的累积百分比分布。AI:人工智能。

AI Variant priority, Fabric GEM, MOON, Exomiser的比较。

工具 人工智能一个变体优先排序器 织物的宝石 月亮 Exomiser
变分算法 随机森林 贝叶斯因子 决策树,贝叶斯模型,神经网络 基于规则的
Phenotype-gene得分 变体优先排序器 Phevor Phevor PhenoDigm
表型输入格式 纯文本 HPOb条款 从电子健康档案中提取HPO术语 HPO条款

一个AI:人工智能。

bHPO:人类表型本体。

Variant priority, Phevor和PhenoDigm的比较。

工具 变体优先排序器 Phevor PhenoDigm
算法 霍加皮BM25 图算法 OWLSim
表型输入格式 纯文本 HPO一个条款 HPO条款
知识库 人类b, GeneReviews, Entrez Gene和PubTator HPO和GOc OMIM (HPO), Sanger-MGP [ 66], MGD [ 67],及ZFIN [ 68

一个HPO:人类表型本体。

b在线孟德尔遗传在人。

cGO:基因本体。

功能的重要性

为了解释模型预测,我们使用scikit-learn提供的特征重要性方法来确定哪个特征具有最强大的预测能力。 图9显示前20个重要特性。根据临床经验,变异与患者表型之间的联系是影响医生决定是否报告变异的关键因素。同样,从图中我们可以看到,最重要的特征是最大的bm25分数,它指的是给定的变体与关键字之间的相似度分数。在临床分析中影响报告决策的另一个重要因素是变异的严重程度。我们使用的相应特征是ACMG评分,它在特征重要性的第二位。相比之下,特征重要性的结果可能为医生或研究人员在寻找致病变异时可以考虑的特征提供信息。

功能的重要性。

外部验证

我们比较了来自测试集和外部验证集的排名的累积百分比分布。结果显示在 图10而且 11.在不同的地区,如前10名和前5名,他们的百分比值彼此接近。外部验证集排名前1的百分比甚至高于测试集。有了这个结果,我们相信我们的方法已经显示出其强大的临床应用潜力。

职级百分比分布。

职级的累积百分比分布。

限制

这项研究有几个潜在的局限性。首先,我们无法找到大量的数据进行训练和测试。这不仅限制了机器学习模型的教材数量,也限制了评估训练模型的可用度量。其次,本研究中使用的基因-表型评分没有足够的能力来检测小的或中等的关联,因为它依赖于基因-表型关系向其所使用的数据库报告的频率。最后,该研究没有调整潜在的混杂因素,如饮食和体育活动。这可能会导致潜在的偏差,因为基因表达的方式可能受到患者生活方式的影响。

总的来说,由于缺乏足够的数据,缺乏报道的基因-表型关系,以及缺乏对生活方式的观察,本研究可能存在潜在的偏倚。如果将来有更多的数据和报告,第一个和第二个的影响可以减少。另一方面,生活方式和环境的影响仍然是一个需要更多专门研究的问题。

结论

在这项研究中,我们提出了一个机器学习模型,AI Variant priority,来预测一个变体是否是罕见孟德尔疾病患者的致病原因。我们成功地将WES测序数据和关键字提取工具自动提取的患者疾病自由文本表型信息应用于模型训练和测试。通过解释我们的模型,我们确定了变量的哪些特征是重要的。此外,我们在测试数据集中找到了目标变量,取得了令人满意的结果。在测试了108例患者的WES数据后,我们在过滤过程后,从平均每人741个候选变体中,成功地将93.5% (n=101)的病例定位到排名前10位的致病变体。该模型的性能与NTUH医学遗传学系医生的人工分析相似,并已用于NTUH的遗传诊断。

由于医生几乎所有的时间都在忙着照顾他们的病人,寻找准确的基因诊断所花费的时间是非常重要的。我们的人工智能预测模型可以提供93.5%(101/108)的高概率,从而帮助他们节省几周的时间,如果他们必须手动搜索前十名列表之外的内容。

要完全解释遗传病的致病变异并不是一件容易的工作。由于工具提取关键字的精度会影响我们模型的性能,在未来的工作中,我们将采用一些自然语言处理技术,如BERT (Bidirectional Encoder representation from Transformers)等来更正确地提取关键字。此外,已经建立了AI变体优先排序器模型来分析来自WES数据的snv和小型索引,但我们还没有处理拷贝数变化(CNVs)。CNVs已被认为是重要的遗传变异,与常见和复杂疾病都有关,因此对几种孟德尔遗传疾病和躯体遗传疾病有很大影响。因此,我们将收集有关cnv的数据,并扩展我们的系统对cnv进行注释和过滤的能力。此外,我们将通过添加CNVs作为我们的训练数据来扩大我们的数据集,使AI变体优先器模型能够预测任何类型的致病遗传变异。在实施AI Variant priority之前,使用Variant priority,整个WES管道从DNA提取到临床诊断的平均周转期为5.8 (SD 1.1)天。然而,在实施AI Variant priorities后,NTUH快速三外显子组测序分析的平均周转时间缩短至4.8天(SD 1.2天)。

等位基因频率。

描述本研究中使用的特征。

目标变量,HPO术语,以及测试用例的关键字。HPO:人类表型本体。

缩写 ACMG

美国医学遗传学和基因组学学院

人工智能

人工智能

AMP

分子病理学协会

API

应用程序编程接口

伯特

来自变压器的双向编码器表示

CNV

拷贝数变化

EMR

电子病历

GBDT

梯度增强决策树

gnomAD

基因组聚合数据库

基因本体论

HGMD

人类基因组突变数据库

HIPAA

《健康保险携带和责任法案》

HPO

人类表型本体

IRB

机构检讨委员会

MViewer

突变查看器

总会在

新一代测序

NLP

自然语言处理

台大医院

台大医院

人类

孟德尔人的遗传

SNV

单核苷酸变异

支持向量机

支持向量机

uml

统一医学语言系统

VCF

可变呼叫格式

VEP

变异效应预测器

本研究由台湾科技部(110-2634-F-002-032-)资助。本出版物中提供的分析基于从dbGaP网站下载的研究数据,dbGaP登录号为phs000744.v4。p2, phs001272.v1。p1, phs000971.v2。p1, phs000711.v6。p2,phs001232.v3.p2. W-LH applied for the data with project name “Variant prioritization for rapid exome analysis of rare genetic disease” (project ID 20911). Data were downloaded from the FTP site of dbGaP after approval.

Y-SH研究模型和数据的可行性,进行形式化分析,开发软件,可视化数据,并撰写初始手稿。CH构思了这个想法,整理了数据,审阅了手稿,并为软件开发团队提供了建议。N-CL和W-LH构思了这个想法,策划了患者数据,并审查和编辑了草案。Y-CC和I-CL对稿件进行了编辑、修改和强化。HW和Y-LL测试了数据性能。FPL监督项目进度,支持项目,管理项目,审核稿件。

没有宣布。

Behjati 年代 Tarpey PS 什么是下一代测序? Arch Dis儿童教育实践 2013 12 98 6 236 8 10.1136 / archdischild - 2013 - 304340 23986538 archdischild - 2013 - 304340 PMC3841808 O ' brien 道明 坎贝尔 波特 AB Letaw JH Kulkarni 一个 理查兹 CS 人工智能(AI)辅助外显子组再分析极大地有助于识别新的阳性病例,并减少临床诊断实验室的分析时间 麝猫地中海 2022 01 24 1 192 200 10.1016 / j.gim.2021.09.007 34906498 s1098 - 3600 (21) 04134 - 4 桑格 F Nicklen 年代 库尔森 基于“增大化现实”技术 DNA测序链终止抑制剂 美国国立自然科学研究院 1977 12 74 12 5463 7 10.1073 / pnas.74.12.5463 271968 PMC431765 Hamosh 一个 斯科特 房颤 Amberger J 瓦莱 D McKusick 弗吉尼亚州 在线人类孟德尔遗传(OMIM) 哼Mutat 2000 15 1 57 61 10.1002 / (SICI) 1098 - 1004 (200001) 15:1 < 57: AID-HUMU12 > 3.0.CO; 2 g 10612823 10.1002 / (SICI) 1098 - 1004 (200001) 15:1 < 57: AID-HUMU12 > 3.0.CO; 2 g 亚当 国会议员 Everman DB Mirzaa 通用汽车 冰内生物 类风湿性关节炎 华莱士 SE LJH Gripp 千瓦 GeneReviews 1993 西雅图,华盛顿州 华盛顿大学西雅图分校 Faintuch J Faintuch 年代 研究人员、从业者和提供者的精准医学 2019 11 16 纽约州纽约 学术出版社 斯梅德利 D 雅各布森 工作 贼鸥 科勒 年代 Holtgrewe Schubach Siragusa E Zemojtel T Buske 橙汁 华盛顿 WP Haendel 罗宾逊 PN 利用Exomiser进行下一代诊断和疾病基因发现 Nat Protoc 2015 12 10 12 2004 15 10.1038 / nprot.2015.124 26562621 nprot.2015.124 PMC5467691 Boudellioua Kulmanov 斯科菲尔德 PN Gkoutos 全球之声 Hoehndorf R DeepPVP:使用深度学习对基于表型的致病变异进行优先排序 BMC生物信息学 2019 02 06 20. 1 65 10.1186 / s12859 - 019 - 2633 - 8 30727941 10.1186 / s12859 - 019 - 2633 - 8 PMC6364462 K 法典 CD X WH Xrare:一种机器学习方法,联合建模表型和遗传证据,用于罕见疾病诊断 麝猫地中海 2019 09 21 9 2126 2134 10.1038 / s41436 - 019 - 0439 - 8 30675030 10.1038 / s41436 - 019 - 0439 - 8 PMC6752318 霍尔特 JM Wilk B 桦木 CL 棕色(的) DM Gajapathy 莫斯 交流 Sosonkina NgydF4y2Ba Wilk 安德森 晶澳 哈里斯 JM 凯利 JM Shaterferdosian F Uno-Antonison AE Weborg 一个 未确诊疾病网络 Worthey EA VarSight:用二元分类算法优先考虑临床报告的变异 BMC生物信息学 2019 10 15 20. 1 496 10.1186 / s12859 - 019 - 3026 - 8 31615419 10.1186 / s12859 - 019 - 3026 - 8 PMC6792253 H 罗宾逊 PN K Phenolyzer:基于表型的人类疾病候选基因的优先排序 Nat方法 2015 09 12 9 841 3. 10.1038 / nmeth.3484 26192085 nmeth.3484 PMC4718403 德拉维嘉 调频 Chowdhury 年代 摩尔 B 毛圈绒头织物 E 麦卡锡 J 埃尔南德斯 EJ T 詹姆斯 K Guidugli l Agrawal PB Genetti CA 布朗斯坦 CA 贝格斯说 Loscher Britt-Sabina 因特网 一个 布恩 B 莱维 SE Ounap 凯特琳 Pajusalu 年代 eric reiman 拉姆齐 K Naymik Narayanan V Veeraraghavan NgydF4y2Ba 比林斯 P 瑞茜 毫克 扬德尔 金斯默尔 科幻小说 人工智能能够全面解读基因组,并提名罕见遗传疾病的候选诊断 基因组医学 2021 10 14 13 1 153 10.1186 / s13073 - 021 - 00965 - 0 34645491 10.1186 / s13073 - 021 - 00965 - 0 PMC8515723 Rentzsch P 威滕 D 库珀 G Shendure J 柯切 CADD:预测人类基因组变异的危害性 核酸测定 2019 01 08 47 D1 D886 D894 10.1093 / nar / gky1016 30371827 5146191 PMC6323892 越南盾 C P 姜ydF4y2Ba X 吉布斯 R Boerwinkle E K X 全外显子组测序研究中非同义snv毒性预测方法的比较与整合 哼Mol Genet 2015 05 15 24 8 2125 37 10.1093 /物流/ ddu733 25552646 ddu733 PMC4375422 单例 MV Guthery SL Voelkerding KV 程ydF4y2Ba K 肯尼迪 B Margraf RL Durtschi J Eilbeck K 瑞茜 毫克 Jorde 发怒 CD 扬德尔 Phevor结合了多种生物医学本体,用于准确识别单个个体和小型核心家族中的致病等位基因 我是热内吗 2014 04 03 94 4 599 610 10.1016 / j.ajhg.2014.03.010 24702956 s0002 - 9297 (14) 00112 - 8 PMC3980410 Adzhubei IA 施密特 年代 Peshkin l Ramensky 已经 Gerasimova 一个 博克 P Kondrashov 作为 Sunyaev 一种用于预测破坏性错义突变的方法和服务器 Nat方法 2010 04 7 4 248 9 10.1038 / nmeth0410 - 248 20354512 nmeth0410 - 248 PMC2855889 Ng 个人电脑 Henikoff 年代 SIFT:预测影响蛋白质功能的氨基酸变化 核酸测定 2003 07 01 31 13 3812 4 10.1093 / nar / gkg509 12824425 PMC168916 施瓦兹 JM 库珀 DN Schuelke D MutationTaster2:深度测序时代的突变预测 Nat方法 2014 04 11 4 361 2 10.1038 / nmeth.2890 24681721 nmeth.2890 罗宾逊 PN 科勒 年代 鲍尔 年代 D D Mundlos 年代 人类表型本体论:注释和分析人类遗传疾病的工具 我是热内吗 2008 11 83 5 610 5 10.1016 / j.ajhg.2008.09.017 18950739 s0002 - 9297 (08) 00535 - 1 PMC2668030 C 面向精准医学基因诊断的综合遗传变异分析系统(硕士论文) NDLTD 2018 2022-08-31 台湾台北市 国立台湾大学 https://hdl.handle.net/11296/v9rcd8 ChenT-F 基于文本挖掘的Exome数据变体优先排序器 南洋理工大学论文及论文资料库 2018 2022-08-31 台湾台北市 国立台湾大学 https://tdr.lib.ntu.edu.tw/handle/123456789/17687?mode=full K Hakonarson H ANNOVAR:高通量测序数据中遗传变异的功能注释 核酸测定 2010 09 38 16 e164 10.1093 / nar / gkq603 20601685 gkq603 PMC2938201 麦克拉伦 W 吉尔 l 亨特 SE Riat 海关 里奇 GRS Thormann 一个 Flicek P 坎宁安 F 整体变异效应预测器 基因组医学杂志 2016 06 06 17 1 122 10.1186 / s13059 - 016 - 0974 - 4 27268795 10.1186 / s13059 - 016 - 0974 - 4 PMC4893825 Stromberg 罗伊 R Lajugie J Y H 马格里斯 E 涅槃:临床级变体注释器 2017 第八届ACM生物信息学、计算生物学和健康信息学国际会议 2017年8月20日至23日 波士顿 纽约州纽约 计算机协会 10.1145/3107411.3108204 K InterVar:根据2015年ACMG-AMP指南对遗传变异的临床解释 我是热内吗 2017 02 02 One hundred. 2 267 280 10.1016 / j.ajhg.2017.01.004 28132688 s0002 - 9297 (17) 30004 - 6 PMC5294755 乔丹 JM 莱利 GR 张成泽 W 鲁宾斯坦 WS 教堂 DM Maglott 博士 ClinVar:序列变异和人类表型之间关系的公共档案 核酸测定 2014 01 42 数据库问题 D980 5 10.1093 / nar / gkt1113 24234437 gkt1113 PMC3965032 斯滕森 PD 电动汽车 莫特 菲利普斯 广告 Shiel 晶澳 托马斯。 望远镜 Abeysinghe 年代 Krawczak 库珀 DN 人类基因突变数据库:2003年更新 哼Mutat 2003 07 21 6 577 81 10.1002 / humu.10212 12754702 风扇 C J C 台湾生物库:一个旨在帮助台湾向生物医学岛过渡的项目 药物基因组学 2008 02 9 2 235 46 10.2217 / 14622416.9.2.235 18370851 理查兹 年代 阿齐兹 NgydF4y2Ba 贝尔 年代 比克 D 达斯 年代 Gastier-Foster J 族群的 WW 对冲基金 里昂 E 斯佩克特 E Voelkerding K 雷姆曾为此写过 霍奇金淋巴瘤 实验室质量保证委员会 序列变异解释的标准和指南:美国医学遗传学和基因组学学院和分子病理学协会的联合共识建议 麝猫地中海 2015 05 17 5 405 24 10.1038 / gim.2015.30 25741868 gim201530 PMC4544753 Glassberg 电子商务 Z Harpak 一个 兰特 X 普里查德 JK 人类基因表达选择性约束的测量 bioRxiv 2022 10.1101/345801 阿伦森 基于“增大化现实”技术 有效地将生物医学文本映射到UMLS metthesaurus: MetaMap程序 Proc AMIA Symp 2001 17 21 11825149 D010001275 PMC2243666 阿伦森 基于“增大化现实”技术 F MetaMap概述:历史视角和最新进展 美国医学信息协会 2010 17 3. 229 36 10.1136 / jamia.2009.002733 20442139 17/3/229 PMC2995713 林德伯格 轻拍 汉弗莱斯 提单 麦克雷 统一医学语言系统 医学通知 2018 03 05 02 01 41 51 10.1055 / s - 0038 - 1637976 C 佩雷斯Kury FS Z 助教 C K C Doc2Hpo:一个高效和准确的HPO概念管理的web应用程序 核酸测定 2019 07 02 47 W1 W566 W570 10.1093 / nar / gkz386 31106327 5491745 PMC6602487 Tchechmedjiev 一个 Abdaoui 一个 Emonet V 梅尔齐 年代 Jonnagaddala J Jonquet C 使用NCBO注释器注释和索引临床文本的增强功能 生物信息学 2018 06 01 34 11 1962 1965 10.1093 /生物信息学/ bty009 29846492 4802221 PMC5972606 l IDF回顾:Robertson-Spärck Jones概率模型中的一个简单的新推导 2007 7 SIGIR '07:关于信息研究与开发的第30届国际ACM SIGIR会议记录 2007年7月23-27日 荷兰阿姆斯特丹 纽约州纽约 ACM 751 752 10.1145/1277741.1277891 罗伯逊 年代 沃克 年代 比尤利 毫米 Okapi在trc -7:自动特设,过滤,VCL和交互式轨道 微软 1999 01 2022-08-31 马里兰州盖瑟斯堡 国家标准和技术研究所 https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/okapi_trec7.pdf Maglott D Ostell J 普瑞特 KD Tatusova T 基因:NCBI的基因中心信息 核酸测定 2005 01 01 33 数据库问题 D54 8 10.1093 / nar / gki031 15608257 33 / suppl_1 / D54 PMC539985 C 花王 H Z PubTator:一个基于web的文本挖掘工具,用于辅助生物存储 核酸测定 2013 07 41 Web服务器问题 W518 22 10.1093 / nar / gkt441 23703206 gkt441 PMC3692066 Hintzsche JD 罗宾逊 佤邦 棕褐色 交流 分析和解释整个外显子组测序数据的计算工具综述 Int J基因组学 2016 2016 7983236 10.1155 / 2016/7983236 28070503 PMC5192301 Doniger 西南 海关 斯温 D Corcuera D 威廉姆斯 年代 费伊 JC 酵母中性和有害多态的目录 公共科学图书馆麝猫 2008 08 29 4 8 e1000183 10.1371 / journal.pgen.1000183 18769710 PMC2515631 巴勒 B Antipin Y 砂光机 C 预测蛋白质突变的功能影响:应用于癌症基因组学 核酸测定 2011 09 01 39 17 e118 10.1093 / nar / gkr407 21727090 gkr407 PMC3177186 Shihab 高夫 J 库珀 DN 斯滕森 PD 巴克 杯子 爱德华兹 KJ 一天 立即通知 憔悴的 TR 使用隐马尔可夫模型预测氨基酸取代的功能、分子和表型后果 哼Mutat 2013 01 34 1 57 65 10.1002 / humu.22225 23033316 PMC3558800 Y 西姆斯 通用电气 墨菲 年代 米勒 美联社 预测氨基酸取代和吲哚的功能效应 《公共科学图书馆•综合》 2012 7 10 e46688 10.1371 / journal.pone.0046688 23056405 玉米饼- d - 12 - 10334 PMC3466303 Jagadeesh这位 温格 伯杰 乔丹 Guturu H 斯滕森 PD 库珀 DN 伯恩斯坦 晶澳 Bejerano G M-CAP以高敏感性消除临床外显子中大多数不确定意义的变异 Nat麝猫 2016 10 24 48 12 1581 1586 10.1038 / ng.3703 达维多夫 电动汽车 古德 戴斯。莱纳姆: Sirota 库珀 通用汽车 Sidow 一个 Batzoglou 年代 利用GERP++识别出高比例的人类基因组处于选择性约束下 PLoS计算生物学 2010 12 02 6 12 e1001025 10.1371 / journal.pcbi.1001025 21152010 PMC2996323 广 D 程ydF4y2Ba Y X DANN:用于注释遗传变异致病性的深度学习方法 生物信息学 2015 03 01 31 5 761 3. 10.1093 /生物信息学/ btu703 25338716 btu703 PMC4341060 Shihab 罗杰斯 曼氏金融 高夫 J 莫特 库珀 DN 一天 立即通知 憔悴的 TR 坎贝尔 C 预测非编码和编码序列变异的功能效应的综合方法 生物信息学 2015 05 15 31 10 1536 43 10.1093 /生物信息学/ btv009 25583119 btv009 PMC4426838 Y 太阳 J Y K H 通过对注释数据的综合分析,预测人类基因组中功能性非编码区域的统计框架 Sci代表 2015 05 27 5 1 10576 13 10.1038 / srep10576 26015273 srep10576 PMC4444969 Gulko B Hubisz 乔丹 Gronau Siepel 一个 一种计算人类基因组点突变适应度结果概率的方法 Nat麝猫 2015 03 47 3. 276 83 10.1038 / ng.3196 25599402 ng.3196 PMC4342276 Hubisz 乔丹 波拉德 KS Siepel 一个 PHAST和RPHAST:空间/时间模型的系统发育分析 短暂Bioinform 2011 01 12 1 41 51 10.1093 /龙头/ bbq072 21278375 bbq072 PMC3030812 Siepel 一个 Bejerano G 需要好好 JS Hinrichs 作为 K 克劳森 H Spieth J 希利尔 LW 理查兹 年代 魏因斯托克 通用汽车 威尔逊 RK 吉布斯 类风湿性关节炎 肯特 WJ 米勒 W Haussler D 脊椎动物、昆虫、蠕虫和酵母基因组中的进化保守元素 基因组Res 2005 08 15 15 8 1034 50 10.1101 / gr.3715005 16024819 gr.3715005 PMC1182216 加伯 格特曼 Zody 弗里德曼 NgydF4y2Ba X 利用偏置替换模式识别新的约束元素 生物信息学 2009 07 15 25 12 i54 62 10.1093 /生物信息学/ btp190 19478016 btp190 PMC2687944 X C C Boerwinkle E dbNSFP v3.0:人类非同义和拼接站点snv的功能预测和注释的一站式数据库 哼Mutat 2016 03 37 3. 235 41 10.1002 / humu.22932 26555599 PMC4752381 Pedregosa F Varoquaux G Gramfort 一个 米歇尔 V 蒂里翁 B Grisel O Scikit-learn: python中的机器学习 机器学习研究杂志 2011 12 2825 2830 Kraskov 一个 Stogbauer H Grassberger P 估计互信息 理论物理。启E 2004 6 23 69 6 066138 - 1 066138 - 16 10.1103 / physreve.69.066138 罗斯 公元前 离散数据集和连续数据集之间的互信息 《公共科学图书馆•综合》 2014 2 19 9 2 e87357 10.1371 / journal.pone.0087357 24586270 玉米饼- d - 13 - 49753 PMC3929353 Breiman l 随机森林 机器学习 2001 45 5 32 10.1023 /: 1010933404324 Breiman l 随机森林简单模型的一致性 加州大学伯克利分校 2004 2022-08-31 https://www.stat.berkeley.edu/~breiman/RandomForests/consistencyRFA.pdf 埃勒曼 D 逻辑熵:经典和量子逻辑信息论导论 熵(巴塞尔) 2018 10 06 20. 9 679 10.3390 / e20090679 33265768 e20090679 PMC7513204 Birgmeier J Haeussler 戴瑟罗斯 CA Jagadeesh这位 拉特纳 AJ Guturu H 温格 斯滕森 PD 库珀 DN 再保险 C 伯恩斯坦 晶澳 Bejerano G AMELIE直接从原始文献中加速了孟德尔式的患者诊断 bioRxiv 预印本于2017年8月2日在线发布 10.1101/171322 本文作者 G Plaschkes Oz-Levi D Alkelai 一个 Olender T 齐默尔曼 年代 Twik Belinky F Fishilevich 年代 Nudel R Guan-Golan Y Warshawsky D Dahary D 科恩 一个 Mazor Y 卡普兰 年代 Iny斯坦 T 巴里斯 接下来的 Rappaport NgydF4y2Ba 赛峰集团 《柳叶刀》 D VarElect: GeneCards套件中基于表型的变异优先排序器 BMC基因组学 2016 06 23 17补充2 S2 444 206 10.1186 / s12864 - 016 - 2722 - 2 27357693 10.1186 / s12864 - 016 - 2722 - 2 PMC4928145 克拉克 毫米 展示缜密心思 一个 Batalov 年代 Y Chowdhury 年代 沃特金斯 K 埃尔斯沃斯 K B CI 列举的 C Farnaes l 班布里奇 毕比 C 布劳恩 环流 布雷 卡罗尔 J Cakici 晶澳 Caylor SA 克拉克 C 信条 国会议员 弗里德曼 J 弗里斯 一个 获得 R Gaughran 乔治 年代 基尔默 年代 格里森 J 戈尔 J Grunenwald H 霍维 RL 琼斯 毫升 K 麦多纳 PD 麦克布莱德 K Mulrooney P -纳哈斯 年代 D Oriol 一个 帕克特 l 瑞迪 Z 瑞茜 毫克 Ryu J 萨尔茨 l 桑福德 E 斯图尔特 l 斯威尼 NgydF4y2Ba Tokita 范德克朗 l 白色 年代 Wigby K 威廉姆斯 B T 莱特 女士 山田 C 一流 P Reynders J 大厅 K Dimmock D Veeraraghavan NgydF4y2Ba Defay T 金斯默尔 科幻小说 通过快速全基因组测序和自动化表型和解释诊断重症儿童的遗传疾病 科学翻译医学 2019 04 24 11 489 eaat6177 10.1126 / scitranslmed.aat6177 31019026 11/489 / eaat6177 斯梅德利 D Oellrich 一个 科勒 塞巴斯蒂安。 Ruef B 桑格小鼠遗传学项目 韦斯特菲尔德 罗宾逊 P 刘易斯 年代 Mungall C PhenoDigm:分析将动物模型与人类疾病相关联的策划注释 数据库(牛津) 2013 2013 bat025 10.1093 /数据库/ bat025 23660285 bat025 PMC3649640 华盛顿 Haendel Mungall CJ ashburn 韦斯特菲尔德 刘易斯 SE 利用基于本体的表型注释将人类疾病与动物模型联系起来 公共科学图书馆杂志 2009 12 24 7 11 e1000247 10.1371 / journal.pbio.1000247 19956802 PMC2774506 Ayadi 一个 赌博 Bottomley J 布赛尔 J 福克斯 H 战斗 Gailus-Durner V 格林纳威 年代 霍顿 R 卡普 NgydF4y2Ba 勒布朗 年代 C 麦尔 H 马龙 一个 Marschall 年代 梅尔文 D 摩根 H Pavlovic G 赖德 E 夕卡岩 WC Selloum Ramirez-Solis R Sorg T Teboul l Vasseur l 墙体 一个 韦弗 T 年代 白色 JK 布拉德利 一个 亚当斯 DJ KP 安吉利斯 棕色(的) SD Herault Y 小鼠大规模表型计划:欧洲小鼠疾病诊所(EUMODIC)和威康基金会桑格研究所小鼠遗传学项目概述 Mamm基因组 2012 10 23 9 - 10 600 10 10.1007 / s00335 - 012 - 9418 - y 22961258 PMC3463797 布尔特 CJ 埃皮格 JT 布莱克 晶澳 Kadin 晶澳 理查森 小鼠基因组数据库组 小鼠基因组数据库:人类疾病的基因型、表型和模型 核酸测定 2013 01 41 数据库问题 D885 91 10.1093 / nar / gks1115 23175610 gks1115 PMC3531104 DG 布拉德福德 YM 为人 T AE Fashena D 弗雷泽 K 骑士 J 摩尼 P 马丁 R 莫克森 围场 H Pich C 拉玛钱德朗 年代 Ruef BJ 拉· l Schaper K X 歌手 一个 跳出来 B 范Slyke CE 韦斯特菲尔德 ZFIN,斑马鱼模式生物数据库:增加对突变体和转基因的支持 核酸测定 2013 01 41 数据库问题 D854 60 10.1093 / nar / gks938 23074187 gks938 PMC3531097
Baidu
map