卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JBB

JMIR Bioinform Biotech

JMIR生物信息学和生物技术

2563 - 3570

卡塔尔世界杯8强波胆分析

加拿大多伦多

v3i1e37701

10.2196/37701

原始论文

遗传性疾病患者全外显子组测序数据中单核苷酸变异的诊断:使用人工智能变异优先级的机器学习研究

Mavragani

孤挺花

程

Yen-Fu

Pontikos

的派遣

Liuu

琮

黄

Yu-Shan

MSc 1

https://orcid.org/0000-0002-2876-9079

许

京

MSc 2

https://orcid.org/0000-0003-0560-1019

Chune

Yu-Chang

MSc 1

https://orcid.org/0000-0002-7290-9446

廖

I-Cheng

MSc 1

https://orcid.org/0000-0001-8261-7554

王

新

MSc 2

https://orcid.org/0000-0003-1929-6449

林

Yi-Lin

MSc 3.

https://orcid.org/0000-0002-3869-0479

胡

Wuh-Liang

医学博士 4

https://orcid.org/0000-0001-6690-4879

李

Ni-Chung

医学博士 3.

https://orcid.org/0000-0002-5011-7499

赖

Feipei

博士学位 1 2

生物医学电子与生物信息学研究所“，国立台湾大学

罗斯福路4段1号

台北市，106319

台湾 886 2 23628167 886 2 33664924 flai@ntu.edu.tw

https://orcid.org/0000-0001-7147-8122

1 计算机科学与信息工程系“，国立台湾大学

台北市

台湾 2 生物医学电子与生物信息学研究所“，国立台湾大学

台北市

台湾 3. 医学遗传学系台大医院

台北市

台湾 4 儿科台大医院

台北市

台湾

通讯作者:赖飞培 flai@ntu.edu.tw

Jan-Dec 2022

15 9 2022

3. 1

e37701

4 3. 2022 9 5 2022 29 7 2022 22 8 2022

©黄玉珊，徐青，春玉昌，廖宜成，王欣，林怡琳，胡武良，李尼中，赖飞培。最初发表在JMIR生物信息学和生物技术(https://bioinform.www.mybigtv.com)， 15.09.2022。

2022

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用首次发表在JMIR生物信息学和生物技术上的原创作品。必须包括完整的书目信息，https://bioinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

近年来，得益于新一代测序(NGS)技术的快速发展，可以在短时间内对整个人类基因组进行测序。因此，NGS技术正被广泛应用于临床诊断实践，特别是遗传性疾病的诊断。虽然使用这些方法可以生成单核苷酸变异(SNV)的外显子组数据，但处理患者的DNA序列数据需要多种工具和复杂的生物信息学管道。

客观的

本研究旨在协助医生在短时间内自动解读由NGS产生的遗传变异信息。目前，为了确定遗传疾病患者的真正因果变异，医生通常需要手动查看每个变异的大量特征，并在不同的数据库中搜索文献，以了解遗传变异的影响。

方法

我们构建了一个机器学习模型，用于预测外显子组数据中的致病变异。我们从全外显子组测序(whole-exome sequencing, WES)和基因面板中收集测序数据作为训练集，然后整合多个基因数据库中的变体注释进行模型训练。建立的模型对snv进行排序，并输出最可能的致病候选。为了进行模型检验，我们收集了国立台湾大学医院108例罕见遗传性疾病患者的WES数据。我们将通过关键字提取工具从患者电子病历中自动提取的测序数据和表型信息应用到我们的机器学习模型中。

结果

经过筛选后，我们在平均每人741个候选变异中，成功地在排名前10位的致病变异中定位了92.5%(124/134)。AI Variant priority能够为大约61.1%(66/108)的患者将目标基因分配到最高级别，其次是Variant priority，为44.4%(48/108)的患者分配了目标基因。累积排名结果显示，我们的AI变体优先排序器在排名1、5、10和20处具有最高的准确性。这也表明AI变体优先排序器表现出比其他工具更好的性能。通过数据库查询，采用人类表型本体(Human Phenotype Ontology, HPO)术语后，前10名的排名可以增加到93.5%(101/108)。

结论

我们成功地将WES的测序数据和关键字提取工具自动提取的患者疾病的自由文本表型信息应用于模型训练和测试。通过解释我们的模型，我们确定了变量的哪些特征是重要的。此外，我们在测试数据集中找到了目标变量，取得了令人满意的结果。通过查询数据库采用HPO术语后，前10名的排名可以增加到93.5%(101/108)。该模型的性能与人工分析相似，并已用于台大医院的基因诊断。

新一代测序遗传变异分析机器学习人工智能 whole-exome测序

简介背景

现代次基因组测序(NGS)技术使人类基因组在一天内快速测序成为可能[ 1， 2］．与传统的Sanger测序方法相比，由于其速度快、成本低[ 3.]， NGS正被迅速引入临床和公共卫生实验室实践，特别是用于遗传性疾病的诊断。

虽然NGS具有极高的吞吐量，并可以在短时间内生成大量的基因组数据，但解释这些数据并在数千个变体中找到致病候选者仍然是一个挑战。为了确定遗传疾病患者的真正因果变异，医生通常需要手动查看每个变异的大量特征，并在不同的数据库中搜索文献，以了解遗传变异的影响。另一个挑战是寻找与患者表型密切相关的遗传变异。医生经常从病人的电子病历(EMRs)中手动选择有用的关键词，以在多个基因数据库中搜索文章，例如在线孟德尔遗传在人(OMIM) [ 4]和GeneReviews [ 5来决定一种变异是否与一种遗传疾病相关。因此，对医生来说，逐个完成这些费力而耗时的过程是一种负担，特别是在过去十年中，每年发表的与遗传性疾病相关的生殖系突变的数量呈指数级增长的情况下。 6］．

如今，许多研究使用机器学习方法来解决基因组学和遗传学中的许多问题。机器学习领域有望使计算机帮助人类理解庞大而复杂的数据集。在变体注释之后，有一个包含数百列的变体列表，人类无法逐个解释。由于机器学习显著超过了人类水平的性能，特别是在结构化数据方面，我们考虑使用机器学习方法来分析NGS中的变体并找到目标基因。

为了解决这些问题，有一种高性能的方法从NGS结果中过滤候选变异，并立即找到与患者疾病相关的目标变异是非常重要和必要的。最近，许多工具，如Exomiser [ 7]， DeepPVP [ 8]， Xrare [ 9]， VarSight [ 10]、Phenolyzer [ 11]、面料宝石[ 12]，月亮[ 2]， cadd [ 13]和MetaSVM [ 14]已被开发用于识别在罕见疾病诊断中与患者表型相关的潜在致病变异。Exomiser集成信息，包括计算出的基因特异性表型评分，变异等位基因频率( 多媒体附件1)，并预测几个等位基因的致病性，以优先考虑致病变异/相互作用。织物GEM利用贝叶斯因子在Phevor [ 15]以及ANNOVAR、VAAST、phengen等多种工具的变体优先级排序结果。MOON集成了几个变量的注释结果和优先级工具，使用几种机器学习模型来实现变量优先级。由Phevor使用从患者的电子健康记录(EHRs)中提取的人类表型本体论(HPO)术语计算的基因表型得分也被MOON考虑。CADD利用逻辑回归整合周围序列的上下文、生物学约束、表观遗传测量以及几种变体注释工具的结果等信息，建立了变体危害性预测模型。MetaSVM [ 14]汇总polyphen2等9个毒性预测评分结果[ 16]，筛[ 17]， MutationTaster [ 18]构建支持向量机(SVM)危害度预测模型。尽管这些工具采用了不同的方法，包括逻辑回归和深度神经网络，来确定变异的优先级，但大多数工具只能识别HPO术语中定义的表型[ 19］．在这项工作中，我们开发了基于机器学习方法的AI变体优先排序器模块，可以在输入自由文本表型描述或EHR的情况下，从全外显子组测序(WES)数据中输出单核苷酸变体(SNVs)和小插入/删除(indels)的排序。

在这项研究中，我们的目标是实现一个网站，AI Variant priorities，该网站使用来自NGS生物信息学管道的数据和机器学习来预测snv和患者表型中最可能的致病变体。从NGS管道生成的数据都是用ANNOVAR、Nirvana、Variant Effect Predictor (VEP)和InterVar等工具的注释结构化的，以及MViewer (Mutation Viewer)查询的多个数据库的附加信息[ 20.］．为了简化解释过程，我们集成了关键字提取工具，从EMRs中自动生成表型。我们的系统以MViewer过滤的候选变异和患者EMRs作为输入，并输出具有秩和致病概率的snv列表。该系统无需手动检查每个变异，可以帮助研究人员和医生专注于那些致病概率较高的变异，节省大量时间。此外，我们还为我们的系统实现了一个web应用程序编程接口(API)，以便将排名功能集成到MViewer中。因此，医生能够通过单一应用来解释遗传变异的结果，而不是采用大量的服务。

数据描述

在我们的研究中，我们专注于被诊断患有罕见孟德尔疾病的患者。我们的资料主要来自国立台湾大学医院医学遗传科的快速外显子组项目。为了使用更多数据构建模型，我们还申请了存储在dbGaP数据库(项目ID 20911)中的几个WES数据。我们使用的数据是dbGaP访问phs000711.v5。p1由贝勒霍普金斯孟德尔基因组学中心。

为满足本研究的要求，我们收集患者测序数据的条件如下:

被诊断患有遗传疾病的病人。

接受WES或靶向测序并被诊断患有至少一种致病变异的患者。

有表型信息的患者。

我们来自NTUH的数据包括患者人口统计数据，NGS生物信息学管道输出的变体呼叫格式(VCF)文件，以及来自电子病历的表型信息。来自dbGaP的数据还包括患者人口统计、VCF文件和临床情况。所有数据都经过身份识别，不会侵犯患者隐私。我们将患者人口统计信息中的性别作为我们模型中的一个特征，因为一些人类遗传疾病与性别有关。与性别相关的疾病是由X或Y染色体上的基因突变引起的，并通过家族遗传。

可变呼叫格式文件

作为NGS生物信息学管道的最终产品，VCF是用于存储DNA多态性数据(如snp、插入、删除和结构变异)的通用格式。这种格式是为1000个基因组计划开发的，也被其他项目广泛采用。每个VCF文件由2两个部分组成:头部分和数据部分。标头包含关于数据部分中的标记和注释的元数据。它还可以用于提供与数据和文件的历史相关的信息。标头中的最后一行包含数据部分的列标题。数据部分分为9列，并为每行报告一个突变。列包括CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO和FORMAT。

表型信息

对于来自NTUH的数据，我们从临床医生的病史总结中提取患者的表型信息。主要记录患者病情、临床诊断、入院原因的简要总结。我们还根据每个患者的症状收集医生提供的表型关键词进行模型验证。对于来自dbGaP的数据，由于没有EHRs，我们将使用患者的临床情况。对于在OMIM数据库中可以找到的临床病症，我们将提取相应的表型描述作为我们研究的表型信息。

方法工作流概述

图1展示了我们的研究流程。我们从WES和面板测序中收集每个患者的VCF，然后使用多种工具注释变体。在变体注释之后，我们使用了我们内部的软件(MViewer [ 20.])查询额外的外部数据库，并筛选候选变量。然后我们使用这些候选变体的基因名和关键字提取工具从EMRs中提取的关键字查询Variant priority [ 21］．利用变量优先排序器生成的基因相似度分数和注释变量列作为特征来训练机器学习模型。该模型对代表其致病概率的每个变体进行排序。我们将在以下部分演示每个步骤的细节。

图1

研究工作流程。EMR:电子病历;indel:插入/删除;MViewer:突变查看器;SNV:单核苷酸变体;VCF:可变呼叫格式。

变异注释

我们在VCF文件中收集了每位患者的NGS测序数据，并从包括ANNOVAR [ 22]， vep [ 23]、涅槃[ 24]，以及InterVar [ 25］．对于上述工具无法提供的额外信息，我们使用软件导入了一些公共数据源，包括ClinVar [ 26]，人类基因组突变数据库(HGMD) [ 27]，及台湾生物库[ 28］．中总结了这些注释字段的详细描述文本框1．

注释字段的描述。

等位基因频率

这描述了特定等位基因在特定人群中的基因拷贝比例。等位基因频率的计算方法是将种群中特定等位基因的拷贝数除以该基因在种群中所有等位基因的总数。它指的是一个等位基因在一个群体中的普遍程度。

功能预测评分

一系列评分算法，能够根据变异中的不同信息(如序列同源性、蛋白质结构和进化守恒)预测变异的潜在危害性。这些评分方法包括功能预测评分、保护评分和集成评分。

致病性

ClinVar和人类基因突变数据库(HGMD)两个公共数据库中报告的临床意义变异，这些数据库存储了与人类遗传性疾病相关的基因突变信息。两者都将变异分类为引起疾病或由人工管理相关的疾病。

临床解释

美国医学遗传学和基因组学学院(ACMG)和分子病理学协会(AMP)根据28项标准发布了关于人类疾病序列变异的临床解释标准和指南[ 29］．这些标准如下:将变异分类为致病性或可能致病性的标准(共16个)是非常强(PVS1)、强(PS1-PS4)、中等(PM1-PM6)或支持(PP1-PP5)，而将变异分类为良性或可能良性的标准(共12个)是独立(BA1)、强(BS1-BS4)或支持(BP1-BP7)。

能够约束

基因表达水平的限制已被证明会影响人类遗传变异的模式[ 30.］．例如，一些基因因功能丧失而异常耗尽，并被认为在表达方面受到限制。基因组聚合数据库(gnomAD)提供了预测约束指标跟踪集，其中包含预测的每个基因的致病力指标，并识别针对各种类型突变的强选择基因。这些包括在基因、转录本和转录本区域水平上计算的约束度量的几个子轨迹。

疾病遗传

与变异相关的性状或疾病可以通过家族遗传的遗传模式，如常染色体显性遗传、常染色体隐性遗传、x连锁遗传和线粒体遗传。我们使用OMIM(在线孟德尔人遗传)中定义的模式作为我们的数据。

其他人

关于遗传变异的附加信息，如基因名称、基因型和基因不同转录本或近端调控区域的功能后果。

变体过滤

在WES数据中，每个先证者平均有40000个变体。然而，大多数是良性的，与症状无关。这些变异中只有一小部分可能是有害的或与患者的疾病有关。在标准的临床分析过程中，医生只关注可能致病或未知的变异。由于我们的模型旨在帮助研究人员和医生进行临床外显子组阅读，因此有必要减少变异的数量，并专注于更有可能导致疾病的变异。

为了生成候选变量，我们使用MViewer提供的过滤器来删除不太可能有害的变量。过滤器和标准列在表1．对于包含超过1列的过滤器，如果一个变量满足它们的任何标准，它将保留在数据中。在变异筛选后，我们得到每个患者大约700个snv。

表1

过滤标准。

过滤器	列	标准
最大等位基因频率	最大等位基因频率	≤0.01(不含数据)
非同义错义突变	ExonicFunc.refgene	“产生”
停止增加	结果 ExonicFunc.refgene	“stop_gained” “stopgain”
拼接	结果 Func.refgene	“splice_region_variant” “splice_acceptor_variant” “splice_donor_variant” “拼接”
移码的	结果 ExonicFunc.refgene	“frameshift_variant” “feature_truncation” “feature_elongation” “转移”
初始密码子	结果	“start_lost”
删除	类型结果 ExonicFunc.refgene	“删除”
插入	类型结果 ExonicFunc.refgene	“插入”
Inframe删除	结果 ExonicFunc.refgene	“inframe_deletion” “nonframeshift删除”
外显子/拼接网站	Func.refgene 结果	“其实” “拼接” “coding_sequence_variant” “frameshift_variant” “incomplete_terminal_codon_variant” “inframe_deletion” “inframe_insertion” “missense_variant” “splice_acceptor_variant” “splice_donor_variant” “splice_region_variant”

表现型提取概述

本研究使用的表型信息来自临床医生的病史总结。这些记录都是自由文本，文本长度从少于10字到超过300字不等。在临床分析过程中，医生手工翻阅病历、识别表型关键字耗时较长。为了解决这个问题，我们使用了几个关键字提取工具，从自由文本的医疗记录中自动生成与表型相关的关键字。在我们的研究中应用的关键字提取工具在以下部分中列出。

MetaMap

MetaMap [ 31]是一个广泛使用的应用程序，提供对统一医学语言系统(UMLS)中的异义龙概念的访问[ 32］．UMLS mettathesaurus是一个来自各种生物医学命名系统的名称、关系和相关信息的汇编，代表了生物医学实践或研究的不同观点。它包含超过100万个生物医学概念和500万个概念名称[ 33］．MetaMap能够将文本中的每个单词映射到UMLS概念，但我们只想关注那些与表型和疾病相关的单词。因此，我们提取了被归类为以下语义类型的词:(1)损伤或中毒，(2)细胞或分子功能障碍，(3)遗传功能，(4)疾病或综合征，(5)标志或症状，(6)组织。

Doc2Hpo

Doc2Hpo [ 34是一个使用自然语言处理(NLP)技术来解析临床记录并获得作为HPO术语的表型概念curation的web应用程序。有一个解析引擎可以自动从输入中识别显型概念。Doc2Hpo应用一种名为NegBio的算法在输入数据中进行否定检测。在此之后，有几个NLP引擎负责HPO概念提取。我们使用了其中的3个引擎，并比较了它们各自的性能。第一个NLP引擎是一个基于字符串的方法，它利用算法进行概念提取。第二个引擎是在线NCBO注释器[ 35HPO概念识别API。我们采用的最后一个引擎是MetaMap Lite，它是MetaMap的快速版本，提供了近乎实时的命名实体识别。MetaMap Lite引擎首先识别文本中的临床术语，并将它们映射到标准UMLS概念。UMLS概念将进一步映射到HPO概念。Doc2Hpo生成的结果是HPO术语，而MetaMap提取的关键字是非HPO术语。

表型-基因相似性评分

另一种构建基因和关键词之间联系的方法是使用Okapi BM25排序函数。Okapi BM25通常由搜索引擎(如谷歌和Bing)使用，根据匹配文档与给定搜索的相关性对其进行排名。该函数最突出的实例之一如下所示:

分数( D，问)表示文档的Okapi BM25分数 D当给定查询Q时，包含关键字问1，问2…… qn； f（气， D)是气的术语频率 D；| D|是文档的长度 D在单词;Avgdl是所有文档中的平均文档长度; k1, b为常数(分别为=1.2和0.8);和IDF ( 气)是查询词的逆文档频率(IDF)权重气通常定义为:

IDF ( 气) = ln [ NgydF4y2Ba- - - - - - n（气+ 0.5]/[ n（气+ 0.5 + 1]

在哪里 NgydF4y2Ba文件的数量是多少 n包含关键字的数字。

在本研究中，我们提出了一种以OMIM和GeneReviews中的基因描述为文档，以关键词为查询来实现Okapi BM25排序功能的想法。因此，我们可以用Okapi BM25评分来表示基因描述与关键词之间的关系。关键词中的基因描述得分越高，说明该基因与关键词之间的联系越强。排名值基于前面提到的Okapi BM25排名函数和一些其他参数。与Okapi BM25正则公式相比，rank值将IDF函数替换为Robertson-Spärck-Jones weight [ 36］．IDF函数用来衡量单词提供了多少信息，也就是说，这个单词在所有文档中是常见的还是罕见的。例如，术语“the”在每个文档中都很常见，因此术语频率将倾向于错误地突出恰好更频繁地使用单词“the”的文档。因此，IDF函数致力于减少在所有文档中频繁出现的单词的权重。与常规IDF函数相比，Robertson-Spärck-Jones权重增加了文档的相关参数，提高了rank评分的精度。

我们从变体优先排序器(Variant priority)获得每个SNV的表型-基因相似度评分，这是一种文本挖掘工具，通过输入症状作为关键字来输出基因的排名和评分。变体优先排序器使用Okapi BM25排序功能[ 37来构建基因和关键词之间的联系。来自OMIM, GeneReviews, Entrez的基因描述[ 38]，以及PubTator [ 39]作为数据源，关键词作为查询，采用全文检索的方法实现Okapi BM25评分。它返回一个名为RANK的列，包括从0到1000的序数值。RANK评分的计算公式如下:

其中ω为Robertson-Spärck-Jones权重[ 36]，定义为ω = log [( r+ 0.5)∙( NgydF4y2Ba- - - - - - n- - - - - - R+ r+ 0.5)] / [( R- - - - - - r+ 0.5)∙( n- - - - - - r+ 0.5)]，其中 R是否有多少已知的相关文件和 r是包含该项的数; 特遣部队是在项目中查询的属性中单词的频率; qtf是查询中该词出现的频率;而且 K定义如下:

K＝ k ₁((1 - b) + b（戴斯。莱纳姆:/ avgdl))

在哪里戴斯。莱纳姆:是属性长度，在单词出现时;Avgdl是正在查询的属性的平均长度，以单词出现次数为单位;而且 k₁， b, k_3.为常数(分别为=1.2、0.75和8.0)。

我们使用Variant priority API从每个数据源获取RANK值作为基因相似度评分，以表示每个SNVs与提取的关键字之间的关联。我们保留了rank值的最大值和最小值(总共4分)作为2个单独的特征来构建模型。

道德的考虑

本回顾性队列研究由台大医院机构评审委员会(IRB)批准(IRB编号:201710066RINB)。我们确认所有的实验都是按照相关的准则和规定进行的。研究小组从电子病历中检索到的数据已被识别，无法与患者的身份联系起来。由于这是一项回顾性队列研究，数据不确定，因此由台大医院IRB (201710066RINB)确认并免除了书面知情同意的需要。本规定符合《健康保险携带与责任法案》(HIPAA)，即对未识别健康信息的使用或披露没有限制。

数据预处理步骤概述

在VCF文件的变体注释之后，我们将数据预处理为模型可接受的格式。数据预处理是机器学习中极其重要的一步，因为数据的质量会直接影响模型的学习能力。它包括各种操作，每个操作都旨在帮助机器学习建立更好的预测模型。本研究中使用的数据预处理操作将在以下部分中解释。

缺失值处理

在现实世界中，数据通常有缺失值。例如，在基因型变量中，大多数机器学习方法不能处理空值，识别并正确处理缺失值是关键。基本上，缺失的值可以使用各种技术来处理，如删除或imputation [ 40］．删除删除有一个或多个缺失值的观察的所有数据。但是，如果有许多列缺少值，则删除将导致数据缺乏。因此，对于一些列，我们通过用均值替换数据集中缺失的值来使用imputation，而对于一些列，我们只是简单地用有效值(如0)替换缺失的值。

一种热编码

许多机器学习算法不能直接对分类数据进行操作。它们要求所有的输入特征都是数字的。基本上，分类数据包含标签值而不是数值。因此，分类数据必须转换为数字形式，以便在机器学习模型中使用。一种热编码是处理分类数据的普遍方法。一种热编码将分类列转换为多维向量。它创建新列，指示原始数据中每个可能值的存在。

例如，在基因型变量中，有3类:纯合子(hom)、杂合子(het)和半合子(hem)。因此，需要3个二进制变量[hom, het, hem]。如果一个变异的基因型是杂合的，我们使用[ 0， 1， 0来代表它。

数据归一化

对于连续数据，有一些具有不同的范围。如果我们将范围非常不同的特征应用到一些机器学习模型中，如逻辑回归，范围更广的特征由于其值更大，对结果的内在影响更大。然而，这并不一定意味着这个特征作为一个预测因素更重要。因此，我们使用归一化技术来解决这个问题。归一化是从原始范围重新缩放数据，使所有值都在0到1的范围内。我们通过最小-最大归一化重新缩放所有连续值。一般公式如下:

XNorm = ( X - X分钟) /（ X马克斯 - X分钟)

在哪里 X是原值和 XNorm是规范化的值。这将使最大值映射为1，最小值映射为0。除了上述的数据预处理技术，我们对不同的数据类型进行了不同的处理，并为模型的建立创建了一些新的特征。在下面几节中，我们将详细介绍每种数据类型的预处理，并在最后将它们组合起来。

功能预测评分

功能预测评分，包括SIFT [ 17]， polyphen2hdiv [ 16]， PolyPhen2 HVAR [ 16]、轻铁[ 41]， MutationTaster [ 18]， MutationAssessor [ 42]， fathmm [ 43]， prove [ 44]， MetaSVM [ 14]， MetaLR [ 14]， m-cap [ 45]， cadd [ 13， gerp ++ [ 46]， dann [ 47]， fathmm-MKL [ 48]，种族灭绝[ 49]， fitCons [ 50]， PhyloP [ 51]、PhastCons [ 52]，和SiPhy [ 53都来自ANNOVAR。我们使用ANNOVAR提供的转换等级分数来代替原来的分数，因为所有这些分数都在0到1的范围内。此外，不同算法的转换等级分数在同一方向上是单调的。也就是说，得分越高，表明该变体更有可能具有破坏性[ 54］．对于拼接位点预测，我们使用VEP插件导入MaxEntScan评分。我们定义了一个名为MaxEntScan significance的新列。当MaxEntScan alt小于3且MaxEntScan变化小于30%时，该值为1;否则值为0。我们使用ClinVar报告的临床意义，并计算HGMD的等级评分。HGMD计算等级评分是0到1之间的致病性概率，与其他HGMD条目相比，1是最有可能引起疾病的概率。

临床解释

我们采用了基于美国医学遗传学和基因组学学院/分子病理学协会(ACMG/AMP) 2015年指南的每种遗传变异的临床解释，该指南由InterVar生成。我们计算了Xrare开发的ACMG评分来代表其总体致病性。ACMG评分是基于多个证据(n=14)的加权和评分，每个项的权重如下:PVS1:6, PS1:4, PM1:2, PM2:2, PM4:2, PM5:2, PP2:1, PP3:1, BA1:9, BS1:3, BS2:3, BP3:1, BP4:1, BP7:2 [ 9］．我们从基因组聚合数据库(gnomAD)中收集了包括pLI、pRec、syn_z和mis_z在内的基因级约束特征。我们使用OMIM中定义的继承模式作为数据。对于包含多个模式的变量，我们计算每个模式的出现次数，并将其存储为一个特征。我们还从ANNOVAR中获得了关于每个变体的一些附加信息，如基因型、变体击中的区域和读取深度。每个变体的质量也从VCF文件中收集。由于ANNOVAR标记的基因型不含半合子等位基因，我们将所有男性患者X染色体的基因型特征替换为半合子等位基因。此外，我们使用Nirvana收集了一个基因的不同转录本或近端调控区域的功能后果。

标签

我们研究的目标是用snv识别致病变异(即，我们将一个变异分类为致病或不致病)。由于机器学习算法从示例中学习如何为测试用例分配类标签，因此有必要为所有输入训练集分配类标签。我们使用0/1标记来表示一个变体是否引起疾病。如果一个变量是致病的，我们就给它贴上标签1;否则标签为0。关于我们模型中使用的所有特征的详细信息，请参见多媒体附件2．

特征选择

经过数据预处理，每个变量得到94个特征。为了降低输入数据集的高维，同时保留分类问题的歧视性信息，我们应用了scikit-learn中的单变量特征选择技术[ 55]包来识别数据集中的相关变量，并消除无用的变量。特征选择有助于减少数据集中的噪声，让模型专注于相关信号。

scikit-learn单变量特征选择模块提供了几个评分函数。我们使用互信息分类器来选择最相关的变量。互信息[ 56]是一个非负值，它衡量变量的一般依赖性，而不对它们的潜在关系的性质作任何假设[ 57］．2个离散随机变量X和Y之间的互信息定义如下:

在哪里 p（ x， y的联合概率密度函数 X而且 Y, p（ x), p（ y)为边际密度函数。互信息决定了联合分布之间的相似性 p（ x， y)和因子边际分布的乘积。该值越大，表示两个变量之间的关系越大。当且仅当两个变量独立时，计算值等于0。

我们只使用训练集来确定相关变量，从而执行特征选择过程。此外，我们选择的特征数量是基于10倍交叉验证的模型评估

建筑模型

为了通过机器学习算法构建模型，我们将数据分为2组。由于我们的模型旨在协助医生进行临床外显子组数据解释过程，因此将来自dbGaP数据库的外显子组数据和来自NTUH的目标基因面板测序数据设置为训练集，将来自NTUH的WES数据设置为测试数据。只能用于模型评价。外部验证集包括90个最新的NTUH WES数据，这有助于确保我们的模型可以在未来的临床使用中进行预测。中列出了有关训练和测试集的详细信息表2．

为了建立机器学习模型，我们实现了随机森林算法[ 58]由scikitlearn软件包提供。超参数的选择基于网格搜索和10倍交叉验证。随机森林最初是由Leo Breiman在2001年提出的。 58］．它是从决策树演化而来的集成分类器。实际上，随机森林是决策树的组合，这样每棵树都依赖于独立采样的随机向量的值，森林中所有树的分布都是相同的[ 59］．森林的树木是这样生长的:

训练集是原始训练集的自举样本。

要构建的树的数量和在每次分裂m-try时作为候选随机抽样的变量的数量由用户设置，其中m-try小于变量的总数。

在每个节点上随机选择m-try变量，并在m-try间的最佳分裂点上对节点进行分裂。这个过程不断迭代，直到树生长到最大深度。

对于测试用例预测，作为测试向量 x在每棵树下，它被赋值为 y在它停止的节点上的值。森林中所有这些树木的平均值就是预测值 x．分类的预测值是得到森林投票多数的类别。

我们用来衡量分割质量的函数是基尼杂质。基尼杂质是数据集中随机选择的元素，如果根据数据集中的类分布随机标记，则错误分类的概率[ 60］．在决策树学习中，它被定义为,在那里 c是班级的数量和 p（我| t)表示随机抽取一个类对象的概率我在节点 t．训练决策树时，从根节点开始的最优分割是通过使基尼增益最大化来选择的，基尼增益是通过从原始杂质中减去分支的加权杂质来计算的。

表2

本研究中使用的训练、测试和外部验证集。

数据	训练集	测试组	外部验证集
源	dbGaP^一个,台大医院^b面板	台大医院韦斯^c	新NTUH WES
病人,n	381	108	90
过滤变量，n	125693年	80083年	109857年
致变变量n	478	134	One hundred.

^一个dbGaP:基因型和表型数据库。

^b国立台湾大学附属医院。

^cWES:全外显子组测序。

绩效评估

为了评估我们的真实原因变量优先级排序的模型性能，我们使用了VarSight中提到的排名统计数据。在我们将二元分类过程应用于所有变体之后，我们得到了每个变体的概率，它代表了该变体引起疾病的概率。我们将每个患者的变异从最高概率到最低概率进行排序，并量化排名在前1、5、10、20的目标变异的百分比。

结果特征选择

对于特征选择，我们使用了基于scikitlearn包中的SelectPercentile方法的单变量特征选择。我们选择的分类器是互信息分类器。只使用训练集来选择最相关的特征。此外，我们应用了10倍交叉验证来确定用于模型训练的特征数量。在图2，我们使用不同百分比的特征在10倍交叉验证中给出前10个准确性。由于使用60%的特征可以达到最高的精度，因此选择估计互信息最高的56个特征(共94个特征的60%)进行最终的模型构建。

图2

使用不同百分比的特征进行10倍交叉验证的前10个准确性。

模型的性能

我们用我们的测试集评估模型。正如在表2该测试集包括108名接受WES的患者，他们至少有一种被医生诊断出的致病变体。多媒体给出了它们的致病变体、关键字和相应的HPO术语的详细信息。关键字和HPO术语由医生根据每个患者的表型确定。

使用不同的关键字提取工具进行预测

图3显示目标变量和排名的百分比分布图4显示了使用不同关键字提取工具的模型的累积排名结果。当使用工具从摘要中提取表型时，我们的模型可以将超过40%(60/134,44.8%)的目标变体分配到总变体的最高等级。无论使用什么关键字提取工具，模型的前10个精度都在90%左右(124/ 134,92.5%)。与专业医生提供的关键词相比，应用工具提取关键词的前1准确率较低，但前10准确率相当。这表明，在大多数情况下，我们的模型可以成功地将真正的原因变量排在变量列表的前面，并且该排名受到输入关键字的轻微影响。

我们基于前一节中描述的方法构建了一个随机森林模型，并使用基于不同关键字提取工具的测试集对其进行评估。经过筛选后，我们在平均每人741个候选变异中，成功地在排名前10位的致病变异中定位了92.5%(124/134)。该模型的性能与人工分析相似，并已用于台大医院的基因诊断。

图3而且 4分别显示使用不同关键字提取工具的目标变量排名的百分比分布和模型的累积排名结果。当使用工具从摘要中提取表型时，我们的模型可以将超过40%(60/134,44.8%)的目标变体分配到总变体的最高等级。无论使用什么关键字提取工具，模型的前10个精度都在90%左右(124/ 134,92.5%)。与专业医生提供的关键词相比，应用工具提取关键词的top 1准确率较低，但top 10准确率相当。这表示在大多数情况下，我们的模型可以成功地将真正的致病变量排在变量列表的前面，并且这个排名受到输入关键字的轻微影响。

图3

职级百分比分布。

图4

职级的累积百分比分布。国家生物医学本体中心。

其他机器学习方法

我们还评估了其他机器学习方法，并将它们的性能与随机森林进行了比较。这些方法包括逻辑回归、高斯朴素贝叶斯、RBF核支持向量机和梯度增强决策树。每种算法的超参数选择基于网格搜索和10倍交叉验证。我们使用MetaMap作为关键字提取工具，并使用测试数据来测试每种方法的性能。各机器学习方法对目标变量排序的百分比分布以及各模型的累积排序结果如所示图5而且 6,分别。由于随机森林的前十名准确率最高，我们最终选择了随机森林作为我们的机器学习算法。

图5

职级百分比分布。GBDT:梯度增强决策树;支持向量机:支持向量机。

图6

职级的累积百分比分布。GBDT:梯度增强决策树;支持向量机:支持向量机。

讨论主要研究结果

我们已经实现了一个网站，AI Variant priorities，它使用来自NGS生物信息学管道的数据，使用机器学习对snv和患者表型数据中最可能的致病变异进行预测。该系统可以帮助研究人员和医生专注于那些较高的致病概率，并减少整个WES管道的平均周转时间(1天)，从DNA提取到临床诊断。此外，我们还为我们的系统实现了一个web API，以便将排名功能集成到MViewer中。因此，医生可以通过单一应用来解释遗传变异的结果，而不是采用大量的服务。

为了进行比较，我们使用测试数据运行了几个优先级排序工具，包括AMELIE [ 61]， VarElect [ 62]， Exomiser, Phenolyzer和Variant priority。由于AMELIE和Exomiser只能接受HPO术语定义的表型，所以我们输入了医生确定的HPO术语作为输入。Phenolyzer可以同时识别疾病术语和HPO术语。但是，如果这些术语在它们的数据库中不匹配，则不会返回任何记录。因此，我们也使用HPO术语作为Phenolyzer的输入。VarElect, Variant priority，和我们的模型可以识别自由文本描述。因此，我们将医生提供的关键词作为输入进行测试。AMELIE、VarElect和Variant priority tizer只对基因列表进行优先级排序，而不是对变体列表进行优先级排序。因此，我们评估了基于基因的优先排序结果，而不是基于变体的优先排序结果。也就是说，对于每个患者，如果工具将目标基因排在我们筛选的基因列表的前1、5、10、20、50和100，那么这个患者就会被计算在内。 All the tools use the default settings provided in their websites to run.

图7而且 8分别显示每个工具的目标基因排名的百分比和累积百分比分布。从图8，我们可以看到，AI Variant priority能够将61.1%(66/108)的患者的目标基因分配到最上面，其次是Variant priority(48/108, 44.4%)。它还显示了累积排名结果，这表明我们的AI变体优先排序器在排名1、5、10和20处具有最高的准确性。此外，AI变体优先排序器显示出比其他工具更好的性能。通过查询数据库采用HPO术语后，前10名的排名可以增加到93.5%(101/108)。

与通过手动将HPO术语映射到SNOMED临床术语(SNOMED CT)从SNOMED中提取表型特征进行比较[ 63]，我们的自动化方法探索了各种表型特征提取工具，并专注于罕见疾病的解释。我们还研究了过去3年发表的几种人工智能驱动的变种优先级方法，包括Fabric GEM [ 12]，月亮[ 2和Exomiser。我们的方法和这些方法之间有几个不同之处，包括用于构建优先级模型的算法、考虑的特性和集成的数据库。然而，我们的方法与其他人的主要不同之处在于将基因和表型之间的关系转化为数值的方法，这为以后的预测铺平了道路。面料GEM和MOON采用Phevor [ 15将表型-基因关系转化为数值，而Exomiser使用的是PhenoDigm [ 64来实现这个目标。

Phevor和PhenoDigm都构建了连接HPO和其他本体的新方法，以发现更多的基因疾病关联。Phevor收集HPO和基因本体论(GO)提供的所有疾病和基因的相关性，并构建几个网络(图)，并沿着找到的路径分配权重递减。特定基因节点上的权值之和表示该基因与对应HPO项的相关得分。PhenoDigm利用OWLSim [ 65]，计算不同本体论中不同表型之间的相似性，并利用相似性估计给定HPO项与不同基因之间的相关性大小。相比之下，我们的方法中使用的变体优先排序器从另一种知识来源中提取表型-基因关系:数据库的自由文本。我们对这些方法作了简单的比较表3而且 4．

图7

职级百分比分布。AI:人工智能。

图8

职级的累积百分比分布。AI:人工智能。

表3

AI Variant priority, Fabric GEM, MOON, Exomiser的比较。

工具	人工智能^一个变体优先排序器	织物的宝石	月亮	Exomiser
变分算法	随机森林	贝叶斯因子	决策树，贝叶斯模型，神经网络	基于规则的
Phenotype-gene得分	变体优先排序器	Phevor	Phevor	PhenoDigm
表型输入格式	纯文本	HPO^b条款	从电子健康档案中提取HPO术语	HPO条款

^一个AI:人工智能。

^bHPO:人类表型本体。

表4

Variant priority, Phevor和PhenoDigm的比较。

工具	变体优先排序器	Phevor	PhenoDigm
算法	霍加皮BM25	图算法	OWLSim
表型输入格式	纯文本	HPO^一个条款	HPO条款
知识库	人类^b， GeneReviews, Entrez Gene和PubTator	HPO和GO^c	OMIM (HPO)， Sanger-MGP [ 66]， MGD [ 67]，及ZFIN [ 68］

^一个HPO:人类表型本体。

^b在线孟德尔遗传在人。

^cGO:基因本体。

功能的重要性

为了解释模型预测，我们使用scikit-learn提供的特征重要性方法来确定哪个特征具有最强大的预测能力。图9显示前20个重要特性。根据临床经验，变异与患者表型之间的联系是影响医生决定是否报告变异的关键因素。同样，从图中我们可以看到，最重要的特征是最大的bm25分数，它指的是给定的变体与关键字之间的相似度分数。在临床分析中影响报告决策的另一个重要因素是变异的严重程度。我们使用的相应特征是ACMG评分，它在特征重要性的第二位。相比之下，特征重要性的结果可能为医生或研究人员在寻找致病变异时可以考虑的特征提供信息。

图9

功能的重要性。

外部验证

我们比较了来自测试集和外部验证集的排名的累积百分比分布。结果显示在图10而且 11．在不同的地区，如前10名和前5名，他们的百分比值彼此接近。外部验证集排名前1的百分比甚至高于测试集。有了这个结果，我们相信我们的方法已经显示出其强大的临床应用潜力。

图10

职级百分比分布。

图11

职级的累积百分比分布。

限制

这项研究有几个潜在的局限性。首先，我们无法找到大量的数据进行训练和测试。这不仅限制了机器学习模型的教材数量，也限制了评估训练模型的可用度量。其次，本研究中使用的基因-表型评分没有足够的能力来检测小的或中等的关联，因为它依赖于基因-表型关系向其所使用的数据库报告的频率。最后，该研究没有调整潜在的混杂因素，如饮食和体育活动。这可能会导致潜在的偏差，因为基因表达的方式可能受到患者生活方式的影响。

总的来说，由于缺乏足够的数据，缺乏报道的基因-表型关系，以及缺乏对生活方式的观察，本研究可能存在潜在的偏倚。如果将来有更多的数据和报告，第一个和第二个的影响可以减少。另一方面，生活方式和环境的影响仍然是一个需要更多专门研究的问题。

结论

在这项研究中，我们提出了一个机器学习模型，AI Variant priority，来预测一个变体是否是罕见孟德尔疾病患者的致病原因。我们成功地将WES测序数据和关键字提取工具自动提取的患者疾病自由文本表型信息应用于模型训练和测试。通过解释我们的模型，我们确定了变量的哪些特征是重要的。此外，我们在测试数据集中找到了目标变量，取得了令人满意的结果。在测试了108例患者的WES数据后，我们在过滤过程后，从平均每人741个候选变体中，成功地将93.5% (n=101)的病例定位到排名前10位的致病变体。该模型的性能与NTUH医学遗传学系医生的人工分析相似，并已用于NTUH的遗传诊断。

由于医生几乎所有的时间都在忙着照顾他们的病人，寻找准确的基因诊断所花费的时间是非常重要的。我们的人工智能预测模型可以提供93.5%(101/108)的高概率，从而帮助他们节省几周的时间，如果他们必须手动搜索前十名列表之外的内容。

要完全解释遗传病的致病变异并不是一件容易的工作。由于工具提取关键字的精度会影响我们模型的性能，在未来的工作中，我们将采用一些自然语言处理技术，如BERT (Bidirectional Encoder representation from Transformers)等来更正确地提取关键字。此外，已经建立了AI变体优先排序器模型来分析来自WES数据的snv和小型索引，但我们还没有处理拷贝数变化(CNVs)。CNVs已被认为是重要的遗传变异，与常见和复杂疾病都有关，因此对几种孟德尔遗传疾病和躯体遗传疾病有很大影响。因此，我们将收集有关cnv的数据，并扩展我们的系统对cnv进行注释和过滤的能力。此外，我们将通过添加CNVs作为我们的训练数据来扩大我们的数据集，使AI变体优先器模型能够预测任何类型的致病遗传变异。在实施AI Variant priority之前，使用Variant priority，整个WES管道从DNA提取到临床诊断的平均周转期为5.8 (SD 1.1)天。然而，在实施AI Variant priorities后，NTUH快速三外显子组测序分析的平均周转时间缩短至4.8天(SD 1.2天)。

多媒体附件1

等位基因频率。

多媒体附件2

描述本研究中使用的特征。

多媒体

目标变量，HPO术语，以及测试用例的关键字。HPO:人类表型本体。

缩写

ACMG

美国医学遗传学和基因组学学院

人工智能

AMP

分子病理学协会

API

应用程序编程接口

伯特

来自变压器的双向编码器表示

CNV

拷贝数变化

EMR

电子病历

GBDT

梯度增强决策树

gnomAD

基因组聚合数据库

去

基因本体论

HGMD

人类基因组突变数据库

HIPAA

《健康保险携带和责任法案》

HPO

人类表型本体

IRB

机构检讨委员会

MViewer

突变查看器

总会在

新一代测序

NLP

自然语言处理

台大医院

人类

孟德尔人的遗传

SNV

单核苷酸变异

支持向量机

uml

统一医学语言系统

VCF

可变呼叫格式

VEP

变异效应预测器

本研究由台湾科技部(110-2634-F-002-032-)资助。本出版物中提供的分析基于从dbGaP网站下载的研究数据，dbGaP登录号为phs000744.v4。p2, phs001272.v1。p1, phs000971.v2。p1, phs000711.v6。p2,phs001232.v3.p2. W-LH applied for the data with project name “Variant prioritization for rapid exome analysis of rare genetic disease” (project ID 20911). Data were downloaded from the FTP site of dbGaP after approval.

Y-SH研究模型和数据的可行性，进行形式化分析，开发软件，可视化数据，并撰写初始手稿。CH构思了这个想法，整理了数据，审阅了手稿，并为软件开发团队提供了建议。N-CL和W-LH构思了这个想法，策划了患者数据，并审查和编辑了草案。Y-CC和I-CL对稿件进行了编辑、修改和强化。HW和Y-LL测试了数据性能。FPL监督项目进度，支持项目，管理项目，审核稿件。

没有宣布。

Behjati

年代

Tarpey

什么是下一代测序?

Arch Dis儿童教育实践 2013 12 98 6 236 8

10.1136 / archdischild - 2013 - 304340

23986538

archdischild - 2013 - 304340

PMC3841808

O ' brien

道明

坎贝尔

不

波特

Letaw

Kulkarni

一个

理查兹

人工智能(AI)辅助外显子组再分析极大地有助于识别新的阳性病例，并减少临床诊断实验室的分析时间

麝猫地中海 2022 01 24 1 192 200

10.1016 / j.gim.2021.09.007

34906498

s1098 - 3600 (21) 04134 - 4

桑格

Nicklen

年代

库尔森

基于“增大化现实”技术

DNA测序链终止抑制剂

美国国立自然科学研究院 1977 12 74 12 5463 7

10.1073 / pnas.74.12.5463

271968

PMC431765

Hamosh

一个

斯科特

房颤

Amberger

瓦莱

McKusick

弗吉尼亚州

在线人类孟德尔遗传(OMIM)

哼Mutat 2000 15 1 57 61

10.1002 / (SICI) 1098 - 1004 (200001) 15:1 < 57: AID-HUMU12 > 3.0.CO; 2 g

10612823

10.1002 / (SICI) 1098 - 1004 (200001) 15:1 < 57: AID-HUMU12 > 3.0.CO; 2 g

亚当

国会议员

Everman

Mirzaa

通用汽车

冰内生物

类风湿性关节炎

华莱士

豆

LJH

Gripp

千瓦

GeneReviews 1993

西雅图,华盛顿州

华盛顿大学西雅图分校

Faintuch

年代

研究人员、从业者和提供者的精准医学 2019 11 16

纽约州纽约

学术出版社

斯梅德利

雅各布森

工作

贼鸥

米

科勒

年代

Holtgrewe

米

Schubach

米

Siragusa

Zemojtel

Buske

橙汁

华盛顿

问

骨

Haendel

妈

罗宾逊

利用Exomiser进行下一代诊断和疾病基因发现

Nat Protoc 2015 12 10 12 2004 15

10.1038 / nprot.2015.124

26562621

nprot.2015.124

PMC5467691

Boudellioua

我

Kulmanov

米

斯科菲尔德

Gkoutos

全球之声

Hoehndorf

DeepPVP:使用深度学习对基于表型的致病变异进行优先排序

BMC生物信息学 2019 02 06 20. 1 65

10.1186 / s12859 - 019 - 2633 - 8

30727941

10.1186 / s12859 - 019 - 2633 - 8

PMC6364462

李

问

赵

法典

妈

黄

Xrare:一种机器学习方法，联合建模表型和遗传证据，用于罕见疾病诊断

麝猫地中海 2019 09 21 9 2126 2134

10.1038 / s41436 - 019 - 0439 - 8

30675030

10.1038 / s41436 - 019 - 0439 - 8

PMC6752318

霍尔特

Wilk

桦木

棕色（的）

Gajapathy

米

莫斯

交流

Sosonkina

NgydF4y2Ba

Wilk

妈

安德森

晶澳

哈里斯

凯利

Shaterferdosian

Uno-Antonison

Weborg

一个

未确诊疾病网络 Worthey

VarSight:用二元分类算法优先考虑临床报告的变异

BMC生物信息学 2019 10 15 20. 1 496

10.1186 / s12859 - 019 - 3026 - 8

31615419

10.1186 / s12859 - 019 - 3026 - 8

PMC6792253

杨

罗宾逊

王

Phenolyzer:基于表型的人类疾病候选基因的优先排序

Nat方法 2015 09 12 9 841 3.

10.1038 / nmeth.3484

26192085

nmeth.3484

PMC4718403

德拉维嘉

调频

Chowdhury

年代

摩尔

毛圈绒头织物

麦卡锡

埃尔南德斯

黄

詹姆斯

Guidugli

Agrawal

Genetti

布朗斯坦

贝格斯说

啊

Loscher

Britt-Sabina

因特网

一个

布恩

莱维

Ounap

凯特琳

Pajusalu

年代

eric reiman

米

拉姆齐

Naymik

米

Narayanan

Veeraraghavan

NgydF4y2Ba

比林斯

瑞茜

毫克

扬德尔

米

金斯默尔

科幻小说

人工智能能够全面解读基因组，并提名罕见遗传疾病的候选诊断

基因组医学 2021 10 14 13 1 153

10.1186 / s13073 - 021 - 00965 - 0

34645491

10.1186 / s13073 - 021 - 00965 - 0

PMC8515723

Rentzsch

威滕

库珀

Shendure

柯切

米

CADD:预测人类基因组变异的危害性

核酸测定 2019 01 08 47 D1 D886 D894

10.1093 / nar / gky1016

30371827

5146191

PMC6323892

越南盾

魏

姜ydF4y2Ba

吉布斯

Boerwinkle

王

刘

全外显子组测序研究中非同义snv毒性预测方法的比较与整合

哼Mol Genet 2015 05 15 24 8 2125 37

10.1093 /物流/ ddu733

25552646

ddu733

PMC4375422

单例

Guthery

Voelkerding

程ydF4y2Ba

肯尼迪

Margraf

Durtschi

Eilbeck

瑞茜

毫克

Jorde

磅

发怒

扬德尔

米

Phevor结合了多种生物医学本体，用于准确识别单个个体和小型核心家族中的致病等位基因

我是热内吗 2014 04 03 94 4 599 610

10.1016 / j.ajhg.2014.03.010

24702956

s0002 - 9297 (14) 00112 - 8

PMC3980410

Adzhubei

施密特

年代

Peshkin

Ramensky

已经

Gerasimova

一个

博克

Kondrashov

作为

Sunyaev

老

一种用于预测破坏性错义突变的方法和服务器

Nat方法 2010 04 7 4 248 9

10.1038 / nmeth0410 - 248

20354512

nmeth0410 - 248

PMC2855889

个人电脑

Henikoff

年代

SIFT:预测影响蛋白质功能的氨基酸变化

核酸测定 2003 07 01 31 13 3812 4

10.1093 / nar / gkg509

12824425

PMC168916

施瓦兹

库珀

Schuelke

米

娄

MutationTaster2:深度测序时代的突变预测

Nat方法 2014 04 11 4 361 2

10.1038 / nmeth.2890

24681721

nmeth.2890

罗宾逊

科勒

年代

鲍尔

年代

娄

角

Mundlos

年代

人类表型本体论:注释和分析人类遗传疾病的工具

我是热内吗 2008 11 83 5 610 5

10.1016 / j.ajhg.2008.09.017

18950739

s0002 - 9297 (08) 00535 - 1

PMC2668030

20.

许

面向精准医学基因诊断的综合遗传变异分析系统(硕士论文)

NDLTD 2018

2022-08-31

台湾台北市

国立台湾大学

https://hdl.handle.net/11296/v9rcd8

ChenT-F

基于文本挖掘的Exome数据变体优先排序器

南洋理工大学论文及论文资料库 2018

2022-08-31

台湾台北市

国立台湾大学

https://tdr.lib.ntu.edu.tw/handle/123456789/17687?mode=full

王

李

米

Hakonarson

ANNOVAR:高通量测序数据中遗传变异的功能注释

核酸测定 2010 09 38 16 e164

10.1093 / nar / gkq603

20601685

gkq603

PMC2938201

麦克拉伦

吉尔

亨特

Riat

海关

里奇

GRS

Thormann

一个

Flicek

坎宁安

整体变异效应预测器

基因组医学杂志 2016 06 06 17 1 122

10.1186 / s13059 - 016 - 0974 - 4

27268795

10.1186 / s13059 - 016 - 0974 - 4

PMC4893825

Stromberg

米

罗伊

Lajugie

姜

李

马格里斯

涅槃:临床级变体注释器

2017

第八届ACM生物信息学、计算生物学和健康信息学国际会议

2017年8月20日至23日

波士顿

纽约州纽约

计算机协会

10.1145/3107411.3108204

李

问

王

InterVar:根据2015年ACMG-AMP指南对遗传变异的临床解释

我是热内吗 2017 02 02 One hundred. 2 267 280

10.1016 / j.ajhg.2017.01.004

28132688

s0002 - 9297 (17) 30004 - 6

PMC5294755

它

乔丹

李

莱利

张成泽

鲁宾斯坦

教堂

Maglott

博士

ClinVar:序列变异和人类表型之间关系的公共档案

核酸测定 2014 01 42 数据库问题 D980 5

10.1093 / nar / gkt1113

24234437

gkt1113

PMC3965032

斯滕森

球

电动汽车

莫特

米

菲利普斯

Shiel

晶澳

托马斯。

望远镜

Abeysinghe

年代

Krawczak

米

库珀

人类基因突变数据库:2003年更新

哼Mutat 2003 07 21 6 577 81

10.1002 / humu.10212

12754702

风扇

林

李

台湾生物库:一个旨在帮助台湾向生物医学岛过渡的项目

药物基因组学 2008 02 9 2 235 46

10.2217 / 14622416.9.2.235

18370851

理查兹

年代

阿齐兹

NgydF4y2Ba

贝尔

年代

比克

达斯

年代

Gastier-Foster

族群的

对冲基金

米

里昂

斯佩克特

Voelkerding

雷姆曾为此写过

霍奇金淋巴瘤

实验室质量保证委员会

序列变异解释的标准和指南:美国医学遗传学和基因组学学院和分子病理学协会的联合共识建议

麝猫地中海 2015 05 17 5 405 24

10.1038 / gim.2015.30

25741868

gim201530

PMC4544753

30.

Glassberg

电子商务

高

Harpak

一个

兰特

普里查德

人类基因表达选择性约束的测量

bioRxiv 2022

10.1101/345801

阿伦森

基于“增大化现实”技术

有效地将生物医学文本映射到UMLS metthesaurus: MetaMap程序

Proc AMIA Symp 2001 17 21

11825149

D010001275

PMC2243666

阿伦森

基于“增大化现实”技术

朗

MetaMap概述:历史视角和最新进展

美国医学信息协会 2010 17 3. 229 36

10.1136 / jamia.2009.002733

20442139

17/3/229

PMC2995713

林德伯格

轻拍

汉弗莱斯

提单

麦克雷

在

统一医学语言系统

医学通知 2018 03 05 02 01 41 51

10.1055 / s - 0038 - 1637976

刘

佩雷斯Kury

李

助教

王

翁

Doc2Hpo:一个高效和准确的HPO概念管理的web应用程序

核酸测定 2019 07 02 47 W1 W566 W570

10.1093 / nar / gkz386

31106327

5491745

PMC6602487

Tchechmedjiev

一个

Abdaoui

一个

Emonet

梅尔齐

年代

Jonnagaddala

Jonquet

使用NCBO注释器注释和索引临床文本的增强功能

生物信息学 2018 06 01 34 11 1962 1965

10.1093 /生物信息学/ bty009

29846492

4802221

PMC5972606

李

IDF回顾:Robertson-Spärck Jones概率模型中的一个简单的新推导

2007 7

SIGIR '07:关于信息研究与开发的第30届国际ACM SIGIR会议记录

2007年7月23-27日

荷兰阿姆斯特丹

纽约州纽约

ACM

751 752

10.1145/1277741.1277891

罗伯逊

年代

沃克

年代

比尤利

毫米

Okapi在trc -7:自动特设，过滤，VCL和交互式轨道

微软 1999 01

2022-08-31

马里兰州盖瑟斯堡

国家标准和技术研究所

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/okapi_trec7.pdf

Maglott

Ostell

普瑞特

Tatusova

基因:NCBI的基因中心信息

核酸测定 2005 01 01 33 数据库问题 D54 8

10.1093 / nar / gki031

15608257

33 / suppl_1 / D54

PMC539985

魏

花王

陆

PubTator:一个基于web的文本挖掘工具，用于辅助生物存储

核酸测定 2013 07 41 Web服务器问题 W518 22

10.1093 / nar / gkt441

23703206

gkt441

PMC3692066

Hintzsche

罗宾逊

佤邦

棕褐色

交流

分析和解释整个外显子组测序数据的计算工具综述

Int J基因组学 2016 2016 7983236

10.1155 / 2016/7983236

28070503

PMC5192301

Doniger

西南

金

海关

斯温

Corcuera

威廉姆斯

米

杨

年代

费伊

酵母中性和有害多态的目录

公共科学图书馆麝猫 2008 08 29 4 8 e1000183

10.1371 / journal.pgen.1000183

18769710

PMC2515631

巴勒

Antipin

砂光机

预测蛋白质突变的功能影响:应用于癌症基因组学

核酸测定 2011 09 01 39 17 e118

10.1093 / nar / gkr407

21727090

gkr407

PMC3177186

Shihab

哈

高夫

库珀

斯滕森

巴克

杯子

爱德华兹

一天

立即通知

憔悴的

使用隐马尔可夫模型预测氨基酸取代的功能、分子和表型后果

哼Mutat 2013 01 34 1 57 65

10.1002 / humu.22225

23033316

PMC3558800

崔

西姆斯

通用电气

墨菲

年代

米勒

小

陈

美联社

预测氨基酸取代和吲哚的功能效应

《公共科学图书馆•综合》 2012 7 10 e46688

10.1371 / journal.pone.0046688

23056405

玉米饼- d - 12 - 10334

PMC3466303

Jagadeesh这位

卡

温格

我

伯杰

乔丹

Guturu

斯滕森

库珀

伯恩斯坦

晶澳

Bejerano

M-CAP以高敏感性消除临床外显子中大多数不确定意义的变异

Nat麝猫 2016 10 24 48 12 1581 1586

10.1038 / ng.3703

达维多夫

电动汽车

古德

戴斯。莱纳姆:

Sirota

米

库珀

通用汽车

Sidow

一个

Batzoglou

年代

利用GERP++识别出高比例的人类基因组处于选择性约束下

PLoS计算生物学 2010 12 02 6 12 e1001025

10.1371 / journal.pcbi.1001025

21152010

PMC2996323

广

程ydF4y2Ba

谢

DANN:用于注释遗传变异致病性的深度学习方法

生物信息学 2015 03 01 31 5 761 3.

10.1093 /生物信息学/ btu703

25338716

btu703

PMC4341060

Shihab

哈

罗杰斯

曼氏金融

高夫

莫特

米

库珀

一天

立即通知

憔悴的

坎贝尔

预测非编码和编码序列变异的功能效应的综合方法

生物信息学 2015 05 15 31 10 1536 43

10.1093 /生物信息学/ btv009

25583119

btv009

PMC4426838

陆

问

胡

太阳

程

张

赵

通过对注释数据的综合分析，预测人类基因组中功能性非编码区域的统计框架

Sci代表 2015 05 27 5 1 10576 13

10.1038 / srep10576

26015273

srep10576

PMC4444969

Gulko

Hubisz

乔丹

Gronau

我

Siepel

一个

一种计算人类基因组点突变适应度结果概率的方法

Nat麝猫 2015 03 47 3. 276 83

10.1038 / ng.3196

25599402

ng.3196

PMC4342276

Hubisz

乔丹

波拉德

Siepel

一个

PHAST和RPHAST:空间/时间模型的系统发育分析

短暂Bioinform 2011 01 12 1 41 51

10.1093 /龙头/ bbq072

21278375

bbq072

PMC3030812

Siepel

一个

Bejerano

需要好好

Hinrichs

作为

侯

米

罗

克劳森

Spieth

希利尔

理查兹

年代

魏因斯托克

通用汽车

威尔逊

吉布斯

类风湿性关节炎

肯特

米勒

Haussler

脊椎动物、昆虫、蠕虫和酵母基因组中的进化保守元素

基因组Res 2005 08 15 15 8 1034 50

10.1101 / gr.3715005

16024819

gr.3715005

PMC1182216

加伯

米

格特曼

米

夹

米

Zody

米

弗里德曼

NgydF4y2Ba

谢

利用偏置替换模式识别新的约束元素

生物信息学 2009 07 15 25 12 i54 62

10.1093 /生物信息学/ btp190

19478016

btp190

PMC2687944

刘

吴

李

Boerwinkle

dbNSFP v3.0:人类非同义和拼接站点snv的功能预测和注释的一站式数据库

哼Mutat 2016 03 37 3. 235 41

10.1002 / humu.22932

26555599

PMC4752381

Pedregosa

Varoquaux

Gramfort

一个

米歇尔

蒂里翁

Grisel

Scikit-learn: python中的机器学习

机器学习研究杂志 2011 12 2825 2830

Kraskov

一个

Stogbauer

Grassberger

估计互信息

理论物理。启E 2004 6 23 69 6 066138 - 1 066138 - 16

10.1103 / physreve.69.066138

罗斯

公元前

离散数据集和连续数据集之间的互信息

《公共科学图书馆•综合》 2014 2 19 9 2 e87357

10.1371 / journal.pone.0087357

24586270

玉米饼- d - 13 - 49753

PMC3929353

Breiman

随机森林

机器学习 2001 45 5 32

10.1023 /: 1010933404324

Breiman

随机森林简单模型的一致性

加州大学伯克利分校 2004

2022-08-31

https://www.stat.berkeley.edu/~breiman/RandomForests/consistencyRFA.pdf

埃勒曼

逻辑熵:经典和量子逻辑信息论导论

熵(巴塞尔) 2018 10 06 20. 9 679

10.3390 / e20090679

33265768

e20090679

PMC7513204

Birgmeier

Haeussler

米

戴瑟罗斯

Jagadeesh这位

卡

拉特纳

Guturu

温格

我

斯滕森

库珀

再保险

伯恩斯坦

晶澳

Bejerano

AMELIE直接从原始文献中加速了孟德尔式的患者诊断

bioRxiv 预印本于2017年8月2日在线发布

10.1101/171322

本文作者

Plaschkes

我

Oz-Levi

Alkelai

一个

Olender

齐默尔曼

年代

Twik

米

Belinky

Fishilevich

年代

Nudel

Guan-Golan

Warshawsky

Dahary

科恩

一个

Mazor

卡普兰

年代

Iny斯坦

巴里斯

接下来的

Rappaport

NgydF4y2Ba

赛峰集团

米

《柳叶刀》

VarElect: GeneCards套件中基于表型的变异优先排序器

BMC基因组学 2016 06 23 17补充2 S2 444 206

10.1186 / s12864 - 016 - 2722 - 2

27357693

10.1186 / s12864 - 016 - 2722 - 2

PMC4928145

克拉克

毫米

展示缜密心思

一个

Batalov

年代

丁

Chowdhury

年代

沃特金斯

埃尔斯沃斯

营

号

列举的

Farnaes

班布里奇

锰

毕比

布劳恩

环流

布雷

米

卡罗尔

Cakici

晶澳

Caylor

克拉克

信条

国会议员

弗里德曼

弗里斯

一个

获得

Gaughran

米

乔治

年代

基尔默

年代

格里森

戈尔

Grunenwald

霍维

琼斯

毫升

林

麦多纳

麦克布莱德

Mulrooney

-纳哈斯

年代

哦

Oriol

一个

帕克特

瑞迪

瑞茜

毫克

Ryu

萨尔茨

桑福德

斯图尔特

斯威尼

NgydF4y2Ba

Tokita

米

范德克朗

白色

年代

Wigby

威廉姆斯

黄

莱特

女士

山田

一流

Reynders

大厅

Dimmock

Veeraraghavan

NgydF4y2Ba

Defay

金斯默尔

科幻小说

通过快速全基因组测序和自动化表型和解释诊断重症儿童的遗传疾病

科学翻译医学 2019 04 24 11 489 eaat6177

10.1126 / scitranslmed.aat6177

31019026

11/489 / eaat6177

斯梅德利

Oellrich

一个

科勒

塞巴斯蒂安。

Ruef

桑格小鼠遗传学项目韦斯特菲尔德

米

罗宾逊

刘易斯

年代

Mungall

PhenoDigm:分析将动物模型与人类疾病相关联的策划注释

数据库(牛津) 2013 2013 bat025

10.1093 /数据库/ bat025

23660285

bat025

PMC3649640

华盛顿

问

Haendel

妈

Mungall

ashburn

米

韦斯特菲尔德

米

刘易斯

利用基于本体的表型注释将人类疾病与动物模型联系起来

公共科学图书馆杂志 2009 12 24 7 11 e1000247

10.1371 / journal.pbio.1000247

19956802

PMC2774506

Ayadi

一个

赌博

米

Bottomley

布赛尔

福克斯

战斗

米

Gailus-Durner

格林纳威

年代

霍顿

卡普

NgydF4y2Ba

勒布朗

年代

愣

麦尔

马龙

一个

Marschall

年代

梅尔文

摩根

Pavlovic

赖德

夕卡岩

Selloum

米

Ramirez-Solis

Sorg

Teboul

Vasseur

墙体

一个

韦弗

井

年代

白色

布拉德利

一个

亚当斯

钢

安吉利斯

米

棕色（的）

Herault

小鼠大规模表型计划:欧洲小鼠疾病诊所(EUMODIC)和威康基金会桑格研究所小鼠遗传学项目概述

Mamm基因组 2012 10 23 9 - 10 600 10

10.1007 / s00335 - 012 - 9418 - y

22961258

PMC3463797

布尔特

埃皮格

布莱克

晶澳

Kadin

晶澳

理查森

我

小鼠基因组数据库组

小鼠基因组数据库:人类疾病的基因型、表型和模型

核酸测定 2013 01 41 数据库问题 D885 91

10.1093 / nar / gks1115

23175610

gks1115

PMC3531104

豪

布拉德福德

为人

鹰

Fashena

弗雷泽

骑士

摩尼

马丁

莫克森

坐

围场

Pich

拉玛钱德朗

年代

Ruef

拉·

Schaper

邵

歌手

一个

跳出来

范Slyke

韦斯特菲尔德

米

ZFIN，斑马鱼模式生物数据库:增加对突变体和转基因的支持

核酸测定 2013 01 41 数据库问题 D854 60

10.1093 / nar / gks938

23074187

gks938

PMC3531097