这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用首次发表在JMIR生物信息学和生物技术上的原创作品。必须包括完整的书目信息,https://bioinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
近年来,得益于新一代测序(NGS)技术的快速发展,可以在短时间内对整个人类基因组进行测序。因此,NGS技术正被广泛应用于临床诊断实践,特别是遗传性疾病的诊断。虽然使用这些方法可以生成单核苷酸变异(SNV)的外显子组数据,但处理患者的DNA序列数据需要多种工具和复杂的生物信息学管道。
本研究旨在协助医生在短时间内自动解读由NGS产生的遗传变异信息。目前,为了确定遗传疾病患者的真正因果变异,医生通常需要手动查看每个变异的大量特征,并在不同的数据库中搜索文献,以了解遗传变异的影响。
我们构建了一个机器学习模型,用于预测外显子组数据中的致病变异。我们从全外显子组测序(whole-exome sequencing, WES)和基因面板中收集测序数据作为训练集,然后整合多个基因数据库中的变体注释进行模型训练。建立的模型对snv进行排序,并输出最可能的致病候选。为了进行模型检验,我们收集了国立台湾大学医院108例罕见遗传性疾病患者的WES数据。我们将通过关键字提取工具从患者电子病历中自动提取的测序数据和表型信息应用到我们的机器学习模型中。
经过筛选后,我们在平均每人741个候选变异中,成功地在排名前10位的致病变异中定位了92.5%(124/134)。AI Variant priority能够为大约61.1%(66/108)的患者将目标基因分配到最高级别,其次是Variant priority,为44.4%(48/108)的患者分配了目标基因。累积排名结果显示,我们的AI变体优先排序器在排名1、5、10和20处具有最高的准确性。这也表明AI变体优先排序器表现出比其他工具更好的性能。通过数据库查询,采用人类表型本体(Human Phenotype Ontology, HPO)术语后,前10名的排名可以增加到93.5%(101/108)。
我们成功地将WES的测序数据和关键字提取工具自动提取的患者疾病的自由文本表型信息应用于模型训练和测试。通过解释我们的模型,我们确定了变量的哪些特征是重要的。此外,我们在测试数据集中找到了目标变量,取得了令人满意的结果。通过查询数据库采用HPO术语后,前10名的排名可以增加到93.5%(101/108)。该模型的性能与人工分析相似,并已用于台大医院的基因诊断。
现代次基因组测序(NGS)技术使人类基因组在一天内快速测序成为可能[
虽然NGS具有极高的吞吐量,并可以在短时间内生成大量的基因组数据,但解释这些数据并在数千个变体中找到致病候选者仍然是一个挑战。为了确定遗传疾病患者的真正因果变异,医生通常需要手动查看每个变异的大量特征,并在不同的数据库中搜索文献,以了解遗传变异的影响。另一个挑战是寻找与患者表型密切相关的遗传变异。医生经常从病人的电子病历(EMRs)中手动选择有用的关键词,以在多个基因数据库中搜索文章,例如在线孟德尔遗传在人(OMIM) [
如今,许多研究使用机器学习方法来解决基因组学和遗传学中的许多问题。机器学习领域有望使计算机帮助人类理解庞大而复杂的数据集。在变体注释之后,有一个包含数百列的变体列表,人类无法逐个解释。由于机器学习显著超过了人类水平的性能,特别是在结构化数据方面,我们考虑使用机器学习方法来分析NGS中的变体并找到目标基因。
为了解决这些问题,有一种高性能的方法从NGS结果中过滤候选变异,并立即找到与患者疾病相关的目标变异是非常重要和必要的。最近,许多工具,如Exomiser [
在这项研究中,我们的目标是实现一个网站,AI Variant priorities,该网站使用来自NGS生物信息学管道的数据和机器学习来预测snv和患者表型中最可能的致病变体。从NGS管道生成的数据都是用ANNOVAR、Nirvana、Variant Effect Predictor (VEP)和InterVar等工具的注释结构化的,以及MViewer (Mutation Viewer)查询的多个数据库的附加信息[
在我们的研究中,我们专注于被诊断患有罕见孟德尔疾病的患者。我们的资料主要来自国立台湾大学医院医学遗传科的快速外显子组项目。为了使用更多数据构建模型,我们还申请了存储在dbGaP数据库(项目ID 20911)中的几个WES数据。我们使用的数据是dbGaP访问phs000711.v5。p1由贝勒霍普金斯孟德尔基因组学中心。
为满足本研究的要求,我们收集患者测序数据的条件如下:
被诊断患有遗传疾病的病人。
接受WES或靶向测序并被诊断患有至少一种致病变异的患者。
有表型信息的患者。
我们来自NTUH的数据包括患者人口统计数据,NGS生物信息学管道输出的变体呼叫格式(VCF)文件,以及来自电子病历的表型信息。来自dbGaP的数据还包括患者人口统计、VCF文件和临床情况。所有数据都经过身份识别,不会侵犯患者隐私。我们将患者人口统计信息中的性别作为我们模型中的一个特征,因为一些人类遗传疾病与性别有关。与性别相关的疾病是由X或Y染色体上的基因突变引起的,并通过家族遗传。
作为NGS生物信息学管道的最终产品,VCF是用于存储DNA多态性数据(如snp、插入、删除和结构变异)的通用格式。这种格式是为1000个基因组计划开发的,也被其他项目广泛采用。每个VCF文件由2两个部分组成:头部分和数据部分。标头包含关于数据部分中的标记和注释的元数据。它还可以用于提供与数据和文件的历史相关的信息。标头中的最后一行包含数据部分的列标题。数据部分分为9列,并为每行报告一个突变。列包括CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO和FORMAT。
对于来自NTUH的数据,我们从临床医生的病史总结中提取患者的表型信息。主要记录患者病情、临床诊断、入院原因的简要总结。我们还根据每个患者的症状收集医生提供的表型关键词进行模型验证。对于来自dbGaP的数据,由于没有EHRs,我们将使用患者的临床情况。对于在OMIM数据库中可以找到的临床病症,我们将提取相应的表型描述作为我们研究的表型信息。
研究工作流程。EMR:电子病历;indel:插入/删除;MViewer:突变查看器;SNV:单核苷酸变体;VCF:可变呼叫格式。
我们在VCF文件中收集了每位患者的NGS测序数据,并从包括ANNOVAR [
这描述了特定等位基因在特定人群中的基因拷贝比例。等位基因频率的计算方法是将种群中特定等位基因的拷贝数除以该基因在种群中所有等位基因的总数。它指的是一个等位基因在一个群体中的普遍程度。
一系列评分算法,能够根据变异中的不同信息(如序列同源性、蛋白质结构和进化守恒)预测变异的潜在危害性。这些评分方法包括功能预测评分、保护评分和集成评分。
ClinVar和人类基因突变数据库(HGMD)两个公共数据库中报告的临床意义变异,这些数据库存储了与人类遗传性疾病相关的基因突变信息。两者都将变异分类为引起疾病或由人工管理相关的疾病。
美国医学遗传学和基因组学学院(ACMG)和分子病理学协会(AMP)根据28项标准发布了关于人类疾病序列变异的临床解释标准和指南[
基因表达水平的限制已被证明会影响人类遗传变异的模式[
与变异相关的性状或疾病可以通过家族遗传的遗传模式,如常染色体显性遗传、常染色体隐性遗传、x连锁遗传和线粒体遗传。我们使用OMIM(在线孟德尔人遗传)中定义的模式作为我们的数据。
关于遗传变异的附加信息,如基因名称、基因型和基因不同转录本或近端调控区域的功能后果。
在WES数据中,每个先证者平均有40000个变体。然而,大多数是良性的,与症状无关。这些变异中只有一小部分可能是有害的或与患者的疾病有关。在标准的临床分析过程中,医生只关注可能致病或未知的变异。由于我们的模型旨在帮助研究人员和医生进行临床外显子组阅读,因此有必要减少变异的数量,并专注于更有可能导致疾病的变异。
为了生成候选变量,我们使用MViewer提供的过滤器来删除不太可能有害的变量。过滤器和标准列在
过滤标准。
过滤器 | 列 | 标准 |
最大等位基因频率 |
最大等位基因频率 |
≤0.01(不含数据) |
非同义错义突变 |
ExonicFunc.refgene |
“产生” |
停止增加 |
结果 ExonicFunc.refgene |
“stop_gained” “stopgain” |
拼接 |
结果 Func.refgene |
“splice_region_variant” “splice_acceptor_variant” “splice_donor_variant” “拼接” |
移码的 |
结果 ExonicFunc.refgene |
“frameshift_variant” “feature_truncation” “feature_elongation” “转移” |
初始密码子 |
结果 |
“start_lost” |
删除 |
类型 结果 ExonicFunc.refgene |
“删除” |
插入 |
类型 结果 ExonicFunc.refgene |
“插入” |
Inframe删除 |
结果 ExonicFunc.refgene |
“inframe_deletion” “nonframeshift删除” |
外显子/拼接网站 |
Func.refgene 结果 |
“其实” “拼接” “coding_sequence_variant” “frameshift_variant” “incomplete_terminal_codon_variant” “inframe_deletion” “inframe_insertion” “missense_variant” “splice_acceptor_variant” “splice_donor_variant” “splice_region_variant” |
本研究使用的表型信息来自临床医生的病史总结。这些记录都是自由文本,文本长度从少于10字到超过300字不等。在临床分析过程中,医生手工翻阅病历、识别表型关键字耗时较长。为了解决这个问题,我们使用了几个关键字提取工具,从自由文本的医疗记录中自动生成与表型相关的关键字。在我们的研究中应用的关键字提取工具在以下部分中列出。
MetaMap [
Doc2Hpo [
另一种构建基因和关键词之间联系的方法是使用Okapi BM25排序函数。Okapi BM25通常由搜索引擎(如谷歌和Bing)使用,根据匹配文档与给定搜索的相关性对其进行排名。该函数最突出的实例之一如下所示:
分数(
在哪里
在本研究中,我们提出了一种以OMIM和GeneReviews中的基因描述为文档,以关键词为查询来实现Okapi BM25排序功能的想法。因此,我们可以用Okapi BM25评分来表示基因描述与关键词之间的关系。关键词中的基因描述得分越高,说明该基因与关键词之间的联系越强。排名值基于前面提到的Okapi BM25排名函数和一些其他参数。与Okapi BM25正则公式相比,rank值将IDF函数替换为Robertson-Spärck-Jones weight [
我们从变体优先排序器(Variant priority)获得每个SNV的表型-基因相似度评分,这是一种文本挖掘工具,通过输入症状作为关键字来输出基因的排名和评分。变体优先排序器使用Okapi BM25排序功能[
其中ω为Robertson-Spärck-Jones权重[
在哪里
我们使用Variant priority API从每个数据源获取RANK值作为基因相似度评分,以表示每个SNVs与提取的关键字之间的关联。我们保留了rank值的最大值和最小值(总共4分)作为2个单独的特征来构建模型。
本回顾性队列研究由台大医院机构评审委员会(IRB)批准(IRB编号:201710066RINB)。我们确认所有的实验都是按照相关的准则和规定进行的。研究小组从电子病历中检索到的数据已被识别,无法与患者的身份联系起来。由于这是一项回顾性队列研究,数据不确定,因此由台大医院IRB (201710066RINB)确认并免除了书面知情同意的需要。本规定符合《健康保险携带与责任法案》(HIPAA),即对未识别健康信息的使用或披露没有限制。
在VCF文件的变体注释之后,我们将数据预处理为模型可接受的格式。数据预处理是机器学习中极其重要的一步,因为数据的质量会直接影响模型的学习能力。它包括各种操作,每个操作都旨在帮助机器学习建立更好的预测模型。本研究中使用的数据预处理操作将在以下部分中解释。
在现实世界中,数据通常有缺失值。例如,在基因型变量中,大多数机器学习方法不能处理空值,识别并正确处理缺失值是关键。基本上,缺失的值可以使用各种技术来处理,如删除或imputation [
许多机器学习算法不能直接对分类数据进行操作。它们要求所有的输入特征都是数字的。基本上,分类数据包含标签值而不是数值。因此,分类数据必须转换为数字形式,以便在机器学习模型中使用。一种热编码是处理分类数据的普遍方法。一种热编码将分类列转换为多维向量。它创建新列,指示原始数据中每个可能值的存在。
例如,在基因型变量中,有3类:纯合子(hom)、杂合子(het)和半合子(hem)。因此,需要3个二进制变量[hom, het, hem]。如果一个变异的基因型是杂合的,我们使用[
对于连续数据,有一些具有不同的范围。如果我们将范围非常不同的特征应用到一些机器学习模型中,如逻辑回归,范围更广的特征由于其值更大,对结果的内在影响更大。然而,这并不一定意味着这个特征作为一个预测因素更重要。因此,我们使用归一化技术来解决这个问题。归一化是从原始范围重新缩放数据,使所有值都在0到1的范围内。我们通过最小-最大归一化重新缩放所有连续值。一般公式如下:
在哪里
功能预测评分,包括SIFT [
我们采用了基于美国医学遗传学和基因组学学院/分子病理学协会(ACMG/AMP) 2015年指南的每种遗传变异的临床解释,该指南由InterVar生成。我们计算了Xrare开发的ACMG评分来代表其总体致病性。ACMG评分是基于多个证据(n=14)的加权和评分,每个项的权重如下:PVS1:6, PS1:4, PM1:2, PM2:2, PM4:2, PM5:2, PP2:1, PP3:1, BA1:9, BS1:3, BS2:3, BP3:1, BP4:1, BP7:2 [
我们研究的目标是用snv识别致病变异(即,我们将一个变异分类为致病或不致病)。由于机器学习算法从示例中学习如何为测试用例分配类标签,因此有必要为所有输入训练集分配类标签。我们使用0/1标记来表示一个变体是否引起疾病。如果一个变量是致病的,我们就给它贴上标签1;否则标签为0。关于我们模型中使用的所有特征的详细信息,请参见
经过数据预处理,每个变量得到94个特征。为了降低输入数据集的高维,同时保留分类问题的歧视性信息,我们应用了scikit-learn中的单变量特征选择技术[
scikit-learn单变量特征选择模块提供了几个评分函数。我们使用互信息分类器来选择最相关的变量。互信息[
在哪里
我们只使用训练集来确定相关变量,从而执行特征选择过程。此外,我们选择的特征数量是基于10倍交叉验证的模型评估
为了通过机器学习算法构建模型,我们将数据分为2组。由于我们的模型旨在协助医生进行临床外显子组数据解释过程,因此将来自dbGaP数据库的外显子组数据和来自NTUH的目标基因面板测序数据设置为训练集,将来自NTUH的WES数据设置为测试数据。只能用于模型评价。外部验证集包括90个最新的NTUH WES数据,这有助于确保我们的模型可以在未来的临床使用中进行预测。中列出了有关训练和测试集的详细信息
为了建立机器学习模型,我们实现了随机森林算法[
训练集是原始训练集的自举样本。
要构建的树的数量和在每次分裂m-try时作为候选随机抽样的变量的数量由用户设置,其中m-try小于变量的总数。
在每个节点上随机选择m-try变量,并在m-try间的最佳分裂点上对节点进行分裂。这个过程不断迭代,直到树生长到最大深度。
对于测试用例预测,作为测试向量
我们用来衡量分割质量的函数是基尼杂质。基尼杂质是数据集中随机选择的元素,如果根据数据集中的类分布随机标记,则错误分类的概率[
本研究中使用的训练、测试和外部验证集。
数据 | 训练集 | 测试组 | 外部验证集 |
源 | dbGaP一个,台大医院b面板 | 台大医院韦斯c | 新NTUH WES |
病人,n | 381 | 108 | 90 |
过滤变量,n | 125693年 | 80083年 | 109857年 |
致变变量n | 478 | 134 | One hundred. |
一个dbGaP:基因型和表型数据库。
b国立台湾大学附属医院。
cWES:全外显子组测序。
为了评估我们的真实原因变量优先级排序的模型性能,我们使用了VarSight中提到的排名统计数据。在我们将二元分类过程应用于所有变体之后,我们得到了每个变体的概率,它代表了该变体引起疾病的概率。我们将每个患者的变异从最高概率到最低概率进行排序,并量化排名在前1、5、10、20的目标变异的百分比。
对于特征选择,我们使用了基于scikitlearn包中的SelectPercentile方法的单变量特征选择。我们选择的分类器是互信息分类器。只使用训练集来选择最相关的特征。此外,我们应用了10倍交叉验证来确定用于模型训练的特征数量。在
使用不同百分比的特征进行10倍交叉验证的前10个准确性。
我们用我们的测试集评估模型。正如在
我们基于前一节中描述的方法构建了一个随机森林模型,并使用基于不同关键字提取工具的测试集对其进行评估。经过筛选后,我们在平均每人741个候选变异中,成功地在排名前10位的致病变异中定位了92.5%(124/134)。该模型的性能与人工分析相似,并已用于台大医院的基因诊断。
职级百分比分布。
职级的累积百分比分布。国家生物医学本体中心。
我们还评估了其他机器学习方法,并将它们的性能与随机森林进行了比较。这些方法包括逻辑回归、高斯朴素贝叶斯、RBF核支持向量机和梯度增强决策树。每种算法的超参数选择基于网格搜索和10倍交叉验证。我们使用MetaMap作为关键字提取工具,并使用测试数据来测试每种方法的性能。各机器学习方法对目标变量排序的百分比分布以及各模型的累积排序结果如所示
职级百分比分布。GBDT:梯度增强决策树;支持向量机:支持向量机。
职级的累积百分比分布。GBDT:梯度增强决策树;支持向量机:支持向量机。
我们已经实现了一个网站,AI Variant priorities,它使用来自NGS生物信息学管道的数据,使用机器学习对snv和患者表型数据中最可能的致病变异进行预测。该系统可以帮助研究人员和医生专注于那些较高的致病概率,并减少整个WES管道的平均周转时间(1天),从DNA提取到临床诊断。此外,我们还为我们的系统实现了一个web API,以便将排名功能集成到MViewer中。因此,医生可以通过单一应用来解释遗传变异的结果,而不是采用大量的服务。
为了进行比较,我们使用测试数据运行了几个优先级排序工具,包括AMELIE [
与通过手动将HPO术语映射到SNOMED临床术语(SNOMED CT)从SNOMED中提取表型特征进行比较[
Phevor和PhenoDigm都构建了连接HPO和其他本体的新方法,以发现更多的基因疾病关联。Phevor收集HPO和基因本体论(GO)提供的所有疾病和基因的相关性,并构建几个网络(图),并沿着找到的路径分配权重递减。特定基因节点上的权值之和表示该基因与对应HPO项的相关得分。PhenoDigm利用OWLSim [
职级百分比分布。AI:人工智能。
职级的累积百分比分布。AI:人工智能。
AI Variant priority, Fabric GEM, MOON, Exomiser的比较。
工具 | 人工智能一个变体优先排序器 | 织物的宝石 | 月亮 | Exomiser |
变分算法 | 随机森林 | 贝叶斯因子 | 决策树,贝叶斯模型,神经网络 | 基于规则的 |
Phenotype-gene得分 | 变体优先排序器 | Phevor | Phevor | PhenoDigm |
表型输入格式 | 纯文本 | HPOb条款 | 从电子健康档案中提取HPO术语 | HPO条款 |
一个AI:人工智能。
bHPO:人类表型本体。
Variant priority, Phevor和PhenoDigm的比较。
工具 | 变体优先排序器 | Phevor | PhenoDigm |
算法 | 霍加皮BM25 | 图算法 | OWLSim |
表型输入格式 | 纯文本 | HPO一个条款 | HPO条款 |
知识库 | 人类b, GeneReviews, Entrez Gene和PubTator | HPO和GOc | OMIM (HPO), Sanger-MGP [ |
一个HPO:人类表型本体。
b在线孟德尔遗传在人。
cGO:基因本体。
为了解释模型预测,我们使用scikit-learn提供的特征重要性方法来确定哪个特征具有最强大的预测能力。
功能的重要性。
我们比较了来自测试集和外部验证集的排名的累积百分比分布。结果显示在
职级百分比分布。
职级的累积百分比分布。
这项研究有几个潜在的局限性。首先,我们无法找到大量的数据进行训练和测试。这不仅限制了机器学习模型的教材数量,也限制了评估训练模型的可用度量。其次,本研究中使用的基因-表型评分没有足够的能力来检测小的或中等的关联,因为它依赖于基因-表型关系向其所使用的数据库报告的频率。最后,该研究没有调整潜在的混杂因素,如饮食和体育活动。这可能会导致潜在的偏差,因为基因表达的方式可能受到患者生活方式的影响。
总的来说,由于缺乏足够的数据,缺乏报道的基因-表型关系,以及缺乏对生活方式的观察,本研究可能存在潜在的偏倚。如果将来有更多的数据和报告,第一个和第二个的影响可以减少。另一方面,生活方式和环境的影响仍然是一个需要更多专门研究的问题。
在这项研究中,我们提出了一个机器学习模型,AI Variant priority,来预测一个变体是否是罕见孟德尔疾病患者的致病原因。我们成功地将WES测序数据和关键字提取工具自动提取的患者疾病自由文本表型信息应用于模型训练和测试。通过解释我们的模型,我们确定了变量的哪些特征是重要的。此外,我们在测试数据集中找到了目标变量,取得了令人满意的结果。在测试了108例患者的WES数据后,我们在过滤过程后,从平均每人741个候选变体中,成功地将93.5% (n=101)的病例定位到排名前10位的致病变体。该模型的性能与NTUH医学遗传学系医生的人工分析相似,并已用于NTUH的遗传诊断。
由于医生几乎所有的时间都在忙着照顾他们的病人,寻找准确的基因诊断所花费的时间是非常重要的。我们的人工智能预测模型可以提供93.5%(101/108)的高概率,从而帮助他们节省几周的时间,如果他们必须手动搜索前十名列表之外的内容。
要完全解释遗传病的致病变异并不是一件容易的工作。由于工具提取关键字的精度会影响我们模型的性能,在未来的工作中,我们将采用一些自然语言处理技术,如BERT (Bidirectional Encoder representation from Transformers)等来更正确地提取关键字。此外,已经建立了AI变体优先排序器模型来分析来自WES数据的snv和小型索引,但我们还没有处理拷贝数变化(CNVs)。CNVs已被认为是重要的遗传变异,与常见和复杂疾病都有关,因此对几种孟德尔遗传疾病和躯体遗传疾病有很大影响。因此,我们将收集有关cnv的数据,并扩展我们的系统对cnv进行注释和过滤的能力。此外,我们将通过添加CNVs作为我们的训练数据来扩大我们的数据集,使AI变体优先器模型能够预测任何类型的致病遗传变异。在实施AI Variant priority之前,使用Variant priority,整个WES管道从DNA提取到临床诊断的平均周转期为5.8 (SD 1.1)天。然而,在实施AI Variant priorities后,NTUH快速三外显子组测序分析的平均周转时间缩短至4.8天(SD 1.2天)。
等位基因频率。
描述本研究中使用的特征。
目标变量,HPO术语,以及测试用例的关键字。HPO:人类表型本体。
美国医学遗传学和基因组学学院
人工智能
分子病理学协会
应用程序编程接口
来自变压器的双向编码器表示
拷贝数变化
电子病历
梯度增强决策树
基因组聚合数据库
基因本体论
人类基因组突变数据库
《健康保险携带和责任法案》
人类表型本体
机构检讨委员会
突变查看器
新一代测序
自然语言处理
台大医院
孟德尔人的遗传
单核苷酸变异
支持向量机
统一医学语言系统
可变呼叫格式
变异效应预测器
本研究由台湾科技部(110-2634-F-002-032-)资助。本出版物中提供的分析基于从dbGaP网站下载的研究数据,dbGaP登录号为phs000744.v4。p2, phs001272.v1。p1, phs000971.v2。p1, phs000711.v6。p2,phs001232.v3.p2. W-LH applied for the data with project name “Variant prioritization for rapid exome analysis of rare genetic disease” (project ID 20911). Data were downloaded from the FTP site of dbGaP after approval.
Y-SH研究模型和数据的可行性,进行形式化分析,开发软件,可视化数据,并撰写初始手稿。CH构思了这个想法,整理了数据,审阅了手稿,并为软件开发团队提供了建议。N-CL和W-LH构思了这个想法,策划了患者数据,并审查和编辑了草案。Y-CC和I-CL对稿件进行了编辑、修改和强化。HW和Y-LL测试了数据性能。FPL监督项目进度,支持项目,管理项目,审核稿件。
没有宣布。