发表在3卷,第一名(2022): Jan-Dec

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/29404,首次出版
通过机器学习预测抗体-抗原结合:数据集的开发和方法的评估

通过机器学习预测抗体-抗原结合:数据集的开发和方法的评估

通过机器学习预测抗体-抗原结合:数据集的开发和方法的评估

原始论文

1澳大利亚悉尼新南威尔士大学计算机科学与工程学院

2日本东京工业大学信息科学与技术学院计算机科学系

通讯作者:

布鲁诺·盖塔博士

计算机科学与工程学院

新南威尔士大学

计算机科学楼(K17)

新南威尔士大学工程路

悉尼,2052年

澳大利亚

电话:61 293857213

电子邮件:bgaeta@unsw.edu.au


背景:哺乳动物的免疫系统能够产生针对各种抗原的抗体,包括细菌、病毒和毒素。重排免疫球蛋白基因的超深度DNA测序在促进我们对免疫反应的理解方面具有相当大的潜力,但由于缺乏高通量、基于序列的方法来预测给定免疫球蛋白识别的抗原,它受到限制。

摘要目的:作为仅从序列数据预测抗体-抗原结合的一步,我们的目标是比较应用于抗体-抗原对整理数据集的一系列机器学习方法,以便从序列数据预测抗体-抗原结合。

方法:从蛋白质数据库和冠状病毒抗体数据库中提取训练和测试数据,并使用分子对接协议生成额外的抗体-抗原对数据。将加权最近邻法、BLOSUM62矩阵最近邻法、随机森林法等机器学习方法应用于该问题。

结果:最终的数据集包含1157种抗体和57种抗原,它们被组合成5041对抗体-抗原对。使用BLOSUM62矩阵的最近邻方法预测相互作用的效果最好,在整个数据集上的准确率约为82%。这些结果为预测抗体-抗原结合的机器学习和数据集创建提供了有用的参考框架,以及协议和考虑因素。

结论:比较了几种机器学习方法来预测蛋白质序列中的抗体-抗原相互作用。数据集(CSV格式)和机器学习程序(Python编码)都可以在GitHub上免费下载。

生物工程学报;2009;31 (1):391 - 391

doi: 10.2196/29404

关键字



DNA测序技术通过允许对存在于个体中的重排免疫球蛋白基因进行大规模测序,为免疫反应提供了新的见解[12]。然而,由于缺乏确定特定免疫球蛋白(即由给定序列编码的免疫球蛋白)与之结合的抗原的方法,这种方法的应用受到限制。个体免疫球蛋白可以通过实验检测,但成本很高;然而,基于序列数据的结合特性的大规模表征目前是不可能的。

抗原结合是由抗体的互补决定区(cdr)介导的,该区域在重免疫球蛋白链和轻免疫球蛋白链之间共享。已经提出了利用结构预测和对接来预测抗体-抗原相互作用的计算方法[3.]。然而,使用这些方法需要了解抗体和抗原的三维结构。从蛋白质序列中直接预测抗体-抗原相互作用仍然是一个悬而未决的问题。

基于机器学习的工具,如mCSM-AB [4]和ADAPT(抗体及蛋白质治疗辅助设计)[5],在预测其他情况下的抗体相互作用方面取得了一些成功。mCSM-AB是一个web服务器,用于预测突变时抗体-抗原亲和力的变化,使用基于图的签名。ADAPT是一个亲和成熟平台,交叉预测和测试,它已经在单克隆抗体上进行了验证。

基于抗体和抗原序列预测抗体是否会与蛋白质抗原结合的更通用的方法仍然难以捉摸,部分原因是缺乏用于开发机器学习模型的综合训练数据。本研究旨在作为实现这一目标的第一步,旨在从一系列来源收集训练数据集,并评估应用机器学习算法来识别该数据集中抗体-抗原对结合的可行性。


数据集

由于缺乏合适的抗体-抗原对,采用计算对接的方法生成训练和测试数据集中的部分数据。ClusPro(波士顿大学)[6-9]和Rosetta (rosettacomons) [10-12web服务器被用来创建配对抗体-抗原复合物的数据集,用于机器学习。ClusPro和Rosetta都用于蛋白质-蛋白质分子对接。Rosetta使用SnugDock (rosettaccommons)算法[10]。Swiss- pdbviewer(瑞士生物资讯研究所)[13]被用来检查得到的蛋白质复合物结构。

从蛋白质数据库(Protein Data Bank, PDB)中随机选取50个抗体-抗原复合物[14]。使用Perl脚本分离抗体-抗原复合物,生成pdb格式的文件以及抗体和抗原的序列。利用Rosetta抗体建模web服务器定位cdr。通过ClusPro(仅用于确定定向)将抗原与一系列抗体对接,然后使用Rosetta的抗体对接程序SnugDock。为了使计算时间可控,并非所有抗体都被对接。相反,随机选择10到14个抗体与每个抗原对接,以找到最佳定向。最终的复合体被提交给Rosetta SnugDock web服务器,以便计算出最佳的界面分数。每个抗原产生10到14个复合物的结构,当与原始抗体-抗原复合物一起时,每个抗原总共产生11到15个复合物。总共有50种抗原与600种抗体对接。所得到的复合体的一个示例显示在图1

图1所示。对接输出示例。使用ClusPro服务器生成3s35复合体(对接结果:“YES”;最佳对接接口得分:−0.876)。
查看此图

Rosetta界面分数被用作结合亲和力的估计,以便识别同源抗体-抗原对,作为机器学习的输入。界面评分高于−8.0的直接归类为结合不良的配合物,低于−9.0的直接归类为结合良好的配合物。对于评分在−8.0到−9.0之间的复合物,使用SwissDock(瑞士生物信息学研究所)对对接簇和位置进行视觉检测。如果前10个模型的抗体和抗原的相对位置相似,且结构表现出明显的相互作用模式,则认为这对模型具有良好的结合亲和力。

Rosetta界面评分以前被用作基于对接结果确定结合亲和力的分类器(例如,在抗体-抗原交叉反应性研究中[15])。

其他数据从冠状病毒抗体数据库(CoV-AbDab)中提取[16-一个冠状病毒抗体数据库,包括SARS-CoV-2、SARS-CoV-1和MERS-CoV(中东呼吸综合征相关冠状病毒)。数据(2674行)于2021年2月14日从CoV-AbDab中提取。在过滤掉不完整的数据后,还剩下2031行,每一行对应一个抗体。提取的信息包括抗体名称、它们的结合抗原、它们的轻重可变区序列,包括第三个cdr (CDR3s)的位置。每个可变区序列在国际免疫遗传学信息系统数据库中检索[17],以便从重链和轻链中确定第一cdr (cdr15)和第二cdr (CDR2s)的位置。由于一行可能包含抗体与多种抗原相互作用的信息,因此数据进一步分成多行,每行包含1个抗体与1个抗原相互作用的信息。

对序列计算附加特征,如下所示。使用Bachem多肽计算器分析工具(Bachem Holding AG)计算每个CDR的等电点[18]。每个CDR的平均亲水性也用Bachem多肽计算器计算。

使用免疫表位数据库(IEDB)抗体表位预测分析工具预测B细胞表位[19]。

生成的数据集可以从GitHub下载[20.],并以下列栏目构成:H链CDR1序列H链CDR2序列H链CDR3序列L链CDR1序列L链CDR2序列L链CDR3序列lcdr1的亲水性pI (lcdr1lcdr2的亲水性pI (lcdr2lcdr3的亲水性pI (lcdr3hcdr1的亲水性hcdr1的pI, hcdr2的亲水性H CDR2的pIhcdr3的亲水性hcdr3的pI抗原表位罗塞塔对接得分抗原,对接结果

机器学习

加权k近邻(K-NN)分类算法[21]用于预测抗体-抗原结合亲和力。该程序可从GitHub下载[20.]。

对于每个抗原,对接的11到15个抗体根据对接结果被标记为“良好亲和力”或“低亲和力”。然后使用抗原和抗体的序列进行机器学习。

利用不同抗体的CDR1、CDR2和CDR3氨基酸序列之间的串距来确定邻域。权重是根据距离来计算的,所以更近的邻居被认为有更大的权重,详见下文。

对于每个抗原,使用K-NN方法,使用标记抗原-抗体序列对的训练子集(N−1),并使用CDR字符串距离作为特征,学习类别(亲和性好或亲和性低)。然后对未用于训练的剩余抗原-抗体序列对评估模型性能(留一交叉验证)。

为了确保K-NN对只包括具有相同抗原的对,在涉及不同抗原的抗体-抗原对之间的距离上添加1000的固定惩罚。

抗体之间的相似性是通过比较它们的cdr来测量的。每个抗体有一条重链和一条轻链,每条链包含3个cdr。2个抗体之间的距离计算为其CDR距离向量之间的欧几里得距离,如下式(式1)所示:

(在哪里- - - - - -p之间的字符串距离CDR的抗体CDR的抗体p

给出了Python代码多媒体附录1

对两种不同的话单距离计算方法进行了测试和比较;一个基于序列恒等,另一个使用BLOSUM62矩阵,如下所述。

对于基于身份的距离度量,根据Levenshtein字符串距离对等效cdr进行比较[22],如式(2)所示:

成本= 0一个=b成本= 1一个b

Levenshtein距离仅在用于比较序列时才说明氨基酸的同一性。更有生物学意义的距离测量需要考虑到氨基酸的不同性质,这意味着在相互作用中,一些氨基酸取代比其他氨基酸取代更有可能被接受。BLOSUM62替换矩阵[23]作为Levenshtein距离计算中氨基酸相似性的代表。虽然BLOSUM矩阵的设计是为了反映进化守恒,但它们可以提供相互作用势相似性的估计[24]。

Levenshtein距离按式2计算,使用如下代价函数:

一个=b成本= 0

在哪里年代ij年代2,年代jj由BLOSUM62矩阵得到。

使用数据集中的以下列来训练模型进行留一交叉验证:H链CDR1序列H链CDR2序列H链CDR3序列L链CDR1序列L链CDR2序列L链CDR3序列抗原,对接结果。然后评估训练模型预测其他列对接结果的能力。

结合先前K-NN结果的随机森林机器学习算法也用于预测抗体-抗原结合分类。除了blosum62导出的CDR距离外,每个CDR的等电点和中性pH(7.0)下的净电荷被用作训练随机森林的附加特征。绑定是通过结合每个特征的投票来预测的,每个特征贡献1票,根据基于每个特征的最近邻预测。

使用数据集中的以下列来训练随机森林:弦距(KNN法计算)lcdr1的亲水性pI (lcdr1lcdr2的亲水性pI (lcdr2lcdr3的亲水性pI (lcdr3hcdr1的亲水性H CDR1的pIhcdr2的亲水性H CDR2的pIhcdr3的亲水性hcdr3的pI抗原,对接结果。然后评估训练模型预测其他列对接结果的能力。

每个特征被视为一个单独的决策树,并贡献1票。例如,将抗体重链CDR1的等电点视为1个特征,如前所述,使用K-NN方法来查找该决策树的结果。总共有13棵决策树,每棵树都使用K-NN方法来确定它的投票,总共有13张票。最后的决定是根据简单多数投票决定的。当整个森林(全部13棵决策树)参与投票时,获得的结果最好。

通过在抗原基础上使用留一交叉验证来评估K-NN和随机森林学习器的性能。对于57种抗原中的每一种,通过从数据集中删除1行,即1个抗体-抗原对,构建一个训练数据集。在与该抗原结合的剩余抗体训练后,基于去除的抗体评估模型性能。重复这个过程,直到所有5041对抗体-抗原对都被检测出来。模型准确性计算为正确预测的抗体-抗原对数与数据集中的抗体-抗原对总数的比值。


数据集

通过50个抗体结构与50个抗原结构的计算对接,共生成了600个抗体-抗原复合物。此外,从Cov-AbDab中共提取了4441个抗体抗原对。这部分数据集的组成见表1

总的来说,数据集包含5041个抗体-抗原对,包括1157个抗体和57个抗原。

表1。从冠状病毒抗体数据库中提取的抗体数量、阳性和阴性抗体-抗原对。
抗原 抗体数 阳性样本,n 负样本,n
SARS-CoV-2 1943 1912 31
SARS-CoV-1 1241 597 644
MERS-CoV一个 264 119 145
HCoV-OC43b 257 21 236
HCoV-HKU1c 254 84 170
HCoV-NL63d 258 51 207
hcov - 229 ee 207 49 158

一个MERS-CoV:中东呼吸综合征相关冠状病毒。

bHCoV-OC43:人类冠状病毒OC43

cHCoV-HKU1:人类冠状病毒HKU1。

dHCoV-NL63:人类冠状病毒NL63

eHCoV-229E:人类冠状病毒229E

机器学习

采用留一交叉验证对抗原-抗体结合分类方法进行评价。当K值为2个最近邻时,基于序列同一性计算Levenshtein距离时,K- nn方法的准确率为81%。当使用BLOSUM62矩阵来计算Levenshtein字符串距离时,可以观察到一个轻微的改进(准确率为82%)。

在基于BLOSUM62矩阵计算Levenshtein距离时,还评估了不同的K值。K值为2提供了最好的精度。对于K值为1的最近邻,准确率为80%。当K值为3时,分类准确率下降到79%。

对于随机森林预测,使用投票作为分类预测结果。当考虑整个森林时,准确率最高,在这种情况下,每个特征都对分类结果有贡献。当所有13个特征(Levenshtein弦距离、等电点和中性pH(7.0)下的净电荷)都参与最终投票时,随机森林方法的性能最好(准确率为80%)。


通过结构建模和Rosetta的计算对接,以及从CoV-AbDab中提取的抗体-抗原对,我们创建了5041个抗体-抗原复合物的训练和测试数据集。

我们还开发了加权最近邻和随机森林方法来预测基于序列数据的抗体-抗原结合。这些机器学习程序可以进行分类,以识别可能与给定抗体结合的抗原。

对于基于2个最近邻的分类结果,留一交叉验证测试的准确率为82%。当改变最近邻居的数量时,预测精度在77%到82%之间。使用字符串距离和BLOSUM62矩阵,使用2个最近邻获得最佳预测结果(准确率为82%)。

该研究表明,通过使用相对简单的机器学习方法,可以从抗体可变区和抗原的氨基酸序列中预测抗体和蛋白质抗原之间的相互作用。与基于蛋白质空间结构的对接预测方法相比,本课题提出的方法不需要三维结构,更适用于无法获得三维结构的抗体。

在缺乏大量关于抗体-抗原结合亲和力的实验数据的情况下,使用Rosetta界面评分以及前10个结合位置来确定结合亲和力的分类。虽然这种方法不太可能提供问题的完整表示,但它提供了适合比较一系列方法的数据集。随着更大的数据集变得可用,这种方法肯定会得到改进。对接数据集包含600行抗体-抗原对。在数据收集过程中测试了该数据集的子集(200、300、400和500行)。在所有这些子集中,分类准确性是相当一致的。这表明,虽然数据集是有限的,但它为我们预测抗体-抗原结合亲和力的方法的发展提供了一个很好的起点,随着更多数据的可用性,这可以进一步验证。选择K-NN方法作为初始机器学习方法。2个最近邻(K=2)的预测结果最好。随机森林还纳入了序列距离以及cdr的化学性质(等电点和疏水性)。 The best prediction results (accuracy of 82%) were obtained with the nearest neighbor method when the Levenshtein distance was calculated based on BLOSUM62 matrices. The additional features included in the random forest did not improve classification accuracy, and this was probably due to these features’ dependence on the amino acid sequences.

大约20%(907/ 5041,18 %)的预测是不准确的。这些错误主要发生在一些大抗原上。进一步检验这些抗原的对接结果。准确性的降低可能是由于较大抗原的构象灵活性,多个表位的存在,以及较大抗原中的不连续表位的数量相对于较小抗原中的此类表位的数量较多。

为了开发一种适合从序列数据中预测抗体-抗原结合亲和力的机器学习方法,我们将加权最近邻和随机森林机器学习方法应用于该问题。基本的假设是,具有相似序列的抗体在结合特定抗原的能力方面可能是相似的。用Python编写了一个预测程序,并通过交叉验证对包含1157个抗体和57个抗原的数据集进行评估,这些抗原组合在5041个抗体-抗原对中。该数据集的最佳分类预测准确率约为82%。

这些结果为预测抗体-抗原结合的机器学习和数据集创建提供了有用的参考框架,以及协议和考虑因素。由于训练数据的缺乏,我们的方法仍然是有限的,但随着更多抗体-抗原结合数据的可用性,它对大规模预测的有用性应该会增加。预测抗体-抗原结合的能力将允许更明智地使用大规模免疫受体测序的数据。反过来,这将增加我们对抗原识别随时间变化的理解,在一系列条件下,在个体和群体之间。

数据集(CSV格式)和机器学习程序(Python编码)都可以在GitHub上免费下载[20.]。

利益冲突

没有宣布。

多媒体附录1

欧几里德距离计算的Python代码。

DOCX文件,12 KB

  1. 邓文华,陈建军,李建军,等。免疫球蛋白基因分析在人类免疫反应中的应用。中华免疫学杂志,2018;24 (1):132-147 [j]免费全文] [CrossRef] [Medline
  2. Boyd SD, Crowe JEJ。深度测序和人抗体库分析。中华血液学杂志,2016;39 (4):391 - 391 [j]免费全文] [CrossRef] [Medline
  3. 李建军,李建军,李建军,等。Rosetta抗体结构的建模和对接。Nat协议2017 Feb;12(2):401-416 [j]免费全文] [CrossRef] [Medline
  4. Pires DEV, Ascher DB。mCSM-AB:一个网络服务器,用于预测抗体-抗原亲和变化的突变与基于图的签名。核酸学报,2016;08;44(1):W469-W473 [j]免费全文] [CrossRef] [Medline
  5. Vivcharuk V, Baardsnes J, Deprez C, Sulea T, Jaramillo M, Corbeil CR,等。抗体和蛋白质治疗辅助设计(ADAPT)。PLoS One 2017; 07 (7):e0181490 [j]免费全文] [CrossRef] [Medline
  6. Kozakov D, Hall DR, Xia B, Porter KA, Padhorny D, Yueh C,等。蛋白质与蛋白质对接的ClusPro web服务器。Nat协议2017 Feb;12(2):255-278 [j]免费全文] [CrossRef] [Medline
  7. comau SR, Gatchell DW, Vajda S, Camacho CJ。ClusPro:用于预测蛋白质复合物的自动对接和识别方法。生物信息学2004;20(1):45-50。[CrossRef] [Medline
  8. 张建军,张建军,张建军,等。基于蛋白对接的蛋白质偶联电位分析。生物工程学报;2006;36(2):392-406。[CrossRef] [Medline
  9. comau SR, Gatchell DW, Vajda S, Camacho CJ。ClusPro:蛋白质与蛋白质对接的全自动算法。核酸Res 2004七月01;32(Web Server issue):W96-W99 [免费全文] [CrossRef] [Medline
  10. 西尔卡·A,格雷·JJ。SnugDock:抗体-抗原对接期间的伞架结构优化补偿了抗体同源模型的错误。计算机工程学报,2010;6(1):11000644 [j]免费全文] [CrossRef] [Medline
  11. 利斯科夫S,格雷JJ。用于局部蛋白质-蛋白质对接的RosettaDock服务器。核酸Res 2008 july 01;36(Web Server issue):W233-W238 [免费全文] [CrossRef] [Medline
  12. 李建军,周永强,Conchúir S, Der BS, Drew K, Kuroda D,等。分子建模应用的服务验证:包含每个人的Rosetta在线服务器(ROSIE)。PLoS One 2013;8(5):e63906 [j]免费全文] [CrossRef] [Medline
  13. 张建军,张建军。蛋白质模型的构建与应用。电泳1997 Dec;18(15):2714-2723。[CrossRef] [Medline
  14. RCSB PDB:主页。RCSB蛋白质数据库。URL:https://www.rcsb.org/[2019-07-12]访问
  15. Kilambi KP, Gray JJ。基于结构的抗体-抗原相互作用交叉对接分析。科学通报2017;7(1):8145 [j]免费全文] [CrossRef] [Medline
  16. 雷伯德MIJ, Kovaltsuk A, Marks C, Deane CM。CoV-AbDab:冠状病毒抗体数据库生物信息学2021 May 05;37(5):734-735 [j]免费全文] [CrossRef] [Medline
  17. IMGT主页。国际免疫遗传学信息系统。URL:http://www.imgt.org[2020-01-23]访问
  18. 肽计算器。Bachem。URL:https://www.bachem.com/knowledge-center/peptide-calculator/[2020-03-10]访问
  19. 抗体表位预测。免疫表位数据库。URL:http://tools.iedb.org/bcell/[2020-07-12]访问
  20. 曹国伟。jessye123 / ab-ag-seq-machine-learning。GitHub。URL:https://github.com/jessye123/ab-ag-seq-machine-learning[2022-10-19]访问
  21. 唐克,De S, Verma S, Swetapadma A.最近邻学习与分类算法综述。2019年智能计算与控制系统(ICCS)国际会议;2019年5月15日至17日;马杜赖,印度,1255-1260页。[CrossRef
  22. 能够纠正删除、插入和反转的二进制代码。苏联物理杂志1966年2月;10(8):707-710 [j]免费全文
  23. Henikoff S, Henikoff JG。氨基酸取代矩阵从蛋白质块。科学通报,1992,11 (2):1 - 2 [j]。免费全文] [CrossRef] [Medline
  24. 黄亚,尤志华,高翔,王磊。基于离散余弦变换的加权稀疏表示模型预测蛋白质序列中的蛋白质相互作用。生物医学工程学报,2015;2015:391 - 391 [j]免费全文] [CrossRef] [Medline


适应:抗体和蛋白质疗法的辅助设计
CDR:complementarity-determining地区
CDR1:第一个互补决定区域
CDR2:第二互补决定区域
CDR3上:三是互补性决定区域
CoV-AbDab:冠状病毒抗体数据库
IEDB:免疫表位数据库
事例:
MERS-CoV:中东呼吸综合征相关冠状病毒
PDB:蛋白质数据库


编辑:A Mavragani;提交06.04.21;由邱z, Y Xiao, ME Ackerman, H Sundaramoorthi同行评议;对作者的评论20.05.21;收到修订版23.09.21;接受18.10.22;发表28.10.22

版权

©叶超,胡文星,Bruno Gaeta。最初发表于JMIR生物信息学与生物技术(https://bioinform.www.mybigtv.com), 2022年10月28日。

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR生物信息学和生物技术上,并适当引用。必须包括完整的书目信息,到https://bioinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map