JBB JMIR Bioinform Biotech JMIR生物信息学和生物技术 2563 - 3570 卡塔尔世界杯8强波胆分析 加拿大多伦多 v3i1e29404 10.2196/29404 原始论文 原始论文 通过机器学习预测抗体-抗原结合:数据集的开发和方法的评估 Mavragani 孤挺花 夷陵 阿克曼 玛格丽特·E Sundaramoorthi Hemalatha 曹国伟 管理信息系统 1 https://orcid.org/0000-0001-5740-8531 Wenxing 麻省理工学院 2 https://orcid.org/0000-0002-3041-3573 加埃塔 布鲁诺 博士学位 1
计算机科学与工程学院“, 新南威尔士大学 计算机科学大楼(K17) 新南威尔士大学工程路 悉尼,2052年 澳大利亚 61 293857213 bgaeta@unsw.edu.au
https://orcid.org/0000-0003-4723-4982
计算机科学与工程学院“, 新南威尔士大学 悉尼 澳大利亚 计算机科学系 信息科学与技术学院“, 东京工业大学 东京 日本 通讯作者:Bruno Gaeta bgaeta@unsw.edu.au Jan-Dec 2022 28 10 2022 3. 1 e29404 6 4 2021 20. 5 2021 23 9 2021 18 10 2022 ©叶超,胡文星,Bruno Gaeta。最初发表在JMIR生物信息学和生物技术(https://bioinform.www.mybigtv.com), 28.10.2022。 2022

这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用首次发表在JMIR生物信息学和生物技术上的原创作品。必须包括完整的书目信息,https://bioinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

哺乳动物的免疫系统能够产生针对各种抗原的抗体,包括细菌、病毒和毒素。重排免疫球蛋白基因的超深度DNA测序在进一步了解免疫反应方面具有相当大的潜力,但由于缺乏高通量、基于序列的方法来预测给定免疫球蛋白识别的抗原,其局限性很大。

客观的

作为仅从序列数据预测抗体-抗原结合的一步,我们的目标是比较一系列机器学习方法,这些方法应用于抗体-抗原对的整理数据集,以便从序列数据预测抗体-抗原结合。

方法

用于训练和测试的数据从蛋白质数据库和冠状病毒抗体数据库中提取,并通过使用分子对接协议生成额外的抗体-抗原对数据。该问题采用了加权最近邻法、BLOSUM62矩阵最近邻法和随机森林法等几种机器学习方法。

结果

最终数据集包含1157个抗体和57个抗原,合并成5041个抗体-抗原对。使用BLOSUM62矩阵的最近邻方法获得了预测相互作用的最佳性能,在完整数据集上的准确率约为82%。这些结果为机器学习和抗体-抗原结合预测中的数据集创建提供了有用的参考框架,以及协议和考虑因素。

结论

比较了几种机器学习方法来预测蛋白质序列中的抗体-抗原相互作用。数据集(CSV格式)和机器学习程序(Python编码)都可以在GitHub上免费下载。

DNA测序 DNA DNA序列 序列数据 分子生物学 基因组 随机森林 最近的邻居 免疫球蛋白 遗传学 antibody-antigen绑定 抗原 抗体 结构生物学 机器学习 蛋白质建模 蛋白质 蛋白质组学
简介

DNA测序技术通过允许对个体中存在的重排免疫球蛋白基因进行大规模测序,为免疫反应提供了新的见解[ 1 2].然而,由于缺乏确定特定免疫球蛋白(即由给定序列编码的球蛋白)结合的抗原的方法,这种方法的应用受到限制。个体免疫球蛋白的实验检测成本很高;然而,基于序列数据的绑定属性的大规模表征目前是不可能的。

抗原结合是由抗体的互补决定区(cdr)介导的,这些区域在重和轻免疫球蛋白链之间共享。已经提出了利用结构预测和对接预测抗体-抗原相互作用的计算方法[ 3.].然而,使用这些方法需要了解抗体和抗原的3D结构。从蛋白质序列直接预测抗体-抗原相互作用仍然是一个悬而未决的问题。

基于机器学习的工具,如mCSM-AB [ 4]和ADAPT(辅助设计抗体和蛋白质疗法)[ 5],在预测其他情况下的抗体相互作用方面取得了一些成功。mCSM-AB是一个web服务器,用于预测突变时抗体-抗原亲和力的变化,使用基于图形的签名。ADAPT是一种混合预测和测试的亲和成熟平台,之前已在单克隆抗体上得到验证。

基于抗体和抗原序列来预测抗体是否会与蛋白质抗原结合的更通用的方法仍然难以捉摸,部分原因是缺乏用于开发机器学习模型的全面训练数据。本研究旨在作为实现这一目标的第一步,旨在从一系列来源中组装一个训练数据集,并评估应用机器学习算法来识别该数据集中抗体-抗原对结合的可行性。

方法 数据集

由于缺乏合适的抗体-抗原对,使用计算对接来生成训练和测试数据集中的一些数据。ClusPro(波士顿大学)[ 6- 9]和Rosetta (RosettaCommons) [ 10- 12web服务器被用来创建配对抗体-抗原复合物的数据集,用于机器学习。ClusPro和Rosetta均用于蛋白质-蛋白质分子对接。Rosetta使用SnugDock (RosettaCommons)算法[ 10].Swiss- pdbviewer(瑞士生物信息学研究所)[ 13]被用来检查所得到的蛋白质复合物结构。

从蛋白质数据库(Protein Data Bank, PDB)中随机选取50个抗体-抗原复合物[ 14].抗体-抗原复合物通过使用Perl脚本分离,以生成pdb格式的文件以及抗体和抗原的序列。使用Rosetta抗体建模web服务器定位cdr。使用ClusPro(仅用于确定方向)将抗原与一系列抗体进行对接,然后使用Rosetta的抗体对接程序SnugDock。为了保持计算时间可控,并不是所有抗体都被停靠。相反,为了找到最佳的定位,研究人员随机选择了10到14个抗体与每种抗原进行对接。生成的复合物被提交到Rosetta SnugDock web服务器,以计算最佳界面得分。这就产生了每个抗原10到14个复合物的结构,当与原始抗体-抗原复合物加在一起时,每个抗原总共有11到15个复合物。总共有50个抗原和600个抗体。所产生的复合物的一个示例显示在 图1

对接输出的示例。3s35复合体是使用ClusPro服务器生成的(对接结果:“YES”;最佳对接接口评分:−0.876)。

使用Rosetta界面分数作为结合亲和力的估计值,以识别用于机器学习的同源抗体-抗原对。界面分数高于- 8.0的复合物被直接归为结合差的复合物,界面分数低于- 9.0的复合物被直接归为结合良好的复合物。对于得分在−8.0到−9.0之间的复合物,使用SwissDock(瑞士生物信息学研究所)对对接集群和位置进行了可视化检查。如果前10个模型的抗体和抗原的相对位置相似,且结构表现出明显的相互作用模式,则将其归类为具有良好的结合亲和力。

Rosetta界面评分以前曾被用作基于对接结果确定结合亲和力的分类器(例如,在抗体-抗原交叉反应性研究中[ 15])。

其他数据提取自冠状病毒抗体数据库(CoV-AbDab) [ 16-包括SARS-CoV-2、SARS-CoV-1和MERS-CoV(中东呼吸综合征相关冠状病毒)抗体数据库。数据(2674行)于2021年2月14日从CoV-AbDab中提取。在过滤掉不完整的数据后,还剩下2031行,每一行对应一个抗体。提取的信息包括抗体名称、它们的结合抗原、它们的轻重可变区序列,包括第三个cdr (CDR3s)的位置。每个可变区域序列都在国际免疫遗传学信息系统数据库中进行搜索[ 17]以识别重链和轻链上的第一个cdr (CDR1s)和第二个cdr (CDR2s)的位置。由于一行可能包含一个抗体与多个抗原相互作用的信息,数据被进一步分成多行,每行包含一个抗体与一个抗原相互作用的信息。

计算序列的附加特征如下。使用Bachem肽计算器分析工具(Bachem Holding AG)计算每个CDR的等电点[ 18].用Bachem肽计算器计算每种CDR的平均亲水性。

采用IEDB (Immune Epitope Database)抗体表位预测分析工具预测B细胞表位[ 19].

所得数据集可从GitHub [ 20.],并由以下列标题组成: H链CDR1序列 H链CDR2序列 H链CDR3序列 L链CDR1序列 L链CDR2序列 L链CDR3序列 L CDR1的亲水性 pI (L CDR1 L CDR2的亲水性 pI (L CDR2 L CDR3的亲水性 pI (L CDR3 H CDR1的亲水性 H CDR1的pI, H CDR2的亲水性 pI (H CDR2 H CDR3的亲水性 pI (H CDR3 抗原表位 罗塞塔对接分数 抗原, 对接结果

机器学习

加权k -最近邻分类算法[ 21]用于预测抗体-抗原结合亲和力。该程序可从GitHub [ 20.].

对于每种抗原,根据对接结果,对接的11 - 15个抗体被标记为“亲和性好”或“亲和性低”。然后使用抗原和抗体的序列进行机器学习。

邻居通过不同抗体的CDR1、CDR2和CDR3氨基酸序列之间的字符串距离来确定。重量是根据距离计算的,所以更近的邻居被认为有更多的重量,如下所述。

对于每个抗原,使用K-NN方法学习类别(良好的亲和力或低亲和力),使用标记的抗原-抗体序列对的训练子集(N−1),并使用CDR字符串距离作为特征。然后在未用于训练的剩余抗原-抗体序列对上评估模型性能(保留一个交叉验证)。

为了确保K-NN对只包含具有相同抗原的对,对涉及不同抗原的抗体-抗原对之间的距离增加1000的固定惩罚。

抗体之间的相似性通过比较它们的cdr来衡量。每个抗体有一个重链和一个轻链,每个链包含3个cdr。2个抗体之间的距离计算为其CDR距离向量之间的欧氏距离,如下式(式1)所示:

(在哪里 - - - - - - p 的字符串距离 CDR 的抗体 CDR 的抗体 p

给出了Python代码 多媒体附件1

对两种不同的CDR距离计算方法进行了测试和比较;一种基于序列恒等式,另一种使用BLOSUM62矩阵,具体如下。

对于基于身份的距离测量,等价的cdr对根据它们的Levenshtein字符串距离相互比较[ 22],如式(式2)所示:

成本= 0 一个 b 成本= 1 一个 b

当Levenshtein距离用于比较序列时,它只说明氨基酸的同一性。更具有生物学意义的距离测量需要考虑氨基酸的不同性质,这意味着在相互作用中,一些氨基酸取代比其他氨基酸更容易被接受。BLOSUM62替换矩阵[ 23]被用作Levenshtein距离计算中氨基酸相似性的代理。虽然BLOSUM矩阵的设计是为了反映进化守恒,但它们可以提供相互作用潜力相似性的估计[ 24].

根据公式2计算Levenshtein距离,使用以下代价函数:

一个 b 成本= 0

在哪里 年代ij 年代2 , 年代jj 由BLOSUM62矩阵得到。

数据集中的以下列被用于训练模型进行省略交叉验证: H链CDR1序列 H链CDR2序列 H链CDR3序列 L链CDR1序列 L链CDR2序列 L链CDR3序列 抗原, 对接结果.然后评估训练后的模型预测其他列对接结果的能力。

结合先前K-NN结果的随机森林机器学习算法也用于预测抗体-抗原结合分类。除了blosum62衍生的CDR距离外,每个CDR在中性pH(7.0)下的等电点和净电荷被用作额外的特征,用于训练随机森林。绑定是通过结合每个特征的投票来预测的,根据基于每个特征的最近邻居预测,每个特征贡献1票。

数据集中的以下列用于训练随机森林: 串距(KNN法计算) L CDR1的亲水性 pI (L CDR1 L CDR2的亲水性 pI (L CDR2 L CDR3的亲水性 pI (L CDR3 H CDR1的亲水性 pI (H CDR1 H CDR2的亲水性 pI (H CDR2 H CDR3的亲水性 pI (H CDR3 抗原, 对接结果.然后评估训练后的模型预测其他列对接结果的能力。

每个特征被认为是一个单独的决策树,并贡献1票。例如,将抗体重链CDR1的等电点视为1个特征,如前所述,使用K-NN方法来寻找该决策树的结果。总共有13棵决策树,每棵树都使用K-NN方法来确定它的投票,共13票。最终的决定是根据简单多数投票决定的。当整个森林(所有13棵决策树)都参与投票时,获得了最好的结果。

K-NN和随机森林学习器的性能通过在抗原基础上使用省略交叉验证进行评估。对于57种抗原中的每一种,从数据集中去除一行,即1个抗体-抗原对,构建一个训练数据集。在使用与该抗原结合的剩余抗体进行训练后,基于去除的抗体评估模型性能。重复该过程,直到所有5041对抗体-抗原被检测。模型精度计算为正确预测的抗体-抗原对的数量与数据集中的抗体-抗原对的总数之比。

结果 数据集

通过50个抗体结构与50个抗原结构的计算对接,共生成600个抗体-抗原复合物。此外,从Cov-AbDab中共提取了4441对抗体-抗原对。这部分数据集的组成如图所示 表1

数据集总共包含5041对抗体-抗原对,包括1157个抗体和57个抗原。

从冠状病毒抗体数据库中提取的抗体和阳性和阴性抗体-抗原对的数量。

抗原 抗体数量 正样本n 负样本n
SARS-CoV-2 1943 1912 31
SARS-CoV-1 1241 597 644
MERS-CoV一个 264 119 145
HCoV-OC43b 257 21 236
HCoV-HKU1c 254 84 170
HCoV-NL63d 258 51 207
hcov - 229 ee 207 49 158

一个中东呼吸综合征冠状病毒:中东呼吸综合征相关冠状病毒。

bHCoV-OC43:人冠状病毒OC43。

cHCoV-HKU1:人冠状病毒HKU1。

dHCoV-NL63:人冠状病毒NL63。

eHCoV-229E:人类冠状病毒229E。

机器学习

采用省略交叉验证对抗原-抗体结合分类方法进行评价。对于2个最近邻居的K值,K- nn方法在基于序列恒等式计算Levenshtein距离时,准确率达到81%。当使用BLOSUM62矩阵计算Levenshtein弦距时,观察到有轻微的改进(精度为82%)。

根据BLOSUM62矩阵计算Levenshtein距离时,还评估了不同的K值。K值为2提供了最好的准确性。当K值为1个最近邻时,准确率为80%。当K值为3时,分类准确率下降到79%。

对于随机森林预测,采用投票作为分类预测结果。当考虑整个森林时,准确率最高,在这种情况下,每个特征都对分类结果有贡献。当所有13个特征(每个cdr的Levenshtein弦距离和中性pH(7.0)下的等电点和净电荷)都参与最终投票时,随机森林方法的性能最好(准确率为80%)。

讨论

通过使用结构建模和通过Rosetta的计算对接相结合,以及从CoV-AbDab中提取的抗体-抗原对,我们创建了5041个抗体-抗原复合物的训练和测试数据集。

我们还开发了加权最近邻和随机森林方法来预测基于序列数据的抗体-抗原结合。这些机器学习程序可以进行分类,以识别可能与给定抗体结合的抗原。

对于基于2个最近邻的分类结果,省略一个交叉验证测试的准确率为82%。当改变最近邻居的数量时,预测准确率在77%到82%之间。使用字符串距离和BLOSUM62矩阵获得了2个最近邻居的最佳预测结果(准确率为82%)。

本研究表明,通过使用相对简单的机器学习方法,可以从抗体可变区和抗原的氨基酸序列中预测抗体和蛋白质抗原之间的相互作用。与基于蛋白质空间结构的对接预测方法相比,本课题提出的方法不需要三维结构,更适用于无法获得三维结构的抗体。

在缺乏大量抗体-抗原结合亲和力的实验数据的情况下,使用Rosetta界面分数以及前10个结合位置来确定结合亲和力的分类。虽然这种方法不太可能提供问题的完整表示,但它提供了适合比较一系列方法的数据集。随着更大的数据集的出现,这种方法肯定会得到改进。对接数据集包含600行抗体-抗原对。在数据收集过程中测试了该数据集的子集(200、300、400和500行)。所有这些子集的分类精度都相当一致。这表明,虽然数据集是有限的,但它为我们预测抗体-抗原结合亲和力的方法的发展提供了一个良好的起点,随着更多数据的可用,可以进一步验证这一方法。选择K-NN方法作为初始机器学习方法。最近邻为2 (K=2)时,预测结果最佳。随机森林也被使用,包括序列距离以及cdr的化学性质(等电点和疏水性)。 The best prediction results (accuracy of 82%) were obtained with the nearest neighbor method when the Levenshtein distance was calculated based on BLOSUM62 matrices. The additional features included in the random forest did not improve classification accuracy, and this was probably due to these features’ dependence on the amino acid sequences.

我们的方法中大约20%(907/ 5041,18%)的预测是不准确的。这些错误大多发生在一些大抗原上。进一步检验了这些抗原的对接结果。准确性的下降可能是由于较大抗原构象的灵活性,多个表位的存在,以及较大抗原中不连续表位的数量相对于较小抗原中这种表位的数量更高。

作为发展适合从序列数据预测抗体-抗原结合亲和力的机器学习方法的一步,加权最近邻和随机森林机器学习方法被应用于该问题。基本的假设是,具有相似序列的抗体在与给定抗原结合的能力方面可能是相似的。用Python编写了一个预测程序,并在包含1157个抗体和57个抗原的数据集上进行交叉验证,这些抗体-抗原对组合在5041个抗体-抗原对中。该数据集的最佳分类预测精度约为82%。

这些结果为机器学习和抗体-抗原结合预测中的数据集创建提供了有用的参考框架,以及协议和考虑因素。由于训练数据的稀缺,我们的方法仍然是有限的,但随着更多的抗体-抗原结合数据变得可用,它对于大规模预测的有用性应该会增加。预测抗体-抗原结合的能力将允许更明智地使用来自大规模免疫受体测序的数据。反过来,这将增加我们对随着时间的推移,在一系列条件下,在个体和种群之间,有机体中抗原识别的变化的理解。

数据集(CSV格式)和机器学习程序(Python编码)均可在GitHub上免费下载[ 20.].

欧几里得距离计算的Python代码。

缩写 适应

抗体和蛋白质疗法的辅助设计

CDR

complementarity-determining地区

CDR1

第一个互补决定区域

CDR2

第二互补决定区

CDR3上

第三互补决定区域

CoV-AbDab

冠状病毒抗体数据库

IEDB

免疫表位数据库

事例

MERS-CoV

中东呼吸综合征相关冠状病毒

PDB

蛋白质数据库

没有宣布。

Dunn-Walters D 汤森 C 辛克莱 E 斯图尔特 一个 免疫球蛋白基因分析是研究人类免疫反应的工具 Immunol牧师 2018 07 284 1 132 147 10.1111 / imr.12659 29944755 PMC6033188 博伊德 SD 克罗 我小 深度测序和人抗体库分析 Curr Opin Immunol 2016 06 40 103 109 10.1016 / j.coi.2016.03.008 27065089 s0952 - 7915 (16) 30025 - 5 PMC5203765 Weitzner 双相障碍 Jeliazkov Lyskov 年代 Marze N 黑田 D 弗里克 R Adolf-Bryfogle J Biswas N Dunbrack RL小 灰色的 JJ 抗体结构与Rosetta的建模和对接 Nat Protoc 2017 02 12 2 401 416 10.1038 / nprot.2016.180 28125104 nprot.2016.180 PMC5739521 皮雷 DEV 亚瑟 DB mCSM-AB:一个web服务器,用于预测突变时基于图形签名的抗体-抗原亲和力变化 核酸测定 2016 07 08 44 W1 W469 W473 10.1093 / nar / gkw458 27216816 gkw458 PMC4987957 Vivcharuk V Baardsnes J Deprez C Sulea T Jaramillo 花篮 CR Mullick 一个 马古恩 J 一个 Durocher Y O 'Connor-McCourt 医学博士 Purisima EO 抗体和蛋白质治疗的辅助设计(ADAPT) 《公共科学图书馆•综合》 2017 07 27 12 7 e0181490 10.1371 / journal.pone.0181490 28750054 玉米饼- d - 17 - 00252 PMC5531539 Kozakov D 大厅 博士 B 行李搬运工人 Padhorny D Yueh C Beglov D Vajda 年代 用于蛋白质-蛋白质对接的ClusPro web服务器 Nat Protoc 2017 02 12 2 255 278 10.1038 / nprot.2016.169 28079879 nprot.2016.169 PMC5540229 Comeau Gatchell DW Vajda 年代 卡马乔 CJ ClusPro:用于预测蛋白质复合物的自动对接和鉴别方法 生物信息学 2004 01 01 20. 1 45 50 10.1093 /生物信息学/ btg371 14693807 Kozakov D Brenke R Comeau Vajda 年代 PIPER:一种基于fft的具有成对电位的蛋白质对接程序 蛋白质 2006 11 01 65 2 392 406 10.1002 / prot.21117 16933295 Comeau Gatchell DW Vajda 年代 卡马乔 CJ ClusPro:蛋白质-蛋白质对接的全自动算法 核酸测定 2004 07 01 32 Web服务器问题 W96 W99 10.1093 / nar / gkh354 15215358 32 / suppl_2 / W96 PMC441492 Sircar 一个 灰色的 JJ SnugDock:抗体-抗原对接过程中对位结构优化,补偿抗体同源模型中的错误 PLoS计算生物学 2010 01 22 6 1 e1000644 10.1371 / journal.pcbi.1000644 20098500 PMC2800046 Lyskov 年代 灰色的 JJ 用于本地蛋白质-蛋白质对接的RosettaDock服务器 核酸测定 2008 07 01 36 Web服务器问题 W233 W238 10.1093 / nar / gkn216 18442991 gkn216 PMC2447798 Lyskov 年代 足球俱乐部 Conchuir 所以 Der 废话 画了 K 黑田 D J Weitzner 双相障碍 伦弗鲁 PD Sripakdeevong P Borgo B Havranek JJ Kuhlman B Kortemme T R 灰色的 JJ 达斯 R 分子建模应用的服务验证:包括所有人的罗塞塔在线服务器(ROSIE) 《公共科学图书馆•综合》 2013 05 22 8 5 e63906 10.1371 / journal.pone.0063906 23717507 玉米饼- d - 13 - 06189 PMC3661552 Guex N Peitsch MC SWISS-MODEL和Swiss-PdbViewer:比较蛋白质建模的环境 电泳 1997 12 18 15 2714 2723 10.1002 / elps.1150181505 9504803 RCSB PDB:主页 蛋白质数据库 2019-07-12 https://www.rcsb.org/ Kilambi KP 灰色的 JJ 基于结构的抗体-抗原相互作用交叉对接分析 Sci代表 2017 08 15 7 1 8145 10.1038 / s41598 - 017 - 08414 - y 28811664 10.1038 / s41598 - 017 - 08414 - y PMC5557897 Raybould MIJ Kovaltsuk 一个 标志着 C 迪恩 厘米 CoV-AbDab:冠状病毒抗体数据库 生物信息学 2021 05 05 37 5 734 735 10.1093 /生物信息学/ btaa739 32805021 5893556 PMC7558925 IMGT主页 国际免疫遗传学信息系统 2020-01-23 http://www.imgt.org 肽计算器 Bachem 2020-03-10 https://www.bachem.com/knowledge-center/peptide-calculator/ 抗体表位预测 免疫表位数据库 2020-07-12 http://tools.iedb.org/bcell/ 曹国伟你们 jessye123 / ab-ag-seq-machine-learning GitHub 2022-10-19 https://github.com/jessye123/ab-ag-seq-machine-learning Taunk K 年代 年代 Swetapadma 一个 简要回顾了用于学习和分类的最近邻算法 2019 2019智能计算与控制系统国际会议(ICCS) 2019年5月15日至17日 马杜赖,印度 1255 1260 10.1109 / iccs45141.2019.9065747 Levenshtein 6 能够纠正删除、插入和反转的二进制代码 苏联物理学女博士 1966 02 10 8 707 710 Henikoff 年代 Henikoff 蛋白质块中的氨基酸替代矩阵 美国国立自然科学研究院 1992 11 15 89 22 10915 10919 10.1073 / pnas.89.22.10915 1438297 PMC50453 Yu-An Zhu-Hong 利昂 Lirong 利用加权稀疏表示模型结合离散余弦变换从蛋白质序列预测蛋白质-蛋白质相互作用 生物医学保留区 2015 2015 902198 10.1155 / 2015/902198 26634213 PMC4641304
Baidu
map