这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用首次发表在JMIR生物信息学和生物技术上的原创作品。必须包括完整的书目信息,https://bioinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
哺乳动物的免疫系统能够产生针对各种抗原的抗体,包括细菌、病毒和毒素。重排免疫球蛋白基因的超深度DNA测序在进一步了解免疫反应方面具有相当大的潜力,但由于缺乏高通量、基于序列的方法来预测给定免疫球蛋白识别的抗原,其局限性很大。
作为仅从序列数据预测抗体-抗原结合的一步,我们的目标是比较一系列机器学习方法,这些方法应用于抗体-抗原对的整理数据集,以便从序列数据预测抗体-抗原结合。
用于训练和测试的数据从蛋白质数据库和冠状病毒抗体数据库中提取,并通过使用分子对接协议生成额外的抗体-抗原对数据。该问题采用了加权最近邻法、BLOSUM62矩阵最近邻法和随机森林法等几种机器学习方法。
最终数据集包含1157个抗体和57个抗原,合并成5041个抗体-抗原对。使用BLOSUM62矩阵的最近邻方法获得了预测相互作用的最佳性能,在完整数据集上的准确率约为82%。这些结果为机器学习和抗体-抗原结合预测中的数据集创建提供了有用的参考框架,以及协议和考虑因素。
比较了几种机器学习方法来预测蛋白质序列中的抗体-抗原相互作用。数据集(CSV格式)和机器学习程序(Python编码)都可以在GitHub上免费下载。
DNA测序技术通过允许对个体中存在的重排免疫球蛋白基因进行大规模测序,为免疫反应提供了新的见解[
抗原结合是由抗体的互补决定区(cdr)介导的,这些区域在重和轻免疫球蛋白链之间共享。已经提出了利用结构预测和对接预测抗体-抗原相互作用的计算方法[
基于机器学习的工具,如mCSM-AB [
基于抗体和抗原序列来预测抗体是否会与蛋白质抗原结合的更通用的方法仍然难以捉摸,部分原因是缺乏用于开发机器学习模型的全面训练数据。本研究旨在作为实现这一目标的第一步,旨在从一系列来源中组装一个训练数据集,并评估应用机器学习算法来识别该数据集中抗体-抗原对结合的可行性。
由于缺乏合适的抗体-抗原对,使用计算对接来生成训练和测试数据集中的一些数据。ClusPro(波士顿大学)[
从蛋白质数据库(Protein Data Bank, PDB)中随机选取50个抗体-抗原复合物[
对接输出的示例。3s35复合体是使用ClusPro服务器生成的(对接结果:“YES”;最佳对接接口评分:−0.876)。
使用Rosetta界面分数作为结合亲和力的估计值,以识别用于机器学习的同源抗体-抗原对。界面分数高于- 8.0的复合物被直接归为结合差的复合物,界面分数低于- 9.0的复合物被直接归为结合良好的复合物。对于得分在−8.0到−9.0之间的复合物,使用SwissDock(瑞士生物信息学研究所)对对接集群和位置进行了可视化检查。如果前10个模型的抗体和抗原的相对位置相似,且结构表现出明显的相互作用模式,则将其归类为具有良好的结合亲和力。
Rosetta界面评分以前曾被用作基于对接结果确定结合亲和力的分类器(例如,在抗体-抗原交叉反应性研究中[
其他数据提取自冠状病毒抗体数据库(CoV-AbDab) [
计算序列的附加特征如下。使用Bachem肽计算器分析工具(Bachem Holding AG)计算每个CDR的等电点[
采用IEDB (Immune Epitope Database)抗体表位预测分析工具预测B细胞表位[
所得数据集可从GitHub [
加权k -最近邻分类算法[
对于每种抗原,根据对接结果,对接的11 - 15个抗体被标记为“亲和性好”或“亲和性低”。然后使用抗原和抗体的序列进行机器学习。
邻居通过不同抗体的CDR1、CDR2和CDR3氨基酸序列之间的字符串距离来确定。重量是根据距离计算的,所以更近的邻居被认为有更多的重量,如下所述。
对于每个抗原,使用K-NN方法学习类别(良好的亲和力或低亲和力),使用标记的抗原-抗体序列对的训练子集(N−1),并使用CDR字符串距离作为特征。然后在未用于训练的剩余抗原-抗体序列对上评估模型性能(保留一个交叉验证)。
为了确保K-NN对只包含具有相同抗原的对,对涉及不同抗原的抗体-抗原对之间的距离增加1000的固定惩罚。
抗体之间的相似性通过比较它们的cdr来衡量。每个抗体有一个重链和一个轻链,每个链包含3个cdr。2个抗体之间的距离计算为其CDR距离向量之间的欧氏距离,如下式(式1)所示:
(在哪里
给出了Python代码
对两种不同的CDR距离计算方法进行了测试和比较;一种基于序列恒等式,另一种使用BLOSUM62矩阵,具体如下。
对于基于身份的距离测量,等价的cdr对根据它们的Levenshtein字符串距离相互比较[
当Levenshtein距离用于比较序列时,它只说明氨基酸的同一性。更具有生物学意义的距离测量需要考虑氨基酸的不同性质,这意味着在相互作用中,一些氨基酸取代比其他氨基酸更容易被接受。BLOSUM62替换矩阵[
根据公式2计算Levenshtein距离,使用以下代价函数:
为
在哪里
数据集中的以下列被用于训练模型进行省略交叉验证:
结合先前K-NN结果的随机森林机器学习算法也用于预测抗体-抗原结合分类。除了blosum62衍生的CDR距离外,每个CDR在中性pH(7.0)下的等电点和净电荷被用作额外的特征,用于训练随机森林。绑定是通过结合每个特征的投票来预测的,根据基于每个特征的最近邻居预测,每个特征贡献1票。
数据集中的以下列用于训练随机森林:
每个特征被认为是一个单独的决策树,并贡献1票。例如,将抗体重链CDR1的等电点视为1个特征,如前所述,使用K-NN方法来寻找该决策树的结果。总共有13棵决策树,每棵树都使用K-NN方法来确定它的投票,共13票。最终的决定是根据简单多数投票决定的。当整个森林(所有13棵决策树)都参与投票时,获得了最好的结果。
K-NN和随机森林学习器的性能通过在抗原基础上使用省略交叉验证进行评估。对于57种抗原中的每一种,从数据集中去除一行,即1个抗体-抗原对,构建一个训练数据集。在使用与该抗原结合的剩余抗体进行训练后,基于去除的抗体评估模型性能。重复该过程,直到所有5041对抗体-抗原被检测。模型精度计算为正确预测的抗体-抗原对的数量与数据集中的抗体-抗原对的总数之比。
通过50个抗体结构与50个抗原结构的计算对接,共生成600个抗体-抗原复合物。此外,从Cov-AbDab中共提取了4441对抗体-抗原对。这部分数据集的组成如图所示
数据集总共包含5041对抗体-抗原对,包括1157个抗体和57个抗原。
从冠状病毒抗体数据库中提取的抗体和阳性和阴性抗体-抗原对的数量。
抗原 | 抗体数量 | 正样本n | 负样本n |
SARS-CoV-2 | 1943 | 1912 | 31 |
SARS-CoV-1 | 1241 | 597 | 644 |
MERS-CoV一个 | 264 | 119 | 145 |
HCoV-OC43b | 257 | 21 | 236 |
HCoV-HKU1c | 254 | 84 | 170 |
HCoV-NL63d | 258 | 51 | 207 |
hcov - 229 ee | 207 | 49 | 158 |
一个中东呼吸综合征冠状病毒:中东呼吸综合征相关冠状病毒。
bHCoV-OC43:人冠状病毒OC43。
cHCoV-HKU1:人冠状病毒HKU1。
dHCoV-NL63:人冠状病毒NL63。
eHCoV-229E:人类冠状病毒229E。
采用省略交叉验证对抗原-抗体结合分类方法进行评价。对于2个最近邻居的K值,K- nn方法在基于序列恒等式计算Levenshtein距离时,准确率达到81%。当使用BLOSUM62矩阵计算Levenshtein弦距时,观察到有轻微的改进(精度为82%)。
根据BLOSUM62矩阵计算Levenshtein距离时,还评估了不同的K值。K值为2提供了最好的准确性。当K值为1个最近邻时,准确率为80%。当K值为3时,分类准确率下降到79%。
对于随机森林预测,采用投票作为分类预测结果。当考虑整个森林时,准确率最高,在这种情况下,每个特征都对分类结果有贡献。当所有13个特征(每个cdr的Levenshtein弦距离和中性pH(7.0)下的等电点和净电荷)都参与最终投票时,随机森林方法的性能最好(准确率为80%)。
通过使用结构建模和通过Rosetta的计算对接相结合,以及从CoV-AbDab中提取的抗体-抗原对,我们创建了5041个抗体-抗原复合物的训练和测试数据集。
我们还开发了加权最近邻和随机森林方法来预测基于序列数据的抗体-抗原结合。这些机器学习程序可以进行分类,以识别可能与给定抗体结合的抗原。
对于基于2个最近邻的分类结果,省略一个交叉验证测试的准确率为82%。当改变最近邻居的数量时,预测准确率在77%到82%之间。使用字符串距离和BLOSUM62矩阵获得了2个最近邻居的最佳预测结果(准确率为82%)。
本研究表明,通过使用相对简单的机器学习方法,可以从抗体可变区和抗原的氨基酸序列中预测抗体和蛋白质抗原之间的相互作用。与基于蛋白质空间结构的对接预测方法相比,本课题提出的方法不需要三维结构,更适用于无法获得三维结构的抗体。
在缺乏大量抗体-抗原结合亲和力的实验数据的情况下,使用Rosetta界面分数以及前10个结合位置来确定结合亲和力的分类。虽然这种方法不太可能提供问题的完整表示,但它提供了适合比较一系列方法的数据集。随着更大的数据集的出现,这种方法肯定会得到改进。对接数据集包含600行抗体-抗原对。在数据收集过程中测试了该数据集的子集(200、300、400和500行)。所有这些子集的分类精度都相当一致。这表明,虽然数据集是有限的,但它为我们预测抗体-抗原结合亲和力的方法的发展提供了一个良好的起点,随着更多数据的可用,可以进一步验证这一方法。选择K-NN方法作为初始机器学习方法。最近邻为2 (K=2)时,预测结果最佳。随机森林也被使用,包括序列距离以及cdr的化学性质(等电点和疏水性)。 The best prediction results (accuracy of 82%) were obtained with the nearest neighbor method when the Levenshtein distance was calculated based on BLOSUM62 matrices. The additional features included in the random forest did not improve classification accuracy, and this was probably due to these features’ dependence on the amino acid sequences.
我们的方法中大约20%(907/ 5041,18%)的预测是不准确的。这些错误大多发生在一些大抗原上。进一步检验了这些抗原的对接结果。准确性的下降可能是由于较大抗原构象的灵活性,多个表位的存在,以及较大抗原中不连续表位的数量相对于较小抗原中这种表位的数量更高。
作为发展适合从序列数据预测抗体-抗原结合亲和力的机器学习方法的一步,加权最近邻和随机森林机器学习方法被应用于该问题。基本的假设是,具有相似序列的抗体在与给定抗原结合的能力方面可能是相似的。用Python编写了一个预测程序,并在包含1157个抗体和57个抗原的数据集上进行交叉验证,这些抗体-抗原对组合在5041个抗体-抗原对中。该数据集的最佳分类预测精度约为82%。
这些结果为机器学习和抗体-抗原结合预测中的数据集创建提供了有用的参考框架,以及协议和考虑因素。由于训练数据的稀缺,我们的方法仍然是有限的,但随着更多的抗体-抗原结合数据变得可用,它对于大规模预测的有用性应该会增加。预测抗体-抗原结合的能力将允许更明智地使用来自大规模免疫受体测序的数据。反过来,这将增加我们对随着时间的推移,在一系列条件下,在个体和种群之间,有机体中抗原识别的变化的理解。
数据集(CSV格式)和机器学习程序(Python编码)均可在GitHub上免费下载[
欧几里得距离计算的Python代码。
抗体和蛋白质疗法的辅助设计
complementarity-determining地区
第一个互补决定区域
第二互补决定区
第三互补决定区域
冠状病毒抗体数据库
免疫表位数据库
再
中东呼吸综合征相关冠状病毒
蛋白质数据库
没有宣布。