卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JBB

JMIR Bioinform Biotech

JMIR生物信息学和生物技术

2563 - 3570

卡塔尔世界杯8强波胆分析

加拿大多伦多

v3i1e29404

10.2196/29404

原始论文

通过机器学习预测抗体-抗原结合:数据集的开发和方法的评估

Mavragani

孤挺花

邱

郑

肖

夷陵

阿克曼

玛格丽特·E

Sundaramoorthi

Hemalatha

叶

曹国伟

管理信息系统 1

https://orcid.org/0000-0001-5740-8531

胡

Wenxing

麻省理工学院 2

https://orcid.org/0000-0002-3041-3573

加埃塔

布鲁诺

博士学位 1

计算机科学与工程学院“，新南威尔士大学

计算机科学大楼(K17)

新南威尔士大学工程路

悉尼,2052年

澳大利亚 61 293857213 bgaeta@unsw.edu.au

https://orcid.org/0000-0003-4723-4982

1 计算机科学与工程学院“，新南威尔士大学

悉尼

澳大利亚 2 计算机科学系信息科学与技术学院“，东京工业大学

东京

日本

通讯作者:Bruno Gaeta bgaeta@unsw.edu.au

Jan-Dec 2022

28 10 2022

3. 1

e29404

6 4 2021 20. 5 2021 23 9 2021 18 10 2022

©叶超，胡文星，Bruno Gaeta。最初发表在JMIR生物信息学和生物技术(https://bioinform.www.mybigtv.com)， 28.10.2022。

2022

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用首次发表在JMIR生物信息学和生物技术上的原创作品。必须包括完整的书目信息，https://bioinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

哺乳动物的免疫系统能够产生针对各种抗原的抗体，包括细菌、病毒和毒素。重排免疫球蛋白基因的超深度DNA测序在进一步了解免疫反应方面具有相当大的潜力，但由于缺乏高通量、基于序列的方法来预测给定免疫球蛋白识别的抗原，其局限性很大。

客观的

作为仅从序列数据预测抗体-抗原结合的一步，我们的目标是比较一系列机器学习方法，这些方法应用于抗体-抗原对的整理数据集，以便从序列数据预测抗体-抗原结合。

方法

用于训练和测试的数据从蛋白质数据库和冠状病毒抗体数据库中提取，并通过使用分子对接协议生成额外的抗体-抗原对数据。该问题采用了加权最近邻法、BLOSUM62矩阵最近邻法和随机森林法等几种机器学习方法。

结果

最终数据集包含1157个抗体和57个抗原，合并成5041个抗体-抗原对。使用BLOSUM62矩阵的最近邻方法获得了预测相互作用的最佳性能，在完整数据集上的准确率约为82%。这些结果为机器学习和抗体-抗原结合预测中的数据集创建提供了有用的参考框架，以及协议和考虑因素。

结论

比较了几种机器学习方法来预测蛋白质序列中的抗体-抗原相互作用。数据集(CSV格式)和机器学习程序(Python编码)都可以在GitHub上免费下载。

DNA测序 DNA DNA序列序列数据分子生物学基因组随机森林最近的邻居免疫球蛋白遗传学 antibody-antigen绑定抗原抗体结构生物学机器学习蛋白质建模蛋白质蛋白质组学

简介

DNA测序技术通过允许对个体中存在的重排免疫球蛋白基因进行大规模测序，为免疫反应提供了新的见解[ 1， 2］．然而，由于缺乏确定特定免疫球蛋白(即由给定序列编码的球蛋白)结合的抗原的方法，这种方法的应用受到限制。个体免疫球蛋白的实验检测成本很高;然而，基于序列数据的绑定属性的大规模表征目前是不可能的。

抗原结合是由抗体的互补决定区(cdr)介导的，这些区域在重和轻免疫球蛋白链之间共享。已经提出了利用结构预测和对接预测抗体-抗原相互作用的计算方法[ 3.］．然而，使用这些方法需要了解抗体和抗原的3D结构。从蛋白质序列直接预测抗体-抗原相互作用仍然是一个悬而未决的问题。

基于机器学习的工具，如mCSM-AB [ 4]和ADAPT(辅助设计抗体和蛋白质疗法)[ 5]，在预测其他情况下的抗体相互作用方面取得了一些成功。mCSM-AB是一个web服务器，用于预测突变时抗体-抗原亲和力的变化，使用基于图形的签名。ADAPT是一种混合预测和测试的亲和成熟平台，之前已在单克隆抗体上得到验证。

基于抗体和抗原序列来预测抗体是否会与蛋白质抗原结合的更通用的方法仍然难以捉摸，部分原因是缺乏用于开发机器学习模型的全面训练数据。本研究旨在作为实现这一目标的第一步，旨在从一系列来源中组装一个训练数据集，并评估应用机器学习算法来识别该数据集中抗体-抗原对结合的可行性。

方法数据集

由于缺乏合适的抗体-抗原对，使用计算对接来生成训练和测试数据集中的一些数据。ClusPro(波士顿大学)[ 6- 9]和Rosetta (RosettaCommons) [ 10- 12web服务器被用来创建配对抗体-抗原复合物的数据集，用于机器学习。ClusPro和Rosetta均用于蛋白质-蛋白质分子对接。Rosetta使用SnugDock (RosettaCommons)算法[ 10］．Swiss- pdbviewer(瑞士生物信息学研究所)[ 13]被用来检查所得到的蛋白质复合物结构。

从蛋白质数据库(Protein Data Bank, PDB)中随机选取50个抗体-抗原复合物[ 14］．抗体-抗原复合物通过使用Perl脚本分离，以生成pdb格式的文件以及抗体和抗原的序列。使用Rosetta抗体建模web服务器定位cdr。使用ClusPro(仅用于确定方向)将抗原与一系列抗体进行对接，然后使用Rosetta的抗体对接程序SnugDock。为了保持计算时间可控，并不是所有抗体都被停靠。相反，为了找到最佳的定位，研究人员随机选择了10到14个抗体与每种抗原进行对接。生成的复合物被提交到Rosetta SnugDock web服务器，以计算最佳界面得分。这就产生了每个抗原10到14个复合物的结构，当与原始抗体-抗原复合物加在一起时，每个抗原总共有11到15个复合物。总共有50个抗原和600个抗体。所产生的复合物的一个示例显示在图1．

图1

对接输出的示例。3s35复合体是使用ClusPro服务器生成的(对接结果:“YES”;最佳对接接口评分:−0.876)。

使用Rosetta界面分数作为结合亲和力的估计值，以识别用于机器学习的同源抗体-抗原对。界面分数高于- 8.0的复合物被直接归为结合差的复合物，界面分数低于- 9.0的复合物被直接归为结合良好的复合物。对于得分在−8.0到−9.0之间的复合物，使用SwissDock(瑞士生物信息学研究所)对对接集群和位置进行了可视化检查。如果前10个模型的抗体和抗原的相对位置相似，且结构表现出明显的相互作用模式，则将其归类为具有良好的结合亲和力。

Rosetta界面评分以前曾被用作基于对接结果确定结合亲和力的分类器(例如，在抗体-抗原交叉反应性研究中[ 15])。

其他数据提取自冠状病毒抗体数据库(CoV-AbDab) [ 16-包括SARS-CoV-2、SARS-CoV-1和MERS-CoV(中东呼吸综合征相关冠状病毒)抗体数据库。数据(2674行)于2021年2月14日从CoV-AbDab中提取。在过滤掉不完整的数据后，还剩下2031行，每一行对应一个抗体。提取的信息包括抗体名称、它们的结合抗原、它们的轻重可变区序列，包括第三个cdr (CDR3s)的位置。每个可变区域序列都在国际免疫遗传学信息系统数据库中进行搜索[ 17]以识别重链和轻链上的第一个cdr (CDR1s)和第二个cdr (CDR2s)的位置。由于一行可能包含一个抗体与多个抗原相互作用的信息，数据被进一步分成多行，每行包含一个抗体与一个抗原相互作用的信息。

计算序列的附加特征如下。使用Bachem肽计算器分析工具(Bachem Holding AG)计算每个CDR的等电点[ 18］．用Bachem肽计算器计算每种CDR的平均亲水性。

采用IEDB (Immune Epitope Database)抗体表位预测分析工具预测B细胞表位[ 19］．

所得数据集可从GitHub [ 20.]，并由以下列标题组成: H链CDR1序列， H链CDR2序列， H链CDR3序列， L链CDR1序列， L链CDR2序列， L链CDR3序列， L CDR1的亲水性， pI (L CDR1， L CDR2的亲水性， pI (L CDR2， L CDR3的亲水性， pI (L CDR3， H CDR1的亲水性， H CDR1的pI, H CDR2的亲水性， pI (H CDR2， H CDR3的亲水性， pI (H CDR3，抗原表位，罗塞塔对接分数，抗原, 对接结果．

机器学习

加权k -最近邻分类算法[ 21]用于预测抗体-抗原结合亲和力。该程序可从GitHub [ 20.］．

对于每种抗原，根据对接结果，对接的11 - 15个抗体被标记为“亲和性好”或“亲和性低”。然后使用抗原和抗体的序列进行机器学习。

邻居通过不同抗体的CDR1、CDR2和CDR3氨基酸序列之间的字符串距离来确定。重量是根据距离计算的，所以更近的邻居被认为有更多的重量，如下所述。

对于每个抗原，使用K-NN方法学习类别(良好的亲和力或低亲和力)，使用标记的抗原-抗体序列对的训练子集(N−1)，并使用CDR字符串距离作为特征。然后在未用于训练的剩余抗原-抗体序列对上评估模型性能(保留一个交叉验证)。

为了确保K-NN对只包含具有相同抗原的对，对涉及不同抗原的抗体-抗原对之间的距离增加1000的固定惩罚。

抗体之间的相似性通过比较它们的cdr来衡量。每个抗体有一个重链和一个轻链，每个链包含3个cdr。2个抗体之间的距离计算为其CDR距离向量之间的欧氏距离，如下式(式1)所示:

(在哪里问_我 - - - - - - p_我的字符串距离 CDR_我的抗体问和 CDR_我的抗体 p．

给出了Python代码多媒体附件1．

对两种不同的CDR距离计算方法进行了测试和比较;一种基于序列恒等式，另一种使用BLOSUM62矩阵，具体如下。

对于基于身份的距离测量，等价的cdr对根据它们的Levenshtein字符串距离相互比较[ 22]，如式(式2)所示:

成本= 0 一个_我＝ b_我，成本= 1 一个_我 ≠ b_我

当Levenshtein距离用于比较序列时，它只说明氨基酸的同一性。更具有生物学意义的距离测量需要考虑氨基酸的不同性质，这意味着在相互作用中，一些氨基酸取代比其他氨基酸更容易被接受。BLOSUM62替换矩阵[ 23]被用作Levenshtein距离计算中氨基酸相似性的代理。虽然BLOSUM矩阵的设计是为了反映进化守恒，但它们可以提供相互作用潜力相似性的估计[ 24］．

根据公式2计算Levenshtein距离，使用以下代价函数:

为一个_我＝ b_我，成本= 0

在哪里年代_ij ，年代₂ , 年代_jj 由BLOSUM62矩阵得到。

数据集中的以下列被用于训练模型进行省略交叉验证: H链CDR1序列， H链CDR2序列， H链CDR3序列， L链CDR1序列， L链CDR2序列， L链CDR3序列，抗原, 对接结果．然后评估训练后的模型预测其他列对接结果的能力。

结合先前K-NN结果的随机森林机器学习算法也用于预测抗体-抗原结合分类。除了blosum62衍生的CDR距离外，每个CDR在中性pH(7.0)下的等电点和净电荷被用作额外的特征，用于训练随机森林。绑定是通过结合每个特征的投票来预测的，根据基于每个特征的最近邻居预测，每个特征贡献1票。

数据集中的以下列用于训练随机森林: 串距(KNN法计算)， L CDR1的亲水性， pI (L CDR1， L CDR2的亲水性， pI (L CDR2， L CDR3的亲水性， pI (L CDR3， H CDR1的亲水性， pI (H CDR1， H CDR2的亲水性， pI (H CDR2， H CDR3的亲水性， pI (H CDR3，抗原, 对接结果．然后评估训练后的模型预测其他列对接结果的能力。

每个特征被认为是一个单独的决策树，并贡献1票。例如，将抗体重链CDR1的等电点视为1个特征，如前所述，使用K-NN方法来寻找该决策树的结果。总共有13棵决策树，每棵树都使用K-NN方法来确定它的投票，共13票。最终的决定是根据简单多数投票决定的。当整个森林(所有13棵决策树)都参与投票时，获得了最好的结果。

K-NN和随机森林学习器的性能通过在抗原基础上使用省略交叉验证进行评估。对于57种抗原中的每一种，从数据集中去除一行，即1个抗体-抗原对，构建一个训练数据集。在使用与该抗原结合的剩余抗体进行训练后，基于去除的抗体评估模型性能。重复该过程，直到所有5041对抗体-抗原被检测。模型精度计算为正确预测的抗体-抗原对的数量与数据集中的抗体-抗原对的总数之比。

结果数据集

通过50个抗体结构与50个抗原结构的计算对接，共生成600个抗体-抗原复合物。此外，从Cov-AbDab中共提取了4441对抗体-抗原对。这部分数据集的组成如图所示表1．

数据集总共包含5041对抗体-抗原对，包括1157个抗体和57个抗原。

表1

从冠状病毒抗体数据库中提取的抗体和阳性和阴性抗体-抗原对的数量。

抗原	抗体数量	正样本n	负样本n
SARS-CoV-2	1943	1912	31
SARS-CoV-1	1241	597	644
MERS-CoV^一个	264	119	145
HCoV-OC43^b	257	21	236
HCoV-HKU1^c	254	84	170
HCoV-NL63^d	258	51	207
hcov - 229 e^e	207	49	158

^一个中东呼吸综合征冠状病毒:中东呼吸综合征相关冠状病毒。

^bHCoV-OC43:人冠状病毒OC43。

^cHCoV-HKU1:人冠状病毒HKU1。

^dHCoV-NL63:人冠状病毒NL63。

^eHCoV-229E:人类冠状病毒229E。

机器学习

采用省略交叉验证对抗原-抗体结合分类方法进行评价。对于2个最近邻居的K值，K- nn方法在基于序列恒等式计算Levenshtein距离时，准确率达到81%。当使用BLOSUM62矩阵计算Levenshtein弦距时，观察到有轻微的改进(精度为82%)。

根据BLOSUM62矩阵计算Levenshtein距离时，还评估了不同的K值。K值为2提供了最好的准确性。当K值为1个最近邻时，准确率为80%。当K值为3时，分类准确率下降到79%。

对于随机森林预测，采用投票作为分类预测结果。当考虑整个森林时，准确率最高，在这种情况下，每个特征都对分类结果有贡献。当所有13个特征(每个cdr的Levenshtein弦距离和中性pH(7.0)下的等电点和净电荷)都参与最终投票时，随机森林方法的性能最好(准确率为80%)。

讨论

通过使用结构建模和通过Rosetta的计算对接相结合，以及从CoV-AbDab中提取的抗体-抗原对，我们创建了5041个抗体-抗原复合物的训练和测试数据集。

我们还开发了加权最近邻和随机森林方法来预测基于序列数据的抗体-抗原结合。这些机器学习程序可以进行分类，以识别可能与给定抗体结合的抗原。

对于基于2个最近邻的分类结果，省略一个交叉验证测试的准确率为82%。当改变最近邻居的数量时，预测准确率在77%到82%之间。使用字符串距离和BLOSUM62矩阵获得了2个最近邻居的最佳预测结果(准确率为82%)。

本研究表明，通过使用相对简单的机器学习方法，可以从抗体可变区和抗原的氨基酸序列中预测抗体和蛋白质抗原之间的相互作用。与基于蛋白质空间结构的对接预测方法相比，本课题提出的方法不需要三维结构，更适用于无法获得三维结构的抗体。

在缺乏大量抗体-抗原结合亲和力的实验数据的情况下，使用Rosetta界面分数以及前10个结合位置来确定结合亲和力的分类。虽然这种方法不太可能提供问题的完整表示，但它提供了适合比较一系列方法的数据集。随着更大的数据集的出现，这种方法肯定会得到改进。对接数据集包含600行抗体-抗原对。在数据收集过程中测试了该数据集的子集(200、300、400和500行)。所有这些子集的分类精度都相当一致。这表明，虽然数据集是有限的，但它为我们预测抗体-抗原结合亲和力的方法的发展提供了一个良好的起点，随着更多数据的可用，可以进一步验证这一方法。选择K-NN方法作为初始机器学习方法。最近邻为2 (K=2)时，预测结果最佳。随机森林也被使用，包括序列距离以及cdr的化学性质(等电点和疏水性)。 The best prediction results (accuracy of 82%) were obtained with the nearest neighbor method when the Levenshtein distance was calculated based on BLOSUM62 matrices. The additional features included in the random forest did not improve classification accuracy, and this was probably due to these features’ dependence on the amino acid sequences.

我们的方法中大约20%(907/ 5041,18%)的预测是不准确的。这些错误大多发生在一些大抗原上。进一步检验了这些抗原的对接结果。准确性的下降可能是由于较大抗原构象的灵活性，多个表位的存在，以及较大抗原中不连续表位的数量相对于较小抗原中这种表位的数量更高。

作为发展适合从序列数据预测抗体-抗原结合亲和力的机器学习方法的一步，加权最近邻和随机森林机器学习方法被应用于该问题。基本的假设是，具有相似序列的抗体在与给定抗原结合的能力方面可能是相似的。用Python编写了一个预测程序，并在包含1157个抗体和57个抗原的数据集上进行交叉验证，这些抗体-抗原对组合在5041个抗体-抗原对中。该数据集的最佳分类预测精度约为82%。

这些结果为机器学习和抗体-抗原结合预测中的数据集创建提供了有用的参考框架，以及协议和考虑因素。由于训练数据的稀缺，我们的方法仍然是有限的，但随着更多的抗体-抗原结合数据变得可用，它对于大规模预测的有用性应该会增加。预测抗体-抗原结合的能力将允许更明智地使用来自大规模免疫受体测序的数据。反过来，这将增加我们对随着时间的推移，在一系列条件下，在个体和种群之间，有机体中抗原识别的变化的理解。

数据集(CSV格式)和机器学习程序(Python编码)均可在GitHub上免费下载[ 20.］．

多媒体附件1

欧几里得距离计算的Python代码。

缩写

适应

抗体和蛋白质疗法的辅助设计

CDR

complementarity-determining地区

CDR1

第一个互补决定区域

CDR2

第二互补决定区

CDR3上

第三互补决定区域

CoV-AbDab

冠状病毒抗体数据库

IEDB

免疫表位数据库

事例

再

MERS-CoV

中东呼吸综合征相关冠状病毒

PDB

蛋白质数据库

没有宣布。

Dunn-Walters

汤森

辛克莱

斯图尔特

一个

免疫球蛋白基因分析是研究人类免疫反应的工具

Immunol牧师 2018 07 284 1 132 147

10.1111 / imr.12659

29944755

PMC6033188

博伊德

克罗

我小

深度测序和人抗体库分析

Curr Opin Immunol 2016 06 40 103 109

10.1016 / j.coi.2016.03.008

27065089

s0952 - 7915 (16) 30025 - 5

PMC5203765

Weitzner

双相障碍

Jeliazkov

小

Lyskov

年代

Marze

黑田

弗里克

Adolf-Bryfogle

Biswas

Dunbrack

RL小

灰色的

抗体结构与Rosetta的建模和对接

Nat Protoc 2017 02 12 2 401 416

10.1038 / nprot.2016.180

28125104

nprot.2016.180

PMC5739521

皮雷

DEV

亚瑟

mCSM-AB:一个web服务器，用于预测突变时基于图形签名的抗体-抗原亲和力变化

核酸测定 2016 07 08 44 W1 W469 W473

10.1093 / nar / gkw458

27216816

gkw458

PMC4987957

Vivcharuk

Baardsnes

Deprez

Sulea

Jaramillo

米

花篮

Mullick

一个

马古恩

马

一个

Durocher

O 'Connor-McCourt

医学博士

Purisima

抗体和蛋白质治疗的辅助设计(ADAPT)

《公共科学图书馆•综合》 2017 07 27 12 7 e0181490

10.1371 / journal.pone.0181490

28750054

玉米饼- d - 17 - 00252

PMC5531539

Kozakov

大厅

博士

夏

行李搬运工人

卡

Padhorny

Yueh

Beglov

Vajda

年代

用于蛋白质-蛋白质对接的ClusPro web服务器

Nat Protoc 2017 02 12 2 255 278

10.1038 / nprot.2016.169

28079879

nprot.2016.169

PMC5540229

Comeau

老

Gatchell

Vajda

年代

卡马乔

ClusPro:用于预测蛋白质复合物的自动对接和鉴别方法

生物信息学 2004 01 01 20. 1 45 50

10.1093 /生物信息学/ btg371

14693807

Kozakov

Brenke

Comeau

老

Vajda

年代

PIPER:一种基于fft的具有成对电位的蛋白质对接程序

蛋白质 2006 11 01 65 2 392 406

10.1002 / prot.21117

16933295

Comeau

老

Gatchell

Vajda

年代

卡马乔

ClusPro:蛋白质-蛋白质对接的全自动算法

核酸测定 2004 07 01 32 Web服务器问题 W96 W99

10.1093 / nar / gkh354

15215358

32 / suppl_2 / W96

PMC441492

Sircar

一个

灰色的

SnugDock:抗体-抗原对接过程中对位结构优化，补偿抗体同源模型中的错误

PLoS计算生物学 2010 01 22 6 1 e1000644

10.1371 / journal.pcbi.1000644

20098500

PMC2800046

Lyskov

年代

灰色的

用于本地蛋白质-蛋白质对接的RosettaDock服务器

核酸测定 2008 07 01 36 Web服务器问题 W233 W238

10.1093 / nar / gkn216

18442991

gkn216

PMC2447798

Lyskov

年代

周

足球俱乐部

Conchuir

所以

Der

废话

画了

黑田

徐

Weitzner

双相障碍

伦弗鲁

Sripakdeevong

Borgo

Havranek

Kuhlman

Kortemme

邦

灰色的

达斯

分子建模应用的服务验证:包括所有人的罗塞塔在线服务器(ROSIE)

《公共科学图书馆•综合》 2013 05 22 8 5 e63906

10.1371 / journal.pone.0063906

23717507

玉米饼- d - 13 - 06189

PMC3661552

Guex

Peitsch

SWISS-MODEL和Swiss-PdbViewer:比较蛋白质建模的环境

电泳 1997 12 18 15 2714 2723

10.1002 / elps.1150181505

9504803

RCSB PDB:主页

蛋白质数据库 2019-07-12

https://www.rcsb.org/

Kilambi

灰色的

基于结构的抗体-抗原相互作用交叉对接分析

Sci代表 2017 08 15 7 1 8145

10.1038 / s41598 - 017 - 08414 - y

28811664

10.1038 / s41598 - 017 - 08414 - y

PMC5557897

Raybould

MIJ

Kovaltsuk

一个

标志着

迪恩

厘米

CoV-AbDab:冠状病毒抗体数据库

生物信息学 2021 05 05 37 5 734 735

10.1093 /生物信息学/ btaa739

32805021

5893556

PMC7558925

IMGT主页

国际免疫遗传学信息系统 2020-01-23

http://www.imgt.org

肽计算器

Bachem 2020-03-10

https://www.bachem.com/knowledge-center/peptide-calculator/

抗体表位预测

免疫表位数据库 2020-07-12

http://tools.iedb.org/bcell/

20.

曹国伟你们

jessye123 / ab-ag-seq-machine-learning

GitHub 2022-10-19

https://github.com/jessye123/ab-ag-seq-machine-learning

Taunk

德

年代

时

年代

Swetapadma

一个

简要回顾了用于学习和分类的最近邻算法

2019

2019智能计算与控制系统国际会议(ICCS)

2019年5月15日至17日

马杜赖,印度

1255 1260

10.1109 / iccs45141.2019.9065747

Levenshtein

能够纠正删除、插入和反转的二进制代码

苏联物理学女博士 1966 02 10 8 707 710

Henikoff

年代

Henikoff

詹

蛋白质块中的氨基酸替代矩阵

美国国立自然科学研究院 1992 11 15 89 22 10915 10919

10.1073 / pnas.89.22.10915

1438297

PMC50453

黄

Yu-An

你

Zhu-Hong

高

鑫

黄

利昂

王

Lirong

利用加权稀疏表示模型结合离散余弦变换从蛋白质序列预测蛋白质-蛋白质相互作用

生物医学保留区 2015 2015 902198

10.1155 / 2015/902198

26634213

PMC4641304