这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR研究协议上的原创作品。必须包括完整的书目信息,http://bioinform.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
由新型SARS-CoV-2引起的COVID-19被认为是世界上最具威胁的呼吸道感染,全球报告感染人数超过4000万人,相关死亡人数超过93.34万人。据推测,COVID-19的流行病学和临床特征在不同国家或大洲可能有所不同。对48635个SARS-CoV-2基因组的基因组比较表明,每个样本的平均突变数为7.23,大多数SARS-CoV-2菌株属于具有地理和基因组特异性的3个分支之一:欧洲、亚洲和北美。
本研究的目的是比较来自意大利、瑞典和刚果(位于同一子午线(经度)但气候条件不同的3个不同国家)和来自巴西(外群国家)的新冠病毒基因组,分析其可能的进化压力特征模式的异同。
我们通过对当日所有可用基因组进行采样,从共享所有流感数据全球倡议数据库中获得了数据。利用HyPhy实现了遗传算法的重组分析,通过重组检测方法、修剪、去除停止密码子,以及进化树和混合效应模型的进化分析。我们还对该蛋白的序列(突变型和野生型)以及“无序”和“跨膜”分析进行了二级结构预测分析。我们用从头算方法分析了这两种蛋白质结构,以预测它们的本体和3D结构。
进化分析显示,从这4个国家分离的所有SARS-CoV-2毒株的9628密码子都处于幕式选择压力下,这表明9628密码子是病毒进化的关键位点。密码子9628编码P0DTD3 (Y14_SARS2)非特征蛋白14。进一步研究表明,密码子突变是二级结构螺旋修饰的主要原因。该密码子位于该基因更有序的区域(41-59),靠近起跨膜作用的区域(54-67),表明它参与了病毒的附着阶段。野生型和突变P0DTD3的预测蛋白结构证实了密码子在定义蛋白结构方面的重要性。此外,对蛋白质的本体论分析强调突变增强了结合概率。
我们的结果表明,RNA二级结构可能受到影响,因此,蛋白质产物在蛋白质的第50位将T(苏氨酸)转变为G(甘氨酸)。这个位置靠近预测的跨膜区域。突变分析显示,从G(甘氨酸)到D(天冬氨酸)的变化可能赋予蛋白质结合活性一种新的功能,这反过来可能是病毒附着在人类真核细胞上的原因。这些发现可以帮助设计体外实验,并可能促进疫苗设计和成功的抗病毒策略。
目前由新型SARS-CoV-2引起的COVID-19大流行是全球最具威胁的呼吸道感染,几乎影响了世界上所有国家。截至2020年12月30日,超过8100万人感染了COVID-19,报告了170多万人死亡。许多卫生机构正在努力生产预防这种病毒感染的有效疫苗,其中一些疫苗目前正处于用于人类的最后研制阶段[
SARS-CoV-2基因组与SARS-CoV和MERS-CoV(中东呼吸综合征冠状病毒)的序列相似度约为82%,必需酶和结构蛋白的序列相似度超过90%。这种高度的序列同一性表明了一个共同的发病机制,因此,治疗靶向。SARS-CoV-2含有4种结构蛋白,包括刺突蛋白(S)、包膜蛋白(E)、膜蛋白(M)和核衣壳蛋白(N) [
新型冠状病毒基因组由单链阳性RNA组成。新测序的SARS-CoV-2基因组已提交到NCBI基因组数据库(NC_045512.2)。SARS-CoV-2的基因组成由13-15个(包括12个功能性)开放阅读框(orf)组成,包含约3万个核苷酸。基因组包含38%的GC含量和11个蛋白质编码基因,共表达12种蛋白质[
95个SARS-CoV-2基因组的基因组特征揭示了可能影响SARS-CoV-2严重程度和传播的2个最常见的突变[
对48635个SARS-CoV-2基因组的基因组比较表明,每个样本的平均突变数为7.23,大多数SARS-CoV-2菌株属于以下3个分支之一:分支G(欧洲)、分支L(亚洲)和派生分支G(北美)[
本研究的目的是比较来自同一子午线(经度)具有代表性的国家(意大利、瑞典和刚果)的SARS-CoV-2病毒株的基因组,以揭示其基因组中可能的进化压力特征模式的异同。
我们从共享所有流感数据全球倡议(GISaid)知识库中获得了数据,并对截至2020年5月5日(2020年5月5日)其中可用的所有基因组进行了采样,包括文件刚果-gisaid_hcov-19_2020_05_05_09。Fasta, 75项,意大利-gisaid_hcov-19_2020_05_05_10。Fasta, 69项,瑞典-gisaid_hcov-19_2020_05_05_10。Fasta包含104个条目,以及外组文件brazil_gisaid_hcov-19_2020_05_15_04。Fasta有92个条目。从GenBank存储库下载了登录号为NC_045512.2的参考基因组。
我们使用了SARS-CoV-2武汉-胡-1基因组(RefSeq Acc。不。NC_045512.2)作为参考序列和VIRULIGN版本1.0.1应用程序[
我们使用RNA_fold网络服务器(维也纳RNA网络套件的一部分)来预测野生型和突变序列的二级结构[
蛋白紊乱分析采用MFDp2 [
通过使用Robetta webserver,用从头算方法确定了这两种蛋白质结构[
基于MEME算法对来自意大利、瑞典、刚果(位于同一地理子午线的国家)和巴西(作为外组)的SARS-CoV-2数据进行了混合进化分析。调查显示,密码子9628在各个国家都处于周期性的正选择压力下,如图所示
进化的混合效应模型(MEME_分析结果显示从巴西、刚果、意大利和瑞典的SARS-CoV-2进化分析中获得的数据。每个国家的前3个网站显示,排序
国家(ID) /网站 | 分区 | α | β− |
|
β+ |
|
轻轨车 |
|
选择下的分支 | 分支总长度 | MEME LogL | 固定效应可能性LogL | |
|
|||||||||||||
|
9628一个 | 1 | 0 | 0 | 0.96 | 10000年 | 0.04 | 16.37 | <措施 | 2 | 0.65 | -27.28 | -20.62 |
|
9928 | 1 | 0 | 0 | 0.82 | 10000年 | 0.18 | 11.12 | <措施 | 4 | 2.71 | -31.03 | -28.53 |
|
81 | 1 | 0 | 0 | 0.04 | 1032.18 | 0.96 | 6.95 | . 01 | 5 | 1.49 | -40.77 | -40.77 |
|
|||||||||||||
|
9628一个 | 1 | 0 | 0 | 0.97 | 10000年 | 0.03 | 10.89 | <措施 | 1 | 0.25 | -18.18 | -13.54 |
|
2884 | 1 | 0 | 0 | 0.45 | 1273.45 | 0.55 | 3.51 | 。08 | 5 | 0.60 | -42.49 | -42.37 |
|
6541 | 1 | 0 | 0 | 0.97 | 10000年 | 0.03 | 2.73 | 点 | 1 | 0.27 | -12.94 | -11.92 |
|
|||||||||||||
|
15 | 1 | 0 | 0 | 0.96 | 10000年 | 0.04 | 10.21 | <措施 | 1 | 0.73 | -15.90 | -12.57 |
|
9628一个 | 1 | 0 | 0 | 0.97 | 0000 | 0.03 | 11.24 | <措施 | 1 | 0.45 | -17.66 | -12.95 |
|
4 | 1 | 0 | 0 | 0.89 | 10000年 | 0.11 | 7.25 | . 01 | 0 | 1.83 | -13.11 | -10.43 |
|
|||||||||||||
|
9628一个 | 1 | 0 | 0 | 0.96 | 9613.52 | 0.04 | 16.03 | <措施 | 2 | 0.51 | -27.43 | -21.10 |
|
4409 | 1 | 0 | 0 | 0.97 | 4356.70 | 0.03 | 7.68 | . 01 | 1 | 0.16 | -15.63 | -12.33 |
|
4732 | 1 | 0 | 0 | 0.95 | 10000年 | 0.05 | 3.85 | 07 | 2 | 0.74 | -19.66 | -18.78 |
一个9628站点。
在这种情况下,我们使用术语“站点”作为密码子的同义词,尊重HyPhy术语。渐近
深入检查4个国家的多重比对数据,发现9628位点的偶发正选择压力是密码子GGG向ACG的一致性突变,如图
演化地块的混合效应模型。分布
部分来自意大利数据的多序列比对显示9628位点处于周期性选择压力下。核苷酸从GGG变为ACG。
突变前后二级结构的预测存在重要差异,从GGG突变到ACG (
排列序列上的核苷酸突变,说明了被认为可以预测突变和野生型蛋白质的二级结构的序列。从起始密码子(9578)到开放阅读帧(9632),位置用蓝色表示。
二级结构预测。这两张RNA图显示了GGG到ACG突变对结构的影响。
对该蛋白质进行的无序区分析结果显示,从41到59的位置更为稳定,甘氨酸(G)位于第50位。我们通过使用3种不同的软件工具,并考虑无序概率的平均值得到结果,如图所示
无序区分析。41-59区域被发现紊乱的概率最低。橙色的线划定了这个区域,蓝色的虚线勾勒出G在不同曲线上的位置。
蛋白质失序分析结果显示了蛋白质每个位置失序的概率。使用MFDp2、Netsurf和SPOTD软件计算概率。
位置 | 氨基酸序列 | 无序概率值 | |||
|
|
MFDp2 | NetsurfP2 | SPOTD | 平均值一个 |
1 | 米 | 0.132 | 0.627823114 | 0.5607 | 0.440174371 |
2 | l | 0.134 | 0.347978383 | 0.5358 | 0.339259461 |
3. | 问 | 0.135 | 0.270706475 | 0.4945 | 0.300068825 |
... |
|
|
|
|
|
39 | T | 0.03 | 0.010842944 | 0.1936 | 0.078147648 |
40 | V | 0.029 | 0.007660664 | 0.189 | 0.075220221 |
41 | 问 | 0.027 | 0.004478907 | 0.172 | 0.067826302 |
42 | E | 0.025 | 0.00340931 | 0.1848 | 0.07106977 |
43 | 我 | 0.025 | 0.003887762 | 0.1968 | 0.075229254 |
44 | 问 | 0.024 | 0.003997837 | 0.1927 | 0.073565946 |
45 | l | 0.023 | 0.00361518 | 0.2129 | 0.079838393 |
46 | 问 | 0.023 | 0.004551574 | 0.2123 | 0.079950525 |
47 | 一个 | 0.023 | 0.004939525 | 0.2011 | 0.076346508 |
48 | 一个 | 0.022 | 0.005752307 | 0.2133 | 0.080350769 |
49 | V | 0.022 | 0.002826149 | 0.2524 | 0.092408716 |
50b | G | 0.022 | 0.005828088 | 0.2013 | 0.076376029 |
51 | E | 0.022 | 0.001046103 | 0.24 | 0.087682034 |
52 | l | 0.023 | 0.000922468 | 0.2694 | 0.097774156 |
53 | l | 0.023 | 0.001263275 | 0.2588 | 0.094354425 |
54 | l | 0.023 | 0.001187441 | 0.2539 | 0.092695814 |
55 | l | 0.023 | 0.000650476 | 0.2483 | 0.090650159 |
56 | E | 0.023 | 0.000615434 | 0.2328 | 0.085471811 |
57 | W | 0.023 | 0.001080571 | 0.2302 | 0.08476019 |
58 | l | 0.023 | 0.000941573 | 0.2154 | 0.079780524 |
59 | 一个 | 0.023 | 0.001573079 | 0.208 | 0.07752436 |
60 | 米 | 0.024 | 0.000997698 | 0.2853 | 0.103432566 |
61 | 一个 | 0.024 | 0.00227783 | 0.3026 | 0.109625943 |
62 | V | 0.025 | 0.003362786 | 0.3503 | 0.126220929 |
一个每个位置的无序概率的平均值。
b氨基酸G放置在稳定区域内的第50位。
使用TMHMM, MemBrainTHM, ProtScale和TMpred应用程序获得的跨膜预测结果。ProtScale和TMpred的结果已经标准化,以便与其他概率进行比较。
位置 | 氨基酸序列 | TMHMM概率 | MemBrain THM倾向 | ProtScale标准化评分 | TMpred归一化评分 | 跨膜概率,平均值一个 |
1 | 米 | 0 | 0.000191 | N/Ab | 0.661425764 | 0.220538921 |
2 | l | 0 | 0.002851 | N/Ab | 0.661425764 | 0.221425588 |
3. | 问 | 0 | 0.046538 | N/Ab | 0.661425764 | 0.235987921 |
... |
|
|
|
|
|
|
49 | V | 0.2594 | 0.987914 | 0.646 | 0.603358942 | 0.624168236 |
50c | G | 0.27719 | 0.987914 | 0.646 | 0.629801679 | 0.63522642 |
51 | E | 0.28083 | 0.991702 | 0.736 | 0.660532428 | 0.667266107 |
52 | l | 0.32735 | 0.993857 | 0.67 | 0.594246918 | 0.646363479 |
53 | l | 0.56651 | 0.993857 | 0.637 | 0.778452743 | 0.743954936 |
54 | l | 0.63937 | 0.994522 | 0.632 | 0.73360729 | 0.749874822 |
55 | l | 0.64032 | 0.990459 | 0.659 | 0.818831517 | 0.777152629 |
56 | E | 0.64052 | 0.96027 | 0.726 | 0.835626228 | 0.790604057 |
57 | W | 0.64826 | 0.946819 | 0.701 | 0.822583527 | 0.779665632 |
58 | l | 0.6493 | 0.947424 | 0.706 | 0.895122387 | 0.799461597 |
59 | 一个 | 0.64928 | 0.947424 | 0.683 | 0.905663748 | 0.796341937 |
60 | 米 | 0.64927 | 0.970735 | 0.683 | 0.947293193 | 0.812574548 |
61 | 一个 | 0.64924 | 0.970735 | 0.773 | 0.955511881 | 0.83712172 |
62 | V | 0.64903 | 0.937507 | 0.831 | 1 | 0.85438425 |
63 | 米 | 0.64893 | 0.892506 | 0.831 | 0.960871896 | 0.833326974 |
64 | l | 0.6482 | 0.846403 | 0.84 | 0.942826514 | 0.819357379 |
65 | l | 0.64758 | 0.781733 | 0.847 | 0.924066464 | 0.800094866 |
66 | l | 0.63557 | 0.670387 | 0.856 | 0.661425764 | 0.705845691 |
67 | l | 0.61835 | 0.539353 | 0.851 | 0.661425764 | 0.667532191 |
68 | C | 0.5428 | 0.455615 | 0.819 | 0.661425764 | 0.619710191 |
69 | C | 0.51009 | 0.430385 | 0.728 | 0.661425764 | 0.582475191 |
70 | C | 0.44702 | 0.380525 | N/Ab | 0.661425764 | 0.496323588 |
一个每个位置的概率平均值。
b用于轮廓计算的窗口大小为9,因此该分数不适用于位置1-4和70-73。
c氨基酸G放置在稳定区域内的第50位。
拓扑图使用MemBrain v3。该图描绘了该序列的跨膜拓扑结构,并强调了位于位置50 (G)的氨基酸位于跨膜区域的中间。红色:跨膜螺旋(TMH);蓝色:循环。
跨膜的预测。54-67区域被发现是跨膜编码概率最高的区域,G氨基酸足够接近,可以假设它参与了编码。橙色的线划定了这个区域,蓝色的虚线勾勒出G在不同曲线上的位置。
为了表征推导出的蛋白P0DTD3.1,我们使用从头算方法预测了野生型和突变蛋白序列的3D结构。根据二级结构预测的初步线索,当氨基酸残基由G变为T时,突变蛋白的结构略有不同。
SARS-CoV-2突变蛋白的三维结构预测。模型MUT31136表示突变蛋白的预测3D模型。(A)氨基酸序列按光谱范围着色,突变的氨基酸在第50位(T)用黑色表示。(B)蛋白质已定向,便于比较,残基50用红点表示。(C)残基45-55的细节及其绕y轴旋转(D)和绕x轴旋转(E),步长为90˚。
预测未改变蛋白的三维结构。模型MOD30506表示野生型蛋白的预测3D模型。(A)按光谱范围着色的氨基酸序列,被研究的氨基酸在第50位(G)用黑色表示。(B)为了便于比较,蛋白质已定向,残基50用红点表示。(C)残基45-55的细节及其绕y轴旋转(D)和绕x轴旋转(E),步长为90˚。
蛋白质本体论分析表明,野生型和突变型蛋白质由于结构的改变而具有不同的功能。如
分类报告显示两种(突变型和野生型)蛋白序列的预测功能和相关评分。只有积极的分数被报告。
基因本体术语和功能 | 分数 | ||
|
|
野生型蛋白序列 | 突变蛋白序列 |
去:0003674 | 分子功能 | 1 | 1 |
去:0003824 | 催化功能 | 1 | 0.998 |
去:0016740一个 | 转移酶的活动 | 0.978 | 0.375 |
去:0016829 | 裂合酶活性 | 0.017 | - - - - - -b |
去:0022891 | 跨膜 | 0.07 | - - - - - -b |
去:0005488一个 | 绑定活动 | 0.004 | 0.132 |
去:0022892 | 跨膜转运活性 | 0.001 | 0.001 |
一个本体论功能受到倒置倾向。
b出乎意料的函数。
sars - cov -2是已知导致COVID-19大流行的病毒,与其他冠状病毒相比,它有许多独特的特征,例如快速积累突变[
Mercatelli和Georgi [
此外,对来自13个国家的SARS-CoV-2毒株的病毒基因组进行了比较,发现了蛋白质编码序列的差异。例如,印度菌株在R408I位点的刺突糖蛋白和I671T、P2144S和A2798V位点的复制酶多蛋白出现突变,而西班牙和韩国菌株的刺突蛋白分别出现F797C和S221W突变[
这些发现凸显了研究新冠病毒分离株地理位置与基因组突变的关系的重要性,因为这种关系也可以通过系统发育树分析来确定,从而根据地理位置来阐明谱系和聚类。综上所述,该基因组进化分析揭示了密码子9628对从同一地理经线的所有4个国家(意大利、瑞典、刚果和巴西)分离的SARS-CoV-2毒株处于幕式选择压力下。
共享所有流感数据全球倡议
进化的混合效应模型
中东呼吸综合征冠状病毒
开放阅读框
国家自然科学基金(NSFC81671980, 81871623, 82020108022,刘树林)资助了本工作。资助机构在研究的设计中没有发挥任何作用;数据的收集、分析或解释;或者在写手稿的时候。
没有宣布。