JMIR生物信息学和生物技术-从同一经络的国家分离SARS-CoV-2菌株:基因组进化分析

原始论文

¹哈尔滨医科大学药学院系统组学中心，基因组学研究中心，中国生物医药与药学国家-省重点实验室，哈尔滨

²哈尔滨医科大学HMU-UCCSM感染与基因组学中心，哈尔滨，中国

^3.俄罗斯联邦符拉迪沃斯托克Somov流行病学和微生物研究所

⁴加拿大卡尔加里大学微生物学、免疫学和传染病系

通讯作者:

Emilio Mastriani博士

HMU-UCCSM感染和基因组学中心

哈尔滨医科大学

宝建路157号

哈尔滨,150081

中国

电话:86 13664502721转64502721

电子邮件:emiliomastriani@icloud.com

背景:由新型SARS-CoV-2引起的COVID-19被认为是世界上最具威胁的呼吸道感染，全球报告感染人数超过4000万人，相关死亡人数超过93.34万人。据推测，COVID-19的流行病学和临床特征在不同国家或大洲可能有所不同。对48635个SARS-CoV-2基因组的基因组比较表明，每个样本的平均突变数为7.23，大多数SARS-CoV-2菌株属于具有地理和基因组特异性的3个分支之一:欧洲、亚洲和北美。

摘要目的:本研究的目的是比较来自意大利、瑞典和刚果(位于同一子午线(经度)但气候条件不同的3个不同国家)和来自巴西(外群国家)的新冠病毒基因组，分析其可能的进化压力特征模式的异同。

方法:我们通过对当日所有可用基因组进行采样，从共享所有流感数据全球倡议数据库中获得了数据。利用HyPhy实现了遗传算法的重组分析，通过重组检测方法、修剪、去除停止密码子，以及进化树和混合效应模型的进化分析。我们还对该蛋白的序列(突变型和野生型)以及“无序”和“跨膜”分析进行了二级结构预测分析。我们用从头算方法分析了这两种蛋白质结构，以预测它们的本体和3D结构。

结果:进化分析显示，从这4个国家分离的所有SARS-CoV-2毒株的9628密码子都处于幕式选择压力下，这表明9628密码子是病毒进化的关键位点。密码子9628编码P0DTD3 (Y14_SARS2)非特征蛋白14。进一步研究表明，密码子突变是二级结构螺旋修饰的主要原因。该密码子位于该基因更有序的区域(41-59)，靠近起跨膜作用的区域(54-67)，表明它参与了病毒的附着阶段。野生型和突变P0DTD3的预测蛋白结构证实了密码子在定义蛋白结构方面的重要性。此外，对蛋白质的本体论分析强调突变增强了结合概率。

结论:我们的结果表明，RNA二级结构可能受到影响，因此，蛋白质产物在蛋白质的第50位将T(苏氨酸)转变为G(甘氨酸)。这个位置靠近预测的跨膜区域。突变分析显示，从G(甘氨酸)到D(天冬氨酸)的变化可能赋予蛋白质结合活性一种新的功能，这反过来可能是病毒附着在人类真核细胞上的原因。这些发现可以帮助设计体外实验，并可能促进疫苗设计和成功的抗病毒策略。

中国生物工程学报(英文版)

doi: 10.2196/25995

关键字

SARS-CoV-2；进化分析；情景选择性压力；病毒进化；密码子的突变；结合概率；进化；基因组；遗传学；新型冠状病毒肺炎；病毒；应变；密码子；压力；突变；结构；预测；蛋白质

目前由新型SARS-CoV-2引起的COVID-19大流行是全球最具威胁的呼吸道感染，几乎影响了世界上所有国家。截至2020年12月30日，超过8100万人感染了COVID-19，报告了170多万人死亡。许多卫生机构正在努力生产预防这种病毒感染的有效疫苗，其中一些疫苗目前正处于用于人类的最后研制阶段[1，2］．

SARS-CoV-2基因组与SARS-CoV和MERS-CoV(中东呼吸综合征冠状病毒)的序列相似度约为82%，必需酶和结构蛋白的序列相似度超过90%。这种高度的序列同一性表明了一个共同的发病机制，因此，治疗靶向。SARS-CoV-2含有4种结构蛋白，包括刺突蛋白(S)、包膜蛋白(E)、膜蛋白(M)和核衣壳蛋白(N) [3.］．SARS-CoV-2的结构和基因组正在被广泛研究，但结果似乎存在争议。例如，最近的一项研究发现，2个完整的膜蛋白(即包膜蛋白和膜蛋白)通过在其对应基因上积累核苷酸突变而进化缓慢，但编码核衣壳、病毒复制酶和刺突蛋白的基因则进化得更快，这些基因被认为是开发疫苗和抗病毒药物的重要靶点[4］．然而，其他研究表明，SARS-CoV-2的潜在药物靶点高度保守[3.］．

新型冠状病毒基因组由单链阳性RNA组成。新测序的SARS-CoV-2基因组已提交到NCBI基因组数据库(NC_045512.2)。SARS-CoV-2的基因组成由13-15个(包括12个功能性)开放阅读框(orf)组成，包含约3万个核苷酸。基因组包含38%的GC含量和11个蛋白质编码基因，共表达12种蛋白质[3.］．

95个SARS-CoV-2基因组的基因组特征揭示了可能影响SARS-CoV-2严重程度和传播的2个最常见的突变[5］．另一项研究强调了SARS-CoV-2和其他两种致命冠状病毒(SARS-CoV和MERS-CoV)所特有的关键基因组特征。这些独特的特征与感染这些冠状病毒导致的高致死率以及它们将宿主从动物转移到人类的能力有关[6］．因此，可以推测，这些病毒的流行病学和临床特征可能因国家或大陆而异。

对48635个SARS-CoV-2基因组的基因组比较表明，每个样本的平均突变数为7.23，大多数SARS-CoV-2菌株属于以下3个分支之一:分支G(欧洲)、分支L(亚洲)和派生分支G(北美)[7］．这些结果建议根据不同地区患者的SARS-CoV-2分子特异性定制抗病毒策略[7］．以前的研究也根据地理位置(东亚、欧洲和美洲)区分了这3种变体[8］．最近的全基因组分析显示，来自欧洲的SARS-CoV-2菌株基因组序列的氨基酸突变频率较高(43.07%)，其次是亚洲(38.09%)和北美(29.64%)。然而，欧洲温带国家的病死率仍然较高，如意大利、西班牙、荷兰、法国、英国和比利时[9］．

本研究的目的是比较来自同一子午线(经度)具有代表性的国家(意大利、瑞典和刚果)的SARS-CoV-2病毒株的基因组，以揭示其基因组中可能的进化压力特征模式的异同。

序列数据

我们从共享所有流感数据全球倡议(GISaid)知识库中获得了数据，并对截至2020年5月5日(2020年5月5日)其中可用的所有基因组进行了采样，包括文件刚果-gisaid_hcov-19_2020_05_05_09。Fasta, 75项，意大利-gisaid_hcov-19_2020_05_05_10。Fasta, 69项，瑞典-gisaid_hcov-19_2020_05_05_10。Fasta包含104个条目，以及外组文件brazil_gisaid_hcov-19_2020_05_15_04。Fasta有92个条目。从GenBank存储库下载了登录号为NC_045512.2的参考基因组。

演化模型分析

我们使用了SARS-CoV-2武汉-胡-1基因组(RefSeq Acc。不。NC_045512.2)作为参考序列和VIRULIGN版本1.0.1应用程序[10]进行多序列比对，并使用AliView 1.26版本应用程序将分析结果可视化[11］．采用HyPhy 2.5.8 (MP)，采用遗传算法重组检测方法进行重组分析，并进行修剪、停止密码子去除、进化树和进化混合效应模型(MEME)分析[12］．MEME网站用于读取JSON输出文件并生成MEME图像和表格。

RNA二级结构预测

我们使用RNA_fold网络服务器(维也纳RNA网络套件的一部分)来预测野生型和突变序列的二级结构[13]，以及Forna包[14]来建立图表。

蛋白质分析

蛋白紊乱分析采用MFDp2 [15]， NetSurfP-2.0 [16]和SPOT-Disorder2 [17)应用程序。使用TMHMM server v.2.0, MemBrain webserver计算蛋白质的跨膜分析[18]， ProtScale [19]，和TMpred [20.Expasy网站上的分数(用于比较)[21］．

三维蛋白质结构预测与本体

通过使用Robetta webserver，用从头算方法确定了这两种蛋白质结构[22]，而来自OCEAN CODE的DeeProtein胶囊[23]用于预测所预测蛋白质的本体。使用PyMOL 2.4.0发布蛋白质结构及其本体的3D图像[24］．

密码子9628在情节积极选择下进化

基于MEME算法对来自意大利、瑞典、刚果(位于同一地理子午线的国家)和巴西(作为外组)的SARS-CoV-2数据进行了混合进化分析。调查显示，密码子9628在各个国家都处于周期性的正选择压力下，如图所示表1．

表1。进化的混合效应模型(MEME_分析结果显示从巴西、刚果、意大利和瑞典的SARS-CoV-2进化分析中获得的数据。每个国家的前3个网站显示，排序P价值。

国家(ID) /网站		分区	α	β⁻	p⁻	β⁺	p⁺	轻轨车	P价值	选择下的分支	分支总长度	MEME LogL	固定效应可能性LogL
巴西(BR)
	9628^一个	1	0	0	0.96	10000年	0.04	16.37	<措施	2	0.65	-27.28	-20.62
	9928	1	0	0	0.82	10000年	0.18	11.12	<措施	4	2.71	-31.03	-28.53
	81	1	0	0	0.04	1032.18	0.96	6.95	. 01	5	1.49	-40.77	-40.77
刚果(CG)
	9628^一个	1	0	0	0.97	10000年	0.03	10.89	<措施	1	０．２５	-18.18	-13.54
	2884	1	0	0	0.45	1273.45	0.55	3.51	。08	5	0.60	-42.49	-42.37
	6541	1	0	0	0.97	10000年	0.03	2.73	点	1	0.27	-12.94	-11.92
意大利(它)
	15	1	0	0	0.96	10000年	0.04	10.21	<措施	1	0.73	-15.90	-12.57
	9628^一个	1	0	0	0.97	0000	0.03	11.24	<措施	1	0.45	-17.66	-12.95
	4	1	0	0	0.89	10000年	0.11	7.25	. 01	0	1.83	-13.11	-10.43
瑞典(SE)
	9628^一个	1	0	0	0.96	9613.52	0.04	16.03	<措施	2	0.51	-27.43	-21.10
	4409	1	0	0	0.97	4356.70	0.03	7.68	. 01	1	0.16	-15.63	-12.33
	4732	1	0	0	0.95	10000年	0.05	3.85	07	2	0.74	-19.66	-18.78

^一个9628站点。

在这种情况下，我们使用术语“站点”作为密码子的同义词，尊重HyPhy术语。渐近P值为<。001for episodic diversification at site 9628.图1的分布P所有4个国家的网站价值。

深入检查4个国家的多重比对数据，发现9628位点的偶发正选择压力是密码子GGG向ACG的一致性突变，如图图2．

图1。演化地块的混合效应模型。分布P价值超过巴西、刚果、意大利和瑞典的遗址。紫色圆圈表示9628位点被发现处于周期性选择压力下。

图2。部分来自意大利数据的多序列比对显示9628位点处于周期性选择压力下。核苷酸从GGG变为ACG。

RNA二级结构预测变化

突变前后二级结构的预测存在重要差异，从GGG突变到ACG (图3)．两种预测的二级结构之间的比较突出了RNA构象右上方环的结构修饰，如图所示图4表明GGG到ACG的突变导致了RNA二级结构的显著改变。

图3。排列序列上的核苷酸突变，说明了被认为可以预测突变和野生型蛋白质的二级结构的序列。从起始密码子(9578)到开放阅读帧(9632)，位置用蓝色表示。

蛋白质分析

对该蛋白质进行的无序区分析结果显示，从41到59的位置更为稳定，甘氨酸(G)位于第50位。我们通过使用3种不同的软件工具，并考虑无序概率的平均值得到结果，如图所示图5并在表2．对蛋白质跨膜区域的进一步分析显示，54-67位点与该功能相关。该分析通过使用4个不同的web应用程序进行，并通过评估所得的平均值，将甘氨酸(G)放置在跨膜区域附近，以假设其参与。表3报告数据显示每个氨基酸作为跨膜的概率。序列的跨膜拓扑(图6)突出显示了跨膜区域中间位置50的氨基酸G，以及概率(图7)证实了这一假设。

图5。无序区分析。41-59区域被发现紊乱的概率最低。橙色的线划定了这个区域，蓝色的虚线勾勒出G在不同曲线上的位置。

表2。蛋白质失序分析结果显示了蛋白质每个位置失序的概率。使用MFDp2、Netsurf和SPOTD软件计算概率。

位置	氨基酸序列	无序概率值
		MFDp2	NetsurfP2	SPOTD	平均值^一个
1	米	0.132	0.627823114	0.5607	0.440174371
2	l	0.134	0.347978383	0.5358	0.339259461
3.	问	0.135	0.270706475	0.4945	0.300068825
.．.
39	T	0.03	0.010842944	0.1936	0.078147648
40	V	0.029	0.007660664	0.189	0.075220221
41	问	0.027	0.004478907	0.172	0.067826302
42	E	0.025	0.00340931	0.1848	0.07106977
43	我	0.025	0.003887762	0.1968	0.075229254
44	问	0.024	0.003997837	0.1927	0.073565946
45	l	0.023	0.00361518	0.2129	0.079838393
46	问	0.023	0.004551574	0.2123	0.079950525
47	一个	0.023	0.004939525	0.2011	0.076346508
48	一个	0.022	0.005752307	0.2133	0.080350769
49	V	0.022	0.002826149	0.2524	0.092408716
50^b	G	0.022	0.005828088	0.2013	0.076376029
51	E	0.022	0.001046103	0.24	0.087682034
52	l	0.023	0.000922468	0.2694	0.097774156
53	l	0.023	0.001263275	0.2588	0.094354425
54	l	0.023	0.001187441	0.2539	0.092695814
55	l	0.023	0.000650476	0.2483	0.090650159
56	E	0.023	0.000615434	0.2328	0.085471811
57	W	0.023	0.001080571	0.2302	0.08476019
58	l	0.023	0.000941573	0.2154	0.079780524
59	一个	0.023	0.001573079	0.208	0.07752436
60	米	0.024	0.000997698	0.2853	0.103432566
61	一个	0.024	0.00227783	0.3026	0.109625943
62	V	0.025	0.003362786	0.3503	0.126220929

^一个每个位置的无序概率的平均值。

^b氨基酸G放置在稳定区域内的第50位。

表3。使用TMHMM, MemBrainTHM, ProtScale和TMpred应用程序获得的跨膜预测结果。ProtScale和TMpred的结果已经标准化，以便与其他概率进行比较。

位置	氨基酸序列	TMHMM概率	MemBrain THM倾向	ProtScale标准化评分	TMpred归一化评分	跨膜概率，平均值^一个
1	米	0	0.000191	N/A^b	0.661425764	0.220538921
2	l	0	0.002851	N/A^b	0.661425764	0.221425588
3.	问	0	0.046538	N/A^b	0.661425764	0.235987921
.．.
49	V	0.2594	0.987914	0.646	0.603358942	0.624168236
50^c	G	0.27719	0.987914	0.646	0.629801679	0.63522642
51	E	0.28083	0.991702	0.736	0.660532428	0.667266107
52	l	0.32735	0.993857	0.67	0.594246918	0.646363479
53	l	0.56651	0.993857	0.637	0.778452743	0.743954936
54	l	0.63937	0.994522	0.632	0.73360729	0.749874822
55	l	0.64032	0.990459	0.659	0.818831517	0.777152629
56	E	0.64052	0.96027	0.726	0.835626228	0.790604057
57	W	0.64826	0.946819	0.701	0.822583527	0.779665632
58	l	0.6493	0.947424	0.706	0.895122387	0.799461597
59	一个	0.64928	0.947424	0.683	0.905663748	0.796341937
60	米	0.64927	0.970735	0.683	0.947293193	0.812574548
61	一个	0.64924	0.970735	0.773	0.955511881	0.83712172
62	V	0.64903	0.937507	0.831	1	0.85438425
63	米	0.64893	0.892506	0.831	0.960871896	0.833326974
64	l	0.6482	0.846403	0.84	0.942826514	0.819357379
65	l	0.64758	0.781733	0.847	0.924066464	0.800094866
66	l	0.63557	0.670387	0.856	0.661425764	0.705845691
67	l	0.61835	0.539353	0.851	0.661425764	0.667532191
68	C	0.5428	0.455615	0.819	0.661425764	0.619710191
69	C	0.51009	0.430385	0.728	0.661425764	0.582475191
70	C	0.44702	0.380525	N/A^b	0.661425764	0.496323588

^一个每个位置的概率平均值。

^b用于轮廓计算的窗口大小为9，因此该分数不适用于位置1-4和70-73。

^c氨基酸G放置在稳定区域内的第50位。

图6。拓扑图使用MemBrain v3。该图描绘了该序列的跨膜拓扑结构，并强调了位于位置50 (G)的氨基酸位于跨膜区域的中间。红色:跨膜螺旋(TMH);蓝色:循环。

图7。跨膜的预测。54-67区域被发现是跨膜编码概率最高的区域，G氨基酸足够接近，可以假设它参与了编码。橙色的线划定了这个区域，蓝色的虚线勾勒出G在不同曲线上的位置。

三维蛋白质分析

为了表征推导出的蛋白P0DTD3.1，我们使用从头算方法预测了野生型和突变蛋白序列的3D结构。根据二级结构预测的初步线索，当氨基酸残基由G变为T时，突变蛋白的结构略有不同。图8而且9说明两个预测模型，表明突变将影响蛋白质的三级结构。MUT31136和MOD30336之间残基45-55的比较表明，突变蛋白的这部分延伸到前面的螺旋。这一结果表明，单个氨基酸从G突变到T，在蛋白质的三维结构上进行连续的拉伸循环，容易使蛋白质承担新的功能。

图8。SARS-CoV-2突变蛋白的三维结构预测。模型MUT31136表示突变蛋白的预测3D模型。(A)氨基酸序列按光谱范围着色，突变的氨基酸在第50位(T)用黑色表示。(B)蛋白质已定向，便于比较，残基50用红点表示。(C)残基45-55的细节及其绕y轴旋转(D)和绕x轴旋转(E)，步长为90˚。

图9。预测未改变蛋白的三维结构。模型MOD30506表示野生型蛋白的预测3D模型。(A)按光谱范围着色的氨基酸序列，被研究的氨基酸在第50位(G)用黑色表示。(B)为了便于比较，蛋白质已定向，残基50用红点表示。(C)残基45-55的细节及其绕y轴旋转(D)和绕x轴旋转(E)，步长为90˚。

蛋白质相关本体预测

蛋白质本体论分析表明，野生型和突变型蛋白质由于结构的改变而具有不同的功能。如表4时，该蛋白的野生型变异以高概率(.978≤P催化和转移酶活性均≤1)。该蛋白的突变变体在其功能趋势上呈现出显著变化:即使通常低于0.5的分数被解释为负面预测，在进化的背景下，转移酶活性(从0.98到0.375)有利于结合功能(从0.004到0.132)的概率下降也不可忽略。转移酶与结合活性倾向的上下文反转表明，这种偶发性进化突变旨在提高蛋白质的结合能力。

表4。分类报告显示两种(突变型和野生型)蛋白序列的预测功能和相关评分。只有积极的分数被报告。

基因本体术语和功能		分数
		野生型蛋白序列	突变蛋白序列
去:0003674	分子功能	1	1
去:0003824	催化功能	1	0.998
去:0016740^一个	转移酶的活动	0.978	0.375
去:0016829	裂合酶活性	0.017	- - - - - -^b
去:0022891	跨膜	0.07	- - - - - -^b
去:0005488^一个	绑定活动	0.004	0.132
去:0022892	跨膜转运活性	0.001	0.001

^一个本体论功能受到倒置倾向。

^b出乎意料的函数。

主要研究结果

sars - cov -2是已知导致COVID-19大流行的病毒，与其他冠状病毒相比，它有许多独特的特征，例如快速积累突变[25］．具体而言，单核苷酸转变作为sars - cov -2的主要突变类型在世界范围内的流行已经在以前得到了证明[7］．在本研究中，我们对突变进行了进化分析，以确定同一经络上来自不同国家的SARS-CoV-2基因组是否存在特定的变异模式。我们发现密码子9628在同一子午线上的4个国家都处于幕式选择压力下。这将影响RNA二级结构，从而影响蛋白质产物，T(苏氨酸)在蛋白质第50位转变为G(甘氨酸)。这个位置靠近预测的跨膜区域。突变分析表明，从G(甘氨酸)到D(天冬氨酸)的变化可能赋予该蛋白一种新的功能，即结合活性，这反过来可能是将病毒附着在人类真核细胞上的原因。这些生物信息学发现可能有助于更好地设计体外(湿实验室)和体内(动物模型)实验，以确定与病毒毒力相关的蛋白质变异。因此，这些发现可能最终有助于疫苗设计和成功的抗病毒策略。例如，本研究的结果表明需要进行位点定向诱变和动物实验来验证预期的效果。

Mercatelli和Georgi [7]证明了流行于欧洲的分支G在刺突蛋白中携带D614G突变，该突变负责病毒与宿主人类细胞的初始相互作用。其他研究也表明，从不同大陆分离出来的菌株存在不同的突变位点。2891、3036、14408、23403和28881位点的突变主要出现在欧洲毒株中，而17746、17857和18060位点的突变仅出现在北美毒株中[26］．他们的发现表明，该病毒正在进化，欧洲、北美和亚洲的病毒株可能共存，每种病毒株都具有不同的突变模式。

此外，对来自13个国家的SARS-CoV-2毒株的病毒基因组进行了比较，发现了蛋白质编码序列的差异。例如，印度菌株在R408I位点的刺突糖蛋白和I671T、P2144S和A2798V位点的复制酶多蛋白出现突变，而西班牙和韩国菌株的刺突蛋白分别出现F797C和S221W突变[27］．此外，最近对来自不同地理位置的SARS-CoV-2毒株的基因组进行的综合分析揭示了可能对宿主-病毒相互作用和发病机制产生影响的独特特征[28］．然而，最近对30983个SARS-CoV-2基因组的基因组多样性和热点突变的研究表明，与流感病毒或艾滋病毒不同，SARS-CoV-2的突变率很低，这使得开发有效的全球疫苗很有可能[29］．该研究确定了整个SARS-CoV-2基因组中的几个热点突变。总共在病毒基因组的不同位置鉴定出14个非同义热点突变(其突变流行率为>10%):8个在ORF1ab多蛋白(nsp2、nsp3、跨膜结构域、RdRp、解旋酶、外切酶和核糖核酸内酶中)，3个在核衣壳蛋白中，3个在3个蛋白刺突ORF3a和ORF8中各1个。此外，在刺突蛋白的受体结合区域发现了36个非同义突变，在所有基因组中流行率较低(<1%)[29］．

结论

这些发现凸显了研究新冠病毒分离株地理位置与基因组突变的关系的重要性，因为这种关系也可以通过系统发育树分析来确定，从而根据地理位置来阐明谱系和聚类。综上所述，该基因组进化分析揭示了密码子9628对从同一地理经线的所有4个国家(意大利、瑞典、刚果和巴西)分离的SARS-CoV-2毒株处于幕式选择压力下。

致谢

国家自然科学基金(NSFC81671980, 81871623, 82020108022，刘树林)资助了本工作。资助机构在研究的设计中没有发挥任何作用;数据的收集、分析或解释;或者在写手稿的时候。

利益冲突

没有宣布。

Bar-Zeev N, Inglesby T. COVID-19疫苗:早期成功和仍然存在的挑战。《柳叶刀》2020年9月;396(10255):868-869。［CrossRef］
Logunov DY, Dolzhikova IV, Zubkova OV, Tukhvatulin AI, Shcheblyakov DV, Dzharullaeva AS，等。基于rAd26和rAd5载体的两种配方的异体主增强COVID-19疫苗的安全性和免疫原性:来自俄罗斯的两项开放、非随机的1/2期研究。《柳叶刀》2020年9月;396(10255):887-897。［CrossRef］
Naqvi AAT, Fatima K, Mohammad T, Fatima U, Singh IK, Singh A，等。新冠病毒基因组、结构、进化、发病机制和治疗方法研究:结构基因组学方法生物化学生物物理学报Mol基础杂志2020年10月01日;1866(10):165878 [免费全文] [CrossRef] [Medline］
Dilucca M, Forcelloni S, Georgakilas AG, Giansanti A, Pavlopoulou A. SARS-CoV-2基因密码子使用与表型差异病毒2020年4月30日;12(5)[免费全文] [CrossRef] [Medline］
Khailany RA, Safdar M, Ozaslan M.新型SARS-CoV-2的基因组特征。基因代表2020年6月;19:10 00682 [免费全文] [CrossRef] [Medline］
Gussow AB, Auslander N, Faure G, Wolf YI, Zhang F, Koonin EV。SARS-CoV-2和其他人类冠状病毒致病性的基因组决定因素Proc Natl Acad science U S A 2020年6月30日;117(26):15193-15199 [免费全文] [CrossRef] [Medline］
Mercatelli D, Giorgi FM。SARS-CoV-2突变的地理和基因组分布。前端微生物2020;11:1800 [免费全文] [CrossRef] [Medline］
Forster P, Forster L, Renfrew C, Forster M. SARS-CoV-2基因组系统发育网络分析。Proc Natl Acad Sci U S A 2020年4月28日;117(17):9241-9243 [免费全文] [CrossRef] [Medline］
Islam MR, Hoque MN, Rahman MS, Alam ASMRU, Akther M, Puspo JA，等。对全球流行的SARS-CoV-2病毒株的全基因组分析表明存在异质性。科学通报2020年8月19日;10(1):14004 [免费全文] [CrossRef] [Medline］
Libin PJK, Deforche K, Abecasis AB, Theys K. VIRULIGN:快速密码子校正比对和病毒基因组注释。生物信息学2019 5月15日;35(10):1763-1765 [免费全文] [CrossRef] [Medline］
Larsson a . AliView:用于大型数据集的快速轻量级对齐查看器和编辑器。生物信息学2014 11月15日;30(22):3276-3278 [免费全文] [CrossRef] [Medline］
穆瑞尔B，韦特海姆JO, Moola S, Weighill T, Scheffler K, Kosakovsky Pond SL.基于情景多样化选择的个体位点检测。公共科学学报2012;8(7):e1002764 [免费全文] [CrossRef] [Medline］
Lorenz R, Bernhart SH, Höner Zu Siederdissen C, Tafer H, Flamm C, Stadler PF，等。维也纳娜娜包2.0。算法Mol生物学2011 11月24日;6:26 [免费全文] [CrossRef] [Medline］
Kerpedjiev P, Hammer S, Hofacker IL. Forna(力导向RNA):简单有效的在线RNA二级结构图。生物信息学2015 Oct 15;31(20):3377-3379 [免费全文] [CrossRef] [Medline］
mmizanty MJ, Uversky V, Kurgan L.利用MFDp2预测蛋白质的内在紊乱。方法Mol生物学2014;1137:147-162。［CrossRef] [Medline］
Klausen MS, Jespersen MC, Nielsen H, Jensen KK, Jurtz VI, Sønderby CK，等。netsurf -2.0:通过集成深度学习改进蛋白质结构特征的预测。蛋白质学报2019年6月19日;［CrossRef] [Medline］
韩文杰，周勇，周永华。基于集成深度学习的蛋白质内在失调预测方法。基因组学蛋白质组学生物信息学2019 Dec;17(6):645-656 [免费全文] [CrossRef] [Medline］
尹霞，杨娟，肖峰，杨勇，沈慧。MemBrain:一种简单易用的跨膜蛋白结构预测网络服务器。纳米微技术2018;10(1):2 [免费全文] [CrossRef] [Medline］
韦金斯先生，加斯泰格E，拜罗奇A，桑切斯JC，威廉姆斯KL，阿佩尔RD，等。ExPASy服务器中的蛋白质鉴定和分析工具。在:链接AJ，编辑器。2-D蛋白质组分析协议。《分子生物学》第112卷。托托瓦，新泽西州:Humana出版社;1999:531 - 552。
Hofmann K, Stoffel W. tmbase -一个跨膜蛋白质片段的数据库。医学杂志。化学。Hoppe-Seyler, 374年。医学杂志。化学。Hoppe-Seyler 1993;374:166 [免费全文］
Gasteiger E, Gattiker A, Hoogland C, Ivanyi I, Appel RD, Bairoch A. ExPASy:用于深入蛋白质知识和分析的蛋白质组学服务器。Nucleic Acids Res 2003 july 01;31(13):3784-3788 [免费全文] [CrossRef] [Medline］
Kim DE, Chivian D, Baker D.蛋白质结构预测和分析使用Robetta服务器。Nucleic Acids Res 2004 july 01;32(Web Server issue):W526-W531 [免费全文] [CrossRef] [Medline］
杨晓东，杨晓东，杨晓东，等。利用神经网络中的隐性知识进行蛋白质的功能解剖和工程。2019年5月13日;1(5):225-235。［CrossRef］
Rigsby RE, Parker AB.使用PyMOL应用程序加强对蛋白质结构的可视化理解。Biochem Mol Biol Educ 2016 september 10;44(5):433-437 [免费全文] [CrossRef] [Medline］
赵忠，李辉，吴霞，钟勇，张凯，张亚平，等。SARS冠状病毒基因组的中等突变率及其意义。BMC evolol biology 2004 Jun 28;4:21 [免费全文] [CrossRef] [Medline］
Pachetti M, Marini B, Benedetti F, Giudici F, Mauro E, Storici P，等。新出现的SARS-CoV-2突变热点包括一种新的rna依赖rna聚合酶变体。J Transl Med 2020年4月22日;18(1):179 [免费全文] [CrossRef] [Medline］
Khan MI, Khan ZA, Baig MH, Ahmad I, Farouk A, Song YG，等。来自不同地理位置的新型冠状病毒(SARS-CoV-2)的比较基因组分析及其突变对主要靶蛋白的影响:一种硅晶透视PLoS One 2020;15(9):e0238344 [免费全文] [CrossRef] [Medline］
Sardar R, Satish D, Birla S, Gupta D.来自不同地理位置的SARS-CoV-2基因组的综合分析揭示了可能对宿主-病毒相互作用、发病机制和新疗法线索产生影响的独特特征。Heliyon 2020 Sep;6(9):e04658 [免费全文] [CrossRef] [Medline］
张志刚，张志刚，张志刚，张志刚，等。30983个SARS-CoV-2基因组的基因组多样性和热点突变:朝着通用疫苗的方向发展。2020年10月10日;9(10)[免费全文] [CrossRef] [Medline］

‎

GISaid:共享所有流感数据全球倡议

MEME:进化的混合效应模型

MERS-CoV:中东呼吸综合征冠状病毒

子:开放阅读框

G·艾森巴赫(G Eysenbach)编辑;提交23.11.20;F Pappalardo, S Motta同行评审;对作者14.12.20的评论;订正版本收到30.12.20;接受13.01.21;发表22.01.21

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR研究协议上的原创作品。必须包括完整的书目信息，http://bioinform.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

从同经络国家分离SARS-CoV-2菌株:基因组进化分析

从同经络国家分离SARS-CoV-2菌株:基因组进化分析

原始论文

通讯作者:

摘要

关键字

简介

方法

序列数据

演化模型分析

RNA二级结构预测

蛋白质分析

三维蛋白质结构预测与本体

结果

密码子9628在情节积极选择下进化

RNA二级结构预测变化

蛋白质分析

三维蛋白质分析

蛋白质相关本体预测

讨论

主要研究结果

结论

致谢

利益冲突

参考文献

缩写