卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JBB

JMIR生物信息学生物技术

JMIR生物信息学和生物技术

2563 - 3570

卡塔尔世界杯8强波胆分析

加拿大多伦多

v2i1e25995

33497425

10.2196/25995

原始论文

从同经络国家分离SARS-CoV-2菌株:基因组进化分析

Eysenbach

冈瑟

搜集

弗朗西斯科

莫塔

圣

Mastriani

埃米利奥

博士学位 1 2

HMU-UCCSM感染和基因组学中心哈尔滨医科大学

宝建路157号

哈尔滨,150081

中国 86 13664502721 ext 64502721 emiliomastriani@icloud.com

https://orcid.org/0000-0002-5434-2546

Rakov

Alexey V

博士学位 3.

https://orcid.org/0000-0003-1917-9189

刘

书林

博士学位 1 2 4

https://orcid.org/0000-0002-6883-6037

1 药学院系统组学研究中心，基因组学研究中心中国生物医药-制药国家-省重点实验室哈尔滨医科大学

哈尔滨

中国 2 HMU-UCCSM感染和基因组学中心哈尔滨医科大学

哈尔滨

中国 3. 索莫夫流行病学和微生物研究所

符拉迪沃斯托克

俄罗斯联邦 4 微生物学、免疫学和传染病系“，卡尔加里大学

卡尔加里,AB

加拿大

通讯作者:Emilio Mastriani emiliomastriani@icloud.com

Jan-Dec 2021

22 1 2021

2 1

e25995

23 11 2020 14 12 2020 30. 12 2020 13 1 2021

©Emilio Mastriani, Alexey V Rakov, Shu-Lin Liu。最初发表于JMIR研究协议(http://www.researchprotocols.org)， 22.01.2021。

2021

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR研究协议上的原创作品。必须包括完整的书目信息，http://bioinform.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

背景

由新型SARS-CoV-2引起的COVID-19被认为是世界上最具威胁的呼吸道感染，全球报告感染人数超过4000万人，相关死亡人数超过93.34万人。据推测，COVID-19的流行病学和临床特征在不同国家或大洲可能有所不同。对48635个SARS-CoV-2基因组的基因组比较表明，每个样本的平均突变数为7.23，大多数SARS-CoV-2菌株属于具有地理和基因组特异性的3个分支之一:欧洲、亚洲和北美。

客观的

本研究的目的是比较来自意大利、瑞典和刚果(位于同一子午线(经度)但气候条件不同的3个不同国家)和来自巴西(外群国家)的新冠病毒基因组，分析其可能的进化压力特征模式的异同。

方法

我们通过对当日所有可用基因组进行采样，从共享所有流感数据全球倡议数据库中获得了数据。利用HyPhy实现了遗传算法的重组分析，通过重组检测方法、修剪、去除停止密码子，以及进化树和混合效应模型的进化分析。我们还对该蛋白的序列(突变型和野生型)以及“无序”和“跨膜”分析进行了二级结构预测分析。我们用从头算方法分析了这两种蛋白质结构，以预测它们的本体和3D结构。

结果

进化分析显示，从这4个国家分离的所有SARS-CoV-2毒株的9628密码子都处于幕式选择压力下，这表明9628密码子是病毒进化的关键位点。密码子9628编码P0DTD3 (Y14_SARS2)非特征蛋白14。进一步研究表明，密码子突变是二级结构螺旋修饰的主要原因。该密码子位于该基因更有序的区域(41-59)，靠近起跨膜作用的区域(54-67)，表明它参与了病毒的附着阶段。野生型和突变P0DTD3的预测蛋白结构证实了密码子在定义蛋白结构方面的重要性。此外，对蛋白质的本体论分析强调突变增强了结合概率。

结论

我们的结果表明，RNA二级结构可能受到影响，因此，蛋白质产物在蛋白质的第50位将T(苏氨酸)转变为G(甘氨酸)。这个位置靠近预测的跨膜区域。突变分析显示，从G(甘氨酸)到D(天冬氨酸)的变化可能赋予蛋白质结合活性一种新的功能，这反过来可能是病毒附着在人类真核细胞上的原因。这些发现可以帮助设计体外实验，并可能促进疫苗设计和成功的抗病毒策略。

SARS-CoV-2 进化分析情景选择性压力病毒进化密码子的突变结合概率进化基因组遗传学新型冠状病毒肺炎病毒应变密码子压力突变结构预测蛋白质

简介

目前由新型SARS-CoV-2引起的COVID-19大流行是全球最具威胁的呼吸道感染，几乎影响了世界上所有国家。截至2020年12月30日，超过8100万人感染了COVID-19，报告了170多万人死亡。许多卫生机构正在努力生产预防这种病毒感染的有效疫苗，其中一些疫苗目前正处于用于人类的最后研制阶段[ 1， 2］．

SARS-CoV-2基因组与SARS-CoV和MERS-CoV(中东呼吸综合征冠状病毒)的序列相似度约为82%，必需酶和结构蛋白的序列相似度超过90%。这种高度的序列同一性表明了一个共同的发病机制，因此，治疗靶向。SARS-CoV-2含有4种结构蛋白，包括刺突蛋白(S)、包膜蛋白(E)、膜蛋白(M)和核衣壳蛋白(N) [ 3.］．SARS-CoV-2的结构和基因组正在被广泛研究，但结果似乎存在争议。例如，最近的一项研究发现，2个完整的膜蛋白(即包膜蛋白和膜蛋白)通过在其对应基因上积累核苷酸突变而进化缓慢，但编码核衣壳、病毒复制酶和刺突蛋白的基因则进化得更快，这些基因被认为是开发疫苗和抗病毒药物的重要靶点[ 4］．然而，其他研究表明，SARS-CoV-2的潜在药物靶点高度保守[ 3.］．

新型冠状病毒基因组由单链阳性RNA组成。新测序的SARS-CoV-2基因组已提交到NCBI基因组数据库(NC_045512.2)。SARS-CoV-2的基因组成由13-15个(包括12个功能性)开放阅读框(orf)组成，包含约3万个核苷酸。基因组包含38%的GC含量和11个蛋白质编码基因，共表达12种蛋白质[ 3.］．

95个SARS-CoV-2基因组的基因组特征揭示了可能影响SARS-CoV-2严重程度和传播的2个最常见的突变[ 5］．另一项研究强调了SARS-CoV-2和其他两种致命冠状病毒(SARS-CoV和MERS-CoV)所特有的关键基因组特征。这些独特的特征与感染这些冠状病毒导致的高致死率以及它们将宿主从动物转移到人类的能力有关[ 6］．因此，可以推测，这些病毒的流行病学和临床特征可能因国家或大陆而异。

对48635个SARS-CoV-2基因组的基因组比较表明，每个样本的平均突变数为7.23，大多数SARS-CoV-2菌株属于以下3个分支之一:分支G(欧洲)、分支L(亚洲)和派生分支G(北美)[ 7］．这些结果建议根据不同地区患者的SARS-CoV-2分子特异性定制抗病毒策略[ 7］．以前的研究也根据地理位置(东亚、欧洲和美洲)区分了这3种变体[ 8］．最近的全基因组分析显示，来自欧洲的SARS-CoV-2菌株基因组序列的氨基酸突变频率较高(43.07%)，其次是亚洲(38.09%)和北美(29.64%)。然而，欧洲温带国家的病死率仍然较高，如意大利、西班牙、荷兰、法国、英国和比利时[ 9］．

本研究的目的是比较来自同一子午线(经度)具有代表性的国家(意大利、瑞典和刚果)的SARS-CoV-2病毒株的基因组，以揭示其基因组中可能的进化压力特征模式的异同。

方法序列数据

我们从共享所有流感数据全球倡议(GISaid)知识库中获得了数据，并对截至2020年5月5日(2020年5月5日)其中可用的所有基因组进行了采样，包括文件刚果-gisaid_hcov-19_2020_05_05_09。Fasta, 75项，意大利-gisaid_hcov-19_2020_05_05_10。Fasta, 69项，瑞典-gisaid_hcov-19_2020_05_05_10。Fasta包含104个条目，以及外组文件brazil_gisaid_hcov-19_2020_05_15_04。Fasta有92个条目。从GenBank存储库下载了登录号为NC_045512.2的参考基因组。

演化模型分析

我们使用了SARS-CoV-2武汉-胡-1基因组(RefSeq Acc。不。NC_045512.2)作为参考序列和VIRULIGN版本1.0.1应用程序[ 10]进行多序列比对，并使用AliView 1.26版本应用程序将分析结果可视化[ 11］．采用HyPhy 2.5.8 (MP)，采用遗传算法重组检测方法进行重组分析，并进行修剪、停止密码子去除、进化树和进化混合效应模型(MEME)分析[ 12］．MEME网站用于读取JSON输出文件并生成MEME图像和表格。

RNA二级结构预测

我们使用RNA_fold网络服务器(维也纳RNA网络套件的一部分)来预测野生型和突变序列的二级结构[ 13]，以及Forna包[ 14]来建立图表。

蛋白质分析

蛋白紊乱分析采用MFDp2 [ 15]， NetSurfP-2.0 [ 16]和SPOT-Disorder2 [ 17)应用程序。使用TMHMM server v.2.0, MemBrain webserver计算蛋白质的跨膜分析[ 18]， ProtScale [ 19]，和TMpred [ 20.Expasy网站上的分数(用于比较)[ 21］．

三维蛋白质结构预测与本体

通过使用Robetta webserver，用从头算方法确定了这两种蛋白质结构[ 22]，而来自OCEAN CODE的DeeProtein胶囊[ 23]用于预测所预测蛋白质的本体。使用PyMOL 2.4.0发布蛋白质结构及其本体的3D图像[ 24］．

结果密码子9628在情节积极选择下进化

基于MEME算法对来自意大利、瑞典、刚果(位于同一地理子午线的国家)和巴西(作为外组)的SARS-CoV-2数据进行了混合进化分析。调查显示，密码子9628在各个国家都处于周期性的正选择压力下，如图所示表1．

表1

进化的混合效应模型(MEME_分析结果显示从巴西、刚果、意大利和瑞典的SARS-CoV-2进化分析中获得的数据。每个国家的前3个网站显示，排序 P价值。

国家(ID) /网站		分区	α	β⁻	p⁻	β⁺	p⁺	轻轨车	P价值	选择下的分支	分支总长度	MEME LogL	固定效应可能性LogL
巴西(BR)
	9628^一个	1	0	0	0.96	10000年	0.04	16.37	<措施	2	0.65	-27.28	-20.62
	9928	1	0	0	0.82	10000年	0.18	11.12	<措施	4	2.71	-31.03	-28.53
	81	1	0	0	0.04	1032.18	0.96	6.95	. 01	5	1.49	-40.77	-40.77
刚果(CG)
	9628^一个	1	0	0	0.97	10000年	0.03	10.89	<措施	1	０．２５	-18.18	-13.54
	2884	1	0	0	0.45	1273.45	0.55	3.51	。08	5	0.60	-42.49	-42.37
	6541	1	0	0	0.97	10000年	0.03	2.73	点	1	0.27	-12.94	-11.92
意大利(它)
	15	1	0	0	0.96	10000年	0.04	10.21	<措施	1	0.73	-15.90	-12.57
	9628^一个	1	0	0	0.97	0000	0.03	11.24	<措施	1	0.45	-17.66	-12.95
	4	1	0	0	0.89	10000年	0.11	7.25	. 01	0	1.83	-13.11	-10.43
瑞典(SE)
	9628^一个	1	0	0	0.96	9613.52	0.04	16.03	<措施	2	0.51	-27.43	-21.10
	4409	1	0	0	0.97	4356.70	0.03	7.68	. 01	1	0.16	-15.63	-12.33
	4732	1	0	0	0.95	10000年	0.05	3.85	07	2	0.74	-19.66	-18.78

^一个9628站点。

在这种情况下，我们使用术语“站点”作为密码子的同义词，尊重HyPhy术语。渐近 P值为<。001for episodic diversification at site 9628. 图1的分布 P所有4个国家的网站价值。

深入检查4个国家的多重比对数据，发现9628位点的偶发正选择压力是密码子GGG向ACG的一致性突变，如图图2．

图1

演化地块的混合效应模型。分布 P价值超过巴西、刚果、意大利和瑞典的遗址。紫色圆圈表示9628位点被发现处于周期性选择压力下。

图2

部分来自意大利数据的多序列比对显示9628位点处于周期性选择压力下。核苷酸从GGG变为ACG。

RNA二级结构预测变化

突变前后二级结构的预测存在重要差异，从GGG突变到ACG ( 图3)．两种预测的二级结构之间的比较突出了RNA构象右上方环的结构修饰，如图所示图4表明GGG到ACG的突变导致了RNA二级结构的显著改变。

图3

排列序列上的核苷酸突变，说明了被认为可以预测突变和野生型蛋白质的二级结构的序列。从起始密码子(9578)到开放阅读帧(9632)，位置用蓝色表示。

图4

二级结构预测。这两张RNA图显示了GGG到ACG突变对结构的影响。

蛋白质分析

对该蛋白质进行的无序区分析结果显示，从41到59的位置更为稳定，甘氨酸(G)位于第50位。我们通过使用3种不同的软件工具，并考虑无序概率的平均值得到结果，如图所示图5并在表2．对蛋白质跨膜区域的进一步分析显示，54-67位点与该功能相关。该分析通过使用4个不同的web应用程序进行，并通过评估所得的平均值，将甘氨酸(G)放置在跨膜区域附近，以假设其参与。表3报告数据显示每个氨基酸作为跨膜的概率。序列的跨膜拓扑( 图6)突出显示了跨膜区域中间位置50的氨基酸G，以及概率( 图7)证实了这一假设。

图5

无序区分析。41-59区域被发现紊乱的概率最低。橙色的线划定了这个区域，蓝色的虚线勾勒出G在不同曲线上的位置。

表2

蛋白质失序分析结果显示了蛋白质每个位置失序的概率。使用MFDp2、Netsurf和SPOTD软件计算概率。

位置	氨基酸序列	无序概率值
		MFDp2	NetsurfP2	SPOTD	平均值^一个
1	米	0.132	0.627823114	0.5607	0.440174371
2	l	0.134	0.347978383	0.5358	0.339259461
3.	问	0.135	0.270706475	0.4945	0.300068825
.．.
39	T	0.03	0.010842944	0.1936	0.078147648
40	V	0.029	0.007660664	0.189	0.075220221
41	问	0.027	0.004478907	0.172	0.067826302
42	E	0.025	0.00340931	0.1848	0.07106977
43	我	0.025	0.003887762	0.1968	0.075229254
44	问	0.024	0.003997837	0.1927	0.073565946
45	l	0.023	0.00361518	0.2129	0.079838393
46	问	0.023	0.004551574	0.2123	0.079950525
47	一个	0.023	0.004939525	0.2011	0.076346508
48	一个	0.022	0.005752307	0.2133	0.080350769
49	V	0.022	0.002826149	0.2524	0.092408716
50^b	G	0.022	0.005828088	0.2013	0.076376029
51	E	0.022	0.001046103	0.24	0.087682034
52	l	0.023	0.000922468	0.2694	0.097774156
53	l	0.023	0.001263275	0.2588	0.094354425
54	l	0.023	0.001187441	0.2539	0.092695814
55	l	0.023	0.000650476	0.2483	0.090650159
56	E	0.023	0.000615434	0.2328	0.085471811
57	W	0.023	0.001080571	0.2302	0.08476019
58	l	0.023	0.000941573	0.2154	0.079780524
59	一个	0.023	0.001573079	0.208	0.07752436
60	米	0.024	0.000997698	0.2853	0.103432566
61	一个	0.024	0.00227783	0.3026	0.109625943
62	V	0.025	0.003362786	0.3503	0.126220929

^一个每个位置的无序概率的平均值。

^b氨基酸G放置在稳定区域内的第50位。

表3

使用TMHMM, MemBrainTHM, ProtScale和TMpred应用程序获得的跨膜预测结果。ProtScale和TMpred的结果已经标准化，以便与其他概率进行比较。

位置	氨基酸序列	TMHMM概率	MemBrain THM倾向	ProtScale标准化评分	TMpred归一化评分	跨膜概率，平均值^一个
1	米	0	0.000191	N/A^b	0.661425764	0.220538921
2	l	0	0.002851	N/A^b	0.661425764	0.221425588
3.	问	0	0.046538	N/A^b	0.661425764	0.235987921
.．.
49	V	0.2594	0.987914	0.646	0.603358942	0.624168236
50^c	G	0.27719	0.987914	0.646	0.629801679	0.63522642
51	E	0.28083	0.991702	0.736	0.660532428	0.667266107
52	l	0.32735	0.993857	0.67	0.594246918	0.646363479
53	l	0.56651	0.993857	0.637	0.778452743	0.743954936
54	l	0.63937	0.994522	0.632	0.73360729	0.749874822
55	l	0.64032	0.990459	0.659	0.818831517	0.777152629
56	E	0.64052	0.96027	0.726	0.835626228	0.790604057
57	W	0.64826	0.946819	0.701	0.822583527	0.779665632
58	l	0.6493	0.947424	0.706	0.895122387	0.799461597
59	一个	0.64928	0.947424	0.683	0.905663748	0.796341937
60	米	0.64927	0.970735	0.683	0.947293193	0.812574548
61	一个	0.64924	0.970735	0.773	0.955511881	0.83712172
62	V	0.64903	0.937507	0.831	1	0.85438425
63	米	0.64893	0.892506	0.831	0.960871896	0.833326974
64	l	0.6482	0.846403	0.84	0.942826514	0.819357379
65	l	0.64758	0.781733	0.847	0.924066464	0.800094866
66	l	0.63557	0.670387	0.856	0.661425764	0.705845691
67	l	0.61835	0.539353	0.851	0.661425764	0.667532191
68	C	0.5428	0.455615	0.819	0.661425764	0.619710191
69	C	0.51009	0.430385	0.728	0.661425764	0.582475191
70	C	0.44702	0.380525	N/A^b	0.661425764	0.496323588

^一个每个位置的概率平均值。

^b用于轮廓计算的窗口大小为9，因此该分数不适用于位置1-4和70-73。

^c氨基酸G放置在稳定区域内的第50位。

图6

拓扑图使用MemBrain v3。该图描绘了该序列的跨膜拓扑结构，并强调了位于位置50 (G)的氨基酸位于跨膜区域的中间。红色:跨膜螺旋(TMH);蓝色:循环。

图7

跨膜的预测。54-67区域被发现是跨膜编码概率最高的区域，G氨基酸足够接近，可以假设它参与了编码。橙色的线划定了这个区域，蓝色的虚线勾勒出G在不同曲线上的位置。

三维蛋白质分析

为了表征推导出的蛋白P0DTD3.1，我们使用从头算方法预测了野生型和突变蛋白序列的3D结构。根据二级结构预测的初步线索，当氨基酸残基由G变为T时，突变蛋白的结构略有不同。图8而且 9说明两个预测模型，表明突变将影响蛋白质的三级结构。MUT31136和MOD30336之间残基45-55的比较表明，突变蛋白的这部分延伸到前面的螺旋。这一结果表明，单个氨基酸从G突变到T，在蛋白质的三维结构上进行连续的拉伸循环，容易使蛋白质承担新的功能。

图8

SARS-CoV-2突变蛋白的三维结构预测。模型MUT31136表示突变蛋白的预测3D模型。(A)氨基酸序列按光谱范围着色，突变的氨基酸在第50位(T)用黑色表示。(B)蛋白质已定向，便于比较，残基50用红点表示。(C)残基45-55的细节及其绕y轴旋转(D)和绕x轴旋转(E)，步长为90˚。

图9

预测未改变蛋白的三维结构。模型MOD30506表示野生型蛋白的预测3D模型。(A)按光谱范围着色的氨基酸序列，被研究的氨基酸在第50位(G)用黑色表示。(B)为了便于比较，蛋白质已定向，残基50用红点表示。(C)残基45-55的细节及其绕y轴旋转(D)和绕x轴旋转(E)，步长为90˚。

蛋白质相关本体预测

蛋白质本体论分析表明，野生型和突变型蛋白质由于结构的改变而具有不同的功能。如表4时，该蛋白的野生型变异以高概率(.978≤ P催化和转移酶活性均≤1)。该蛋白的突变变体在其功能趋势上呈现出显著变化:即使通常低于0.5的分数被解释为负面预测，在进化的背景下，转移酶活性(从0.98到0.375)有利于结合功能(从0.004到0.132)的概率下降也不可忽略。转移酶与结合活性倾向的上下文反转表明，这种偶发性进化突变旨在提高蛋白质的结合能力。

表4

分类报告显示两种(突变型和野生型)蛋白序列的预测功能和相关评分。只有积极的分数被报告。

基因本体术语和功能		分数
		野生型蛋白序列	突变蛋白序列
去:0003674	分子功能	1	1
去:0003824	催化功能	1	0.998
去:0016740^一个	转移酶的活动	0.978	0.375
去:0016829	裂合酶活性	0.017	- - - - - -^b
去:0022891	跨膜	0.07	- - - - - -^b
去:0005488^一个	绑定活动	0.004	0.132
去:0022892	跨膜转运活性	0.001	0.001

^一个本体论功能受到倒置倾向。

^b出乎意料的函数。

讨论主要研究结果

sars - cov -2是已知导致COVID-19大流行的病毒，与其他冠状病毒相比，它有许多独特的特征，例如快速积累突变[ 25］．具体而言，单核苷酸转变作为sars - cov -2的主要突变类型在世界范围内的流行已经在以前得到了证明[ 7］．在本研究中，我们对突变进行了进化分析，以确定同一经络上来自不同国家的SARS-CoV-2基因组是否存在特定的变异模式。我们发现密码子9628在同一子午线上的4个国家都处于幕式选择压力下。这将影响RNA二级结构，从而影响蛋白质产物，T(苏氨酸)在蛋白质第50位转变为G(甘氨酸)。这个位置靠近预测的跨膜区域。突变分析表明，从G(甘氨酸)到D(天冬氨酸)的变化可能赋予该蛋白一种新的功能，即结合活性，这反过来可能是将病毒附着在人类真核细胞上的原因。这些生物信息学发现可能有助于更好地设计体外(湿实验室)和体内(动物模型)实验，以确定与病毒毒力相关的蛋白质变异。因此，这些发现可能最终有助于疫苗设计和成功的抗病毒策略。例如，本研究的结果表明需要进行位点定向诱变和动物实验来验证预期的效果。

Mercatelli和Georgi [ 7]证明了流行于欧洲的分支G在刺突蛋白中携带D614G突变，该突变负责病毒与宿主人类细胞的初始相互作用。其他研究也表明，从不同大陆分离出来的菌株存在不同的突变位点。2891、3036、14408、23403和28881位点的突变主要出现在欧洲毒株中，而17746、17857和18060位点的突变仅出现在北美毒株中[ 26］．他们的发现表明，该病毒正在进化，欧洲、北美和亚洲的病毒株可能共存，每种病毒株都具有不同的突变模式。

此外，对来自13个国家的SARS-CoV-2毒株的病毒基因组进行了比较，发现了蛋白质编码序列的差异。例如，印度菌株在R408I位点的刺突糖蛋白和I671T、P2144S和A2798V位点的复制酶多蛋白出现突变，而西班牙和韩国菌株的刺突蛋白分别出现F797C和S221W突变[ 27］．此外，最近对来自不同地理位置的SARS-CoV-2毒株的基因组进行的综合分析揭示了可能对宿主-病毒相互作用和发病机制产生影响的独特特征[ 28］．然而，最近对30983个SARS-CoV-2基因组的基因组多样性和热点突变的研究表明，与流感病毒或艾滋病毒不同，SARS-CoV-2的突变率很低，这使得开发有效的全球疫苗很有可能[ 29］．该研究确定了整个SARS-CoV-2基因组中的几个热点突变。总共在病毒基因组的不同位置鉴定出14个非同义热点突变(其突变流行率为>10%):8个在ORF1ab多蛋白(nsp2、nsp3、跨膜结构域、RdRp、解旋酶、外切酶和核糖核酸内酶中)，3个在核衣壳蛋白中，3个在3个蛋白刺突ORF3a和ORF8中各1个。此外，在刺突蛋白的受体结合区域发现了36个非同义突变，在所有基因组中流行率较低(<1%)[ 29］．

结论

这些发现凸显了研究新冠病毒分离株地理位置与基因组突变的关系的重要性，因为这种关系也可以通过系统发育树分析来确定，从而根据地理位置来阐明谱系和聚类。综上所述，该基因组进化分析揭示了密码子9628对从同一地理经线的所有4个国家(意大利、瑞典、刚果和巴西)分离的SARS-CoV-2毒株处于幕式选择压力下。

缩写

GISaid

共享所有流感数据全球倡议

MEME

进化的混合效应模型

MERS-CoV

中东呼吸综合征冠状病毒

羊痘疮

开放阅读框

国家自然科学基金(NSFC81671980, 81871623, 82020108022，刘树林)资助了本工作。资助机构在研究的设计中没有发挥任何作用;数据的收集、分析或解释;或者在写手稿的时候。

没有宣布。

Bar-Zeev

Inglesby

COVID-19疫苗:早期成功和仍然存在的挑战

《柳叶刀》 2020 09 396 10255 868 869

10.1016 / s0140 - 6736 (20) 31867 - 5

Logunov

Dolzhikova

Zubkova

机汇

Tukhvatulin

人工智能

Shcheblyakov

Dzharullaeva

作为

Grousova

Erokhova

作为

Kovyrshina

Botikov

AG)

Izhaeva

调频

罗德

Ozharovskaya

助教

Esmagambetov

Favorskaya

Zrelkin

迪

Voronina

Shcherbinin

Semikhin

作为

Simakova

青年志愿

Tokarskaya

Lubenets

问

Egorova

达

Shmarov

毫米

尼克

Morozova

低频

Smolyarchuk

Kryukov

电动汽车

Babira

Borisevich

Naroditsky

废话

Gintsburg

艾尔

基于rAd26和rAd5载体的两种配方的异体主增强COVID-19疫苗的安全性和免疫原性:来自俄罗斯的两项开放、非随机的1/2期研究

《柳叶刀》 2020 09 396 10255 887 897

10.1016 / s0140 - 6736 (20) 31866 - 3

纳

AAT

法蒂玛

默罕默德

法蒂玛

辛格

本土知识

辛格

一个

爱迪

Hariprasad

哈桑

通用汽车

哈桑

心肌梗死

新冠病毒基因组、结构、进化、发病机制和治疗方法研究:结构基因组学方法

生物化学生物物理学报Mol基础Dis 2020 10 01 1866 10 165878

10.1016 / j.bbadis.2020.165878

32544429

s0925 - 4439 (20) 30226 - x

PMC7293463

Dilucca

米

Forcelloni

年代

Georgakilas

AG)

Giansanti

一个

Pavlopoulou

一个

SARS-CoV-2基因密码子使用与表型差异

病毒 2020 04 30. 12 5

10.3390 / v12050498

32366025

v12050498

PMC7290700

Khailany

类风湿性关节炎

Safdar

米

Ozaslan

米

新型SARS-CoV-2的基因组特征

基因代表 2020 06 19 100682

10.1016 / j.genrep.2020.100682

32300673

s2452 - 0144 (20) 30096 - 0

PMC7161481

Gussow

Auslander

福尔

狼

易

张

Koonin

电动汽车

SARS-CoV-2和其他人类冠状病毒致病性的基因组决定因素

美国国立自然科学研究院 2020 06 30. 117 26 15193 15199

10.1073 / pnas.2008176117

32522874

2008176117

PMC7334499

Mercatelli

Giorgi

调频

SARS-CoV-2突变的地理和基因组分布

前面Microbiol 2020 11 1800

10.3389 / fmicb.2020.01800

32793182

PMC7387429

福斯特

伦弗鲁

福斯特

米

SARS-CoV-2基因组系统发育网络分析

美国国立自然科学研究院 2020 04 28 117 17 9241 9243

10.1073 / pnas.2004999117

32269081

2004999117

PMC7196762

伊斯兰教

先生

霍克

锰

拉赫曼

女士

阿拉姆

ASMRU

Akther

米

Puspo

晶澳

一种蛋白激酶

年代

Sultana

米

克兰德尔

卡

侯赛因

妈

对全球流行的SARS-CoV-2病毒株的全基因组分析表明存在异质性

Sci代表 2020 08 19 10 1 14004

10.1038 / s41598 - 020 - 70812 - 6

32814791

10.1038 / s41598 - 020 - 70812 - 6

PMC7438523

利宾

PJK

Deforche

Abecasis

他们

VIRULIGN:病毒基因组的快速密码子校正比对和注释

生物信息学 2019 05 15 35 10 1763 1765

10.1093 /生物信息学/ bty851

30295730

5123354

PMC6513156

拉赫松

一个

AliView:用于大型数据集的快速轻量级对齐查看器和编辑器

生物信息学 2014 11 15 30. 22 3276 8

10.1093 /生物信息学/ btu531

25095880

btu531

PMC4221126

马雷尔

韦特海姆

乔

金钱

年代

Weighill

Scheffler

Kosakovsky池塘

检测个别地点受情景多样化选择的影响

公共科学图书馆麝猫 2012 8 7 e1002764

10.1371 / journal.pgen.1002764

22807683

pgenetics - d - 12 - 00164

PMC3395634

洛伦兹

伯恩哈特

上海

Höner祖·赛德迪斯森

taf

Flamm

施

Hofacker

伊尔

维也纳娜娜包2.0

算法Mol Biol 2011 11 24 6 26

10.1186 / 1748-7188-6-26

22115189

1748-7188-6-26

PMC3319429

Kerpedjiev

锤

年代

Hofacker

伊尔

Forna(力定向RNA):简单有效的在线RNA二级结构图

生物信息学 2015 10 15 31 20. 3377 9

10.1093 /生物信息学/ btv372

26099263

btv372

PMC4595900

Mizianty

乔丹

Uversky

坟头

利用MFDp2预测蛋白质的内在紊乱

方法Mol Biol 2014 1137 147 62

10.1007 / 978 - 1 - 4939 - 0366 - 5 - _11

24573480

克劳森

女士

Jespersen

尼尔森

詹森

乐

Jurtz

Sønderby

大梁

恐鸟

Winther

尼尔森

米

彼得森

Marcatili

netsurf -2.0:通过集成深度学习改进蛋白质结构特征的预测

蛋白质 2019 06 09 87 6 520 527

10.1002 / prot.25674

30785653

汉森

Paliwal

乐

Litfin

周

SPOT-Disorder2:改进的蛋白质内在失调预测集成深度学习

蛋白质组学生物信息学 2019 12 17 6 645 656

10.1016 / j.gpb.2019.01.004

32173600

s1672 - 0229 (20) 30024 - 3

PMC7212484

阴

杨

肖

杨

沈

MemBrain:一个易于使用的跨膜蛋白结构预测在线web服务器

Nanomicro列托人 2018 10 1 2

10.1007 / s40820 - 017 - 0156 - 2

30393651

156

PMC6199043

威尔金斯

先生

Gasteiger

Bairoch

一个

桑切斯

威廉姆斯

吉隆坡

Appel

理查德·道金斯

Hochstrasser

链接

ExPASy服务器中的蛋白质鉴定和分析工具

2-D蛋白质组分析协议。《分子生物学》第112卷 1999

风险中,新泽西

胡玛纳出版社

531 52

20.

霍夫曼

Stoffel

tmbase -跨膜蛋白质片段数据库。医学杂志。化学。Hoppe-Seyler 374

医学杂志。化学。Hoppe-Seyler 1993 374 166

Gasteiger

Gattiker

一个

Hoogland

Ivanyi

我

Appel

理查德·道金斯

Bairoch

一个

ExPASy:蛋白质组学服务器，用于深入的蛋白质知识和分析

核酸测定 2003 07 01 31 13 3784 8

10.1093 / nar / gkg563

12824418

PMC168970

金

德

Chivian

贝克

利用Robetta服务器进行蛋白质结构预测和分析

核酸测定 2004 07 01 32 Web服务器问题 W526 31

10.1093 / nar / gkh468

15215442

32 / suppl_2 / W526

PMC441606

Upmeier zu Belzen

Burgel

Holderbach

年代

Bubeck

亚当

Gandor

克莱因

米

Mathony

Pfuderer

广场建筑

Przybilla

米

Schwendemann

米

Heid

霍夫曼

医学博士

Jendrusch

米

Schmelas

Waldhauer

米

莱曼

我

Niopek

面纱

利用神经网络中的隐性知识进行蛋白质的功能解剖和工程

Nat Mach intel 2019 5 13 1 5 225 235

10.1038 / s42256 - 019 - 0049 - 9

Rigsby进行

再保险

帕克

使用PyMOL应用程序增强对蛋白质结构的直观理解

生物化学Mol生物教育 2016 09 10 44 5 433 7

10.1002 / bmb.20966

27241834

赵

李

吴

钟

张

y p

Boerwinkle

西文

傅

SARS冠状病毒基因组的中等突变率及其意义

BMC Evol Biol 2004 06 28 4 21

10.1186 / 1471-2148-4-21

15222897

1471-2148-4-21

PMC446188

Pachetti

米

马里尼

贝内代蒂

Giudici

毛罗。

Storici

Masciovecchio

Angeletti

年代

Ciccozzi

米

加洛

钢筋混凝土

Zella

Ippodrino

新出现的SARS-CoV-2突变热点包括一种新的rna依赖rna聚合酶变体

翻译医学杂志 2020 04 22 18 1 179

10.1186 / s12967 - 020 - 02344 - 6

32321524

10.1186 / s12967 - 020 - 02344 - 6

PMC7174922

汗

心肌梗死

汗

咱

贝格

艾哈迈德

我

法鲁克

一个

首歌

越南盾

来自不同地理位置的新型冠状病毒(SARS-CoV-2)的比较基因组分析及其突变对主要靶蛋白的影响:一种硅晶透视

《公共科学图书馆•综合》 2020 15 9 e0238344

10.1371 / journal.pone.0238344

32881907

玉米饼- d - 20 - 12188

PMC7470274

Sardar

Satish

贝拉

年代

古普塔

对来自不同地理位置的SARS-CoV-2基因组的综合分析揭示了可能对宿主-病毒相互作用、发病机制和新疗法线索产生影响的独特特征

Heliyon 2020 09 6 9 e04658

10.1016 / j.heliyon.2020.e04658

32844125

s2405 - 8440 (20) 31502 - 4

PMC7439967

Alouane

Laamarti

米

Essabbar

一个

Hakmi

米

Bouricha

新兴市场

Chemao-Elfihri

兆瓦

Kartti

年代

Boumajdi

Bendani

Laamarti

Ghrifi

勒姆

Aanniz

Ouadghiri

米

El Hafidi

El Jaoudi

Benrahma

香精油

我

种

Sbabou

Nejjari

Amzazi

年代

Belyamani

易卜拉欣

一个

30983个SARS-CoV-2基因组的基因组多样性和热点突变:朝着通用疫苗的方向发展

病原体 2020 10 10 9 10

10.3390 / pathogens9100829

33050463

pathogens9100829

PMC7600297