这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
COVID-19在2019年底被发现后不久就成为全球大流行。SARS-CoV-2的基因组正在快速测序,并在公共数据库中共享。为了跟上这些更新,科学家需要频繁刷新和清理数据集,这是一个临时和劳动密集型的过程。此外,生物信息学或编程知识有限的科学家可能很难分析SARS-CoV-2基因组。
为了应对这些挑战,我们开发了CoV-Seq,这是一个集成的web服务器,可以简单快速地分析SARS-CoV-2基因组。
CoV-Seq用Python和JavaScript实现。本文提供了web服务器和源代码url。
给定一个新的序列,CoV-Seq会自动预测基因边界并识别遗传变异,这些变异会显示在交互式基因组可视化器中,并可下载用于进一步分析。命令行界面可用于高吞吐量处理。此外,我们收集了来自全球共享禽流感数据倡议(GISAID)、国家生物技术信息中心(NCBI)、欧洲核苷酸档案(ENA)和中国国家基因库(CNGB)的所有公开的SARS-CoV-2序列,并从这些序列中提取遗传变异供下载和下游分析。CoV-Seq数据库每周更新一次。
我们开发了CoV-Seq,这是一种集成的web服务,用于快速轻松地分析自定义SARS-CoV-2序列。该web服务器提供了一个交互式模块,用于分析自定义序列,以及每周更新的所有公开可访问的SARS-CoV-2序列的遗传变异数据库。我们相信CoV-Seq将有助于提高我们对COVID-19遗传基础的理解。
自2019年底被发现以来,新型冠状病毒SARS-CoV-2已引起病毒性肺炎暴发,并已成为全球大流行。尽管努力遏制其传播,但截至2020年9月下旬,SARS-CoV-2在全球已感染近3300万患者,造成近100万人死亡[
我们开发了CoV-Seq工具包来应对这些挑战。CoV-Seq由几个组件组成:一个数据分析管道,它接受FASTA序列,并以变体调用格式(VCF)生成变体调用集和开放阅读帧(ORF)预测。该管道自动过滤低质量序列,删除重复序列,执行序列比对,并识别和注释遗传变异。我们提供一个网络服务器[
大多数公开的SARS-CoV-2基因组序列被存入以下数据库:
我们收集了来自GISAID、NCBI、ENA和CNGB的SARS-CoV-2序列。许多序列代表了不完整的基因组,有时只包含一个基因。我们使用25000个核苷酸的简单截断来过滤这些基因组,因为这样做可以在保留完整基因组的同时去除明显不完整的基因组(图1)
我们使用快速傅里叶变换(MAFFT)的多重比对对参考序列(NCBI接入ID: NC_045512.2)进行了成对比对[
我们使用自定义Python脚本进行变体调用,其中考虑了单核苷酸多态性(SNPs)、插入和删除。我们使用bcftools左归一化每个变量[
为了检测ORF边界,我们采用了类似于病毒注释管道和识别(VAPiD)的方法[
CoV-Seq web服务器托管在Amazon web Services (AWS) Elastic Beanstalk上,启用了负载均衡器,与Flask框架一起运行[
随着时间的推移,提交给GISAID、NCBI、ENA和CNGB的SARS-CoV-2序列数量不断增加。
由公共数据库托管的序列的累积数量随着时间的推移而增加。自1月份以来,来自亚洲的序列稳步增加,而来自其他大陆的序列在3月份急剧增加。每个数据点代表一周。请注意,x轴显示的是收集日期,它可能比提交日期早几周(例如,7月收集的序列可能在8月提交)。因此,没有到达8月的行说明最近收集的序列还没有提交。
按国家提交的数量。提交数量最多的十个国家被标记出来。
CoV-Seq提供直观的web界面(
CoV-Seq管道和web界面。(A)基因组序列采集自GISAID、NCBI、ENA和CNGB。我们删除不完整的基因组(长度<25,000个核苷酸),并在针对参考基因组NC_045512.2进行MAFFT比对之前复制基因组。我们使用一个自定义的Python脚本来生成原始的变体调用,并删除带有太多突变的样本,这表明测序错误。在合并vcf后,我们用poly-A尾去除多等位基因位点和变体,以获得筛选过的变体集。(B)交互式基因组可视化器显示orf(绿松石色)和突变(红色)。用户可以用顶部栏缩放,用底部栏平移。将鼠标悬停在ORF体和突变上将触发相关信息的弹出窗口。(C)突变表显示位置、等位基因和交叉的orf。(D) ORF表显示了预测的ORF边界和支持信息。 CNGB: China National GeneBank; ENA: European Nucleotide Archive; GISAID: Global Initiative on Sharing Avian Influenza Data; MAFFT: Multiple Alignment using Fast Fourier Transform; NCBI: National Center for Biotechnology Information; ORF: open reading frame; VCF: variant call format.
由于SARS-CoV-2基因组序列的快速积累,对于大量收集来说,点击式网页界面非常耗时。因此,我们提供了一个命令行界面(CLI),用于高通量的序列批处理[
为了方便利用公开数据进行下游分析,我们汇总了来自GISAID、NCBI、ENA和CNGB的SARS-CoV-2基因组序列;我们还鉴定和注释了遗传变异。此外,我们将元数据与每个序列的位置和收集日期等关键信息聚合在一起(参见方法)。所有汇总信息可从CoV-Seq web服务器下载[
在本文中,我们描述了CoV-Seq,一个能够快速分析SARS-CoV-2基因组序列的web服务器。CoV-Seq由几个组件组成。交互式可视化模块接受自定义序列作为输入,并在交互式基因组浏览器上显示遗传变异和ORF边界。对于批处理需求,CoV-Seq提供了一个CLI界面,可以一次处理多个序列。为了鼓励使用公开数据进行下游分析,CoV-Seq提供了包含序列元数据和基因突变的可下载分析结果(每周更新)。
CoV-Seq目前仅限于SARS-CoV-2序列。web服务器不允许自定义除SARS-CoV-2以外的参考序列。我们之所以将重点放在这种病毒上,是因为在COVID-19大流行期间,它构成了处理请求的大部分。我们计划在未来的版本中提供额外的功能来接受自定义引用序列。
现有软件包VAPiD [
我们开发了CoV-Seq web服务器,用于快速、简便地分析SARS-CoV-2序列。我们希望CoV-Seq将有助于提高我们对COVID-19基因的理解。未来,我们计划将CoV-Seq的范围扩大到包括其他病毒。
补充数据。
GISAID贡献者确认表。
命令行界面
共享禽流感数据全球倡议
国家生物技术信息中心
欧洲核苷酸档案
中国国家基因库
开式阅读架
可变呼叫格式
我们感谢中国疾病预防控制中心共同提出了这项研究的想法,并感谢李星进行了有益的讨论。我们没有资金来源可以披露。
BL和KL设计了web服务器。BL, KL, HZ和LZ进行分析。BL和LH撰写了论文。
没有宣布。