发表在第22卷10号(2020): 10月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/22299,首次出版
用于SARS-CoV-2基因组分析和可视化的新工具CoV-Seq:开发和可用性研究

用于SARS-CoV-2基因组分析和可视化的新工具CoV-Seq:开发和可用性研究

用于SARS-CoV-2基因组分析和可视化的新工具CoV-Seq:开发和可用性研究

原始论文

1百度研究,桑尼维尔,加州,美国

2俄勒冈州立大学电气工程与计算机科学学院,美国俄勒冈州科瓦利斯

*这些作者贡献相同

通讯作者:

刘伯祥博士

百度的研究

波尔多大道1195号

森尼维尔,加利福尼亚州,94089

美国

电话:1 3093108265

电子邮件:jollier.liu@gmail.com


背景:COVID-19在2019年底被发现后不久就成为全球大流行。SARS-CoV-2的基因组正在快速测序,并在公共数据库中共享。为了跟上这些更新,科学家需要频繁刷新和清理数据集,这是一个临时和劳动密集型的过程。此外,生物信息学或编程知识有限的科学家可能很难分析SARS-CoV-2基因组。

摘要目的:为了应对这些挑战,我们开发了CoV-Seq,这是一个集成的web服务器,可以简单快速地分析SARS-CoV-2基因组。

方法:CoV-Seq用Python和JavaScript实现。本文提供了web服务器和源代码url。

结果:给定一个新的序列,CoV-Seq会自动预测基因边界并识别遗传变异,这些变异会显示在交互式基因组可视化器中,并可下载用于进一步分析。命令行界面可用于高吞吐量处理。此外,我们收集了来自全球共享禽流感数据倡议(GISAID)、国家生物技术信息中心(NCBI)、欧洲核苷酸档案(ENA)和中国国家基因库(CNGB)的所有公开的SARS-CoV-2序列,并从这些序列中提取遗传变异供下载和下游分析。CoV-Seq数据库每周更新一次。

结论:我们开发了CoV-Seq,这是一种集成的web服务,用于快速轻松地分析自定义SARS-CoV-2序列。该web服务器提供了一个交互式模块,用于分析自定义序列,以及每周更新的所有公开可访问的SARS-CoV-2序列的遗传变异数据库。我们相信CoV-Seq将有助于提高我们对COVID-19遗传基础的理解。

中国医学杂志,2020;22(10):e22299

doi: 10.2196/22299

关键字



自2019年底被发现以来,新型冠状病毒SARS-CoV-2已引起病毒性肺炎暴发,并已成为全球大流行。尽管努力遏制其传播,但截至2020年9月下旬,SARS-CoV-2在全球已感染近3300万患者,造成近100万人死亡[1].为了了解它的进化和遗传学,科学家们对不同年龄组、性别、种族、地点和疾病阶段的患者的SARS-CoV-2基因组进行了测序[2].这些基因组序列正以每周数千个新序列的速度在公共数据库中快速共享[3.-5].为了跟上最新的发展,科学家需要经常下载和清理新的数据集,这是一个临时和耗时的过程。此外,生物信息学或编程知识有限的科学家在分析SARS-CoV-2基因组时可能会遇到困难。

我们开发了CoV-Seq工具包来应对这些挑战。CoV-Seq由几个组件组成:一个数据分析管道,它接受FASTA序列,并以变体调用格式(VCF)生成变体调用集和开放阅读帧(ORF)预测。该管道自动过滤低质量序列,删除重复序列,执行序列比对,并识别和注释遗传变异。我们提供一个网络服务器[6]使自定义序列的快速分析无需任何编程。网络界面包括一个交互式基因组可视化器和表格显示的遗传变异和ORF预测。所有结果都可以下载用于下游分析。此外,我们还提供了一个命令行界面,以允许在本地环境中进行高吞吐量处理。为促进数据共享,我们从全球共享禽流感数据倡议(GISAID)中汇总了SARS-CoV-2序列[3.],国家生物技术信息中心[4],欧洲核苷酸档案(ENA) [5]和中国国家基因库(CNGB)。


数据收集

大多数公开的SARS-CoV-2基因组序列被存入以下数据库:多媒体附件2列出GISAID贡献者),NCBI, ENA和CNGB。所有数据库都提供批量下载数据的选项。我们使用硒[7]以自动下载资料。

数据预处理

我们收集了来自GISAID、NCBI、ENA和CNGB的SARS-CoV-2序列。许多序列代表了不完整的基因组,有时只包含一个基因。我们使用25000个核苷酸的简单截断来过滤这些基因组,因为这样做可以在保留完整基因组的同时去除明显不完整的基因组(图1)多媒体附件1).NCBI和ENA都是国际核苷酸序列数据库合作组织(INSDC)的一部分,因此包含重复提交,我们通过比较登录id删除了这些重复提交。此外,双重提交可以在GISAID和INSDC中以不同的登录id出现。如果两份提交的基因序列相同,我们将其视为可疑的重复。这些可疑的重复被标记在元数据中,但没有被删除,因为一个菌株可以感染多个患者。

成对序列比对

我们使用快速傅里叶变换(MAFFT)的多重比对对参考序列(NCBI接入ID: NC_045512.2)进行了成对比对[8使用默认选项。

变量调用

我们使用自定义Python脚本进行变体调用,其中考虑了单核苷酸多态性(SNPs)、插入和删除。我们使用bcftools左归一化每个变量[9]并删除了含有太多变体的样本,这表明测序错误。我们使用了350个变异的宽限,因为这样做删除了具有大量变异的样本,同时保留了大多数样本(图2)多媒体附件1).在后处理过程中,我们删除了多等位基因位点,因为这些位点更有可能出现在易于测序错误的区域,例如基因组的两端(图3)多媒体附件1).此外,我们删除了poly-A尾部中的变体。被过滤的变体调用集被snpEff注释[10].

ORF边界检测

为了检测ORF边界,我们采用了类似于病毒注释管道和识别(VAPiD)的方法[11].由于NCBI Genbank为SARS-CoV-2参考基因组提供了遗传注释,我们使用成对比对将ORF边界坐标从参考基因组翻译为查询基因组。对于多段orf(即由于核糖体滑移),我们对每个片段进行独立注释,然后将其合并。

交互式可视化

CoV-Seq web服务器托管在Amazon web Services (AWS) Elastic Beanstalk上,启用了负载均衡器,与Flask框架一起运行[12],锦佳模板引擎[13],和Werkzeug [14Web服务器网关接口(WSGI)工具包。用户通过文本框(对于单个序列)或文件上传(对于任意数量的序列)提交数据后,后端程序将执行成对序列对齐、变量调用和ORF边界检测,以生成VCF和JSON格式的结果。前端模板将使用JSON数据在新页面上呈现基因组序列,ECharts [15]库,以及专门设计的JavaScript函数。结果页面根据参考序列突出显示所提交序列的突变,并在光标悬停时显示详细信息。用户还可以放大查看基因组序列的细节。选择一个特定的ORF将展开显示,以显示突变表、ORF表和所选ORF的基因序列。


收集序列统计

随着时间的推移,提交给GISAID、NCBI、ENA和CNGB的SARS-CoV-2序列数量不断增加。图1按收集日期显示序列的累积数量。来自亚洲的序列自1月份以来稳步增长,而来自其他大陆的序列最初增长缓慢,但在3月份出现了急剧增长。提交的数量反映了该病毒的全球传播情况,从1月在中国的首次暴发开始,到随后3月的全球暴发。请注意,虽然个案数目与整体个案数目有关,但个案数目并不反映实际个案数目(图2).提交数量最多的10个国家包括5个欧洲国家(英国、西班牙、葡萄牙、荷兰和瑞士)、2个亚洲国家(印度和中国)、2个北美国家(美国和加拿大)和1个大洋洲国家(澳大利亚)。

图1。由公共数据库托管的序列的累积数量随着时间的推移而增加。自1月份以来,来自亚洲的序列稳步增加,而来自其他大陆的序列在3月份急剧增加。每个数据点代表一周。请注意,x轴显示的是收集日期,它可能比提交日期早几周(例如,7月收集的序列可能在8月提交)。因此,没有到达8月的行说明最近收集的序列还没有提交。
查看此图
图2。按国家提交的数量。提交数量最多的十个国家被标记出来。
查看此图

交互式可视化自定义序列

CoV-Seq提供直观的web界面(图3A)用于分析和可视化SARS-CoV-2变体和orf。在收到自定义序列后,CoV-Seq识别ORF边界和遗传变异,并将其与全长基因组一起显示(图3B).用户通过拖动缩放条调整放大倍率,拖动位置条沿基因组移动与基因组交互。当基因组窗口包含少于150个核苷酸时,字母将同时显示核苷酸碱基和氨基酸残基。将鼠标悬停在ORF主体或变体上将触发弹出窗口以显示相关信息(图3B,红框)。单击一个ORF会弹出三个表。第一个表显示了所有变体及其位置、等位基因和它们所属的orf (图3C).第二个表显示了通过将输入序列与参考序列对齐并从Genbank (图3D).第三个表显示了所选ORF(未显示)的核苷酸和蛋白质序列。可以下载所有表格进行进一步分析。

图3。CoV-Seq管道和web界面。(A)基因组序列采集自GISAID、NCBI、ENA和CNGB。我们删除不完整的基因组(长度<25,000个核苷酸),并在针对参考基因组NC_045512.2进行MAFFT比对之前复制基因组。我们使用一个自定义的Python脚本来生成原始的变体调用,并删除带有太多突变的样本,这表明测序错误。在合并vcf后,我们用poly-A尾去除多等位基因位点和变体,以获得筛选过的变体集。(B)交互式基因组可视化器显示orf(绿松石色)和突变(红色)。用户可以用顶部栏缩放,用底部栏平移。将鼠标悬停在ORF体和突变上将触发相关信息的弹出窗口。(C)突变表显示位置、等位基因和交叉的orf。 (D) The ORF table shows predicted ORF boundaries and supporting information. CNGB: China National GeneBank; ENA: European Nucleotide Archive; GISAID: Global Initiative on Sharing Avian Influenza Data; MAFFT: Multiple Alignment using Fast Fourier Transform; NCBI: National Center for Biotechnology Information; ORF: open reading frame; VCF: variant call format.
查看此图

CoV-Seq命令行界面

由于SARS-CoV-2基因组序列的快速积累,对于大量收集来说,点击式网页界面非常耗时。因此,我们提供了一个命令行界面(CLI),用于高通量的序列批处理[16].CLI允许用户用一个命令从多个序列中识别变量和ORF边界。此外,CLI允许用户用一个命令从FASTA文件的多个序列中识别变体。

下载分析就绪数据

为了方便利用公开数据进行下游分析,我们汇总了来自GISAID、NCBI、ENA和CNGB的SARS-CoV-2基因组序列;我们还鉴定和注释了遗传变异。此外,我们将元数据与每个序列的位置和收集日期等关键信息聚合在一起(参见方法)。所有汇总信息可从CoV-Seq web服务器下载[17].基于这组信息,我们提供了关于序列提交的地理和时间分布的统计数据,并鼓励其他科学家进一步分析。


主要结果

在本文中,我们描述了CoV-Seq,一个能够快速分析SARS-CoV-2基因组序列的web服务器。CoV-Seq由几个组件组成。交互式可视化模块接受自定义序列作为输入,并在交互式基因组浏览器上显示遗传变异和ORF边界。对于批处理需求,CoV-Seq提供了一个CLI界面,可以一次处理多个序列。为了鼓励使用公开数据进行下游分析,CoV-Seq提供了包含序列元数据和基因突变的可下载分析结果(每周更新)。

限制

CoV-Seq目前仅限于SARS-CoV-2序列。web服务器不允许自定义除SARS-CoV-2以外的参考序列。我们之所以将重点放在这种病毒上,是因为在COVID-19大流行期间,它构成了处理请求的大部分。我们计划在未来的版本中提供额外的功能来接受自定义引用序列。

与之前工作的比较

现有软件包VAPiD [11]和病毒基因组ORF读取器(VIGOR) [18]专注于基因注释。据我们所知,以前没有人创建过识别、注释和可视化SARS-CoV-2基因变异的软件包。

结论

我们开发了CoV-Seq web服务器,用于快速、简便地分析SARS-CoV-2序列。我们希望CoV-Seq将有助于提高我们对COVID-19基因的理解。未来,我们计划将CoV-Seq的范围扩大到包括其他病毒。

致谢

我们感谢中国疾病预防控制中心共同提出了这项研究的想法,并感谢李星进行了有益的讨论。我们没有资金来源可以披露。

作者的贡献

BL和KL设计了web服务器。BL, KL, HZ和LZ进行分析。BL和LH撰写了论文。

利益冲突

没有宣布。

多媒体附件1

补充数据。

PDF档案(adobepdf档案),63kb

多媒体附件2

GISAID贡献者确认表。

XLSX文件(Microsoft Excel文件),1882 KB

  1. Dong E, Du H, Gardner L.实时跟踪COVID-19的交互式web仪表板。《柳叶刀》传染病2020年5月;20(5):533-534 [免费全文] [CrossRef] [Medline
  2. 哈德菲尔德J,梅吉尔C,贝尔SM, Huddleston J,波特B, Callender C,等。Nextstrain:实时跟踪病原体进化。生物信息学2018 Dec 01;34(23):4121-4123 [免费全文] [CrossRef] [Medline
  3. Elbe S, Buckland-Merrett G.数据、疾病与外交:GISAID对全球卫生的创新贡献。Glob Chall 2017 Jan;1(1):33-46 [免费全文] [CrossRef] [Medline
  4. 王晓明,陈晓明,陈晓明,陈晓明。Nucleic Acids Res 2015 Jan;43(数据库issue):D571-D577 [免费全文] [CrossRef] [Medline
  5. Kanz C, Aldebert P, Althorpe N, Baker W, Baldwin A, Bates K,等。EMBL核苷酸序列数据库。Nucleic Acids Res 2005 Jan 01;33(数据库issue):D29-D33 [免费全文] [CrossRef] [Medline
  6. CoV-Seq web服务器。URL:http://covseq.baidu.com/[2020-09-24]访问
  7. Muthukadan B. Selenium with Python。URL:https://selenium-python.readthedocs.io/[2020-09-23]访问
  8. Katoh K, Standley DM. MAFFT多序列比对软件版本7:性能和可用性的改进。中国生物医学杂志2013年4月30日(4):772-780。[CrossRef] [Medline
  9. 李华。基于测序数据的SNP呼叫、突变发现、关联映射和群体遗传参数估计的统计框架。生物信息学2011 Nov 01;27(21):2987-2993 [免费全文] [CrossRef] [Medline
  10. 王丽丽,王丽娟,王丽娟,王丽娟,等。单核苷酸多态性的注释和预测程序SnpEff: melanogaster菌株w1118基因组中的SNPsiso-2;iso-3。苍蝇(奥斯汀)2012;6(2):80-92 [免费全文] [CrossRef] [Medline
  11. Shean RC, Makhsous N, Stoddard GD, Lin MJ, Greninger AL. VAPiD:一种轻量级的跨平台病毒注释管道和识别工具,以促进病毒基因组提交到NCBI GenBank。BMC生物信息学2019 Jan 23;20(1):48 [免费全文] [CrossRef] [Medline
  12. Mönnich A, Ronacher A, Lord D, Unterwaditzer M. Flask。URL:https://flask.palletsprojects.com/en/1.1.x/[2020-09-23]访问
  13. Mönnich A, Ronacher A, Lord D, Unterwaditzer M. Jinja。URL:https://palletsprojects.com/p/jinja/[2020-09-23]访问
  14. Mönnich A, Ronacher A, Lord D, Unterwaditzer M. Werkzeug。URL:https://werkzeug.palletsprojects.com/en/1.0.x/[2020-09-23]访问
  15. Echarts。URL:https://echarts.apache.org/en/index.html[2020-09-23]访问
  16. CoV-Seq GitHub。URL:https://github.com/boxiangliu/covseq[2020-09-24]访问
  17. CoV-Seq聚合数据。URL:http://covseq.baidu.com/browse[2020-09-24]访问
  18. 王s, Sundaram JP, Spiro D. VIGOR,小病毒基因组注释程序。BMC Bioinformatics 2010 Sep 07;11:451 [免费全文] [CrossRef] [Medline


CLI:命令行界面
GISAID:共享禽流感数据全球倡议
NCBI:国家生物技术信息中心
ENA:欧洲核苷酸档案
CNGB:中国国家基因库
子:开式阅读架
VCF:可变呼叫格式


G·艾森巴赫(G Eysenbach)编辑;提交08.07.20;V Duvvuri, M Pradhan同行评审;对作者17.08.20的评论;订正版本收到19.08.20;接受03.09.20;发表02.10.20

版权

©刘伯祥,刘凯波,张贺,张亮,边雨辰,黄亮。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 02.10.2020。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map