JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v22i10e22299 32931441 10.2196/22299 原始论文 原始论文 用于SARS-CoV-2基因组分析和可视化的新工具CoV-Seq:开发和可用性研究 Eysenbach 冈瑟 Duvvuri Venkata 普拉丹 Meeta Boxiang 博士学位 1
百度的研究 波尔多大道1195号 森尼维尔,加利福尼亚州,94089 美国 1 3093108265 jollier.liu@gmail.com
https://orcid.org/0000-0002-2595-4463
Kaibo MSc 1 https://orcid.org/0000-0002-9053-8810 MSc 1 https://orcid.org/0000-0001-5877-2167 MSc 1 2 https://orcid.org/0000-0003-1146-7848 将尝试 博士学位 1 https://orcid.org/0000-0002-0685-3771 博士学位 1 2 https://orcid.org/0000-0001-6444-7045
百度的研究 加利福尼亚州森尼维耳市 美国 电气工程与计算机科学学院“, 俄勒冈州立大学 科瓦利斯,或 美国 通讯作者:刘伯祥 jollier.liu@gmail.com 10 2020 2 10 2020 22 10 e22299 8 7 2020 17 8 2020 19 8 2020 3. 9 2020 ©刘伯祥,刘凯波,张贺,张亮,边雨辰,黄亮。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 02.10.2020。 2020

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

COVID-19在2019年底被发现后不久就成为全球大流行。SARS-CoV-2的基因组正在快速测序,并在公共数据库中共享。为了跟上这些更新,科学家需要频繁刷新和清理数据集,这是一个临时和劳动密集型的过程。此外,生物信息学或编程知识有限的科学家可能很难分析SARS-CoV-2基因组。

客观的

为了应对这些挑战,我们开发了CoV-Seq,这是一个集成的web服务器,可以简单快速地分析SARS-CoV-2基因组。

方法

CoV-Seq用Python和JavaScript实现。本文提供了web服务器和源代码url。

结果

给定一个新的序列,CoV-Seq会自动预测基因边界并识别遗传变异,这些变异会显示在交互式基因组可视化器中,并可下载用于进一步分析。命令行界面可用于高吞吐量处理。此外,我们收集了来自全球共享禽流感数据倡议(GISAID)、国家生物技术信息中心(NCBI)、欧洲核苷酸档案(ENA)和中国国家基因库(CNGB)的所有公开的SARS-CoV-2序列,并从这些序列中提取遗传变异供下载和下游分析。CoV-Seq数据库每周更新一次。

结论

我们开发了CoV-Seq,这是一种集成的web服务,用于快速轻松地分析自定义SARS-CoV-2序列。该web服务器提供了一个交互式模块,用于分析自定义序列,以及每周更新的所有公开可访问的SARS-CoV-2序列的遗传变异数据库。我们相信CoV-Seq将有助于提高我们对COVID-19遗传基础的理解。

新型冠状病毒肺炎 SARS-CoV-2 生物信息学 遗传学 基因组 病毒 序列 数据集 编程 web服务器
简介

自2019年底被发现以来,新型冠状病毒SARS-CoV-2已引起病毒性肺炎暴发,并已成为全球大流行。尽管努力遏制其传播,但截至2020年9月下旬,SARS-CoV-2在全球已感染近3300万患者,造成近100万人死亡[ 1].为了了解它的进化和遗传学,科学家们对不同年龄组、性别、种族、地点和疾病阶段的患者的SARS-CoV-2基因组进行了测序[ 2].这些基因组序列正以每周数千个新序列的速度在公共数据库中快速共享[ 3.- 5].为了跟上最新的发展,科学家需要经常下载和清理新的数据集,这是一个临时和耗时的过程。此外,生物信息学或编程知识有限的科学家在分析SARS-CoV-2基因组时可能会遇到困难。

我们开发了CoV-Seq工具包来应对这些挑战。CoV-Seq由几个组件组成:一个数据分析管道,它接受FASTA序列,并以变体调用格式(VCF)生成变体调用集和开放阅读帧(ORF)预测。该管道自动过滤低质量序列,删除重复序列,执行序列比对,并识别和注释遗传变异。我们提供一个网络服务器[ 6]使自定义序列的快速分析无需任何编程。网络界面包括一个交互式基因组可视化器和表格显示的遗传变异和ORF预测。所有结果都可以下载用于下游分析。此外,我们还提供了一个命令行界面,以允许在本地环境中进行高吞吐量处理。为促进数据共享,我们从全球共享禽流感数据倡议(GISAID)中汇总了SARS-CoV-2序列[ 3.],国家生物技术信息中心[ 4],欧洲核苷酸档案(ENA) [ 5]和中国国家基因库(CNGB)。

方法 数据收集

大多数公开的SARS-CoV-2基因组序列被存入以下数据库: 多媒体附件2列出GISAID贡献者),NCBI, ENA和CNGB。所有数据库都提供批量下载数据的选项。我们使用硒[ 7]以自动下载资料。

数据预处理

我们收集了来自GISAID、NCBI、ENA和CNGB的SARS-CoV-2序列。许多序列代表了不完整的基因组,有时只包含一个基因。我们使用25000个核苷酸的简单截断来过滤这些基因组,因为这样做可以在保留完整基因组的同时去除明显不完整的基因组(图1) 多媒体附件1).NCBI和ENA都是国际核苷酸序列数据库合作组织(INSDC)的一部分,因此包含重复提交,我们通过比较登录id删除了这些重复提交。此外,双重提交可以在GISAID和INSDC中以不同的登录id出现。如果两份提交的基因序列相同,我们将其视为可疑的重复。这些可疑的重复被标记在元数据中,但没有被删除,因为一个菌株可以感染多个患者。

成对序列比对

我们使用快速傅里叶变换(MAFFT)的多重比对对参考序列(NCBI接入ID: NC_045512.2)进行了成对比对[ 8使用默认选项。

变量调用

我们使用自定义Python脚本进行变体调用,其中考虑了单核苷酸多态性(SNPs)、插入和删除。我们使用bcftools左归一化每个变量[ 9]并删除了含有太多变体的样本,这表明测序错误。我们使用了350个变异的宽限,因为这样做删除了具有大量变异的样本,同时保留了大多数样本(图2) 多媒体附件1).在后处理过程中,我们删除了多等位基因位点,因为这些位点更有可能出现在易于测序错误的区域,例如基因组的两端(图3) 多媒体附件1).此外,我们删除了poly-A尾部中的变体。被过滤的变体调用集被snpEff注释[ 10].

ORF边界检测

为了检测ORF边界,我们采用了类似于病毒注释管道和识别(VAPiD)的方法[ 11].由于NCBI Genbank为SARS-CoV-2参考基因组提供了遗传注释,我们使用成对比对将ORF边界坐标从参考基因组翻译为查询基因组。对于多段orf(即由于核糖体滑移),我们对每个片段进行独立注释,然后将其合并。

交互式可视化

CoV-Seq web服务器托管在Amazon web Services (AWS) Elastic Beanstalk上,启用了负载均衡器,与Flask框架一起运行[ 12],锦佳模板引擎[ 13],和Werkzeug [ 14Web服务器网关接口(WSGI)工具包。用户通过文本框(对于单个序列)或文件上传(对于任意数量的序列)提交数据后,后端程序将执行成对序列对齐、变量调用和ORF边界检测,以生成VCF和JSON格式的结果。前端模板将使用JSON数据在新页面上呈现基因组序列,ECharts [ 15]库,以及专门设计的JavaScript函数。结果页面根据参考序列突出显示所提交序列的突变,并在光标悬停时显示详细信息。用户还可以放大查看基因组序列的细节。选择一个特定的ORF将展开显示,以显示突变表、ORF表和所选ORF的基因序列。

结果 收集序列统计

随着时间的推移,提交给GISAID、NCBI、ENA和CNGB的SARS-CoV-2序列数量不断增加。 图1按收集日期显示序列的累积数量。来自亚洲的序列自1月份以来稳步增长,而来自其他大陆的序列最初增长缓慢,但在3月份出现了急剧增长。提交的数量反映了该病毒的全球传播情况,从1月在中国的首次暴发开始,到随后3月的全球暴发。请注意,虽然个案数目与整体个案数目有关,但个案数目并不反映实际个案数目( 图2).提交数量最多的10个国家包括5个欧洲国家(英国、西班牙、葡萄牙、荷兰和瑞士)、2个亚洲国家(印度和中国)、2个北美国家(美国和加拿大)和1个大洋洲国家(澳大利亚)。

由公共数据库托管的序列的累积数量随着时间的推移而增加。自1月份以来,来自亚洲的序列稳步增加,而来自其他大陆的序列在3月份急剧增加。每个数据点代表一周。请注意,x轴显示的是收集日期,它可能比提交日期早几周(例如,7月收集的序列可能在8月提交)。因此,没有到达8月的行说明最近收集的序列还没有提交。

按国家提交的数量。提交数量最多的十个国家被标记出来。

交互式可视化自定义序列

CoV-Seq提供直观的web界面( 图3A)用于分析和可视化SARS-CoV-2变体和orf。在收到自定义序列后,CoV-Seq识别ORF边界和遗传变异,并将其与全长基因组一起显示( 图3B).用户通过拖动缩放条调整放大倍率,拖动位置条沿基因组移动与基因组交互。当基因组窗口包含少于150个核苷酸时,字母将同时显示核苷酸碱基和氨基酸残基。将鼠标悬停在ORF主体或变体上将触发弹出窗口以显示相关信息( 图3B,红框)。单击一个ORF会弹出三个表。第一个表显示了所有变体及其位置、等位基因和它们所属的orf ( 图3C).第二个表显示了通过将输入序列与参考序列对齐并从Genbank ( 图3D).第三个表显示了所选ORF(未显示)的核苷酸和蛋白质序列。可以下载所有表格进行进一步分析。

CoV-Seq管道和web界面。(A)基因组序列采集自GISAID、NCBI、ENA和CNGB。我们删除不完整的基因组(长度<25,000个核苷酸),并在针对参考基因组NC_045512.2进行MAFFT比对之前复制基因组。我们使用一个自定义的Python脚本来生成原始的变体调用,并删除带有太多突变的样本,这表明测序错误。在合并vcf后,我们用poly-A尾去除多等位基因位点和变体,以获得筛选过的变体集。(B)交互式基因组可视化器显示orf(绿松石色)和突变(红色)。用户可以用顶部栏缩放,用底部栏平移。将鼠标悬停在ORF体和突变上将触发相关信息的弹出窗口。(C)突变表显示位置、等位基因和交叉的orf。(D) ORF表显示了预测的ORF边界和支持信息。 CNGB: China National GeneBank; ENA: European Nucleotide Archive; GISAID: Global Initiative on Sharing Avian Influenza Data; MAFFT: Multiple Alignment using Fast Fourier Transform; NCBI: National Center for Biotechnology Information; ORF: open reading frame; VCF: variant call format.

CoV-Seq命令行界面

由于SARS-CoV-2基因组序列的快速积累,对于大量收集来说,点击式网页界面非常耗时。因此,我们提供了一个命令行界面(CLI),用于高通量的序列批处理[ 16].CLI允许用户用一个命令从多个序列中识别变量和ORF边界。此外,CLI允许用户用一个命令从FASTA文件的多个序列中识别变体。

下载分析就绪数据

为了方便利用公开数据进行下游分析,我们汇总了来自GISAID、NCBI、ENA和CNGB的SARS-CoV-2基因组序列;我们还鉴定和注释了遗传变异。此外,我们将元数据与每个序列的位置和收集日期等关键信息聚合在一起(参见方法)。所有汇总信息可从CoV-Seq web服务器下载[ 17].基于这组信息,我们提供了关于序列提交的地理和时间分布的统计数据,并鼓励其他科学家进一步分析。

讨论 主要结果

在本文中,我们描述了CoV-Seq,一个能够快速分析SARS-CoV-2基因组序列的web服务器。CoV-Seq由几个组件组成。交互式可视化模块接受自定义序列作为输入,并在交互式基因组浏览器上显示遗传变异和ORF边界。对于批处理需求,CoV-Seq提供了一个CLI界面,可以一次处理多个序列。为了鼓励使用公开数据进行下游分析,CoV-Seq提供了包含序列元数据和基因突变的可下载分析结果(每周更新)。

限制

CoV-Seq目前仅限于SARS-CoV-2序列。web服务器不允许自定义除SARS-CoV-2以外的参考序列。我们之所以将重点放在这种病毒上,是因为在COVID-19大流行期间,它构成了处理请求的大部分。我们计划在未来的版本中提供额外的功能来接受自定义引用序列。

与之前工作的比较

现有软件包VAPiD [ 11]和病毒基因组ORF读取器(VIGOR) [ 18]专注于基因注释。据我们所知,以前没有人创建过识别、注释和可视化SARS-CoV-2基因变异的软件包。

结论

我们开发了CoV-Seq web服务器,用于快速、简便地分析SARS-CoV-2序列。我们希望CoV-Seq将有助于提高我们对COVID-19基因的理解。未来,我们计划将CoV-Seq的范围扩大到包括其他病毒。

补充数据。

GISAID贡献者确认表。

缩写 CLI

命令行界面

GISAID

共享禽流感数据全球倡议

NCBI

国家生物技术信息中心

ENA

欧洲核苷酸档案

CNGB

中国国家基因库

羊痘疮

开式阅读架

VCF

可变呼叫格式

我们感谢中国疾病预防控制中心共同提出了这项研究的想法,并感谢李星进行了有益的讨论。我们没有资金来源可以披露。

BL和KL设计了web服务器。BL, KL, HZ和LZ进行分析。BL和LH撰写了论文。

没有宣布。

越南盾 E H 加德纳 l 一个基于web的交互式仪表板,用于实时跟踪COVID-19 柳叶刀感染病 2020 05 20. 5 533 534 10.1016 / s1473 - 3099 (20) 30120 - 1 32087114 s1473 - 3099 (20) 30120 - 1 PMC7159018 哈德菲尔德 J 梅吉尔 C 贝尔 SM 哈迪 J 波特 B 卡兰德 C Sagulenko P 贝德福德 T 内尔 类风湿性关节炎 Nextstrain:实时跟踪病原体进化 生物信息学 2018 12 01 34 23 4121 4123 10.1093 /生物信息学/ bty407 29790939 5001388 PMC6247931 易北河 年代 Buckland-Merrett G 数据、疾病与外交:GISAID对全球卫生的创新贡献 水珠Chall 2017 01 1 1 33 46 10.1002 / gch2.1018 31565258 GCH21018 PMC6607375 Brister Ako-Adjei D Y Blinkova O NCBI病毒基因组资源 核酸测定 2015 01 43 数据库问题 D571 7 10.1093 / nar / gku1207 25428358 gku1207 PMC4383986 Kanz C Aldebert P Althorpe N 贝克 W 鲍德温 一个 贝茨 K 布朗 P 范登布鲁克 一个 卡斯特罗 科克伦 G 达根 K 爱伯哈 R Faruque N 赌博 J Diez 成品 哈特 N Kulikova T 伦巴第 V 洛佩兹 R 曼库索 R 麦克海尔 Nardone F Silventoinen V Sobhany 年代 Stoehr P Tuli Tzouvara K 沃恩 R D W Apweiler R EMBL核苷酸序列数据库 核酸测定 2005 01 01 33 数据库问题 D29 33 10.1093 / nar / gki098 15608199 33 / suppl_1 / D29 PMC540052 CoV-Seq web服务器 2020-09-24 http://covseq.baidu.com/ Muthukadan B Python的Selenium 2020-09-23 https://selenium-python.readthedocs.io/ Katoh K 史坦利 DM MAFFT多序列比对软件版本7:性能和可用性的改进 Mol Biol Evol 2013 04 30. 4 772 80 10.1093 / molbev / mst010 23329690 mst010 PMC3603318 H 一个统计框架的SNP呼叫,突变发现,关联映射和群体遗传参数估计从测序数据 生物信息学 2011 11 01 27 21 2987 93 10.1093 /生物信息学/ btr509 21903627 btr509 PMC3198575 Cingolani P 普氏能源资讯 一个 浣熊 T l 土地 SJ X Ruden DM 单核苷酸多态性的注释和预测程序SnpEff: melanogaster菌株w1118基因组中的SNPsiso-2;iso-3 飞(奥斯丁) 2012 6 2 80 92 10.4161 / fly.19695 22728672 19695 PMC3679285 钢筋混凝土 Makhsous N 斯托达德 GD 乔丹 Greninger 艾尔 VAPiD:一个轻量级的跨平台病毒注释管道和识别工具,方便病毒基因组提交到NCBI GenBank BMC生物信息学 2019 01 23 20. 1 48 10.1186 / s12859 - 019 - 2606 - y 30674273 10.1186 / s12859 - 019 - 2606 - y PMC6343335 Monnich 一个 Ronacher 一个 D Unterwaditzer 2020-09-23 https://flask.palletsprojects.com/en/1.1.x/ Monnich 一个 Ronacher 一个 D Unterwaditzer 金贾的 2020-09-23 https://palletsprojects.com/p/jinja/ Monnich 一个 Ronacher 一个 D Unterwaditzer Werkzeug 2020-09-23 https://werkzeug.palletsprojects.com/en/1.0.x/ Echarts 2020-09-23 https://echarts.apache.org/en/index.html CoV-Seq GitHub 2020-09-24 https://github.com/boxiangliu/covseq CoV-Seq聚合数据 2020-09-24 http://covseq.baidu.com/browse 年代 摩根大通 斯皮罗 D VIGOR,一个小病毒基因组注释程序 BMC生物信息学 2010 09 07 11 451 10.1186 / 1471-2105-11-451 20822531 1471-2105-11-451 PMC2942859
Baidu
map