发表在3卷第一名(2022): Jan-Dec

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/31536,首次出版
易于使用的SARS-CoV-2基因组测序汇编器:开发研究

易于使用的SARS-CoV-2基因组测序汇编器:开发研究

易于使用的SARS-CoV-2基因组测序汇编器:开发研究

原始论文

1病毒学实验室和生物安全实验室,“Lazzaro Spallanzani”国家传染病研究所,意大利罗马,卡拉特雷科学研究所

2微生物学和生物库实验室,“Lazzaro Spallanzani”国家传染病研究所,意大利罗马,卡拉特雷科学研究所

3.UniCamillus -圣卡米卢斯国际卫生科学大学,罗马,意大利

通讯作者:

Francesco Messina博士

微生物实验室和生物库

国家传染病研究所" Lazzaro Spallanzani "

哥斯达黎加科学研究院

经由葡萄牙292

00149年,罗马

意大利

电话:39 0655170668

电子邮件:francesco.messina@inmi.it


背景:早期测序和快速分析SARS-CoV-2基因组,有助于了解COVID-19疫情动态,并在全球层面制定应对措施。

摘要目的:基于扩增子的新一代测序(NGS)方法被广泛用于对SARS-CoV-2基因组进行测序,并识别快速连续出现的、含有多重缺失和氨基酸改变突变的新变体。

方法:为了便于对基于扩增子测序方法获得的NGS测序数据进行分析,我们提出了一种易于使用的SARS-CoV-2基因组组装程序:易于使用的SARS-CoV-2组装程序(ESCA)管道。

结果:我们的结果表明,ESCA可以从Ion Torrent和Illumina原始数据中进行高质量的基因组组装,并帮助用户轻松纠正低覆盖率区域。此外,ESCA包括通过一个简单的表格格式比较多个样本运行的组装基因组的可能性。

结论:总之,ESCA自动提供了一个变量表输出文件,这是快速识别感兴趣的变量的基础。我们的管道可能是一种有用的方法,即使在生物信息学方面的知识很少,也可以获得完整、快速和准确的分析。

JMIR Bioinform生物技术2022;3(1):e31536

doi: 10.2196/31536

关键字



下一代测序(NGS)通过增强新诊断方法、疫苗和药物的开发能力,在新发传染病领域发挥了关键作用[12].此外,已认识到序列数据生产和共享在疫情应对和管理中的关键作用[3.-5].在当前的COVID-19疫情中,超过600万SARS-CoV-2全基因组序列在1年内存入了可公开访问的数据库(即GISAID) [67].全球范围内的SARS-CoV-2基因组监测可以实时分析疫情,对公共卫生应对产生直接影响。这一贡献包括追踪SARS-CoV-2在时间和空间上的传播,以及可能影响致病性、传播能力、诊断方法、治疗方法或疫苗的新变种的证据[8-11].近期,新冠病毒变种迅速出现,存在多重缺失和氨基酸突变。一些突变发生在刺突蛋白的受体结合区域,并与血管紧张素转换酶2 (ACE2)亲和力的增加以及多克隆人血浆抗体功效的潜在降低有关[1213].序列信息对公共卫生的贡献越来越大,正推动全球对测序设施和科学计划的投资[1415].生成基因组NGS数据的成本下降,为测序能力的扩大提供了新的机会;然而,许多实验室测序能力较低,甚至缺乏数据细化的专业知识。

虽然测序工作可以在没有传染病领域经验的情况下进行,但病毒基因组序列组装往往是一项艰巨的任务。将SARS-CoV-2原始读取数据转化为可靠和有信息的结果是复杂的,需要扎实的生物信息学知识,特别是对于低覆盖率的样本。有些步骤可能导致不正确的变量调用并产生错误的组装序列。

监督序列组装,以避免将病毒分配到一个分类学谱系或分支的不一致或误导[910以及对低覆盖率样本的评估以防止流行病学信息的丢失是强制性的。

已经开发了许多工具来支持全基因组序列重建,从不同的NGS平台产生的读取开始。然而,大多数工具都是为其他病毒的基因组组装而设计的,通常只能详细说明一种特定类型的数据。例如,其中一些工具已经为一个特定的平台实现了组装方法(例如,Loretta用于PacBio数据)[16]或用于特定的测序方法(即用于Nanopore和Illumina数据的UNAGI) [17].一些测序平台制造商提出了用于SARS-CoV-2基因组重建的管道,旨在从一种特定的技术输出中获得最准确的序列。例如,Illumina开发了用于SARS-CoV-2基因组分析的DRAGEN工具,这是一种暂时免费并可在线使用的商业工具,而Ion Torrent建议用于SARS-CoV-2数据分析的迭代优化元汇编程序(IRMA),这是由疾病控制和预防中心(CDC)开发的开源程序[18].

我们提出了易于使用的SARS-CoV-2组装程序(ESCA)管道:一种专门为SARS-CoV-2数据分析设计的基于参考的新型基因组组装管道。该管道的创建是为了支持在SARS-CoV-2分析方面生物信息学经验有限的实验室。ESCA可以很容易地安装并在大多数Linux环境中运行。


概述

ESCA管道是为Linux环境编写的基于引用的汇编算法,只需要原始读取作为输入文件,不需要任何其他信息。该软件有两个版本:一个用于Illumina成对端读取,文件格式为“fastq.gz”,另一个用于Ion Torrent读取,文件格式为“ubam”。

该软件被设计成在一次运行中处理多个样本。所有的读取(成对或未成对)必须复制到相同的工作目录,然后,程序通过命令行启动,输入“StartEasyTorrent”为IonTorrent输入或“StartEasyIllumina”为Illumina输入。管道比自动执行所有其他段落,如下面的段落所述。

程序处理所有输入读取,使用文件名作为标识符将它们划分为不同的示例。Illumina成对端读取被分成包含“R1”或“R2”的2个文件,以区分正向读取和反向读取。

样本预处理是通过过滤掉Phred质量平均分数低于20且长度小于30个核苷酸的所有reads来进行的。

利用bwa-mem软件将过滤后的reads映射到SARS-CoV-2参考基因组Wuhan-Hu-1 (GenBank登录号NC_045512.2)上[15];所有没有映射到参考基因组上的reads将被丢弃。

然后分析基因组覆盖率:使用samtools软件将读映射文件转换为“sorted-bam”和“mpileup”文件[19],这些数据被转换成一个详细的覆盖表,报告在每个位置观察到的核苷酸计数。

然后根据3个参数重建共识序列:(1)在每个位置观察到的核苷酸频率,(2)核苷酸覆盖率,(3)参考基因组序列。

简单地说,一致性序列重建的样本参数设计为调用>频率为50%的核苷酸,并覆盖>50 reads,但如果观察到的最频繁的核苷酸与参考基因组中观察到的核苷酸相同,则在>10 reads处降低最小覆盖。

对于不满足这些参数的所有位置,ESCA管道被设计为调用“N”来指示低覆盖位置或样本内核苷酸变体。

所有样本全基因组重建后,利用MAFFT软件将共识序列与武汉-胡-1参考基因组进行比对[20.],并生成一个突变表,报告所有组装的基因组的核苷酸突变。

Illumina公司数据

为了测试ESCA管道的效率,按照制造商的说明,使用Ion AmpliSeq SARS-CoV-2研究面板,用Illumina平台对228个SARS-CoV-2阳性样本进行测序(ThermoFisher, Waltham, MA)。对于Illumina样本,使用默认参数的ESCA和DRAGEN RNA病原体检测v.3.5.15 (BaseSpace)组装整个SARS-CoV-2基因组序列。

离子流数据

按照制造商的说明(ThermoFisher),使用Ion AmpliSeq SARS-CoV-2研究面板,在Ion Torrent平台上对相同的228个SARS-CoV-2阳性样本进行了重测序分析。

对于Ion Torrent样本,利用ESCA和IRMA软件组装SARS-CoV-2全基因组序列[18]使用ThermoFisher指定的设置参数,以测试ESCA和IRMA输出的一致性。

性能测试

将两种方法得到的序列与参考序列武汉-胡-1 (NCBI Acc. 1)进行比对。麻木了。NC_045512.2),修正后的序列提交给GISAID,采用MAFFT [20.].然后,每一个不和谐的位置评估根据分类报告图1.特别地,我们评估了真阳性(TP;正确分类为真实的突变);假阴性(FN;被正确归类为不真实的突变);假阳性(FP;被错误地归类为真实的突变);真阴性(TN;被正确归类为不真实的突变);校正TN(位置未知,正确分类为N); and TN error (positions unknown, incorrectly classified as N).

为了测试平均覆盖率的性能,对平均覆盖率和准确度的具体措施进行了线性回归相关分析。

图1。基因组组装器分类方案,将组装的基因组序列(SEQ)与相应的提交序列(GISAID上)和参考基因组序列“武汉-胡-1”(REF)进行比较。将核苷酸三对体分为误缺失(Fd)、误插入(Fi)、误阴性(FN)、误阳性(FP)、突变错误(Me)、N正确(Nc)、N错误(Ne)、真缺失(Td)、真插入(Ti)、真阴性(TN)、真阳性(TP) 11类。
查看此图

在计算评估中,对228个SARS-CoV-2阳性样本进行了ESCA软件与最常用的SARS-CoV-2基因组分析汇编程序的比较。

在Illumina MiSeq上对65个文库进行测序,得到每个样本的中位数为1.50 x 106个配对末端reads(范围:0.02 x 106至4.56 x 106),在Ion Gene Studio S5 Sequencer上对163个文库进行测序,得到每个样本的中位数为0.61 x 106个单端reads(范围:0.02 x 106至3.02 x 106)。使用ESCA重建,逐个点计算覆盖率,我们观察到,在Illumina样本中,点覆盖率并不均匀,尽管所有样本的平均覆盖率都相当高(平均3508X;范围:70 - 10733)。这可能会在使用某些软件进行基因组重建时引入错误。在这种情况下,ESCA可以减少低覆盖率地区的误差。与此同时,使用Ion Torrent获得的平均覆盖率为4966X(范围:94- 19917),但观察到更高的均匀性。覆盖率分布的比较如图所示图2

为了评估ESCA和DRAGEN/IRMA结果,组装基因组,参考Wuhan-Hu-1和GISAID的校正基因组多媒体附件1)与MAFFT一致[20.].

在SARS-CoV-2基因组的每个位置,24个可用的核苷酸组合被分为11个突变类别(图1).对于所有序列,评估每个装配软件的突变类别的出现次数。

图2。我们易于使用的SARS-CoV-2汇编程序(ESCA)与(A) Illumina DRAGEN工具和(B) Ion Torrent推荐的迭代优化元汇编程序(IRMA)之间的真阳性突变比较。
查看此图

Illumina公司数据

ESCA与DRAGEN的比较表明,正如预期的那样,基因组中突变的平均数量非常低(平均在28个位置),ESCA可以正确识别28个突变中的平均27个(图2A).此外,ESCA没有确定任何FN职位。这是因为管道设计减少了在覆盖范围不够的情况下引入N的误差。相反,DRAGEN基因组显示了28个TP和3个FN位置中的25个。在特定位置突变的缺失可能对谱系的分配至关重要,而FNs的存在可能会修改变体的识别。

另一方面,ESCA和DRAGEN均未引入FN,分别识别出29,308和28,027个TN仓位。

结果表明,ESCA的准确率为100%,DRAGEN的准确率为99.99%。ESCA与DRAGEN的敏感性分别为96.43%和89.29%,两种方法的特异性均为100%。

离子流数据

与之前的比较相似的是,ESCA与IRMA的比较表明,两种方法都能识别26个TP位点中的25个(图2B)但不诱导FN。然而,IRMA引入了一定数量的错误。事实上,IRMA的FP为20,而ESCA为0。再一次,突变的引入可能导致谱系分配的错误。

IRMA的准确率为99.93%,ESCA的准确率为100%。

此外,虽然两种方法灵敏度相同(96.15%),但IRMA的特异性为99.93%,ESCA的特异性为100%。

性能测试

为了评估每种方法的性能,对平均覆盖率进行线性回归相关分析(多媒体附件2).

对于IonTorrent单端测序数据,比较IRMA和ESCA的覆盖率和TN发现显著正相关(r>0.15,P<.05),而在Illumina对端测序数据中,只有DRAGEN (r>0.40,P< . 05)。这种差异可能是由于两种测序技术的错误率不同造成的。这些数据表明,在高覆盖率样本的情况下,所有组装方法都具有可比性,而ESCA似乎对低覆盖率数据表现更好。


主要研究结果

随着新出现的变异株,快速获取和共享高质量的SARS-CoV-2全基因组的重要性日益增加[14].因此,使用NGS自定义扩增子面板可以成为一种快速和高效的方法来识别病毒变体。然而,缺乏生物信息学技能可能是处理NGS原始数据的一个问题。我们的管道ESCA使用单一命令为低生物信息能力的实验室提供帮助。用于分析Ion Torrent和Illumina数据的两种更常见的方法(分别是IRMA和DRAGEN)都显示出一定的误差,可能会在变体赋值中引起错误的识别。相反,ESCA获得的SARS-CoV-2基因组显示假插入和假突变数量减少,而真实突变数量增加。

限制

这个管道应该在更多的序列和其他测序技术上进行测试。

结论

ESCA自动生成一个变量表输出文件,用于快速识别感兴趣的变量。

这些结果表明,即使在生物信息学方面的技能最低,ESCA也可以成为获得快速、完整和正确分析的有用方法。

致谢

我们感谢新出现的冠状病毒基因组序列的贡献者(即原始实验室)通过GISAID计划共享序列和其他元数据,这是本研究的基础。我们也感谢Ornella Butera, Francesco Santini和Giulia Bonfiglio对样品制备的贡献。意大利国家传染病研究所获得了意大利卫生部拨款“Ricerca Corrente”(Progetto 1-2763705)和“5 PER MILLE 2020”(对COVID-19临床管理影响的SARS-CoV-2突变的早期发现和风险分析的iSNV研究)研究基金的资金支持。

利益冲突

没有宣布。

多媒体附件1

比较易于使用的SARS-CoV-2组装程序(ESCA)和(第一个标签:Ion Torrent)迭代优化元组装程序(IRMA)和(第二个标签:Illumina) DRAGEN对每个组装的SARS-CoV-2基因组的结果。DELerror:未正确识别的未知删除;errorMut:描述的错误突变数;FN:假阴性;FP:假阳性;INScorr:未知插入被正确识别;插入错误:未知插入被错误识别;NCorr:被正确分类为N的未知位置;错误:未知位置被错误地分类为N;TN:真负; TP: true positive.

XLSX文件(Microsoft Excel文件),36kb

多媒体附件2

两两线性回归相关分析(如图所示)PDELerror:删除未知,标识错误;FN:假阴性;FP:假阳性;INScorr:未知插入被正确识别;插入错误:未知插入被错误识别;NCorr:被正确分类为N的未知位置;错误:未知位置被错误地分类为N;TN:真负;TP:真正。

XLSX文件(Microsoft Excel文件),41kb

  1. 世卫组织SARS-CoV-2基因组测序:对公共卫生产生最大影响的实施指南世界卫生组织,2021年1月8日。URL:https://www.who.int/publications/i/item/9789240018440[2022-02-22]访问
  2. Greaney AJ, Loes AN, Crawford KH, Starr TN, Malone KD, Chu HY,等。影响多克隆人血浆抗体识别的SARS-CoV-2受体结合域突变的全面图谱。细胞宿主微生物2021 3月10日;29(3):463-476。e6 [免费全文] [CrossRef] [Medline
  3. 王晓明,李志强,李志强,等。2009年猪源甲型H1N1流感流行的起源和进化基因组学。自然学报2009年6月25日;459(7250):1122-1125。[CrossRef] [Medline
  4. Revez J, Espinosa L, Albiger B, Leitmeyer KC, Struelens MJ, ECDC国家微生物联络点和专家组。全基因组测序用于传染病监测的调查:2015-2016年欧洲国家能力的快速扩张。前线公共卫生2017;5:347 [免费全文] [CrossRef] [Medline
  5. Nadon C, Van Walle I, Gerner-Smidt P, Campos J, Chinen I, Concepcion-Acevedo J, FWD-NEXT专家小组。PulseNet国际:实施全基因组测序用于全球食源性疾病监测的愿景。2017年6月08日;22(23):1 [免费全文] [CrossRef] [Medline
  6. Elbe S, Buckland-Merrett G.数据、疾病与外交:GISAID对全球卫生的创新贡献。Glob Chall 2017 1月10日;1(1):33-46 [免费全文] [CrossRef] [Medline
  7. NCBI资源协调器。国家生物技术信息中心的数据库资源。Nucleic Acids Res 2018 Jan 04;46(D1):D8-D13 [免费全文] [CrossRef] [Medline
  8. Dong E, Du H, Gardner L.实时跟踪COVID-19的交互式web仪表板。《柳叶刀》传染病2020年5月;20(5):533-534 [免费全文] [CrossRef] [Medline
  9. 哈德菲尔德J,梅吉尔C,贝尔SM, Huddleston J,波特B, Callender C,等。Nextstrain:实时跟踪病原体进化。生物信息学2018 Dec 01;34(23):4121-4123 [免费全文] [CrossRef] [Medline
  10. 兰姆波特A,霍姆斯EC,奥图尔A,希尔V,麦克龙JT,鲁伊斯C,等。SARS-CoV-2谱系的动态命名建议以协助基因组流行病学。Nat Microbiol 2020 Nov;5(11):1403-1407 [免费全文] [CrossRef] [Medline
  11. Outbreak.info。URL:https://outbreak.info/[2022-02-22]访问
  12. 张志刚,张志刚,张志刚,张志刚,等。广泛中和抗体克服SARS-CoV-2 Omicron抗原转移。自然杂志2022年2月10日;602(7898):664-670 [免费全文] [CrossRef] [Medline
  13. 中和SARS-CoV-2刺突蛋白的抗体逃逸:基于抗体的Covid-19治疗方法和疫苗的风险评估Rev Med Virol 2021年11月31日(6):e2231 [免费全文] [CrossRef] [Medline
  14. 针对公共卫生目标的SARS-CoV-2基因组测序:临时指南,2021年1月8日。世界卫生组织,2021年1月8日。URL:https://www.who.int/publications/i/item/WHO-2019-nCoV-genomic_sequencing-2021.1[2022-02-22]访问
  15. 李华,杜斌。基于Burrows-Wheeler变换的快速精确短读对齐。生物信息学2009 july 15;25(14):1754-1760 [免费全文] [CrossRef] [Medline
  16. 胡晓东,李志强,李志强,等。LoReTTA,一个用户友好的工具,从PacBio序列数据组装病毒基因组。病毒进化2021 Jan;7(1):veab042 [免费全文] [CrossRef] [Medline
  17. 李志强,李志强,李志强,李志强,等。UNAGI:用于纳米孔全长cDNA测序的自动化管道在酵母中发现新的转录本和异构体。Funct integrg Genomics 2020 july 18;20(4):523-536 [免费全文] [CrossRef] [Medline
  18. Shepard SS, Meno S, Bahl J, Wilson MM, Barnes J, Neuhaus E.病毒深度测序需要一种自适应方法:IRMA,迭代细化元汇编器。BMC Genomics 2016 Sep 05;17:708 [免费全文] [CrossRef] [Medline
  19. 李华,Handsaker B, Wysoker A, Fennell T,阮j, Homer N, 1000基因组计划数据处理亚组。序列对齐/映射格式和SAMtools。生物信息学2009 Aug 15;25(16):2078-2079 [免费全文] [CrossRef] [Medline
  20. kaoh K, Misawa K, Kuma K, Miyata T. MAFFT:一种基于快速傅里叶变换的多序列快速对齐新方法。核酸报告2002 july 15;30(14):3059-3066 [免费全文] [CrossRef] [Medline


ACE2:血管紧张素转换酶2
疾病预防控制中心:疾病控制和预防中心
光电子能谱:易于使用的SARS-CoV-2汇编程序
FN:假阴性
外交政策:假阳性
厄玛:迭代细化元汇编器
门店:新一代测序
TN:真正的负
TP:真阳性


A Mavragani编辑;提交24.06.21;S Tausch, Y Miao同行评审;对作者30.07.21的评论;修订版本收到02.11.21;接受05.02.22;发表14.03.22

版权

©Martina Rueca, Emanuela Giombini, Francesco Messina, Barbara Bartolini, Antonino Di Caro, Maria Rosaria Capobianchi, Cesare EM Gruber。最初发表在JMIR生物信息学和生物技术(https://bioinform.www.mybigtv.com), 14.03.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用首次发表在JMIR生物信息学和生物技术上的原创作品。必须包括完整的书目信息,https://bioinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map