发表在24卷, 6号(2022): 6月

这是…的成员刊物剑桥大学(Jisc)

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/37004,首次出版
通过顺序深度学习探索纵向咳嗽、呼吸和语音数据用于COVID-19进展预测:模型开发和验证

通过顺序深度学习探索纵向咳嗽、呼吸和语音数据用于COVID-19进展预测:模型开发和验证

通过顺序深度学习探索纵向咳嗽、呼吸和语音数据用于COVID-19进展预测:模型开发和验证

原始论文

通讯作者:

丁当博士

计算机科学与技术系

剑桥大学

JJ汤姆森大街15号

剑桥,cb30fd

联合王国

电话:44 7895587796

电子邮件:td464@cam.ac.uk


背景:最近的工作表明,在筛查COVID-19时使用音频数据(如咳嗽、呼吸和声音)具有潜力。然而,鉴于目前的音频样本,这些方法仅侧重于一次性检测和检测感染,而不监测COVID-19的疾病进展。通过纵向音频数据持续监测COVID-19的进展,特别是恢复情况,提出了有限的探索。跟踪疾病进展特征和恢复模式可以带来见解,并导致更及时的治疗或治疗调整,以及更好的卫生保健系统资源管理。

摘要目的:本研究的主要目的是探索纵向音频样本随时间变化对COVID-19进展预测的潜力,特别是使用顺序深度学习技术进行恢复趋势预测。

方法:分析了来自212人的众包呼吸音频数据,包括5-385天的呼吸、咳嗽和语音样本,以及他们自我报告的COVID-19测试结果。我们开发并验证了一种使用门控循环单元(gru)的深度学习跟踪工具,通过探索个体历史音频生物标志物的音频动态来检测COVID-19的进展。调查包括两个部分:(1)使用序列音频信号对阳性和阴性(健康)检测进行COVID-19检测,主要通过受试者工作特征曲线下面积(AUROC)、敏感性和特异性进行评估,ci为95%;(2)通过阳性检测概率的纵向疾病进展预测,通过预测概率轨迹与自我报告标签之间的相关性进行评估。

结果:我们首先探索了捕获音频生物标志物纵向动态用于COVID-19检测的好处。AUROC为0.79,灵敏度为0.75,特异性为0.71,与不利用纵向动力学的方法相比,该方法的有效性得到了强有力的证明。我们进一步检查了预测的疾病进展轨迹,结果显示与纵向测试结果高度一致,测试队列的相关性为0.75,测试队列子集的相关性为0.86,其中21名covid -19阳性参与者中有12名(57.1%)报告疾病恢复。我们的研究结果表明,通过纵向音频数据监测COVID-19的演变具有跟踪个体疾病进展和恢复的潜力。

结论:利用深度学习技术开发了基于音频的COVID-19进展监测系统,该系统性能优异,随着时间的推移,预测轨迹与测试结果高度一致,特别是在采收率趋势预测方面。这在高峰后和大流行后时代具有良好的潜力,可以帮助指导医疗和优化医院资源配置。纵向音频样本的变化(称为音频动态)与COVID-19的进展有关;因此,对音频动态建模可以潜在地捕捉潜在的疾病进展过程,并进一步帮助预测COVID-19的进展。该框架为COVID-19跟踪提供了灵活、负担得起和及时的工具,更重要的是,它还为远程监测如何适用于一般呼吸系统疾病监测提供了概念验证。

[J] .中国医学信息学报,2016;24(6):371 - 378

doi: 10.2196/37004

关键字



背景

自2020年1月SARS-CoV-2大流行开始以来,已经开发并使用了不同的诊断检测和筛查方法。除了最常用的通过逆转录聚合酶链反应(RT-PCR)进行的实验室检测外[12或胸部电脑断层扫描[3.用于诊断的各种数字技术(通常使用人工智能)也被用于COVID-19筛查[4-7]。其中,基于音频的COVID-19自动检测因其灵活、经济、可扩展、无创和可持续的数据收集方法等众多优势而日益受到关注。

现有文献主要研究不同音频模式(如咳嗽、呼吸和声音)的信息含量[8-12以及各种机器学习技术的力量,特别是用于COVID-19检测的深度学习[1013-19]。尽管最近通过机器学习技术从音频信号检测COVID-19取得了成功[10但是,持续监测COVID-19进展的工作仍然缺乏。这可以提供针对个体的、及时的大规模疾病发展指示,指导个性化的医疗治疗,潜在地捕捉疾病发病以遏制传播,并估计恢复率,这在确定当前高峰后和大流行后时期的隔离规则方面发挥着关键作用。它还可以改善卫生保健系统的资源管理,同时远程监控患者,并(仅)在必要时将他们带到医院。有证据表明,COVID-19的进展因人而异,平均病程从11天到21天不等,这取决于性别和年龄、合并症、SARS-CoV-2的变体和接受治疗的时间[20.-25]。通过持续监测患者的疾病进展,可以捕获个体特异性信息,使患者和医生都受益。此外,与通常采用的在医院现场进行的RT-PCR检测和辐射强度CT扫描等不舒服的诊断方法相比,基于音频的疾病进展监测可以无侵入性地每天重复进行,并且可以长时间进行,这证明了纵向远程监测的良好适用性。

最近的工作已经认识到使用3个升级阶段来描述COVID-19的进展[26],包括早期感染、肺部受累和全身性炎症,这在疾病进展中表现出共性。我们假设这可以通过自动监控系统中的音频信号纵向捕获。虽然我们研究的参与者可能不会经历所有三个阶段,但假设在疾病的临床进展过程中音频特征受到影响。图1显示了一名参与者在43天内阅读同一句话的频谱图,他们报告了COVID-19感染,随后康复。如黑箱所示,当参与者检测呈阳性时(上排),特别是在2020年11月14日,基频及其谐波不能明显分离,表明缺乏对声带振动的控制。回收后可分离性提高。这与观察到的COVID-19临床进展过程相吻合[22第一次阳性检测后5天(2020年11月14日)可分离性最低,感染后9天(2020年11月18日)可分离性增加。在2至4千赫(蓝框)的高频范围内,也观察到类似的模式。11月18日(阳性)和11月22日(阴性)的频谱图模式没有明显差异,反映了新冠病毒检测任务的总体难度。总体而言,这种随疾病进展的频谱图演变表明,COVID-19感染可以表现为声音表征的变化。由于疾病进展因人而异(例如,不同的恢复时间或不同的严重程度),纵向音频变化可能因人而异。然而,纵向音频变化在COVID-19中很常见,对它们进行建模可能有助于COVID-19的进展预测。

图1所示。在疾病进展过程中,录音具有明显的特征。这在一个参与者的谱图中很明显,他在6个不同的日子里重复了同样的句子。参与者于2020年11月10日至18日报告检测结果为阳性,11月22日至12月26日报告检测结果为阴性,呈恢复趋势。阳性记录的基频及其谐波(黑箱)表明声带缺乏控制,表现为它们的不可分性。随着时间的推移,可以看到从积极到消极的录音越来越多的可分离性,这表明声音特征的恢复。同样,频率范围内(2-4 kHz,蓝色框)的谐波表现出越来越强的可分性,也反映了恢复趋势。
查看此图

此外,音频特征因个体而异(例如,一个COVID-19积极的参与者可能产生与另一个COVID-19相似的谱图参与者)。大多数传统的基于音频的COVID-19检测系统都没有考虑到这一点,到目前为止,这些系统只使用单个音频样本,而不是序列。这使得自动检测成为一项困难的任务,并可能导致错误的预测。在对频谱图的演变进行纵向建模时,个体过去的音频信号可以作为基线,并且可以根据这一参考对预测进行修正。此外,每个人健康时的频谱图可以作为其自身感染状态的参考,并且纵向建模音频序列的相对变化可能更准确地用于COVID-19检测。从广义上讲,个人健康状态下的音频记录的均值和SD都是个性化的。这为非健康状态提供了一个很好的阈值,有利于COVID-19的检测。在这些优势的激励下,我们探索了纵向建模连续音频记录作为疾病进展的生物标志物的潜力,重点关注如何最好地捕捉音频序列随时间的动态变化,并旨在证明预测能力。

客观的

在本研究中,我们利用纵向音频数据开发了基于音频的COVID-19进展预测模型。我们采用了顺序深度学习模型来捕捉纵向音频动态,并预测疾病随时间的进展。首先,我们研究了音频动态建模是否有助于COVID-19检测。与使用单个音频样本的传统模型相比,这显示了强大的性能。然后,我们评估了我们的模型在预测疾病进展轨迹方面的表现:我们的预测成功地跟踪了测试结果,并与COVID-19进展的时间线和持续时间的统计分析相匹配。特别是,我们探索了使用音频信号进行恢复预测,因为这可能有助于制定家庭隔离要求。从公共卫生的角度来看,我们提出的这种方法对如何监测感染者具有潜在的影响,即它可以允许更细粒度的远程跟踪,从而通过尽可能地使个人远离医院来更有效地管理卫生系统资源。


研究设计与概述

我们研究了纵向建模音频生物标志物(咳嗽、呼吸和声音)是否有利于COVID-19的检测,以及它是否可用于准确、及时地监测疾病进展(图2)。音频序列由带有门控循环单元(gru)的递归神经网络建模,以考虑反映疾病进展的音频动态。调查分为两个子任务:一个是通过预测音频生物标志物的阳性和阴性来检测COVID-19,另一个是关于疾病进展轨迹监测,检查随着时间的推移预测阳性的概率。例如,随着时间的推移,积极的概率下降表明有恢复趋势,而增加表明有恶化趋势。第一个子任务旨在评估在输入空间中对过去的音频生物标志物进行建模是否总体上有利于COVID-19检测,而第二个子任务侧重于在输出空间中对疾病进展进行纵向分析。

图2。研究设计概述:通过音频数据评估COVID-19的检测和进展。在一段时间内收集每位参与者的声音、咳嗽和呼吸录音,以及自我报告的COVID-19测试结果。在模型开发过程中,录音被分成5个样本,每段覆盖几天,并使用顺序建模技术(gru)进行处理,以监测COVID-19。评估两个子任务:(1)COVID-19检测(阳性与阴性)和(2)疾病进展监测。GRU:门控循环单元。
查看此图

数据集准备和统计

移动应用程序[27]于2020年4月开发并发布,用于数据收集,旨在将参与者的录音、COVID-19测试结果以及人口统计、病史和COVID-19相关症状众包。每位参与者被要求在一天内录制3种不同的声音,包括3种自主咳嗽声音的咳嗽录音,3-5种呼吸声音的呼吸录音,以及要求每位参与者朗读屏幕上显示的短短语的录音,共3次。新冠病毒检测结果分为自我报告、阳性报告、阴性报告和未检测结果。不需要具体的诊断方法,可以是侧流测试结果,RT-PCR测试结果或CT扫描结果。鼓励参与者定期提供数据。更多细节可在多媒体附录1夏等[28]。

2020年4月至2021年4月(图3a) 3845名健康参与者(covid -19阴性)和1456名covid -19阳性参与者提供了至少1天的临床自我报告测试结果为阳性或阴性的音频样本。如果提供5个或更多的样本,我们使用这些参与者的数据,分别得到447(11.6%)和168(11.5%)的阴性和阳性测试参与者。手动检查标签质量以删除不可靠的用户,并使用另一个移动网络(YAMNet)检查音频录制质量[29]过滤掉损坏和嘈杂的样本,留下106名(63.1%)covid -19阳性参与者。为了生成一个平衡的数据集,在不同国家选择了212名纵向用户(106,50%为covid -19阳性,106,50%为covid -19阴性)。

图3。数据流程图和人口统计。需要大量的数据集来识别和避免偏差。(a)数据选择过程。(b)符合条件的参与者的人口统计,包括语言、性别、年龄和症状。英语为主要语言,占队列的54.2% (n=115)。年龄和性别在积极组和消极组之间相对平衡。此外,100名(94.3%)COVID-19阳性参与者和82名(77.4%)COVID-19阴性参与者报告了COVID-19症状。(c)持续时间和报告间隔(以天数和样本数目计算)。样本数量的中位数为9(左),对应的时间跨度为35天(左中)。 COVID-19–negative participants reported for a longer period compared to COVID-19–positive participants. The median reporting interval for the cohort was 3 days (middle right), validating the effective temporal dependencies of the audio data. The median duration after augmentation was 17 and 18 days for COVID-19–positive and COVID-19–negative participants, respectively (right), showing that the augmentation eliminated the confounding effects of the different duration for the 2 subgroups.
查看此图

这款手机应用是一个多语言平台,用户群由8种不同的语言组成,其中115名(54.2%)英语用户占主导地位(图3b). covid -19阳性和阴性组的年龄和性别相对平衡,女性参与者110人(51.9%),30 - 59岁的参与者142人(67.0%)。此外,106名COVID-19阳性参与者中有100人(94.3%)和106名COVID-19阴性参与者中有82人(77.4%)报告了COVID-19症状,如味觉或嗅觉丧失和发烧。每个用户的样本中位数为9 (图3C,左),对应的周期为35天(图3C,左中)。covid -19阳性受试者的中位持续时间小于covid -19阴性受试者,分别为28天和45天。该持续时间预计将包含与疾病进展相关的足够的音频动态,并涵盖大多数参与者的疾病进展的完整过程[21]。此外,每个参与者的报告间隔时间也计算为连续两个样本之间的时间间隔的平均值,covid -19阳性和covid -19阴性组的中位数均为3天(图3C,右中),验证数据的时间依赖性。为了开发机器学习模型,我们进行了数据增强,并平衡了covid -19阳性和covid -19阴性参与者增强后的持续时间,中位数分别为17天和18天(图3c,对吧)。这一持续时间与疾病进展持续时间一致,通常为11-21天[20.-24]。增强后covid -19阳性和covid -19阴性参与者的持续时间相似,也有助于消除两组在模型开发中原始不同持续时间的混淆效应(图3c,左)。数据分为训练集、验证集和测试集,分别有148人(70%)、22人(10%)和42人(20%)平衡的covid -19阳性和covid -19阴性参与者,以及相对平衡的语言和性别(见多媒体附录2)。

数据处理

为了有效地开发深度学习模型,我们通过执行音频预处理、序列生成和数据增强来确保足够数量的适当处理数据可用于建模。

音频预处理

音频记录首先被重新采样到16千赫,并转换为单声道。然后通过去除录音开始和结束时的沉默期对这些录音进行预处理,将其归一化为最大振幅1。

序列生成

为了增加用于模型开发的音频序列的数量,每个参与者的音频样本被分成固定数量的5个样本的短序列。为了确保音频序列中的5个样本在COVID-19进展过程中包含有效和充分的音频动态,进一步施加了约束,将两个后续样本之间的最大时间间隔限制为14天。任何违反此约束的序列都将被删除。这导致序列长度从5天到56天不等,涵盖了疾病进展的时间跨度。

数据增加

虽然选择数据集是为了平衡covid -19阳性组和covid -19阴性组的参与者数量,但每个参与者的样本数量仍然不同(参见图3c).新冠病毒阴性受试者提供的样本多于新冠病毒阳性受试者,且新冠病毒阳性受试者在康复后也提供了阴性样本,导致队列中新冠病毒阴性样本数量明显多于新冠病毒阳性样本。此外,数据集相对较小。因此,我们采用了3种扩增技术来增加数据量,并平衡covid -19阳性和covid -19阴性样本(见多媒体附录1)。

模型架构

该模型由用于特征提取的VGGish (Google)预训练网络和用于疾病预测的gru递归神经网络(图4)。采用三种不同的方式(呼吸、咳嗽和录音)作为输入。对于每种模式,音频记录首先被转换为频谱图,然后输入到VGGish预训练网络中进行更高级的特征表示,这可以帮助利用和转移从外部大量通用音频数据集中学习到的知识[29]。通过VGGish将3种模态转换的嵌入连接起来,形成一个多模态输入向量,用于后续基于gru的预测网络。选择gru而不是长短期记忆神经网络的原因是在有限的数据大小下参数较少。gru还使用更少的内存和更快的执行速度,这在潜在的模型部署期间将是一个好处。对gru的输出进行了两项不同任务的评估:一项是通过采用模型的二进制输出来估计模型在二元诊断中的能力,另一项是通过利用阳性预测的概率来预测疾病进展轨迹。详情请参阅多媒体附录1

图4。模型结构。使用预训练的卷积神经网络(CNN)模型VGGish作为特征提取器,使用gru作为分类器,然后使用密集层来解释纵向音频动态。这是一个多任务学习框架,以COVID-19检测为主要任务,语言检测为辅助任务,以避免语言偏见。h, i∑[1,2,…N]表示时间步长为t的gru中的隐藏向量。反向层用于语言任务,如多媒体附录1式(5). GRU:门控循环单元。
查看此图

由于数据集包含8种不同语言的声音,每种语言的患病率不同(图3b)机器学习模型中可能引入了语言偏差,导致模型识别语言而不是与covid -19相关的信息(例如,将说意大利语的人归类为covid -19阳性,说英语的人归类为covid -19阴性,因为说意大利语的用户中该疾病的患病率较高,而说英语的用户的患病率较低)。为了减少语言影响,我们提出了一个多任务学习框架,将语言识别的辅助任务与COVID-19预测任务同时包含在内(参见多媒体附录1)。

绩效评估

由于训练数据中的序列长度在5-56天的范围内变化,该模型能够捕获不同长度的纵向音频动态。因此,在推理阶段,对所有过去的录音进行预测,没有固定的样本数量。这与训练阶段略有不同,但在实际应用中更为实用。为了保持音频记录的有效时间依赖性并与训练相匹配,我们应用了一个时间限制,只考虑当前天之前56天内的过去音频记录,这是训练阶段的最长持续时间。此外,我们从每个参与者的第二个样本中评估模型性能,以确保预测捕获了纵向音频动态。

COVID-19检测

对于COVID-19检测,使用AUROC、灵敏度和特异性来衡量性能。AUROC说明了二元分类器的诊断能力。灵敏度表明该模型能够正确识别covid -19阳性样本,而特异性表明该模型能够正确识别没有疾病的样本。

疾病进展预测

对于疾病轨迹预测,对每个参与者的模型性能进行评估。根据个人的测试标签,有两种不同的度量标准。对于在报告期间记录阳性和阴性测试结果之间任何转换的参与者,我们采用点双列相关系数γpb测量阳性检测结果的预测概率与检测标签之间的相关性。对于在报告期间一致报告阳性和阴性测试结果的参与者,不可能计算连续预测和测试标签之间的相关性。因此,我们采用了精度γ以正确预测的样本与样本总数之比计算(参见多媒体附录1)。虽然γpb范围在-1和1之间,γ在0-1的范围内,值越高,对两个指标的预测越好。人们还预计γpb对于一个好的模型,实现从0到1的正相关。因此,我们通过结合这两个指标来报告绩效γpbγ

采收率轨迹预测

我们进一步检查了测试队列中恢复亚组的模型性能,其中21名covid -19阳性参与者中有12名(57.1%)报告了他们的测试结果中的恢复趋势。我们采用了γpb作为评价指标。正如我们所指出的,参与者可能会延迟进行临床测试或报告结果,阴性预测可能早于自我报告的阴性测试结果,这是可以接受的。我们使用动态时间翘曲(DTW)和计算进一步将预测和测试结果暂时对齐γpb有一致的预测来解释延迟。

潜在空间可视化

为了深入了解该模型,我们旨在比较不同参与者的中间音频表示,包括报告感染后恢复的参与者,连续报告阳性测试结果的参与者和健康参与者。将中间音频表示作为模型最后一个隐藏层的潜在向量,并利用主成分分析进一步投影到4维潜在空间。

统计分析

疾病进展及症状

我们分别研究了covid -19阳性和阴性受试者的预测概率与症状之间的相关性。对于covid -19阳性的参与者,我们假设症状的数量与疾病的严重程度相关;因此,对于报告的音频记录以及更多症状,预计积极预测的概率很高。这导致了预测概率与症状数量之间的高度相关性。相反,对于健康的参与者,症状的数量与疾病的严重程度无关;因此,没有相关性的预期。这可以验证模型是否能够学习与covid -19相关的信息,而不是与症状相关的信息。

前7天的疾病进展

胸部x线或CT证据显示,56例(22.6%)患者在症状出现7天后病情缓解,30例(12.1%)病情稳定,其余162例(65.3%)患者在症状出现7天后病情恶化[26]。我们分析了类似时期(即前7天)的预测轨迹,将预测趋势的统计数据与报道的趋势进行比较。尽管许多参与者在开始记录的第一天就报告了症状,这可能不是他们出现症状的第一天,但最初几天的增加趋势仍可能表明患者的病情最初恶化。我们将7天窗口定义为从报告症状的第一天开始,或者从第一次阳性检测的当天开始(如果在此之前没有报告症状)。

道德的考虑

这项研究得到了剑桥大学计算机科学系伦理委员会的批准(ID #722)。我们的移动应用程序显示一个同意屏幕,在那里我们请求用户允许通过使用该应用程序参与研究。


COVID-19检测

为了确定通过gru序列建模技术考虑音频动态是否有效检测COVID-19,将性能与未捕获音频动态的2个基准(图5):一个只使用当天的音频生物标记进行预测,而另一个使用最后一天的前几天音频序列的平均特征表示(图5a).建议的制度(图5b)优于最高AUROC为0.79(0.74-0.84)的2个基准,灵敏度为0.75(0.67-0.82),特异性为0.71(0.67-0.75),在AUROC方面比2个基准相对提高19.7%和31.7%,证明了纵向音频生物标志物建模的有效性。我们用的是单尾z测试以验证所建议方法的AUROC在2个基线上的性能改进的重要性。我们发现所提出的方法比“单一”(P=.09)及“平均”(P= 03)。

图5。与仅利用每个用户1个孤立音频数据点的基准测试相比,所提出的顺序模型在COVID-19检测方面表现出卓越的性能。(a)“平均”是指使用序列内特征表示的平均值进行预测,“单一”是指仅使用当天的特征表示进行预测。这些系统都没有捕捉纵向语音动态。(b)提出的顺序建模优于2个基准,表明通过语音动态捕捉疾病进展的优势。(c)测试队列中42名参与者的个人水平准确性。
查看此图

为了进一步评估使用过去音频生物标志物的顺序建模是否可以为每个个体提供可调基线,对每个参与者的预测准确性进行了评估,并与“单一”基准进行了比较,该基准定义为正确预测的样本与每个参与者的样本总数的比率(图5c).我们观察到,所提出的顺序建模优于“单一”基准。消极参与者的序列模型的表现范围比基准更大,因为有2个人的表现更差。

疾病进展预测

我们将预测的疾病进展轨迹与测试结果进行对比分析。预测的进度轨迹由0-1范围内的阳性预测概率表示,值越高表示阳性测试结果的可能性越大(图6)。三种不同的疾病进展轨迹显示在图6一个,图6b,图6c,分别。对于正在康复的参与者P1 (图6a), P1检测为阳性的概率高,P1检测为阴性的概率低。利用点双列相关系数对模型性能进行评价γpb它测量了预测轨迹和测试结果之间的相关性。我们的模型实现了γpbP1 =0.86,具有较强的预测疾病进展的能力。我们进一步将超过0.5的概率分类为积极预测,低于0.5的概率分类为消极预测。预测结果也与测试结果相符。

图6。我们的方法能够预测疾病进展。橙色和青色分别表示阳性和阴性测试结果,+和•分别表示阳性和阴性预测。绿星表示存在症状。(a)康复参与者P1的疾病进展情况。(b)新冠肺炎阳性参与者P2病情进展情况。(c) covid -19阴性参与者P3的疾病进展情况。(d)测试队列在点双列相关系数方面的总体表现γ pb/准确性γ。
查看此图

对于持续报告检测结果呈阳性的covid -19阳性参与者P2 (图6B),我们的模型输出与测试结果相匹配的正预测。应该指出的是γpb不适用于报告持续阳性或阴性检测结果的参与者;因此,准确γ是用来代替的,它计算正确预测的比例,根据积极或消极的预测与总样本数。参与者P2的γ=1,因为所有的预测都是正的。此外,从症状出现第0天到第8天,阳性预测的概率增加,到第16天略有下降,这与一般的临床过程相匹配。

对于covid -19阴性参与者P3 (图6C),预测概率始终低于0.5,对应于与测试结果一致的负面预测。由于队列参与者数量有限,一种从阴性到阳性的疾病进展未包括在内。虽然我们采用了时间逆增(见多媒体附录1),及时逆转音频生物标志物及其相应的标签,以丰富不同的疾病进展,特别是从负向正的转变,时间逆转的音频生物标志物和疾病进展可能仍然与实际进展不匹配,无法在模型中很好地捕获。

图6D展示了整个测试队列在疾病进展监测中的模型性能,其中γpbγ被不同的参与者采用。我们的模型对所有42名(100%)测试参与者的结果分别为0.75,对covid -19阳性和covid -19阴性参与者的结果分别为0.86和0.71。文中给出了更多的例子多媒体附录3多媒体附录4

采收率轨迹预测

随机抽取的2名受试者P4和P5的预测康复轨迹见图7一个和图7b.对于参与者P4,从第0天到第2天,观察到概率略有增加,表明疾病的严重程度有所增加。预测概率从第2天开始下降,呈现恢复趋势。分类阳性和阴性预测也与测试结果相匹配,除了第27天,我们的模型预测阴性结果,测试结果仍然是阳性的。这可能是由于参与者进行临床试验或报告结果的延迟;因此,早期的负面预测是可以接受的。这也表明了我们基于音频的数据的优势,这些数据是精确计时的,可以立即进行分析。

对于参与者P5的弱预测轨迹图7B,明显观察到概率递减的预测恢复趋势。然而,即使用户从第16天到第23天的测试结果为阴性,这些概率也都被归类为阳性预测。这可能是由于(1)音频特征的个体差异或(2)无症状参与者表现出音频特征的微小变化,从而导致缓慢恢复的趋势预测。

所有12名(100%)恢复参与者的总体表现报告在图7c,γpb= 0.76。由于与阴性测试结果有时移的阴性预测是可以接受的(如图7a)我们暂时使用DTW将预测和测试结果对齐。模型进一步实现γpb=0.86,显示出较强的监测恢复能力。更多的例子可以在多媒体附录3多媒体附录4

图7。复苏趋势可以预测。橙色和青色区域分别表示阳性和阴性检测结果。高于0.5的预测被归类为积极预测(+),低于0.5的预测被归类为消极预测(•)。(a,b) 2个不同参与者P4和P5的恢复预测。(c)有和没有DWT的测试队列中恢复参与者的总体表现,计算预测恢复轨迹与测试结果之间的最佳匹配。(d)模型学习到的3个不同参与者的潜在向量投影。y轴从上到下表示测试结果随时间的变化。观察到每个潜在向量维度从阳性到阴性(恢复用户)的明显变化,并且在covid -19阳性和covid -19阴性参与者中可以观察到一致和不同的模式。(e,f) covid -19阳性(e)和covid -19阴性(f)参与者的症状与阳性预测概率的散点图,在covid -19阳性参与者中观察到高相关性,在covid -19阴性参与者中观察到无相关性。 DWT; dynamic time warping.
查看此图

潜在空间可视化

图7D为3个不同参与者的潜在空间可视化。对于康复用户,在参与者康复时,观察到前3个维度有明显的过渡,而在covid -19阳性和covid -19阴性参与者中观察到一致但不同的模式。这验证了该模型可以捕捉不同参与者的不同疾病进展。

统计分析

图7e和图7f分别为covid -19阳性和阴性受试者的预测概率与症状的相关性。随着症状数量的增加,我们观察到预测的概率(图7e).我们进一步为这些参与者拟合了一条线(红色),但由于样本数量有限,排除了出现5种以上症状的参与者。我们观察到明显的正相关。相反,对于covid -19阴性的参与者(图7f),我们观察到概率和症状数量之间没有相关性,这表明我们的模型没有捕获症状,而是捕获与COVID-19相关的信息。

对试验队列中12名(28.6%)符合条件的参与者进行了前7天模型预测的进一步分析,我们发现12名参与者中有8名(66.7%)的预测概率增加,与统计分析相似(n=162, 65.3%)。我们假设前7天的预测进展可以提供个人恢复率的提示指标。


主要结果

从一个众包音频数据集中,我们研究了212名纵向参与者,并开发了一个通过音频信号监测COVID-19进展的深度学习模型。我们发现纵向建模音频动态对COVID-19检测有好处。个人水平的表现也比基线有了显著的改善。该模型预测疾病进展的能力得到了验证。成功跟踪报告的测试标签在疾病进展中表现出强大的性能γpb/γ= 0.76。我们特别关注恢复预测,并与之相关γpb预测进展轨迹与试验结果的差值为0.86。

个体经历不同的疾病发展轨迹,我们的模型可以捕捉个体之间的这种可变性。对于covid -19阳性用户P6 (多媒体附录3(图A3c),我们的模型显示,从第0天到第3天,预测概率下降,然后从第3天到第6天,预测概率略有增加。参加者P7 (多媒体附录3(图A3d),我们的模型预测从第0天到第11天持续下降。这表明预测个体特异性疾病进展轨迹的有效性。虽然没有报告疾病的严重程度来验证预测的概率,但症状可以作为参考。对于参与者P6,症状的数量在第3天从3个增加到6个,之后减少到3个。因此,有理由假设情况会恶化,预测概率会增加。

同样,该模型也可以预测个体特定的恢复轨迹。参与者P1的恢复趋势更明显,在21天内相对下降了49.2% (图6a)比参加者P4 (图7a)及P5 (图7B), 21天和22天分别相对下降36.6%和37.1%。这与年轻人恢复得更快的证据是一致的[22],其中参与者P1年龄在20-29岁,参与者P4和P5年龄分别在30-39岁和40-49岁。虽然由于参与者数量有限,很难得出统计结论,但这些结果仍然表明不同个体的预测恢复率存在差异。在实际应用中,针对个体的康复监测不仅可以为自我隔离患者提供及时的反馈,更重要的是可以根据个体的康复情况为医生提供治疗指导。具体来说,当观察到预测概率急剧下降时,表明个体恢复良好。相反,在很长一段时间内,预测的概率没有下降,可能需要进一步或更有效的治疗。此外,预测的恢复趋势也可以在一定程度上用于新冠肺炎患者的风险评估。

由于我们的模型在使用纵向音频生物标志物方面表现出色,因此模型部署中的另一个重要因素是序列长度的影响,我们也对序列长度进行了分析,以了解需要多少样本才能进行可靠的预测(多媒体附录5)。累积直方图表明,序列越长,性能越好。对于超过2个样本的序列长度(多媒体附录5(图A2a)或前后及以上4天(多媒体附录5(图A2b),该模型可以产生相当好的预测。就远程监测而言,使用过去4天的录音将提供更可靠的预测。

限制

我们的研究也有一些局限性。首先,测试队列相对较小,covid -19阳性和covid -19阴性组只有21名参与者。这可能不能全面代表目标人群。此外,自述的测试结果不可避免地会有一定程度的噪声,可能存在录音与测试结果不匹配的情况。这是由于参与者报告测试结果的可能延迟。这种不匹配引入了未被充分考虑的模型开发中的混杂可变性。

我们研究的另一个限制是对混杂因素的控制有限。年龄和性别组在训练集、验证集和测试集内部和之间相对平衡,而语言组仅在3个分区之间平衡,但在每个数据分区内仍然不平衡。我们使用多任务框架的模型减轻了语言的影响,但由于某些语言子组的样本数量有限,一些语言偏差可能仍然存在。

我们也承认,声音的变化不仅可能归因于COVID-19感染,还可能归因于其他因素(例如精神状态或其他呼吸道感染,如流感)。为了验证模型是否捕获了COVID-19而不是其他因素引起的变化,需要大量具有相应标签(例如情绪状态、流感)的纵向数据来开发和评估模型。收集这些数据既困难又耗时,这是我们的长期目标。

值得注意的是,预测的疾病进展趋势与检测结果相符,但对于一些用户来说,在COVID-19进展过程中,总体概率可能高或低。这表明音频特征存在个体差异。虽然我们的模型通过捕获过去的音频信号比简单的基于样本的模型更好地解决了这个问题,但它是一个通用模型,因此仍然不精确。开发特定于参与者的模型是我们未来的议程,但为此目的需要收集更多的数据。

结论

总之,通过使用顺序机器学习技术纵向建模音频生物标志物,我们提出了基于音频的纵向数据诊断作为COVID-19进展跟踪的鲁棒技术。我们展示了我们的系统能够监测疾病的进展,特别是个体的恢复轨迹。这项工作不仅为COVID-19跟踪提供了一种灵活、负担得起和及时的工具,而且还为远程监测如何适用于一般呼吸系统疾病监测提供了概念证明。

致谢

这项工作得到了欧洲研究委员会(ERC) 833296项目(EAR)的支持。我们感谢每一位自愿提供数据的人。

数据可用性

这些数据很敏感,因为声音可以被去匿名化。匿名数据将提供给学术研究的要求,直接向通讯作者。机构需要与剑桥大学签署数据转移协议才能获得数据。有关资料的复本将转交要求提供资料的院校。我们已经有了数据传输协议。用于神经网络训练的Python代码和参数将在GitHub上提供,以实现可重复性。

作者的贡献

AF, CM和PC设计了研究。AH, AG, CS-B, DS和JC设计并实现了收集样本数据的移动应用程序。AG设计并实现了服务器基础设施。JH, TD和TX选择数据进行分析。DS、TD和TX开发了神经网络模型。TD进行实验,进行统计分析,撰写原稿主稿,生成表格和图表。JH和TX共同撰写了手稿。所有作者都对数据、分析和解释进行担保。所有作者都经过严格审查,为稿件的准备做出了贡献,并批准了最终版本。

利益冲突

没有宣布。

多媒体附录1

模型开发和验证的细节,包括数据收集、数据选择、数据增强、模型架构以及模型训练和评估。

DOCX文件,25kb

多媒体附录2

性别、年龄、语言方面的数据统计。

DOCX文件,574kb

多媒体附录3

疾病进展预测的其他例子。

DOCX文件,242kb

多媒体附录4

弱疾病进展预测的其他例子。

DOCX文件,419 KB

多媒体附录5

详细分析序列长度对COVID-19检测的影响。

DOCX文件,957 KB

  1. Vogels CBF, Brito AF, willie AL, Fauver JR, Ott IM, Kalinich CC,等。SARS-CoV-2 RT-qPCR引物-探针组分析灵敏度和效率比较。中国生物医学工程学报,2020;5(10):1299-1305。[CrossRef] [Medline]
  2. M, Kuppalli K, Kindrachuk J, Peiris M. SARS-CoV-2的病毒学、传播和发病机制。《中国医学杂志》2020年10月23日;371:m3862。[CrossRef] [Medline]
  3. 范丽,刘松。CT与COVID-19:中国在检测、分期和随访方面的经验和建议。欧洲放射医学杂志2020年5月6日;30(9):5214-5216。[CrossRef]
  4. 陈国强,陈国强。基于人工智能的人类音频处理COVID-19:全面概述模式识别2022年2月;122:108289。[CrossRef] [Medline]
  5. Ates HC, Yetisen AK, g der F, Dincer C.可穿戴设备检测COVID-19。电子学报(英文版);2021;4(1):13-14。[CrossRef]
  6. 陈建军,李建军,李建军,等。新型冠状病毒病疫情背景下可穿戴设备的发展趋势。传感器(巴塞尔)2021 8月28日;21(17):5787 [免费全文] [CrossRef] [Medline]
  7. Barr PJ, Ryan J, Jacobson NC。利用大规模诊所访问录音精确评估COVID-19表型:利用患者声音的力量[J] .中国医学信息学报,2016;23(2):563 - 568。[CrossRef]
  8. 李建军,黄志强,李建军,等。基于智能手机语音分析的新型冠状病毒肺炎自动检测方法。[J]中华卫生杂志,2013;5(2):201-217。[CrossRef] [Medline]
  9. Miranda ID, Diacon AH, Niesler NR.基于深度架构的声学咳嗽检测特征比较研究。2019年发表于:第41届IEEE医学与生物工程学会(EMBC)年度国际会议;2019年7月23日至27日;柏林,德国,第2601-2605页。[CrossRef]
  10. Al Ismail M, Deshmukh S, Singh R.通过声带振荡分析检测COVID-19。2021-2021 IEEE声学、语音和信号处理国际会议(ICASSP);2021年6月6日至11日;加拿大安大略省多伦多1035-1039页。[CrossRef]
  11. 陈建军,刘建军,刘建军,等。新型冠状病毒检测的声门流动力学分析。2021-2021 IEEE声学、语音和信号处理国际会议(ICASSP);2021年6月6日至11日;加拿大安大略省多伦多1055-1059页。[CrossRef]
  12. Deshpande G, Schuller BW。针对COVID-19的音频、语音、语言和信号处理:全面概述。arXiv预印本于2020年11月29日在线发布。[CrossRef]
  13. Laguarta J, Hueto F, Subirana B.基于咳嗽录音的COVID-19人工智能诊断。中国生物医学工程学报,2020;1(1):391 - 391。[CrossRef]
  14. Imran A, Posokhova I, Qureshi HN, Masood U, Riaz MS, Ali K等。AI4COVID-19: AI通过应用程序从咳嗽样本中初步诊断COVID-19。Inform Med解锁2020;20:100378。[CrossRef] [Medline]
  15. 张建军,张建军,张建军,等。探索基于众包呼吸声音数据的COVID-19自动诊断。arXiv预印本于2020年6月10日在线发布。[CrossRef]
  16. Pinkas G, Karny Y,玛拉基书,Barkai G, G·巴沙尔,Aharonson诉SARS-CoV-2检测的声音。中国生物医学工程学报,2020;1(1):444 - 444。[CrossRef]
  17. Han J, Brown C, Chauhan J, Grammenos A, Hasthanasombat A, spain D,等。2021年发表于2021-2021 IEEE声学、语音和信号处理国际会议(ICASSP);2021年6月6日至11日;加拿大安大略省多伦多8328-8332页。[CrossRef]
  18. copock H, Gaskell A, Tzirakis P, Baird A, Jones L, Schuller B.端到端卷积神经网络在呼吸和咳嗽音频中检测COVID-19的初步研究。中国生物医学工程学报,2016;7(2):356-362 [j]免费全文] [CrossRef] [Medline]
  19. Andreu-Perez J, Perez-Espinosa H, Timonet E, Kiani M, Giron-Perez M, Benitez-Trinidad AB,等。基于临床验证样本的通用深度学习咳嗽分析系统,用于即时检测Covid-19和严重程度。IEEE transserv computer 2021:1-1。[CrossRef]
  20. 于峰,闫磊,王宁,杨松,王磊,唐勇,等。感染患者SARS-CoV-2的定量检测及病毒载量分析。中华临床医学杂志,2011;31 (5):793-798 [j]免费全文] [CrossRef] [Medline]
  21. 吴健,李伟,石旭,陈志,蒋斌,刘健,等。早期抗病毒治疗有助于减轻新型冠状病毒病(COVID-19)患者的严重程度和改善预后。中华临床医学杂志,2016;31(1):368 - 368。[CrossRef] [Medline]
  22. Voinsky I, Baristaite G, Gurwitz D.年龄和性别对新冠肺炎患者康复的影响:对5769例以色列患者的分析。中国生物医学工程学报(英文版);31 (2):559 - 559 [J]免费全文] [CrossRef] [Medline]
  23. Lechien JR, Chiesa-Estomba CM, Place S, Van Laethem Y, Cabaraux P, Mat Q, YO-IFOS新冠肺炎工作组。1420例欧洲2019年轻至中度冠状病毒病临床及流行病学特征分析中华临床医学杂志;2010;29 (3):335-344 [J]免费全文] [CrossRef] [Medline]
  24. 毕强,吴勇,梅生,叶超,邹旭,张忠,等。深圳市391例病例及1286例密切接触者COVID-19流行病学与传播的回顾性队列研究《中华传染病杂志》;2016;20(8):911-919。[CrossRef]
  25. 2019冠状病毒病原生和免疫抑制状态:临床治疗分期方案。[J]中华心脏外科杂志;2009;39(5):555 - 557 [J]免费全文] [CrossRef] [Medline]
  26. 陈健,齐涛,刘林,凌云,钱志,李涛,等。上海市新冠肺炎患者临床进展分析中国生物医学工程学报;2009;31 (5):591 - 591 [J]免费全文] [CrossRef] [Medline]
  27. 剑桥大学。COVID-19声音应用程序。https://www.covid-19-sounds.org/en/[2022-06-06]访问
  28. 夏涛,张德华,陈建军,韩军,等。COVID-19声音:用于数字呼吸筛查的大规模音频数据集。2021年出席:第三十五届神经信息处理系统数据集和基准跟踪会议(第二轮);2021年12月6日至14日;Virtual-only。
  29. Hershey S, Chaudhuri S, Ellis DPW, Gemmeke JF, Jansen A, Moore RC,等。大规模音频分类的CNN架构。2017 IEEE声学、语音和信号处理国际会议(ICASSP);2017年6月19日;新奥尔良,洛杉矶第131-135页。[CrossRef]


AUROC:接收机工作特性曲线下的面积
CT:计算机断层扫描
DTW:动态时间规整
格勒乌:门控循环装置
rt - pcr:逆转录聚合酶链反应


C . Basch编辑;提交04.02.22;R Eikelboom的同行评审;对作者的评论31.03.22;修订版本收到14.04.22;接受18.04.22;发表21.06.22

版权

©Ting Dang, Jing Han, Tong Xia, Dimitris Spathis, Erika Bondareva, Chloë Siegele-Brown, Jagmohan Chauhan, Andreas Grammenos, Apinan Hasthanasombat, R Andres Floto, Pietro Cicuta, Cecilia Mascolo。原发表于医学互联网研究杂志(//www.mybigtv.com), 2022年6月21日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map