医学互联网研究杂志-检查使用人工智能模型诊断流感:发展和验证研究

原始论文

¹Aillis, Inc，东京，日本

²日本红十字医疗中心，东京，日本

^3.日本京都京都大学公共卫生学院医学研究生院卫生信息系

⁴日本东京癌症研究基金会癌症研究所医院姑息治疗科

⁵东京医科和牙科大学，日本东京

⁶美国加州大学洛杉矶分校David Geffen医学院普通内科和卫生服务研究部

⁷筑波大学卫生服务研究部，筑波，日本

⁸英国伦敦卫生和热带医学学院流行病学和人口健康学院

通讯作者:

Sho Okiyama，医学博士

Aillis公司

1-10-1-11F,乐町

Chiyoda-ku

东京,100 - 0006

日本

电话:81 3 5218 2374

传真:81 3 6800 1453

电子邮件:sho.okiyama@aillis.jp

背景:流感的全球负担是巨大的。它是一种主要疾病，每年都会引起流行，偶尔还会引起大流行。考虑到流感主要感染上呼吸道系统，将深度学习应用于咽部图像可能会诊断流感感染。

摘要目的:我们的目标是建立一个利用咽部图像和临床信息诊断流感感染的深度学习模型。

方法:我们招募了因流感样症状而前往诊所和医院就诊的患者。在训练阶段，我们开发了基于深度学习的诊断预测人工智能(AI)模型，从咽部图像和临床信息中预测聚合酶链反应(PCR)确诊的流感。在验证阶段，我们评估了AI模型的诊断性能。在其他分析中，我们将AI模型的诊断性能与3名医生的诊断性能进行了比较，并使用重要性热图解释了AI模型。

结果:在2019年11月1日至2020年1月21日期间，我们在64家医院共招募了7831名患者参加培训阶段，并在2020年1月25日至2020年3月13日期间在11家医院招募了659名患者(包括196名pcr确认的流感患者)参加验证阶段。AI模型的受试者工作特征曲线下面积为0.90 (95% CI 0.87-0.93)，其敏感性和特异性分别为76%(70%-82%)和88%(85%-91%)，优于3名医生。在重要性热图中，AI模型往往聚焦于咽后壁的卵泡。

结论:我们开发了第一个可以从咽部图像准确诊断流感的AI模型，这有可能帮助医生及时做出诊断。

中国医学杂志，2018;24(12):e38751

doi: 10.2196/38751

关键字

流感；体格检查；咽；深度学习；诊断预测

背景

根据《2016年全球疾病负担研究》，流感的全球负担是巨大的。在研究中，估计该病导致3,910万次急性下呼吸道感染发作和58,200例死亡[1］．据估计，流感每年导致291,243至645,832例季节性呼吸道死亡(每10万人4.0至8.8例)[2］．及时和准确地诊断流感有可能防止病毒在人群中广泛传播，以及随后的流行病和大流行，此外，初级保健中不必要地使用抗生素，这是耐抗生素细菌出现的原因之一。此外，早期干预，如水合作用和抗病毒药物，有望降低高危患者(包括老年人和有合并症的个体)的死亡风险。

COVID-19大流行和远程医疗使用的激增凸显了在不增加通过身体互动传播病毒风险的情况下准确诊断流感感染的重要性。诊断流感感染的金标准方法是对鼻咽分泌物或拭子进行逆转录聚合酶链式反应(RT-PCR) [3.,4];然而，RT-PCR不容易在初级保健中进行，结果周转时间可能会延误及时诊断和预防或治疗干预。一种比较常用的检测方法是快速免疫层析抗原检测;然而，与RT-PCR相比，其有效性是适度的，并且在不同的研究中有所不同[5,6］．这些测试都不能通过远程医疗进行，仅使用临床信息诊断流感的敏感性和特异性都不理想[7,8］．鉴于最近通过远程医疗进行诊断的患者人数有所增加，有必要通过远程医疗进行另一种流感检测。

目标

为了解决这一重要的知识缺口，我们开发了一个深度学习模型，利用咽部图像和临床信息诊断流感感染。我们使用来自真实世界患者群体的数据测试了人工智能(AI)模型的诊断预测性能，并将其与3名医生的诊断性能进行了比较。我们还调查了AI模型聚焦的咽区域，以区分感染流感和未感染流感的个体。

开发一种医学相机以捕捉标准化咽部图像的试点研究

在我们的试点研究中，我们招募了4765名年龄在6至90岁之间有流感样症状的患者，他们在2018年11月28日至2019年2月4日期间访问了37家诊所或医院(注册号为jRCTs032180041)。为了以标准化的方式捕捉咽部图像，我们开发了一种带有发光二极管光源和一次性透明相机盖的咽部相机，以压制患者的舌头(图1)．在这项初步研究中，我们调整了咽镜和压舌器的尺寸，使其适合许多患者。该设备包含一个全高清数码相机，并通过Wi-Fi连接到云服务，用于分析咽部图像，以及临床信息。在这项试点研究中，我们在分辨率、亮度和对比度方面提高了相机的图像质量。具体来说，由于角度过大，我们适当减小了视角，以减少失真，提高分辨率。我们还在相机尖端附近放置了一个成像传感器，以避免光线衰减，确保图像亮度。此外，我们通过在清晰的相机罩上涂上防雾材料来提高图像对比度，以防止呼气引起的雾。我们使用快速连续拍摄功能，在短时间内获得高质量的咽部图像，同时避免运动模糊。该相机每0.3秒就能捕捉一张图像，每次拍摄可以连续捕捉30张图像。

研究设计和参与者

该研究包括一个培训阶段(注册为jRCTs032190120)和一个验证阶段(注册为制药和医疗器械管理局临床试验识别代码AI-02-01)。我们在2019年11月1日至2020年1月21日期间的培训阶段，以及2020年1月25日至2020年3月13日期间的验证阶段，在64家医院招募了前往诊所或医院并满足以下纳入和排除标准的流感样症状患者。的表S1提供了研究地点的清单多媒体附件1．

纳入标准如下:(1)经本人或父母书面同意(年龄<18岁)参与研究的患者，(2)年龄≥6岁的患者，(3)在训练阶段至少满足以下4项条件之一，在验证阶段至少满足2项条件:第一，体温≥37.0℃;二是系统性流感样症状，如关节痛、肌肉痛、头痛、乏力、食欲不振;三是呼吸道症状，如咳嗽、喉咙痛、鼻分泌物或充血;第四，在3天内与流感患者或流感样症状密切接触，或在任何其他情况下，咨询医生怀疑感染流感。排除标准包括:(1)牙齿上下波动的患者;(2)口腔有严重病变的;(3)严重恶心者;(4)使用相机时难以张开嘴(如:嘴小、颞下颌关节疼痛、假牙不相容、意识障碍或呼吸衰竭);(5)在本研究前7天内参加过另一项临床试验的患者，计划参加另一项临床试验的患者(不包括上市后监测)，或因精神、家庭、社会、地理或其他原因随访困难的患者;(6)明确不同意参与研究的儿科患者; and (7) those judged to be inappropriate to participate in the study by the responsible physician at each site. In addition, we excluded patients with only poor-quality images from the analysis.

在训练阶段，我们的目标是以大约1:1的比例收集rt - pcr确认流感阳性和流感阴性结果的患者的临床信息和咽部图像，以实现AI模型最有效的监督学习。对于应该用于训练人工智能模型的样本大小(即患者数量)没有共识;因此，我们随机将人数设为7500例，其中rt - pcr阳性3750例，rt - pcr阴性3750例。在验证阶段，我们的目标是确定灵敏度≥70%的95%单侧CI下界和特异性≥85%的CI下界。单面的P假设我们的训练阶段建议的实际敏感性为80%，特异性为90%，我们计算出rt - pcr结果阳性的患者所需样本量为137,rt - pcr结果阴性的患者所需样本量为323。因此，我们计划在获得150例阳性结果患者和350例阴性结果患者的当天停止招募研究参与者。

日本于2020年1月15日报告了首例SARS-CoV-2感染(COVID-19)病例，并于2020年3月下旬出现第一波大流行。在研究期间，在验证阶段，我们要求参与研究的诊所和医院报告研究参与者中任何疑似COVID-19病例。在整个研究过程中，任何研究地点都没有此类报告，这表明我们的研究样本没有受到COVID-19大流行的影响。

咽影像、临床资料和鼻咽标本的收集

除了研究参与者的咽部图像外，使用基于电子数据捕获的标准化病例报告表格获得了以下临床信息:年龄;性;发病时间(小时);研究现场访问前的最高体温;密切接触发作;最近一次流感疫苗接种的情况和日期;退烧药的使用;主观症状，包括疲劳、食欲下降、发冷、出汗、关节疼痛、肌肉疼痛、头痛、鼻分泌物或充血、咳嗽、喉咙痛和消化症状;研究地点的咨询医生的客观发现，包括体温、脉搏率和扁桃体表现(扁桃体炎、白色苔藓和发红)。

此外，通过鼻咽拭子采集受试者的鼻咽标本，送往中央临床实验室(LSI Medience Corporation)进行RT-PCR检测，这是诊断流感感染的金标准(参考标准)。我们使用自己的日文手册(未公开)规范了在研究地点收集鼻咽标本的过程。

预测rt - pcr确认流感的AI模型的开发

我们开发了一个集成AI模型(版本为FLU2021.06)，利用咽部图像和临床信息预测rt - pcr确认流感的概率(图S1)多媒体附件1)．该模型由3个主要的机器学习模型组成:多视图卷积神经网络(MV-CNN)、多模态卷积神经网络(MM-CNN)和增强模型。在训练阶段，我们训练了这3种类型的机器学习模型，并使用岭回归将它们集成[9集成AI模型。

首先，我们使用SE-ResNext-50作为图像特征提取器来训练MV-CNN，该图像特征提取器在ImageNet上进行了预训练[10,11］．MV-CNN架构使用了几个包含不同角度视图的咽部图像[12］．在咽部显像上，舌和小舌常与咽后壁重叠。MV-CNN通过从不同的图像角度收集信息来解决这个问题。使用自动图像质量评估系统，从30张(如果拍摄多张则更多)连续图像中，选择每个患者最合适的1至5张图像作为MV-CNN的输入。我们通过考虑MV-CNN性能和图形处理器单元的内存大小限制来确定输入图像的数量。虽然，在一般情况下，MV-CNN在输入更多图像时表现更好，但图形处理器单元的内存大小限制了图像的数量。如果所选图像的数量小于5，我们用填充为零的无信息图像填充它们，类似于图像边界区域的零填充。为了量化视觉图像质量标准，我们训练了使用轻量级CNN模型的图像质量评估系统[13]在训练阶段使用由作者之一(MF)医生定义的人类注释的视觉图像质量标准(例如，咽后壁的可见性，亮度，焦点，运动模糊和呼气雾)。MV-CNN的输入图像被调整大小，然后被增强(例如，翻转、旋转、模糊和对比度改变)，以提高准确性和泛化性能。为了防止过拟合，我们使用了完善的训练策略，包括批处理归一化、学习率衰减和交叉验证。为了管理不同的咽部放大率，我们训练了多种图像大小的mv - cnn，并通过平均它们的分数来组合它们。

其次，我们在MV-CNN的基础上开发了MM-CNN，将多视角咽部图像和临床信息同时处理为输入数据[14,15］．详细地，我们扩展了MV-CNN的最终分类层，并将其连接到神经网络中来管理临床信息。使用训练好的MV-CNN权值初始化MM-CNN的图像特征提取器。然后，我们应用了与MV-CNN相同的训练和集成策略。

第三，我们根据MV-CNN的预测结果和临床信息训练增强模型。我们选择LightGBM和CatBoost作为提升模型[16,17］．最后，将MV-CNN、MM-CNN和岭回归增强模型的预测结果进行整合，得到流感的概率。我们使用交叉验证训练脊回归权重。通过岭回归模型预测的所有褶数平均得到流感的概率。

统计分析

在训练阶段，我们根据RT-PCR检测结果(阳性或阴性)比较研究参与者的临床特征t对具有正态分布的连续变量(年龄、研究现场访问前的最高体温、访问时的体温和脉搏率)进行检验(2尾)，Mann-WhitneyU检验具有非正态分布的连续变量(从症状出现的时间)，并对类别变量进行卡方检验。我们在验证阶段重复这些分析。

在训练阶段，我们采用5倍交叉验证方法，进行受试者工作特征(ROC)曲线分析，以衡量(1)MV-CNN的概率评分的辨别能力，该算法仅使用咽部图像进行预测;(2)临床信息AI的概率得分，这是一种使用上述除咽部图像外的所有临床信息进行预测的AI模型;(3)综合咽部图像和临床信息的AI模型的概率得分。我们还通过计算连续重分类改进和综合判别改进，比较临床信息AI模型和集成AI模型来衡量咽部图像的重分类能力[18］．

在验证阶段，我们还进行了ROC分析，根据选定的截断点计算流感感染的敏感性、特异性、阳性预测值(PPV)和阴性预测值(NPV)。

采用R软件(4.1.1版本;R Foundation)和Python软件(3.8.5版本;Python软件基金会)。P<。05例被认为有统计学意义。第三方机构(Statcom Co Ltd, Tokyo, Japan)在验证阶段进行样本量估计和ROC曲线下面积(AUROC)和有效性(敏感性、特异性、PPV和NPV)的计算。为了避免在监管审批过程中对所开发的AI模型进行事后调整以适应验证数据，禁止作者直接接触验证数据或在验证阶段进行额外的分析。因此，在验证阶段无法进行其他分析(如单独计算咽部图像和临床信息的AUROC，或单独计算MV-CNN、MM-CNN和boosting模型的AUROC)。

额外的分析

我们进行了4种类型的附加分析。首先，我们将人工智能辅助诊断摄像机的性能与3名医生的性能进行了比较。在这项分析中，我们使用了200名患者(100名rt - pcr结果阳性的患者和100名rt - pcr结果阴性的患者)的现有数据(咽部图像和临床信息)，这些患者是从训练阶段的研究参与者中随机选择的。作者中共有3名医生(SO、MF和M Ikeda)对患者的标识符及其RT-PCR检测结果不知情，他们对数据进行评估，将流感预测评分分配在0到1之间(即0%到100%)。由于医生从咽部图像和临床信息中诊断流感通常没有既定的实践或标准，因此要求3名医生像他们在实际临床实践中通常做的那样，猜测每位患者感染流感的概率。我们将诊断预测AI模型应用于现有数据，并将诊断预测AI模型的AUROC与每个医生的AUROC以及3名医生的平均预测得分进行比较。我们重新计算了200例患者AI模型的AUROC，以进行公平的比较。

其次，我们试图解释MV-CNN预测的机制，以区分流感病例和非流感病例，使用咽部图像。我们修改了MV-CNN的引导梯度加权类激活映射，以可视化重要性热图。目的是在鉴别rt - pcr阳性和rt - pcr阴性患者时，确定MV-CNN的焦点区域。我们使用了与第一次附加分析相同的200名患者的数据集(100名患者rt - pcr阳性，100名患者rt - pcr阴性)。为了量化和解释重要性热图，作者中的2名医生(MF和M Ikeda)独立确定MV-CNN是否突出每个患者的咽的每个部分(分为5个部分:咽侧束、咽后壁、腭弓、扁桃体和卵泡)。当2位医生做出不同判断(即MV-CNN是否有高亮)时，通过讨论达成共识。因此，对于咽喉的每个部位，我们计算了在100例rt - pcr结果阳性和100例rt - pcr结果阴性的患者中，MV-CNN图像突出显示的患者的比例，并使用卡方检验对两组进行比较。

第三，作为一个事后实验，使用200个样本，我们比较了我们最终模型(即脊回归集成模型)的性能与每个组件模型的性能:MV-CNN, MM-CNN和增强模型。

最后，作为另一个后期实验，我们比较了MV-CNN模型与所提出的主干(SE-ResNext-50)和各种CNN主干的性能，即ResNet-50、ResNeXt-50 (32×4d)、EfficientNet-B0和DenseNet-121的性能，它们在我们的模型开发时可用。

伦理批准

服部诊所的伦理委员会批准了试点研究和培训研究，而高桥诊所、小崛中心诊所和原多医院的伦理委员会批准了验证研究。

培训阶段

图S2多媒体附件1展示了训练阶段患者选择的流程图。我们获得了2019年11月1日至2020年1月21日期间前往64家诊所或医院之一就诊的9029名流感样症状患者的知情同意。其中199例(2.20%)患者在拍摄咽片时出现恶心，其中1例(0.01%)患者出现严重恶心，14例(0.16%)患者出现呕吐。我们没有完成这15例患者(0.17%)的图像采集程序。在剩余的9014例患者中，我们选择了7831例患者(平均年龄33.8岁，SD 18.4岁;女性患者:3901/ 7831,50%)，25168张高质量图像(在大约30万张图像中)，其中3733例(47.67%)流感rt - pcr结果阳性，12,154例(48.29%)咽部图像，4098例(52.33%)rt - pcr结果阴性，13,014例(51.71%)咽部图像。表1根据RT-PCR检测结果比较患者的临床特征。与rt - pcr结果阴性的患者相比，rt - pcr结果阳性的患者的平均年龄略低;从症状出现到研究现场访问的时间较短;密切接触、退烧药使用比例、主观症状居多;体温和脉搏率较高，而近期流感疫苗接种、消化系统症状和扁桃体发现的比例较低。两组之间在性别和喉咙痛的比例上没有差异。

利用训练数据集，我们建立了集成AI模型来估计个体患者发生流感的概率。LightGBM和CatBoost模型中各变量的特征重要性如图S3和S4 in所示多媒体附件1，表明咽图像是诊断预测AI模型中最重要的变量，其次是体温和咳嗽。

在5次交叉验证中，咽部图像MV-CNN概率评分的AUROC为0.76 (95% CI 0.75-0.77)，具有临床信息的AI模型的AUROC为0.76 (95% CI 0.75-0.77)表1)为0.83 (95% CI 0.82-0.84;图2)．具有咽部图像和临床信息的诊断预测AI模型的AUROC为0.87 (95% CI 0.86-0.87)，这意味着在具有临床信息的AI模型中加入咽部图像后，AUROC显著提高(P<措施)。在重分类能力方面，rt - pcr阳性患者的连续重分类能力改善为0.25 (95% CI 0.22 ~ 0.29)， rt - pcr阴性患者的连续重分类能力改善为0.33 (95% CI 0.30 ~ 0.36)，综合判别能力改善为0.08 (95% CI 0.07 ~ 0.08)，这也说明在AI模型中加入了具有临床信息的咽部图像后，诊断预测AI模型的准确性显著提高。

表1。有或没有逆转录聚合酶链反应(RT-PCR)证实流感的研究参与者的特征。

特征		培训阶段的参与者							验证阶段的参与者
		所有(n = 7831)	RT-PCR检测结果					所有(n = 659)			RT-PCR检测结果
			积极的(n = 3733)	- (n = 4098)	P价值					积极的(n = 196)		- (n = 463)	P价值
年龄(年)，平均值(SD)		33.8 (18.4)	33.0 (18.5)	34.5 (18.4)	<措施		33.3 (17.6)			30.4 (18.6)		34.5 (17.0)	.008
性， n (%)						54								54
	男性	3930 (50.2)	1887 (50.5)	2043 (49.9)			318 (48.3)			91 (46.4)		227 (49.0)
	女	3901 (49.8)	1846 (49.5)	2055 (50.1)			341 (51.7)			105 (53.6)		236 (51.0)
发病时间(小时)，平均(SD)		31.2 (25.3)	28.3 (20.6)	33.8 (28.6)	<措施		27.5 (31.2)			24.6 (10.8)		28.7 (36.5)	正
最高的英国电信^一个来访前(°C)，平均值(SD)		38.2 (0.9)	38.6 (0.8)	38.0 (0.9)	<措施		38.2 (0.8)			38.6 (0.7)		38.0 (0.8)	<措施
密切接触，n (%)		2520 (32.2)	1687 (45.2)	833 (20.3)	<措施		208 (31.6)			120 (61.2)		88 (19.0)	<措施
近期流感疫苗接种，n (%)		2873 (36.7)	1248 (33.4)	1625 (39.7)	<措施		278 (42.2)			73 (37.2)		205 (44.3)	.09点
退烧药用量，n (%)		2975 (38)	1530 (41)	1445 (35.3)	<措施		297 (45.1)			95 (48.5)		202 (43.6)	二十五分
主观症状， n (%)
	疲劳	5937 (75.8)	3010 (80.6)	2927 (71.4)	<措施		506 (76.8)			159 (81.1)		347 (74.9)	.09点
	食欲丧失	3361 (42.9)	1823 (48.8)	1538 (37.5)	<措施		259 (39.3)			96 (49)		163 (35.2)	<措施
	寒冷	4215 (53.8)	2231 (59.8)	1984 (48.4)	<措施		338 (51.3)			115 (58.7)		223 (48.2)	. 01
	出汗	2188 (27.9)	1128 (30.2)	1060 (25.9)	<措施		206 (31.3)			60 (30.6)		146 (31.5)	总共花掉
	关节疼痛	3735 (47.7)	1992 (53.4)	1743 (42.5)	<措施		316 (48)			103 (52.6)		213 (46)	点
	肌肉疼痛	2362 (30.2)	1276 (34.2)	1086 (26.5)	<措施		192 (29.1)			62 (31.6)		130 (28.1)	36
	头疼	4725 (60.3)	2414 (64.7)	2311 (56.4)	<措施		403 (61.2)			126 (64.3)		277 (59.8)	陈霞
	流鼻涕或鼻塞	4472 (57.1)	2202 (59)	2270 (55.4)	措施		410 (62.2)			134 (68.4)		276 (59.6)	03
	咳嗽	5219 (66.6)	3053 (81.8)	2166 (52.9)	<措施		384 (58.3)			161 (82.1)		223 (48.2)	<措施
	喉咙痛	4928 (62.9)	2353 (63)	2575 (62.8)	.86		440 (66.8)			126 (64.3)		314 (67.8)	38
	消化系统症状	1298 (16.6)	558 (14.9)	740 (18.1)	<措施		127 (19.3)			30 (15.3)		97 (21)	.09点
客观的结果
	到访时BT(°C)，平均值(SD)	37.6 (0.9)	38.0 (0.9)	37.3 (0.8)	<措施		37.5 (0.9)			37.9 (0.9)		37.3 (0.8)	<措施
	脉搏率，平均值(SD)	95.0 (17.8)	100.2 (17.7)	90.3 (16.6)	<措施		93.8 (17.7)			100.8 (18.6)		90.9 (16.4)	<措施
	扁桃体炎，n (%)	1238 (15.8)	529 (14.2)	709 (17.3)	<措施		63 (9.6)			8 (4.1)		55 (11.9)	.002
	扁桃体白苔n (%)	126 (1.6)	17 (0.5)	109 (2.7)	<措施		23日(3.5)			1 (0.5)		22日(4.8)	.007
	扁桃体发红，n (%)	1292 (16.5)	540 (14.5)	752 (18.4)	<措施		69 (10.5)			13 (6.6)		56 (12.1)	.04点

^一个BT:体温。

图2。诊断预测模型在训练数据集5倍交叉验证中的受试者工作特征曲线。图中，所有的组合代表了利用咽部图像和临床信息的集成人工智能(AI)模型;咽部图像只能用多幅咽部图像来表示多视图卷积神经网络;临床信息只反映集成AI模型，没有咽部图像信息。AUROC:接收机工作特性下的面积。

验证阶段

图S5多媒体附件1显示验证阶段患者选择的流程图。在验证阶段，我们获得了706名在2020年1月25日至2020年3月13日期间前往11家诊所或医院之一就诊的流感样症状患者的知情同意，其中包括安全性分析集。706例患者中，有12例(1.7%)患者在检查时感到恶心，其中1例(0.1%)患者有严重恶心，我们没有完成拍摄过程。此外，33名患者(4.7%)不满足完整分析集方案的预定义标准，主要是因为在研究地点保存咽部图像的困难。此外，有13例(1.8%)患者被排除在自动图像质量评估系统之外，该系统删除了低质量的咽部图像。因此，我们使用其余659例患者的咽部图像和临床信息(平均年龄33.3岁，SD 17.6岁;女性患者:341/659,51.7%)进行验证期分析。与训练阶段相似，rt - pcr确诊病例与非病例相比，结果如下:平均年龄略低;密切接触和几种主观症状(疲倦、畏寒、流鼻涕或鼻塞、咳嗽)的比例较高;体温(门诊或医院就诊前和现场)和脉搏率较高，而扁桃体发现的比例较低(表1)．

在验证阶段，诊断预测AI模型AUROC为0.90 (95% CI 0.87-0.93)。在ROC曲线上选定的截断点(图3)，敏感性和特异性分别为76% (95% CI 70% ~ 82%)和88% (95% CI 85% ~ 91%)， PPV和NPV分别为73% (95% CI 69% ~ 79%)和90% (95% CI 87% ~ 92%)， (表2)．

图3。诊断预测模型在验证数据集中的接受者工作特征曲线。AI:人工智能;AUROC:受试者工作特征曲线下的面积。

表2。人工智能(AI)辅助设备与基于逆转录-聚合酶链反应(RT-PCR)的流感病毒感染金标准诊断的有效性比较。

		基于RT-PCR的流感病毒感染			总n		值，% (95% CI)
		真阳性	真正的负			PPV^一个， % (95% ci)		净现值^b， % (95% ci)
人工智能辅助设备预测^cn
	积极的	149	55	204		73年(67 - 79)		N/A^d
	负	47	408	455		N/A		90年(87 - 92)
总n		196	463	659		N/A		N/A
灵敏度，% (95% CI)		76年(70 - 82)	N/A	N/A		N/A		N/A
特异性，% (95% CI)		N/A	88年(85 - 91)	N/A		N/A		N/A

^一个PPV:阳性预测值。

^bNPV:负预测值。

^c根据所示的人工智能辅助设备诊断预测模型的接收器工作特征曲线上所选择的截止点图3．

^dN/A:不适用。

额外的分析

在我们的附加分析中，在随机选择的200例患者中(100例rt - pcr结果为阳性，100例rt - pcr结果为阴性)，诊断预测AI模型的AUROC为0.89 (95% CI 0.84-0.93)，高于3名医生各自的AUROC(0.76, 0.73和0.74)。也高于3名医师的平均预测得分(0.79,95% CI 0.73-0.85;图4)．

图S6多媒体附件1而且图5显示咽部图像的例子和那些突出使用重要性热图。2名医生对200名患者(rt - pcr结果阳性的100名患者和rt - pcr结果阴性的100名患者)的重要性热图进行了评估，结果显示，在rt - pcr结果阳性和rt - pcr结果阴性的患者中，AI模型高亮显示咽后壁卵泡图像的患者比例存在显著差异(73% vs 38%;P<.001)，这表明AI模型通常关注这些部分(图S7)多媒体附件1)．

最后，我们的事后实验表明，我们最终模型(即脊回归集成模型)的性能优于或类似于(至少不逊于)每个组件模型的性能(表S2)多媒体附件1)．此外，我们最终模型中提出的骨干模型优于各种CNN骨干(表S3)多媒体附件1)．

图4。受试者工作特征曲线用于诊断预测人工智能模型和3名医生。图中AI表示利用咽部图像和临床信息的集成AI模型。AI模型与验证阶段使用的模型相同。然而，AUROC略有不同，因为在附加分析中使用的样本量较小。AI:人工智能;AUROC:受试者工作特征曲线下的面积。3名医师:3名医师预测平均得分。

图5。咽部图像示例(左)和使用重要性热图突出显示的图像示例(右)。这些重要热图显示了人工智能(AI)模型侧重于区分逆转录聚合酶链反应(RT-PCR)阳性病例和RT-PCR阴性病例的区域。在例A中，AI模型聚焦于卵泡。在例B中，AI模型聚焦于咽侧束。

主要研究结果

在这项研究中，我们使用流感诊断预测模型开发了一种人工智能辅助诊断相机(多媒体附件2)．在训练阶段，我们发现与临床信息AI模型相比，咽部图像对诊断预测AI模型的改进有显著贡献。在验证阶段，诊断预测AI模型的AUROC为0.90 (95% CI 0.87-0.93)，敏感性为76% (95% CI 70%-82%)，特异性为88% (95% CI 85%-91%)。在我们的额外分析中，人工智能辅助相机在预测流感方面比3名医生表现得更好。此外，在重要性热图中，我们发现AI模型通常集中在卵泡上，以区分rt - pcr阳性和rt - pcr阴性结果的患者。

在先前的两项研究中，研究了在有流感样症状的人群中经rt - pcr证实的流感感染相关的临床特征[7,8］．两项研究都得出结论，发烧和咳嗽是流感诊断的最佳预测指标。然而，这两个因素组合的敏感性和特异性并不理想，在一项研究中分别为78%和55% [7]，在另一项研究中分别为64%和67% [8］．在我们的研究中，考虑LightGBM和CatBoost模型中每个变量的特征重要性(图S3和S4)多媒体附件1)、体温和咳嗽在临床信息中排名靠前，而咽部图像的特征重要性甚至大于排名靠前的临床信息。

最近，一些人工智能辅助诊断预测模型被提出用于流感诊断[19-22］．在日本的一项单中心研究中，研究人员报告了一种基于机器学习的感染筛查系统，该系统结合了一种使用生命体征的随机树算法[19］．研究人员报告，在他们的训练数据集中，敏感性为81%至96%，NPV为81%至96%(他们没有报告特异性和PPV);然而，他们并没有在中心之外验证模型的性能。匹兹堡大学医疗中心卫生系统的研究人员报告了用于从急诊科的自由文本报告中检测流感的机器学习分类器[20.,21］．在4家医院的31,268份急诊科报告中，7个机器学习分类器用于流感检测的auroc范围为0.88至0.93 [21]，这比专家建立的贝叶斯模型更好[20.］．这些研究也受到限制，因为匹兹堡大学医疗保健系统之外的表现是未知的。最近，一项韩国研究报告了一种基于深度学习的流感筛查系统，该系统结合了来自移动健康应用程序的流行病学和患者生成的健康数据[22］．然而，这项研究的金标准是应用程序用户报告的流感临床诊断，而不是实验室确认的流感。值得注意的是，之前的研究都没有在其诊断预测模型中包括对咽部图像的评估[19-22］．我们研究的新颖之处在于，我们开发了第一个用于流感的人工智能辅助诊断相机，并通过基于良好临床实践的临床试验过程对其性能进行了前瞻性验证。

我们发现，咽部图像显著提高了诊断预测AI模型的识别和重分类能力。此外，我们还考虑了AI模型使用咽部图像区分真实流感病例和非流感病例的机制。据我们所知，目前还没有既定的方法来定量缩放AI模型所关注的图像区域。事实上，以前大多数关于人工智能辅助诊断相机的研究只显示了使用梯度加权类激活映射或显著性映射突出显示的代表性图像，以推测人工智能分类的可能机制[23-25］．在我们的研究中，我们试图通过计算在rt - pcr阳性和rt - pcr阴性结果的患者中，AI模型对咽的每个部分突出显示图像的患者的比例来量化这些区域。因此，我们发现AI模型主要集中在咽后壁的卵泡上。值得注意的是，这一发现与先前的病例报告和病例系列一致，即咽后壁的滤泡对流感感染具有特异性，有助于流感的诊断[26-29］．体格检查，包括目视检查咽部，一般需要个别医生的经验，而体格检查的技巧在不同医生之间可能有很大差异。我们的研究表明，人工智能可以最大限度地减少这种变化，并可能有助于医生之间的体检技能标准化。此外，在尝试区分疾病时，医生可以使用人工智能系统了解在何处进行视觉检查。

限制

我们的研究有一些局限性。首先，我们从日本的大量诊所和医院招募了具有流感样症状的参与者，以增加我们研究的泛化性。然而，在流感样症状患者向卫生保健提供者寻求医疗护理方面，可能存在国家或文化差异。在日本，由于医疗保险的全民覆盖，与其他国家相比，人们可以相对容易和及时地前往诊所和医院。因此，将我们的发现推广到不同国家的不同临床护理环境需要谨慎和独立的评估。其次，我们对人工智能辅助诊断相机和3名医生之间的比较的附加分析并没有计划在研究方案中(jRCTs032190120和药品和医疗器械管理局临床试验识别代码AI-02-01);然而，这些医生对患者的标识符及其RT-PCR结果一无所知。最后，除了咽部图像外，我们还收集了尽可能多的相关临床变量(在以前的大型研究中建议[7,8])，建立准确的诊断预测AI模型。然而，对于预测真正的流感诊断，可能还有其他有用的变量，但我们在研究中没有收集到这些变量。例如，在一些研究中，研究人员提出，一个地区流感爆发的人口水平趋势有助于预测个别患者的流感感染情况[22］．通过包括其他变量来进一步改进人工智能辅助诊断相机，以及改进人工智能模型来分析咽部图像，是合理的。

结论

总之，我们开发了第一个人工智能辅助流感诊断相机，并前瞻性地验证了其高性能。我们发现AI模型通常集中在滤泡上，这证实了以前的病例报告和系列，表明肉眼检查咽将有助于诊断流感感染。

致谢

作者要感谢所有的研究参与者、研究机构的医务人员和医生，特别是Jun Fukuda博士。他们还要感谢Shuhei Fujimoto和Tetsuro Oda提供的统计学建议，以及Akihiko Miyamoto博士和Shigeyuki Watanabe博士提供的临床建议。作者在日本国家先进工业科学技术研究所的AI桥接云基础设施上训练人工智能模型。作者也要感谢日本东京A2医疗保健公司在临床研究操作、数据收集过程、审计、质量控制和保证方面的协助，以及日本东京Statcom有限公司在验证阶段进行统计分析。相机的开发由Aillis硬件团队的成员领导;人工智能模型的开发由人工智能团队的成员领导;临床研究是由医疗团队领导的。作者还向Aillis的所有成员表示感谢，包括但不限于上述团队，以及他们为这项研究做出的奉献。成员列表如表S4所示多媒体附件1．本研究由日本新能源和工业技术发展组织(资助30STS713)和Aillis公司资助。新能源和工业技术发展组织在研究设计、数据收集、数据分析、数据解释或报告的撰写中没有任何作用。Aillis公司在试验、培训和验证阶段的作用是提供研究设备和测试费用。Aillis公司没有参与临床研究操作、数据收集过程、审计、研究质量控制和保证。Aillis公司的员工设计并实施了这项研究;管理、分析和解释数据;准备、审查和批准研究;参与了提交研究报告的决定。

利益冲突

SO是Aillis Inc的首席执行官，HK是首席战略官，他们持有该公司的股票。MF, MS, WT，池田M和HK是Aillis公司的员工。YT和M Iwagami从公司收取了顾问费用，以监督研究和起草手稿。

‎

多媒体附件1

补充图1-7和表1-3。

DOCX文件，6952 KB

‎

多媒体附件2

使用我们的咽AI摄像系统“nodoca”进行咽检查和人工智能(AI)诊断的概念视频。

MP4文件(MP4视频)，73341 KB

曹杰，孙文杰，李志强，等。1990-2016年195个国家的全球、区域和国家下呼吸道感染发病率、死亡率和病因的估计:2016年全球疾病负担研究的系统分析。Lancet infection Dis 2018 Nov;18(11):1191-1210 [免费全文] [CrossRef] [Medline］
Iuliano AD, Roguski KM, Chang HH, Muscatello DJ, Palekar R, Tempia S，全球季节性流感相关死亡率协作网络。全球季节性流感相关呼吸道死亡率的估计:一项模拟研究柳叶刀2018年3月31日;391(10127):1285-1300 [免费全文] [CrossRef] [Medline］
Harper S, Bradley J, Englund J, File TM, Gravenstein S, Hayden FG，美国传染病学会专家小组。成人和儿童季节性流感——诊断、治疗、化学预防和机构暴发管理:美国传染病学会临床实践指南临床感染杂志2009 Apr 15;48(8):1003-1032 [免费全文] [CrossRef] [Medline］
李文杰，李志强，李志强，等。美国传染病学会临床实践指南:2018年季节性流感诊断、治疗、化学预防和机构暴发管理更新。临床感染疾病2019 Mar 05;68(6):e1-47 [免费全文] [CrossRef] [Medline］
Dunn JJ, Ginocchio CC.点对点:新开发的快速免疫层析抗原检测方法能否可靠地用于流感病毒感染的实验室诊断?中国临床微生物学杂志2015年6月;53(6):1790-1796。［CrossRef］
夏trand C, Leeflang MM, Minion J, Brewer T, Pai M.快速流感诊断测试的准确性:一项荟萃分析。Ann实习医学2012 april 03;156(7):500-511 [免费全文] [CrossRef] [Medline］
Boivin G, Hardy I, Tellier G, Maziade J.使用临床病例定义预测流感感染。临床感染杂志2000年11月15日;31(5):1166-1169。［CrossRef] [Medline］
李志强，李志强，李志强。流感感染的临床体征和症状预测。Arch实习生2000年11月27日;160(21):3243-3247。［CrossRef] [Medline］
Hoerl AE, Kennard RW。岭回归:非正交问题的偏估计。技术计量1970年2月;12(1):55-67。［CrossRef］
胡健，沈亮，孙刚。挤压-激励网络。2018 IEEE/CVF计算机视觉与模式识别会议记录。2018 IEEE/CVF计算机视觉与模式识别会议记录2018年6月18日至23日;美国犹他州盐湖城网址:https://ieeexplore.ieee.org/document/8578843/［CrossRef］
刘志强，张晓明，张晓明，等。ImageNet大规模视觉识别挑战。中国计算机学报，2015年4月11日;［CrossRef］
苏红，马吉，刘志强，刘志强。基于卷积神经网络的三维形状识别方法。见:2015年IEEE计算机视觉国际会议论文集(ICCV)。2015年发表于:2015 IEEE计算机视觉国际会议(ICCV);2015年12月07-13日;圣地亚哥,智利。［CrossRef］
Sandler M, Howard A, Zhu M, Zhmoginov A, Chen LC。MobileNetV2:倒残差和线性瓶颈。2018年IEEE/CVF计算机视觉与模式识别会议论文集，IEEE/CVF计算机视觉与模式识别会议论文集;2018年6月18日至23日;美国犹他州盐湖城网址:https://ieeexplore.ieee.org/document/8578572/［CrossRef］
李志刚，李志刚，李志刚，李志刚。多模态深度学习。第28届机器学习国际会议论文集，2011年发表于:第28届机器学习国际会议论文集;2011年6月28日至7月2日;美国华盛顿贝尔维尤。
郭伟，王静，王松。深度多模态表示学习综述。IEEE Access 2019;7:63373-63394。［CrossRef］
柯刚，孟Q, Finley T，王婷，陈伟，马伟，等。LightGBM:一种高效的梯度增强决策树。第31届神经信息处理系统国际会议论文集。2017年发表于:NIPS'17:第31届神经信息处理系统国际会议论文集;2017年12月4日至9日;美国加州长滩。
Prokhorenkova L, Gusev G, Vorobev A, Dorogush A, Gulin A。在:第32届神经信息处理系统国际会议论文集。2018年发表于:NIPS'18:第32届神经信息处理系统国际会议论文集;2018年12月3日至8日;加拿大蒙特利尔。［CrossRef］
Leening MJ, Vedder MM, Witteman JC, penina MJ, Steyerberg EW。网络重分类改进:计算、解释和争议。安实习医学2014年1月21日;160(2):122-131。［CrossRef］
张志刚，李志刚，张志刚，张志刚，等。一种基于机器学习的新型感染筛查系统，通过2013-2017年季节性流感患者的生命体征作为训练数据集。中华流行病学杂志;2019年5月;78(5):409-421。［CrossRef] [Medline］
叶勇，徐飞，李强，李强。基于自然语言处理和贝叶斯网络分类器的急诊报告流感检测。美国医学信息学会2014年9月01日;21(5):815-823 [免费全文] [CrossRef] [Medline］
López Pineda A, Ye Y, Visweswaran S, Cooper GF, Wagner MM, Tsui F.从急诊部门自由文本报告中检测流感的机器学习分类器的比较。J Biomed Inform 2015年12月;58:60-69 [免费全文] [CrossRef] [Medline］
Choo H, Kim M, Choi J, Shin J, Shin S.结合流行病学和患者生成的健康数据，通过深度学习进行流感筛查:开发和验证研究。J Med Internet Res 2020年10月29日;22(10):e21369 [免费全文] [CrossRef] [Medline］
王志强，李志强，李志强，等。深度学习在胸片上检测急性呼吸窘迫综合征:一项具有外部验证的回顾性研究。柳叶刀数字健康2021年6月;3(6):e340-e348 [免费全文] [CrossRef] [Medline］
Hiremath A, Shiradkar R, Fu P, Mahran A, Rastinehad AR, Tewari A，等。结合深度学习、前列腺成像报告和数据系统(PI-RADS)评分和临床变量在双参数MRI上识别临床显著前列腺癌的综合nomogram研究:一项回顾性多中心研究。Lancet Digit Health 2021七月;3(7):e445-e454。［CrossRef］
林涛，李佳杰，谭勇，张N，于敏，李g，等。基于深度学习的心血管风险分层，使用从视网膜照片预测的冠状动脉钙评分。柳叶刀数字健康2021年5月;3(5):e306-e316。［CrossRef］
友田Y，托谷M，香川S，田中K.流感滤泡。2019年8月1日;58(15):2269 [免费全文] [CrossRef] [Medline］
宫本A，渡边S.流感滤泡及其芽作为流感的早期诊断标志物:典型图像。研究生医学杂志2016年9月27日;92(1091):560-561 [免费全文] [CrossRef] [Medline］
咽后壁的流感滤泡。研究生医学杂志2015年8月04日;91(1078):472。［CrossRef] [Medline］
宫本A，渡边S.咽后壁滤泡作为体检中流感的诊断标志物:考虑其意义和价值。日本大学医学杂志2013;72(1):11-18 [免费全文] [CrossRef］

‎

人工智能:人工智能

AUROC:ROC曲线下面积

MM-CNN:多模态卷积神经网络

MV-CNN:多视图卷积神经网络

净现值:负预测值

PPV:阳性预测值

中华民国:接收机工作特性

rt - pcr:逆转录聚合酶链反应

编辑:T Leung;提交19.04.22;同行评议:S You, G Lim;作者评论02.08.22;修订本收到26.09.22;接受31.10.22;发表23.12.22

©Sho Okiyama, Memori Fukuda, Masashi Sode, Wataru Takahashi, Masahiro Ikeda, Hiroaki Kato, Yusuke Tsugawa, Masao Iwagami。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2022年12月23日。

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

研究人工智能模型诊断流感的使用:开发和验证研究

研究人工智能模型诊断流感的使用:开发和验证研究

原始论文

通讯作者:

摘要

关键字

简介

背景

目标

方法

开发一种医学相机以捕捉标准化咽部图像的试点研究

研究设计和参与者

咽影像、临床资料和鼻咽标本的收集

预测rt - pcr确认流感的AI模型的开发

统计分析

额外的分析

伦理批准

结果

培训阶段

验证阶段

额外的分析

讨论

主要研究结果

限制

结论

致谢

利益冲突

参考文献

缩写