这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
在计算机断层扫描(CT)图像上检测和定量腹腔内游离液(即腹水)是发现紧急或紧急情况的必要过程。在急诊科,腹水的自动检测和定量将是有益的。
我们的目标是开发一种人工智能(AI)算法,用于使用单一深度学习模型(DLM)同时自动检测和量化腹水。
我们开发了基于深度残差U-Net、U-Net、双向U-Net和复发残差U-Net (R2U-Net)算法的二维DLMs,用于在腹腔CT图像上分割腹水区域。基于分割结果,DLMs将CT图像分为腹水图像和非腹水图像,检测腹水。AI算法使用来自160名受试者(80名有腹水,80名没有腹水)的6337张CT图像进行训练,并使用来自40名受试者(20名有腹水,20名没有腹水)的1635张CT图像进行测试。评估了人工智能算法对腹水检测的诊断准确性和腹水区域分割的准确性。在这些DLMs中,我们提出了一种性能最好的AI算法。
深度残差U-Net模型的分割精度最高,平均交叉/联合(mIoU)值为0.87,其次是U-Net、双向U-Net和R2U-Net模型(mIoU值分别为0.80、0.77和0.67)。深层残差U-Net模型的检测精度最高(0.96),其次是U-Net、双向U-Net和R2U-Net模型(分别为0.90、0.88和0.82)。深度残差U-Net模型也具有高敏感性(0.96)和高特异性(0.96)。
我们提出了一种基于深度残差u - net的人工智能算法,用于腹腔CT扫描腹水的自动检测和定量,该算法性能优异。
目前,腹部和骨盆的计算机断层扫描(CT)仍然是因腹痛或创伤而到急诊科就诊的患者的主要方式,特别是在时间紧迫的情况下[
在腹腔CT图像上,一些表现表明紧急或紧急情况,包括腹水(即腹腔内游离液体)、游离气体、脓肿和脂肪滞留[
只有一项研究开发了一种检测腹水的DLM,但DLM没有量化液体的量。该研究使用卷积神经网络(CNN)分类算法区分有流体的CT图像和没有流体的CT图像,其灵敏度达到85%,特异性达到95% [
最近,一些最先进的用于CT图像分割的DLM算法被提出,包括U-Net [
其中,我们假设深度残差U-Net可能是分割的最佳算法,因为它结合了残差学习和U-Net的优点。残差网络有几个优点[
本研究得到亚洲大学医院机构评审委员会的批准。知情同意被放弃。从2020年1月1日至3月1日,共有1055名患者前往急诊室并进行了腹腔CT扫描。其中205例患者在CT图像上发现腹水。排除5例仅行CT平扫的患者后,我们将200例患者纳入腹水组。在其余850例无腹水的患者中,我们选择了200例年龄和性别匹配的对照组,使用R软件(4.0.2版本;R基金会)。从腹水组和对照组的患者中,我们随机选择了100名腹水患者和100名无腹水患者进行AI模型的训练和测试。
总结对照组和腹水组患者的临床特点
对照组和腹水组参与者的人口统计学和临床资料。
变量 | 对照组(n=200) | 腹水组(n=200) | ||
|
||||
|
|
|||
|
|
女 | 92 (46.0) | 101 (50.5) |
|
|
男性 | 108 (54.0) | 99 (49.5) |
|
年龄(年),平均值(SD) | 59.7 (13.8) | 60.2 (15.3) | |
|
||||
|
大 | 0 (0) | 92 (46.0) | |
|
温和的 | 0 (0) | 47 (23.5) | |
|
小 | 0 (0) | 61 (30.5) | |
|
||||
|
癌症 | 14 (7.0) | 42 (21.0) | |
|
充血性心力衰竭 | 0 (0) | 3 (1.5) | |
|
肝硬化 | 1 (0.5) | 51 (25.5) | |
|
急性肝衰竭 | 0 (0) | 3 (1.5) | |
|
感染 | 7 (3.5) | 28日(14.0) | |
|
腹部钝伤 | 5 (2.5) | 37 (18.5) | |
|
术后状态 | 32 (16.0) | 5 (2.5) | |
|
肠梗阻 | 1 (0.5) | 10 (5.0) | |
|
肾功能衰竭 | 0 (0) | 10 (5.0) | |
|
腹痛原因不明 | 140 (70.0) | 11 (5.5) |
所有患者均使用多通道多探测器扫描仪(Somatom Definition Edge或Somatom Definition AS, Siemens Healthineers)进行腹腔CT扫描。通过静脉注射100 - 150ml非离子造影剂(Iopamiro 300, Bracco Imaging;Omnipaque 300, GE Healthcare),速率为2.5至3 mL/s。扫描参数如下:光束准直,0.75 mm;切片厚度,5mm;有效管电流-时间充电,200 ~ 260 mAs;电压,100至120千伏安。在本研究中,我们只使用对比增强CT图像。如果有多相CT图像,我们选择门静脉期CT图像进行AI训练和验证。
腹部放射科专家(JH,有13年经验)从腹水组(100例患者2461张图像)中选择了显示腹水的CT切片。然后,放射科医生从对照组(100名患者的5511张图像)中选择相应的CT切片。放射科医生使用ImageJ软件(version 1.53j;美国国立卫生研究院(National Institutes of Health)),这些都是基本事实的标签。
然后将训练数据集进一步分离,用于训练模型(训练集的80%)和进行内部验证(训练集的20%)。为了平衡两组图像并减少对训练数据的过拟合,我们采用了图像增强。我们随机绘制训练图像,并将其应用于-10到10度之间的角度旋转和垂直和水平翻转的随机组合。最后,总共增强了48,874张CT图像:24,437张来自腹水患者,24,437张来自健康受试者。
训练和测试数据集的摘要。
集团 | 训练数据,n (%) | 测试数据,n (%) | 总计,n (%) | |||||
|
主题(n = 160) | 图像(n = 6337) | 主题(n = 40) | 图像(n = 1635) | 主题(n = 200) | 图像(n = 7972) | ||
腹水 | 80 (50.0) | 1969 (31.1) | 20 (50.0) | 492 (30.1) | 100 (50.0) | 2461 (30.9) | ||
控制 | 80 (50.0) | 4368 (68.9) | 20 (50.0) | 1143 (69.9) | 100 (50.0) | 5511 (69.1) |
对于训练和测试数据集中的所有图像,我们首先根据医学数字成像和通信(DICOM)标准设置腹部窗口,即窗口宽度为400 Hounsfield Unit (HU),窗口水平为60 HU。随后,我们将DICOM图像和掩码图像从512 × 512像素的图像向下采样到256 × 256像素,并将像素值归一化到0到1之间。
提出了一种基于单张腹部CT图像的腹水区域分割模型,该模型采用深度残差U-Net算法。
在本研究中,我们使用残差学习方法来促进深度神经网络的训练,并利用腹部CT图像中腹水分割性能的提高。每个残差块由两条路径组成。一条路径是经过批处理归一化、激活和卷积层的前向传递,这些层重复两次。另一条路径是跳过连接。两个路径的输出被添加为单个输出。在编码器部分(即残差块1-4),残差块的输出被馈送到后续残差块和解码器部分的残差块之一(即残差块6-9)。因此,在解码器部分,剩余块有两个输入:一个来自编码器,另一个来自之前的剩余块输出。在桥接部分,另一个残差块(即残差块5)连接编码部分和解码部分。在这项研究中,我们发现每个编码器和解码器部分的四个残差块在腹水分割中提供了最好的性能。我们将在结果部分描述我们的数值结果和比较。 For all residual blocks, we used the rectified linear unit activation function.
将残差块5中大小为16 × 16 × 512像素的激活图馈送到残差块6中,在残差块6中输入先上采样到32 × 32 × 512像素。在残差块6中,我们使用了两个具有256个3 × 3像素内核的卷积层,步幅为1,填充为零。将残差块6中大小为32 × 32 × 256像素的激活图输入残差块7中,并与残差块3的输出进行拼接。当两个输入连接起来时,残差块6的输出被上采样以匹配大小。在残差块7中,我们使用了两个具有128个3 × 3像素内核的卷积层,步幅为1,填充为零。将残差块7中大小为64 × 64 × 128像素的激活图输入残差块8中,向上采样并与残差块2的输出进行拼接。在残差块8中,我们使用了两个具有64个3 × 3像素内核的卷积层,步幅为1,填充为零。将残差块8中大小为128 × 128 × 64像素的激活图输入残差块9中,向上采样并与残差块1的输出进行拼接。在残差块9中,我们使用了两个具有32个3 × 3像素内核的卷积层,步幅为1,填充为零。
然后将大小为256 × 256 × 32像素的激活映射以单个1 × 1像素内核和步幅为1输入卷积层。生成的大小为256 × 256 × 1像素的激活图最终被送入sigmoid层,该层提供了腹水存在或不存在的像素概率。
我们提出的基于单个腹部计算机断层扫描(CT)图像的腹水区域分割模型的架构。ReLU:整流线性单元。
根据每一层和单位层的卷积层的超参数。
模型部件、单元级别和层 | 内核 | 的进步, | 输出大小,像素 | |||||||
|
滤镜大小,像素 | 过滤器、n |
|
|
||||||
|
||||||||||
|
N/A一个 | N/A | N/A | N/A | 256 × 256 × 3 | |||||
|
||||||||||
|
|
|||||||||
|
|
卷积层1 | 3 × 3 | 32 | 1 | 256 × 256 × 32 | ||||
|
|
卷积层2 | 3 × 3 | 32 | 1 | 256 × 256 × 32 | ||||
|
|
|||||||||
|
|
卷积层3 | 3 × 3 | 64 | 2 | 128 × 128 × 64 | ||||
|
|
卷积层4 | 3 × 3 | 64 | 1 | 128 × 128 × 64 | ||||
|
|
|||||||||
|
|
卷积层5 | 3 × 3 | 128 | 2 | 64 × 64 × 128 | ||||
|
|
卷积层6 | 3 × 3 | 128 | 1 | 64 × 64 × 128 | ||||
|
|
|||||||||
|
|
卷积层7 | 3 × 3 | 256 | 2 | 32 × 32 × 256 | ||||
|
|
卷积层8 | 3 × 3 | 256 | 1 | 32 × 32 × 256 | ||||
|
||||||||||
|
|
|||||||||
|
|
卷积层9 | 3 × 3 | 512 | 2 | 16 × 16 × 512 | ||||
|
|
卷积层10 | 3 × 3 | 512 | 1 | 16 × 16 × 512 | ||||
|
||||||||||
|
|
|||||||||
|
|
卷积层11 | 3 × 3 | 256 | 1 | 32 × 32 × 256 | ||||
|
|
卷积层12 | 3 × 3 | 256 | 1 | 32 × 32 × 256 | ||||
|
|
|||||||||
|
|
卷积层13 | 3 × 3 | 128 | 1 | 64 × 64 × 128 | ||||
|
|
卷积层14 | 3 × 3 | 128 | 1 | 64 × 64 × 128 | ||||
|
|
|||||||||
|
|
卷积层15 | 3 × 3 | 64 | 1 | 128 × 128 × 64 | ||||
|
|
卷积层16 | 3 × 3 | 64 | 1 | 128 × 128 × 64 | ||||
|
|
|||||||||
|
|
卷积层17 | 3 × 3 | 32 | 1 | 256 × 256 × 32 | ||||
|
|
卷积层18 | 3 × 3 | 32 | 1 | 256 × 256 × 32 | ||||
|
||||||||||
|
|
|||||||||
|
|
卷积层19 | 1 × 1 | 1 | 1 | 256 × 256 × 1 | ||||
|
|
|||||||||
|
|
乙状结肠层 | N/A | N/A | N/A | 256 × 256 × 1 |
一个N/A:不适用;此模型部件不包含此参数。
我们使用TensorFlow包(版本1.14.0)实现了我们提出的模型,该包提供了一个Python(版本3.6.8;Python软件基金会)应用程序编程接口的张量操作。我们还使用Keras(版本2.2.4)作为TensorFlow的官方前端。我们使用Adam优化器训练模型,学习率为0.0001,批大小为16,损失函数为二进制交叉熵和骰子损失[
性能评价采用5倍交叉验证,验证其泛化能力。对增强训练数据集(n=48,874)进行随机洗牌,分层分为5个相等的组。随后,选择四组进行模型训练,其余组用于验证。通过移动内部验证组,这个过程重复了五次。然后,根据每个历元对五个内部验证组的平均验证成本求平均值,找出验证成本最低的最优历元。只有在使用训练和验证数据集对模型进行完全训练后,才对测试数据集进行评估。
我们首先研究了剩余块数的影响。为了进行比较,我们对2到5个残留块重复了5次交叉验证的相同程序。为了进一步的性能比较,我们将我们提出的方法与U-Net [
对于分割评估,我们量化了平均交集除以联合(mIoU),它被定义为交集的大小除以联合的大小。特别是对于非腹水图像,没有像素被分割,因为我们将值量化为零。如果非腹水图像没有分割结果,我们将其值量化1。
除了分割性能,我们还评估了检测性能。如果mIoU值等于或大于某个阈值,则通过腹水图像进行声明。对于检测性能,我们绘制了受试者工作特征(ROC)曲线,并计算了ROC曲线下的面积(AUROC)。随后,我们还评估了敏感性、特异性、准确性、平衡准确性、精密度和F1评分。更具体地说,我们计算了真阳性(TPs)、假阳性(FPs)、真阴性(TNs)和假阴性(FNs),并计算了以下指标:
其中TP是正确归类为腹水的腹水数据量,TN是正确归类为正常的非腹水数据量,FP是错误归类为腹水的非腹水数据量,FN是错误归类为正常的腹水数据量。两位腹部放射科医生(JH和KWK)也通过系统回顾所有原始CT图像和测试数据集的AI结果,评估了影响腹水检测和分割性能的因素。
训练数据集的交叉验证结果,比较mIoU的分割性能和AUROC的跨模型检测。
模型 | mIoU一个(SD) | AUROCb(SD) |
深残U-Net(两块残块) | 0.86 (0.03) | 0.97 (0.02) |
深残U-Net(3个残块) | 0.86 (0.02) | 0.98 (0.01) |
深残U-Net(4个残块) | 0.87 (0.02) | 0.99 (0.01) |
深残U-Net(5个残块) | 0.69 (0.46) | 0.69 (0.01) |
U-Net [ |
0.84 (0.02) | 0.96 (0.01) |
双向U-Net [ |
0.82 (0.01) | 0.91 (0.01) |
经常性剩余U-Net [ |
0.74 (0.02) | 0.90 (0.01) |
一个mIoU: mean intersection over union;这是分割性能的一个指标。
bAUROC:受试者工作特征曲线下面积;这是检测精度的一个指标。
我们还研究了每个残差块中卷积层数的影响。
每个残差块中卷积层数对与训练数据集交叉验证结果的影响。
模型 | mIoU一个(SD) | AUROCb(SD) |
深度残差U-Net,每个残差块有两个卷积层 | 0.87 (0.02) | 0.99 (0.01) |
深度残差U-Net,每个残差块有三个卷积层 | 0.83 (0.03) | 0.98 (0.02) |
深度残差U-Net,每个残差块有四个卷积层 | 0.69 (0.02) | 0.69 (0.01) |
一个mIoU: mean intersection over union;这是分割性能的一个指标。
bAUROC:受试者工作特征曲线下面积;这是检测精度的一个指标。
利用每个残差块中的两个卷积层,我们还对分割和检测性能进行了评估和比较。为了进行性能比较,我们将剩余块的数量从2个更改为5个,并使用测试数据集测试每个模型。此外,我们还使用U-Net、双向U-Net和R2U-Net进行了测试。
中给出了腹水分割的代表性图像
每个残差块中卷积层数对具有四个残差块的深度残差U-Net模型测试数据集结果的影响。
模型 | mIoU一个(SD) | AUROCb |
深度残差U-Net,每个残差块有两个卷积层 | 0.87 (0.26) | 0.96 |
深度残差U-Net,每个残差块有三个卷积层 | 0.84 (0.27) | 0.94 |
深度残差U-Net,每个残差块有四个卷积层 | 0.74 (0.31) | 0.72 |
一个mIoU: mean intersection over union;这是分割性能的一个指标。
bAUROC:受试者工作特征曲线下面积;这是检测精度的一个指标。
基于测试数据集的人工智能模型的分割性能和检测精度。
模型 | mIoU一个(SD) | AUROCb |
深残U-Net(两块残块) | 0.81 (0.33) | 0.87 |
深残U-Net(3个残块) | 0.86 (0.28) | 0.93 |
深残U-Net(4个残块) | 0.87 (0.26) | 0.96 |
深残U-Net(5个残块) | 0.70 (0.46) | 0.70 |
U-Net [ |
0.80 (0.33) | 0.90 |
双向U-Net [ |
0.77 (0.35) | 0.86 |
经常性剩余U-Net [ |
0.67 (0.41) | 0.81 |
一个mIoU: mean intersection over union;这是分割性能的一个指标。
bAUROC:受试者工作特征曲线下面积;这是检测精度的一个指标。
使用每种模型的腹水分割结果的五个例子。A.原始计算机断层扫描(CT)图像和地面真相掩蔽图像。B.我们提出的模型。C. U-Net模型。D.双向U-Net模型。E.循环剩余U-Net模型。每一行代表一个不同的CT图像示例。蓝色代表真实的掩蔽图像,红色代表分割后的图像。
基于测试数据集的人工智能模型检测性能指标。
模型 | 灵敏度 | 特异性 | 精度 | 平衡精度 | 精度 | F1的分数 |
U-Net [ |
0.92 | 0.90 | 0.90 | 0.91 | 0.79 | 0.85 |
双向U-Net [ |
0.94 | 0.86 | 0.88 | 0.90 | 0.74 | 0.83 |
经常性剩余U-Net [ |
0.85 | 0.81 | 0.82 | 0.83 | 0.66 | 0.74 |
深度剩余u型网 |
0.96 | 0.96 | 0.96 | 0.96 | 0.91 | 0.93 |
通过两位放射科医生(JH和KWK)对检测数据集中所有图像的专家评审,有两类假阳性图像。人工智能算法无法区分大卵巢囊肿(直径>3厘米)和腹水(
假阴性均为少量腹水。两名放射科医生认为所有假阴性结果临床意义不显著。
不正确的分割结果示例。左边一列是原始的CT图像,中间一列是ground-truth masking图像,右边一列是我们的deep residual U-Net算法分割的结果。答:在一名患有左侧卵巢囊肿的患者中,我们的人工智能(AI)算法检测到卵巢囊肿内的液体为腹水。B.在膀胱完全膨胀的患者中,我们的AI算法检测到膀胱中的液体为腹水。红色表示分割后的图像。
在本研究中,我们首次开发了一种用于CT图像上腹水分割的深度残差U-Net模型,与目前最先进的U-Net、双向U-Net和R2U-Net网络相比,该模型具有更高的精度。我们的研究结果表明,我们的AI算法能够检测和量化腹水在腹腔盆腔。我们提出的算法是深度残差U-Net模型,该模型对测试数据集腹水检测的灵敏度、特异性和准确性分别达到96%、96%。在将AI分割结果与ground-truth值进行比较时,分割性能也很高,mIoU为0.87。然而,真实值是由人类专家生成的,人为错误可能影响了腹水边界的绘制。因此,我们认为AI分割算法可能更准确地绘制腹水的边界区域。
深度残差U-Net模型优于目前最先进的U-Net、双向U-Net和R2U-Net算法。深度剩余U-Net模型结合了剩余学习和U-Net架构的优势[
总的来说,U-Net的概念是将低级特征拼接成相应的高级特征,从而将低级纹理特征添加到高级语义特征中。因此,深层U-Net可以提供更好的分割结果。然而,网络层数的过度增加往往会降低分割精度。这个问题可以通过在U-Net上增加一个残差单元来解决,它可以利用残差网络的优点[
比较每个U-Net模型的参数数量。
模型 | 可训练参数,n | 不可训练参数,n | 总参数,n |
我们提出的模型 | 18840545年 | 14592年 | 18855137年 |
U-Net [ |
34600353年 | 14016年 | 34614369年 |
双向U-Net [ |
55398798年 | 1408 | 55400197年 |
经常性剩余u型网[ |
24133013年 | 0 | 24133013年 |
到目前为止,只有一项研究开发了一种人工智能算法来检测腹水[
在大多数紧急和紧急情况下,临床医生应在CT扫描获得后立即在没有放射支持的情况下阅读CT扫描。获得一份放射学报告通常需要时间,而且在许多机构中,放射学支持可能不是24小时全天候的。[
有假阳性病例,其中我们的AI算法将器官内的液体(如膀胱和卵巢囊肿)识别为腹水(
我们采用2D AI算法进行连续2D图像分析,而不是3D框架,因为3D深度学习需要比2D深度学习更高的计算能力[
我们的研究有几个局限性。首先,我们使用相对少量的CT数据训练我们的模型。因此,我们将建立一个可持续的人工智能培训系统,并使用从我们的急诊科获得的真实CT数据来训练我们的人工智能算法。其次,我们的AI模型在内部使用分割测试数据集进行验证。测试数据集与训练数据集的来源相同。这可能会引起我们模型的泛化性和过拟合问题[
我们提出了深度残差U-Net算法,用于腹腔CT扫描腹水的自动检测和定量。我们的模型优于其他基于U-Net、双向U-Net和R2U-Net的最先进的分割算法。
人工智能
接收机工作特性曲线下面积
卷积神经网络
计算机断层扫描
医学数字成像与通信“,
深度学习模型
假阴性
假阳性
Hounsfield单位
均值交除以并集
循环剩余u型网
接收机工作特性
真正的负
真阳性
这项工作得到了韩国国家研究基金会(赠款2019R1I1A1A01060744)、韩国健康产业发展研究院(赠款HI18C1216)和韩国医疗器械发展基金的支持,该基金由韩国政府资助(科学和信息通信技术部;产业通商资源部;卫生和福利部;食品药品安全部)(授予KMDF_PR_20200901_0095)。
HK和HC对超参数搜索和建模进行了机器学习和深度学习仿真。JH, JKK和JL提供数据并进行数据验证,应用于腹水分割。KWK和YK验证并确认了模拟结果,并帮助起草了手稿。HK, JH和JL撰写了最初的手稿。JL, JH和KWK构思了这项研究,并参与了其设计和协调。所有作者都阅读并批准了最终的手稿。
没有宣布。