发表在5卷第四名(2022): Oct-Dec

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/39113,首次出版
黑色素瘤检测中的问题:通过人类和人工智能相结合的半监督深度学习算法开发

黑色素瘤检测中的问题:通过人类和人工智能相结合的半监督深度学习算法开发

黑色素瘤检测中的问题:通过人类和人工智能相结合的半监督深度学习算法开发

原始论文

1德克萨斯大学休斯顿健康科学中心生物医学信息学学院,美国德克萨斯州休斯顿

2麦戈文医学院,位于美国德克萨斯州休斯顿的德克萨斯大学健康科学中心

通讯作者:

崔涛博士

生物医学信息学学院

德克萨斯大学休斯顿健康科学中心

范宁大街7000号

600套房

休斯顿,德克萨斯州,77030

美国

电话:1 7135003981

电子邮件:cui.tao@uth.tmc.edu


背景:皮肤病变自动识别已被证明可以有效地增加获得可靠的皮肤病学评估的机会;然而,大多数现有算法仅仅依赖于图像。许多诊断规则,包括3点检查表,是人工智能算法不考虑的,人工智能算法包含人类知识,反映人类专家的诊断过程。

摘要目的:在本文中,我们的目标是开发一个半监督模型,不仅可以集成皮肤镜特征和来自3点检查表的评分规则,而且可以自动化特征注释过程。

方法:我们首先在一个带有疾病和皮肤镜特征标签的小型注释数据集上训练半监督模型,并尝试通过使用排名损失函数集成3点检查表来提高分类精度。然后,我们使用一个只有疾病标签的大型未标记数据集,从训练过的算法中学习,自动对皮肤病变和特征进行分类。

结果:在我们的模型中添加3点检查表后,在5倍交叉验证下,其黑色素瘤分类性能从平均0.8867 (SD 0.0191)提高到0.8943 (SD 0.0115)。经过训练的半监督模型可以自动从3点检查表中检测3个皮肤镜特征,最佳性能为0.80(曲线下面积[AUC] 0.8380)、0.89 (AUC 0.9036)和0.76 (AUC 0.8444),在某些情况下优于人工标注器。

结论:我们提出的半监督学习框架可以帮助皮肤疾病的自动诊断,基于其检测皮肤镜特征的能力和自动化标签注释过程。该框架还可以帮助将语义知识与计算机算法结合起来,以获得更准确、更可解释的诊断结果,从而可以应用于更广泛的用例。

JMIR Dermatol 2022;5(4):e39113

doi: 10.2196/39113

关键字



皮肤癌是世界范围内最常见的癌症之一,黑色素瘤和非黑色素瘤癌症的发病率稳步上升[1].皮肤癌的早期发现是一个重要的预后因素,可以提高患者的生存和整体结果[2].然而,可靠的皮肤癌筛查并不是所有患者都能轻易获得的。例如,生活在没有当地皮肤科诊所的农村地区或面临参加办公室评估障碍的个人可能没有机会在早期发现皮肤癌。为了解决这一问题,远程皮肤病学的使用越来越受欢迎,特别是在COVID-19大流行期间,这大大降低了面对面的皮肤病学评估[3.4].最近,远程皮肤病学已被证明可以增加获得可靠的皮肤病学评估的机会,并最大限度地减少皮肤癌管理的延误[3.5].远程皮肤病学的一个有用子集是远程皮肤镜,即使用皮肤镜或带有皮肤镜附件的智能手机拍摄皮肤病变的数字图像。6].研究发现,在远程皮肤科会诊中使用皮肤镜图像可提高诊断的敏感性和特异性[3.7].通过这种方式,远程皮肤镜提供了一个有前途的工具,以增加患者获得可靠的皮肤癌筛查,从而早期发现皮肤癌。

通过卷积神经网络(CNNs)对皮肤镜图像进行自动分类,已成为现场专家在检测皮肤癌时视觉皮肤检查的可靠补充[8-11].cnn有可能将可靠的皮肤癌识别扩展到缺乏特殊皮肤病学培训的临床医生,包括执业护士、医师助理和初级保健医生。此外,使用cnn可以通过远程医疗对皮肤病变进行评估。智能手机摄像头拍摄的图像并通过类似算法分析,已被证明在识别黑素瘤方面达到了与委员会认证专家相似的准确性[12].与经验不足的临床医生相比,一些CNN模型在诊断早期黑色素瘤时甚至表现出更高的敏感性和特异性[1314].

然而,人工智能(AI)算法也有一些弱点。一个缺点是关于计算机如何得到输出的可解释性和透明度,这使得皮肤科医生很难相信诊断结果[15-17].另一个原因是,目前的算法,如用于分类和分类可疑皮肤病变的深度cnn,并不能提供用于得出给定结果的推理[18].这通常是由于算法的复杂性,并由于患者和医生对诊断缺乏信任而阻碍了它们的实用性[19].

人工智能算法的另一个局限性是,大多数算法仅依赖图像作为输入,而在临床环境中,可以通过触摸病变以及年龄和家族史等临床数据获得更多信息[20.].皮肤科医生还依据诊断规则做出决策,如ABCD规则、模式分析、7点检查表和3点检查表,这些检查表已被开发出来,用于规范黑色素瘤的皮镜评估,在皮肤病变诊断中发挥关键作用[8921-23].

最近的研究集中在尝试将语义知识与算法结合起来,以得出更准确的诊断[20.24-26].一些研究表明,使用多种输入来源得出的诊断比单独使用一种方法得出的诊断更准确[27-29].一项研究表明,当非皮肤科医生将他们对年龄、性别和病变定位的知识与深度学习框架结合起来时,他们能够提高对色素病变分类的准确性[24].早期的研究将年龄、身体部位、发育不良痣比例、痣数量、黑素瘤家族史等因素添加到计算机图像分析程序中,发现临床数据的添加显著提高了区分皮肤良恶性病变的能力[30.].另一项研究发现,在添加病变大小和隆起、年龄、性别和位置等因素后,基底细胞癌的检出率有所提高[31].河原等[32]进行了类似的工作,提出了一个多任务深度CNN训练多模态数据,以分类7点黑色素瘤检查清单标准并进行皮肤病变诊断。尽管他们使用损失块集成了7点清单中的每个特征,但他们的研究并没有将知识与CNN架构集成。这些研究的一个主要限制是缺乏与诊断相关的高质量数据,例如,皮肤科医生用于诊断皮肤病变的皮肤镜特征。在这项研究中,我们通过开发一种半监督式深度学习框架来解决这些局限性,该框架将从一个小的、有注释的数据集中学习到的结果应用到一个更大的无标记数据集中,以及通过模仿我们的CNN结构中的人类诊断过程。

在本实验中,我们选择了黑素瘤和黑素细胞痣的三点检查表作为诊断规则和疾病分类的说明。3点检查表易于解释,对于非专业临床医生诊断黑素瘤非常敏感[33].众所周知,黑色素瘤是最具侵略性的皮肤恶性肿瘤,约占所有皮肤癌死亡的75% [24].在肉眼检查时,它通常与黑素细胞痣的形态相同,而皮肤科专家在诊断黑素瘤时,这项技术的准确率只有60% [34].在这方面,国际皮肤成像合作组织(ISIC)每年都会组织数据挑战,主要关注在区分黑色素瘤与其他恶性和良性病变时的诊断准确性[35].已经进行了许多关于使用三点检查表来帮助分类黑素瘤的研究[333637].在这些研究中,具有不同经验的参与者能够仅使用3点检查清单标准对已证实的非黑色素瘤和已证实的黑色素瘤病变进行评分。然而,这种方法的一个缺点是检查清单往往会遗漏较薄的黑色素瘤[37].没有一项与三点检查表相关的研究试图将视觉检查与cnn提取的成像特征结合起来进行诊断。与之前的ISIC数据挑战相比,这也是我们最先进的方法的主要不同之处。

将诊断规则与3点检查表分类算法相结合,可以提高患者获得护理的机会和诊断的准确性。所提出的算法有几个潜在的应用场景,包括:(1)它们可以自动分类皮肤病图像,并通过列出用于分类可疑病变的标准来生成特征标签,以提高对远距皮肤镜的信任和接受度;(2)帮助医学生学习和识别皮肤镜图像的特征;通过算法对3点检查表中的每个标准进行详细评估,学生可以使用检查表了解用于区分病变为良性痣或黑色素瘤的基本参数;(3)实现特征标注过程的自动化;因此,更少的人工注释人员需要参与,从而实现对大量成像数据资源(如ISIC存档)的二次使用。


数据集

所有来自已标记和未标记数据集的图像都来自ISIC存档。这里的“标签”表示3点检查表特征标签,这意味着“标记”和“未标记”数据集都包含疾病类型信息。对于小的标记数据集,我们从ISIC 2019中选择了均匀分布的黑色素瘤和黑素细胞痣皮肤镜图像进行注释,使用3点检查表特征。未标记的大型数据集主要来自ISIC 2020,其中包含584张黑色素瘤和5193张黑色素细胞痣皮肤镜图像。为了平衡数据集,我们添加了来自ISIC 2019的4062张黑色素瘤图像,不包括小的标记数据集中的图像。我们将每个数据集以80/20的比例分为训练集和验证集,并使用5倍交叉验证,这意味着数据集平均分为5个子集,并旋转以成为训练或验证数据集。我们注释了另外400张图像作为坚持测试集。

3点检查表易于解释,对黑素瘤和黑素细胞痣的诊断高度敏感。我们的算法基于3点检查表评估色素病变的皮肤镜图像,表明存在或不存在(1)不对称,(2)不典型色素网络,(3)蓝白色结构。如果从皮肤病变图像中检测到这些特征中的任何一个,将在该图像的评分基础上加1分。每张图像的评分范围是0到3。这些3点自动分类输出可以帮助提供者决定对病变进行活检或转介专家进行更彻底的评估。表1提出了黑素瘤和黑素细胞痣的皮肤疾病类别的图像数量。

表1。已标记和未标记数据集的皮肤病类别的图像数量。
疾病 未标记数据集 标记数据集
黑素瘤 4646 450
Melanocytic痣 5193 450
总计 9839 900

3点清单的注释

3点检查表有3个特点:非典型网状、不对称、蓝白色结构。对于检测到的每个特征,将为该图像添加1分。得分越高(通常高于2分),患黑色素瘤的风险就越高。如果评分低于1,根据3点检查表,病变更有可能是良性的。我们的实验是基于一个黄金标准开发的,每个图像都由至少2个注释人员严格审查。如果达成共识,则对诊断结果进行注释。如果不是,第三个注释器将再次评估图像。我们将注释分为两个步骤。首先,3名注释人员进行了培训,以制定共识注释指南。我们为注释人员提供了一个由领域专家注释的小图像集,以进行注释和评估。 During this phase, the annotators are allowed to discuss their different understandings. After interrater agreement reached at least 70%, we moved to the second step, in which they annotated images independently. We divided the whole image data set into 3 subsets, and each annotator was assigned 2 subsets so that every image had at least 2 annotation results. Our final interrater agreement Kappa-Cohen score for the second step was 0.64, which indicated substantial agreement. If any images had different annotation results, we brought in the third annotator, who was not previously assigned to the image, and took a majority vote. Overall, this is a very time-consuming process.

图像预处理

裁剪和调整大小

由于训练数据集来自3个数据源,每个数据源的图像分辨率不同。可能有一个病变占据了整个图像,也可能只是图像的一个角落。因此,我们开发了一个规则来裁剪和调整所有的训练图像,这提高了我们的模型的性能。

颜色恒常性

由于不同的成像来源和照明,皮肤镜图像的颜色变化很大。因此,在预处理阶段对图像的颜色进行校准,以减少深度神经网络可能产生的偏差是很重要的。卡塔琳娜等[38]比较了4种颜色恒定算法(Gray World, max-RGB, Shades of Gray和General Gray World),以校准黑色素瘤分类系统皮肤镜图像的颜色。这些算法通过提高灵敏度和特异性来提高系统性能,灰色阴影取得了比其他颜色恒定算法更好的结果。因此,在这个项目中,我们选择Shades of Gray作为颜色恒定算法,在训练阶段之前校准皮肤镜图像的颜色。校准程序包括2个步骤。首先,估计光源在RGB颜色空间中的颜色。然后,利用估计的光源对图像进行变换。

对比限制自适应直方图均衡化

使用对比度限制自适应直方图均衡化来提高图像对比度。与直方图均衡化不同,它计算图像的几个不同部分,并使用它们重新分配图像的亮度值。它有助于提高局部对比度,增强图像中物体的边缘。

模型架构

我们提出了一种半监督学习框架,用于预测皮肤病,该框架使用一小组标记图像和一组较大的未标记图像。标记数据集包含900张带有疾病标签和3点检查表注释的图像,而未标记的数据集包含9839张只有疾病标签的图像。文中给出了所提出的分类模型的结构图1主要包含三个部分。输入组件包括有标签和无标签图像的预处理。输入组件的输出被分成2个分支。一个分支是使用ResNet的监督学习组件,其中每个图像的表示都与3点标签和分类标签以及与标签相关的排名损失[39]和分类损失。另一个是半监督学习组件,使用ResNet分支的指数移动平均(EMA)模型的输出优化一致性损失[40].最后,将这三种类型的损失进行组合,并使用系数来平衡它们的权重。在本节中,我们将详细描述这3个组件。

图1。所提出的半监督学习框架的架构。均线:指数移动平均;ResNet:残余神经网络。
查看此图
监督学习+排名损失

监督学习由2个任务组成,在训练过程中共同学习。一项任务是对皮肤病进行分类,另一项任务是对3点检查表中的每个特征进行分类。使用3点检查表,每个特征在训练阶段被给予0或1的二进制分数,表明它是否存在于图像中。总分高于2分提示病变更有可能是恶性的。我们结合传统的交叉熵损失对皮肤病分类部分进行优化,用排序损失表示3点检查表知识。我们训练模型的超参数如下:批量大小为128、随机梯度下降优化器和ReduceLROnPlateau学习率衰减(模式=“min”,因子=0.5,阈值=0.01,耐心=7,verbose=True)。

Semisupervised学习

图像标注不仅需要大量的时间投入,还需要人工标注人员的专业知识。受到Tarvainen和Valpola研究的启发[40],我们基于他们的“mean teacher”框架开发了一种半监督方案,以自动化皮肤病变图像的特征注释过程。该模型可以使用来自小尺度标记图像的信息,并在较大的未标记图像数据集上进行皮肤特征和疾病预测。在此基础上,我们开发并集成了疾病或特定特征的损失函数,将来自人类专业知识的知识结合到模型中。预测特征可以在训练阶段同时使用,提高疾病分类的准确率。监督损失与每个图像的疾病标签相关,用交叉熵函数表示。在半监督学习部分,采用均值-教师策略,最小化有标记和无标记数据集之间的一致性损失,并平均有监督学习和无监督学习的模型权重。

理论与计算

监督学习+排名损失

使用排名损失,我们强制模型学习一个预定义的诊断规则-得分较高的样本更有可能患有黑色素瘤。排序损失是从批次中的每对样本中计算的。我们表示oij≡f (x) - f (xj,在那里flogit是否与疾病等级,后验相对应Pij,以及期望的目标值

那么,交叉熵损失函数可以表示为

我们计算Pijoij使用如下的sigmoid函数;损失函数可以进一步改写为:

Semisupervised学习

EMA模型在未标记的情况下表现为教师模型。这种方法约束模型在更新期间的行为与过去的模型相似,因此它可以潜在地找到更平坦的局部最小值,并避免奇点,在那里一个小的更新会导致模型中的大行为变化。mean-teacher策略在之前的工作中被证明是有效的,一致性成本定义如下,其中根据EMA参数更新:

最后,将排序损失、疾病监督损失、特征监督损失(FSL)和一致性损失相加,对模型进行训练。


我们的模型是基于最先进的ResNet模型构建的。我们尝试了ResNet-18、ResNet-50、ResNet-152和Resnext50_32x4d,在分类精度上没有显著差异。为了方便训练过程,我们使用了一个相对较轻的架构ResNet-18作为我们的基线。

第一个任务是测试模型在加入人类知识后是否会提高分类精度,并将其转换为Ranking Loss格式表示。针对图像识别任务,已经开发了许多最先进的CNN模型架构,其中一些模型在ISIC数据集上的皮肤病变识别任务中取得了很好的效果。张一鸣等人在2021年发表的一篇论文中[41],他们报告说DenseNet [42在使用ISIC 2020数据集的黑色素瘤分类任务上,该方法取得了优于其他深度学习方法的性能。MobileNet [43]是近年来开发的另一种CNN模型,在许多情况下,它已被用于ISIC图像分类任务[4445].为了选择一个CNN架构作为我们的基线模型,并展示在排名损失格式中结合人类知识后准确率的提高,我们比较了上述最先进的CNN模型的准确率结果。比较结果见表2.我们选择ResNet作为我们的基准模型,因为它的性能更好。所有模型都使用900个标记数据集(来自表1).我们使用80/20数据分割在更大的9000张图像数据集上测试了预训练基线模型的性能。结果显示在表2.我们使用5倍交叉验证来计算验证精度的均值和标准差。

从表中可以看出,在9000张图像的大数据集上,预训练的基线模型达到了相同的精度水平。在加入人类对3点检查表规则的知识后,平均准确率甚至在此基础上有所提高。

之前的实验是基于人工注释的3点特征标签。从招募批注员到最终达成一致,整个过程历时2个多月。因此,我们开发了半监督模型来自动化特征注释过程。我们将生成的特征作为人类知识来测试这种知识是否有助于提高疾病分类的准确性。

为了评估我们的半监督模型的3点特征分类的性能,我们在包含100张带有注释的3点特征和疾病类型的图像的单独保留测试数据集上计算了测试精度和接收工作特征曲线(AUC)下的面积。我们在所示模型上测试了特征和疾病分类的性能表3,其中“基线”是标记的用于监督训练的900张图像数据集,后面是不同的损失函数组合。

如在表3,结合3种损失函数的半监督模型对疾病分类的准确率最好。添加FSL可使疾病分类性能提高2%。结果表明,强调“不对称”特征的权重使“不对称”的测试精度提高了2%,“非典型网络”的分类提高了3%。然而,“蓝白结构”和疾病分类的准确性有明显下降。

表2。疾病分类任务的五倍交叉验证结果。
模型 五倍精度,平均值(SD)
MobileNetV3 (Pretrain = True) 0.8733 (0.0113)
DenseNet (Pretrain = True) 0.8856 (0.0114)
基线(ResNet-18, Pretrain=True) 0.8867 (0.0191)
基线+人类知识(RL一个 0.8943 (0.0115)

一个RL:排名损失。

表3。具有不同损失函数的疾病或特征分类任务的半监督模型的结果-疾病监督损失(DSL),特征监督损失(FSL)和一致性损失(CL)。
模型 不对称,准确(AUC一个 非典型网络,准确度(AUC) 蓝白结构,精度(AUC) 疾病,准确度(AUC)
CL 0.51 (0.5760) 0.53 (0.5021) 0.54 (0.5620) 0.54 (0.5648)
DSL 0.51 (0.5480) 0.76 (0.6480) 0.58 (0.5285) 0.76 (0.8690)
目前 0.80 (0.8380) 0.89 (0.9036) 0.74 (0.8036) 0.51 (0.5339)
目前+氯 0.68 (0.7816) 0.87 (0.8752) 0.75 (0.8137) 0.53 (0.5402)
DSL +目前 0.76 (0.7892) 0.86 (0.8602) 0.76 (0.8133) 0.74 (0.8418)
DSL +氯 0.53 (0.5448) 0.79 (0.4340) 0.47 (0.5943) 0.77 (0.8389)
DSL +目前+ CL 0.73 (0.8036) 0.85 (0.8474) 0.76 (0.8444) 0.79 (0.8402)
DSL +目前b+氯 0.75 (0.7932) 0.88 (0.8752) 0.71 (0.7951) 0.69 (0.7971)

一个AUC:接收工作特性曲线下的面积。

b我们强调了损失函数中“不对称”特征的权重。


注释过程

本研究的注释者是没有接受过皮肤科专家培训的医科学生。他们仅根据网络资源和教科书中的教程来评估图像。在没有经过任何指定训练的情况下,使用示例图像,每个注释人员最初对每个功能的外观都有不同的想法。如果给注释者提供参考图像以了解皮肤镜特征,初步的一致性评分可能会提高。这一发现凸显了我们的算法作为教育工具的潜在价值。如果医学生能够评估皮肤镜图像,并根据算法验证的输出检查他们的3点注释,这将有助于他们发展视觉识别每个皮肤镜特征的能力。

在图像标注过程中,标注者存在一定的不确定性。首先,皮肤镜特征的模糊定义,特别是“非典型网络”提出了一个问题,因为每个注释者对它的样子都有不同的想法。这导致最初的协议得分很低。我们通过提出一个本体来解决这一问题,该本体可以集成关于皮肤镜特征的领域知识,并以更标准化、计算机可读的格式表示特征。

分析图像的另一个不确定性是使用不同的屏幕和不同的颜色显示设置。遇到的一个常见错误是,当夜灯或蓝光滤光片被激活时,无法正确地表征蓝色结构。然而,由于这样的选项可以按照计划自动执行,这可能会导致注释错误。使用不同的屏幕导致注释者之间最初的分歧,但可以通过适当的校准和确保没有打开颜色过滤器来纠正。

这项研究的一个局限性是,大多数图像来自白色皮肤。这意味着该算法是否能有效检测有色皮肤中的黑色素瘤。训练算法识别不止一组肤色的病变,将有助于筛查更多有患黑色素瘤风险的患者。另一个限制是,由于阴影、毛发、反射和噪声,图像质量可能会降低,导致病变分析不充分,如早期研究中所讨论的[46].

分类模型

对于第一个任务,在结合3点核对表人类知识后,从大数据集中加载的模型权重将分类精度从平均0.8867提高到0.8943。这说明排序损失对分类精度有正向影响。我们计划继续努力扩大人类知识,以开发更复杂的诊断规则,以测试它们对计算机算法的影响。

对于使用半监督结构的特征和疾病分类任务,在中发现了有趣的发现表3.某些特征标签的分类精度的提高可以通过在相应特征的损失函数上分配更重的权重来实现,然而,以牺牲疾病分类的准确性为代价。在这3个特征中,蓝白结构在没有特征监督损失函数的情况下分类准确率相对较低,潜在原因是蓝白结构数据集不平衡,大部分为负。加入FSL有助于特征分类任务,而加入疾病监督损失函数则会降低特征分类的性能。对于疾病分类,单独添加FSL并不能提高准确率;然而,一致性损失与FSL相结合对疾病分类显示出积极的影响。

我们还注意到,在3点检查表的人工标注过程中,非典型网络在3个标注者之间的互通性最低。然而,对于计算机特征分类任务,非典型网络具有最高的分类精度。这表明该算法具有学习某些图像特征的优势,这些特征对人类专家来说可能是一个挑战。这表明,人类智能和人工智能是可以互补的。

由于我们的图像数据集来自ISIC档案,我们还将我们算法的性能与ISIC 2020排行榜的获胜者进行了比较[47].目前最好的表现AUC为0.949。在不同疾病类别设置下,本文模型在400张未标记图像测试集(来自ISIC 2020)上的AUC为0.9848。然而,我们的0.9848 AUC不能直接与ISIC排行榜的结果进行比较,因为我们的分类任务只包括黑色素瘤和黑素细胞痣,而ISIC挑战有一些“未知”的图像。在这方面的其余结果是在小100标签图像测试集上计算的,它比学生-教师框架的应用有显著的改进,表明了半监督学习的力量。

未来的步骤

我们计划实现更多从零开始训练的微调模型体系结构,以便通过集成来自子模型的体系结构来应用更高级的集成。我们目前对疾病类别和3点检查表规则的实验设置只是演示了我们如何将人类的思维过程集成到cnn的结构中。随着皮肤学的蓬勃发展,目前有大量的诊断规则正在开发中,我们计划将所提到的所有诊断规则和皮肤镜特征,以及它们与皮肤病的关系,总结到本体中,进一步加快计算机算法支持临床决策的自动化进程。通过我们训练过的算法,我们已经可以自动化3点清单注释过程,并将其应用于更广泛的图像数据库。

结论

这项研究的独特之处在于,它将来自3点检查表的语义知识与计算机算法(CNN)结合起来,以得出更准确和更可解释的诊断。CNN分类是基于更多的信息进行的,而不仅仅是成像像素。由于图像注释过程的时间和人力消耗,有大量的成像数据集仍未被发现。我们提出的半监督学习框架可以帮助自动化注释过程,实现许多皮肤成像数据集的重用,这也有利于深度学习模型的鲁棒性和领域适应性。

致谢

XZ进行实验并主导了手稿的撰写。ZX和YX参与了模型的设计和方法论的编写。IB、MK和CS从临床医生的角度进行了注释,并为手稿的撰写做出了贡献。LG和CT监督了该项目。所有作者都参与了本研究的设计。

本工作由UTHealth创新癌症预防研究培训计划博士预科奖学金(德克萨斯州癌症预防与研究所批准号)资助。RP160015及编号RP210042)。

利益冲突

没有宣布。

  1. Guy GP, Thomas C, Thompson T, Watson M, Massetti GM, Richardson LC,疾病控制预防中心(CDC)。生命体征:黑素瘤发病率和死亡率趋势和预测-美国,1982-2030。MMWR Morb Mortal Wkly Rep 2015年6月05日;64(21):591-596 [免费全文] [Medline
  2. 杰兰特·A,约翰逊·J,谢里丹·C,卡夫瑞·T.皮肤癌的早期发现和治疗。Am Fam医师2000年7月15日;62(2):357-68,375 [免费全文] [Medline
  3. Giavina-Bianchi M, Santos AP, Cordioli E.远程皮肤病学减少皮肤科转诊和改善专家访问。临床医学2020年12月;29-30:100641 [免费全文] [CrossRef] [Medline
  4. Conforti C, Lallas A, Argenziano G, Dianzani C, Di Meo N, Giuffrida R,等。COVID-19大流行对全球皮肤病学实践的影响:国际皮肤镜学会(IDS)推动的一项调查结果。Dermatol Pract Concept 2021年1月;11(1):e2021153 [免费全文] [CrossRef] [Medline
  5. Duong TA, Lamé G, Zehou O, Skayem C, Monnet P, El Khemiri M,等。过程建模方法评估远程皮肤病学部署对皮肤肿瘤护理途径的影响。Int J Med通知2021年2月;146:104361。[CrossRef] [Medline
  6. 李K, Finnane A, Soyer HP。远程皮肤病学和远程皮肤镜的最新趋势。2018年10月31日;8(3):214-223。[CrossRef
  7. Ferrándiz L, Ojeda-Vila T, Corrales A, Martín-Gutiérrez FJ, Ruíz-de-Casas A, Galdeano R,等。单独使用临床图像或结合皮肤镜图像的基于互联网的皮肤癌筛查:一项随机远程皮肤镜试验。中国皮肤科杂志2017年4月;76(4):676-682。[CrossRef] [Medline
  8. Brinker TJ, Hekler A, Enk AH, Klode J, Hauschild A, Berking C,合作者。在面对面的皮肤镜黑色素瘤图像分类任务中,深度学习优于157名皮肤科医生中的136名。2019年5月;113:47-54 [免费全文] [CrossRef] [Medline
  9. Haenssle H, Fink C, Schneiderbauer R, Toberer F, Buhl T, Blum A,读者研究level- level- ii组,等。人机对抗:深度学习卷积神经网络对皮肤镜黑色素瘤识别的诊断性能,与58名皮肤科医生进行比较。Ann Oncol 2018年8月01日;29(8):1836-1842 [免费全文] [CrossRef] [Medline
  10. Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM,等。利用深度神经网络对皮肤癌进行皮肤科医生级别的分类。自然杂志2017 Feb 02;542(7639):115-118 [免费全文] [CrossRef] [Medline
  11. 张鑫,王松,刘杰,陶晨。基于深度学习算法的四种常见皮肤病计算机辅助诊断。2017年发表于:IEEE Int Conf Bioinforma Biomed;2017年11月13-16日;美国密苏里州堪萨斯城。[CrossRef
  12. Phillips M, Marsden H, Jaffe W, Matin RN, Wali GN, Greenhalgh J,等。在皮肤病变图像中检测黑色素瘤的人工智能算法的准确性评估。2019年美国医学会网络公开赛10月02日;2(10):e1913436 [免费全文] [CrossRef] [Medline
  13. 陈凯,李志强,李志强,李志强,等。发展中国家的移动远程皮肤病学:对30名埃及普通皮肤病患者进行可行性研究的影响。中国皮肤科杂志2011年2月;64(2):302-309。[CrossRef] [Medline
  14. Thomas L, Puig S.皮肤镜,数字皮肤镜和其他诊断工具在早期发现黑素瘤和随访高危皮肤癌患者。皮肤性病学报2017 7月;增刊218:14-21 [免费全文] [CrossRef] [Medline
  15. 施瓦茨A,埃尔斯坦AS。临床问题解决和诊断决策:认知研究文献的选择性审查。见:临床诊断的证据基础:诊断研究的理论与方法,第二版。奇切斯特(英国):Blackwell Publishing Ltd;2009:237 - 255。
  16. Asan O, Bayrak A, Choudhury A.人工智能和医疗保健中的人类信任:专注于临床医生。J Med Internet Res 2020 Jun 19;22(6):e15154 [免费全文] [CrossRef] [Medline
  17. 陈世峰,陈世峰,王志强,王志强,等。切除与否:MelaFind对德国皮肤科医生决定对非典型病变进行活检的影响。中华皮肤科杂志2014 7月;12(7):606-614。[CrossRef] [Medline
  18. Demyanov S, Chakravorty R, Abedini M, Halpern A, Garnavi R.基于深度卷积神经网络的皮肤镜模式分类。2016年发表于:IEEE第13届生物医学成像国际研讨会(ISBI);捷克共和国布拉格;2016年4月13-16日,第364页。[CrossRef
  19. Jones OT, Jurascheck LC, van Melle MA, Hickman S, Burrows NP, Hall PN,等。皮肤镜在初级保健中的黑色素瘤检测和分类:一项系统综述。BMJ公开赛2019年8月20日;9(8):e027529 [免费全文] [CrossRef] [Medline
  20. Hekler A, Utikal JS, Enk AH, Hauschild A, Weichenthal M, Maron RC,合作者。人类与人工智能相结合的卓越皮肤癌分类。2019年10月;120:114-121 [免费全文] [CrossRef] [Medline
  21. 谢峰,杨娟,刘娟,姜志,郑勇,王艳。基于高分辨率卷积神经网络的皮肤病变分割。计算方法程序生物医学2020年4月;186:105241。[CrossRef] [Medline
  22. Rasul M, Dey N, Hashem M.用于病变分割和黑色素瘤检测的神经网络架构的比较研究。2020年发表于:2020 IEEE区域10研讨会(TENSYMP);2020年6月05-07日;孟加拉国达卡,1572-1575页。[CrossRef
  23. 沈杰,张超,姜波,陈杰,宋杰,刘震,等。疾病诊断中的人工智能与临床医生:系统回顾。JMIR Med Inform 2019年8月16日;7(3):e10010 [免费全文] [CrossRef] [Medline
  24. Lucius M, De All J, De All JA, Belvisi M, Radizza L, Lanfranconi M,等。深度神经框架提高了全科医生在色素性皮肤病变分类中的准确性。诊断(巴塞尔)2020年11月18日;10(11):969 [免费全文] [CrossRef] [Medline
  25. Felmingham CM, Adler NR, Ge Z, Morton RL, Janda M, Mar VJ。在现实世界皮肤癌诊断人工智能的设计和实现中纳入人为因素的重要性。美国临床皮肤科杂志2021年3月22日;22(2):233-242。[CrossRef] [Medline
  26. 王晓明,王晓明,王晓明,等。基于深度学习的多模态皮肤损伤分类方法。Exp Dermatol 2018年11月;27(11):1261-1267。[CrossRef] [Medline
  27. 巴奈特ML, Boddupalli D, Nundy S, Bates DW。多医生集体智慧与个人医生诊断准确性的比较。2019年美国医学会网络公开赛3月1日;2(3):e190096 [免费全文] [CrossRef] [Medline
  28. Kurvers RHJM, Krause J, Argenziano G, Zalaudek I, Wolf M.集体智能评估在皮肤癌诊断中的检测准确性。美国皮肤病杂志2015年12月1日;151(12):1346-1353。[CrossRef] [Medline
  29. Kämmer JE, Hautz WE, Herzog SM, Kunina-Habenicht O, Kurvers RHJM。集体智慧在急诊医学中的潜力:汇集医学生的独立决策提高诊断性能。Med Decis Making 2017 Aug;37(6):715-724。[CrossRef] [Medline
  30. Binder M, Kittler H, Dreiseitl S, Ganster H, Wolff K, Pehamberger H.色素皮损的计算机辅助发光显微镜:临床资料对分类过程的价值。黑色素瘤研究2000年12月;10(6):556-561。[CrossRef] [Medline
  31. 王志军,王志军,王志军。基于数据驱动的特征学习和患者档案的基底细胞癌特征融合检测系统。皮肤修复技术2018年5月;24(2):256-264。[CrossRef] [Medline
  32. Kawahara J, Daneshvar S, Argenziano G, Hamarneh G.基于多任务多模态神经网络的皮肤损伤分类7点检查表。IEEE J.生物医学。健康资讯2019年3月;23(2):538-546 [免费全文] [CrossRef
  33. 索耶HP, Argenziano G, Zalaudek I, Corona R, Sera F, Talamini R,等。皮肤镜检查的三点清单。一种新的黑色素瘤早期筛查方法。皮肤科2004年2月3日;208(1):27-31。[CrossRef] [Medline
  34. Kittler H, Pehamberger H, Wolff K, Binder M.皮肤镜诊断的准确性。柳叶刀肿瘤学2002年3月3日(3):159-165。[CrossRef
  35. 国际语义智能会议(ISIC 2022)。WikiCFP。URL:http://www.wikicfp.com/cfp/servlet/event.showcfp?eventid=133712©ownerid=169171[2021-10-28]访问
  36. Rogers T, Marino M, Dusza S, Bajaj S, Marchetti M, Marghoob A. TADA在皮肤癌筛查中的应用。2017年4月30日;7(2):39-46 [免费全文] [CrossRef] [Medline
  37. Gereli MC, Onsun N, Atilganoglu U, Demirkesen C.两种皮肤镜技术在临床非典型色素性皮损和黑色素瘤诊断中的比较:7点和3点检查表国际皮肤杂志2010年1月;49(1):33-38。[CrossRef] [Medline
  38. 菲达尔戈·巴拉塔A, Celebi E, Marques J.改进皮肤镜图像分类的颜色恒常性。IEEE J.生物医学。健康通报2014年1-1。[CrossRef
  39. Burges C, Shaked T, Renshaw E, Hamilton N, Hullender G.学习使用梯度下降进行排名。2005年发表于:ICML '05:第22届机器学习国际会议论文集;2005年8月7日至11日;德国波恩,第89-96页。[CrossRef
  40. Tarvainen A, Valpola H.平均教师是更好的榜样:权重平均一致性目标提高半监督深度学习结果。NeurIPS程序。URL:https://proceedings.neurips.cc/paper/2017/file/68053af2923e00204c3ca7c6a3150cf7-Paper.pdf[2022-10-14]访问
  41. 张艳,王超。基于DenseNet的SIIM-ISIC黑色素瘤分类。2021年出席:IEEE第二届大数据、人工智能与物联网工程国际会议(ICBAIE);2021年3月26日至28日;中国南昌。[CrossRef
  42. 黄刚,刘胜,范DML, Weinberger K.基于学习群卷积的高效DenseNet。2018年发表于:IEEE/CVF计算机视觉和模式识别会议;2018年6月18日至23日;盐湖城,UT,美国。[CrossRef
  43. Howard A, Sandler M,陈b,王伟,陈立龙,谭敏,等。搜索MobileNetV3。2019年发表于:IEEE/CVF计算机视觉国际会议(ICCV);2019年10月27日至11月02日;韩国首尔(韩国)。[CrossRef
  44. Mohamed E, El-Behaidy W.使用深度卷积网络增强皮肤病变分类。2019年发表于:第九届智能计算与信息系统国际会议(ICICIS);2019年12月08-10日;开罗,埃及。[CrossRef
  45. Widiansyah M, Rasyid S, Wisnu P, Wibowo a .使用MobileNet作为编码器和linknet作为解码器的皮肤癌图像分割。期刊。:Conf. Ser 2021 Jul 01;1943(1):012113. [CrossRef
  46. 张鑫,王松,刘杰,陶晨。结合深度神经网络和人类知识提高皮肤病诊断。BMC Med Inform Decis Mak 2018 july 23;18(Suppl 2):59 [免费全文] [CrossRef] [Medline
  47. SIIM-ISIC黑色素瘤分类:在病灶图像中识别黑色素瘤。kaggle。URL:https://www.kaggle.com/c/siim-isic-melanoma-classification/leaderboard[2022-10-14]访问


人工智能:人工智能
AUC:接收工作特性曲线下的面积
有线电视新闻网:卷积神经网络
教育津贴:指数移动平均
目前:特征监督损失
ISIC:国际皮肤成像合作组织


R·德拉瓦莱编辑;提交28.04.22;V Singh同行评审;对作者24.05.22的评论;修订版本收到01.09.22;接受12.10.22;发表12.12.22

版权

©张鑫源,谢子倩,杨翔,Imran Baig, Mena Kozman, Carly Stender, Luca Giancardo,崔涛。最初发表在JMIR Dermatology (http://derma.www.mybigtv.com), 12.12.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Dermatology上的原创作品。必须包括完整的书目信息,http://derma.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。


Baidu
map