发表在第23卷第11期(2021年):11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/22934,首次出版
皮肤癌检测的人工智能:范围综述

皮肤癌检测的人工智能:范围综述

皮肤癌检测的人工智能:范围综述

原始论文

通讯作者:

Abdulrahman Takiddin,理学学士,理学硕士

电气与计算机工程系“,

德州农工大学

比泽尔街188号

大学城,德克萨斯州,77843

美国

电话:974 44230425

电子邮件:abdulrahman.takiddin@tamu.edu


背景:皮肤癌是影响人类最常见的癌症类型。传统的皮肤癌诊断方法成本高昂,需要专业的医生,而且需要时间。因此,为了帮助诊断皮肤癌,人们正在使用人工智能(AI)工具,包括基于浅层和深层机器学习的方法,这些方法经过训练,可以使用计算机算法和深度神经网络来检测和分类皮肤癌。

摘要目的:这项研究的目的是识别和分组用于检测和分类皮肤癌的不同类型的基于人工智能的技术。该研究还通过研究数据集大小和诊断类数量与用于评估模型的性能指标之间的相关性来检查所选论文的可靠性。

方法:我们使用电气与电子工程师学会(IEEE) Xplore、计算机协会数字图书馆(ACM DL)和Ovid MEDLINE数据库,按照系统评价首选报告项和范围评价扩展元分析(PRISMA-ScR)指南对论文进行了系统搜索。这项范围综述中包括的研究必须满足几个选择标准:具体涉及皮肤癌,检测或分类皮肤癌,以及使用人工智能技术。研究选择和数据提取由两位审稿人独立进行。提取的数据被叙述性地合成,其中研究根据诊断AI技术及其评估指标进行分组。

结果:我们从3个数据库中检索了906篇论文,其中53篇符合本次审查的条件。14项研究使用了基于浅人工智能的技术,39项研究使用了基于深度人工智能的技术。这些研究使用了多达11个评价指标来评估所提出的模型,其中39项研究使用准确性作为主要评价指标。总的来说,使用更小数据集的研究报告了更高的准确性。

结论:本文研究了多种基于人工智能的皮肤癌检测模型。但是,由于不同评价指标和图像类型的不同使用,阻碍了方法之间的直接比较。性能分数受数据集大小、诊断类别数量和技术等因素的影响。因此,具有较高准确度分数的浅模型和深模型的可靠性值得怀疑,因为它们是在少数诊断类的相对较小的数据集上进行训练和测试的。

中国医学杂志,2016;23(11):e22934

doi: 10.2196/22934

关键字



背景

皮肤癌是影响人类最常见的癌症类型[1].黑色素瘤和非黑色素瘤是两种主要的皮肤癌[2].非黑色素瘤不太受关注,因为它通常可以通过手术治愈,而且是非致命的。然而,黑色素瘤是最危险的皮肤癌类型,死亡率很高,尽管它只占所有皮肤癌病例的不到5% [1].世界卫生组织(WHO)估计,全球每年有13.2万例黑色素瘤病例。2015年,6万例死亡[2].

早期发现皮肤癌的传统方法包括皮肤自检和皮肤临床检查(筛查)[3.].但是,在患者或家属发现病变时进行皮肤自检是一种随机的方法,因为人们可能会反应过度或反应不足。此外,使用昂贵的专业医疗工具进行临床检查,如皮肤镜、微光谱学和激光工具,需要培训、操作努力、时间和定期随访[4].因此,患者开始使用智能手机等移动技术与医生分享图像,以更快地进行诊断。然而,在互联网上分享图片可能会损害隐私。更糟糕的是,图像质量可能不够,这可能导致不准确的诊断。随着进化,人工智能(AI),即训练有素的机器所表现出的类人智能[5,已经变得如此普遍,以至于大多数人每天都与基于人工智能的工具进行交互,这些工具可以帮助医生做出决策,并减少医生之间的决策差异。值得一提的是,即使有这样的人工智能技术,皮肤科专家的作用对于诊断和治疗也是至关重要的。

这篇综述的重点是将人工智能作为一种工具,用于帮助皮肤癌诊断过程。在此,基于人工智能的皮肤癌诊断工具使用浅AI方法或深AI方法。这两种方法都涉及通过一种叫做训练的过程来定制计算机算法,从预定义特征形成的数据中学习。不同之处在于,浅层方法倾向于根本不使用多层神经网络,或者使用限制在最小层数的网络[6].相比之下,深度方法涉及训练具有许多隐藏层的大型深层多层神经网络,通常范围从数十到数百[7].

研究问题

检测皮肤癌具有挑战性、耗时且相对昂贵。4].例如,图1显示两个表面上看起来相同的病变[8].然而,左图为正常良性病变,右图为黑色素瘤病变。随着人工智能技术变得越来越智能和快速[5),因此,它们被用来协助诊断皮肤癌并提出行动方案也就不足为奇了。这是因为基于人工智能的方法被认为是相对便宜、易于使用和可获得的[5].因此,它们提供了克服上述现有皮肤癌检测方法固有问题的潜力。然而,随着关于人工智能医疗应用的文献迅速增长,并继续报告使用不兼容的性能指标的发现,在以前的工作之间进行直接比较变得更具挑战性,并可能阻碍未来的研究。本研究旨在通过对现有文献进行严格和透明的回顾来解决这一问题。我们的目标是回答研究问题,目前有哪些基于人工智能的工具被用于检测和分类皮肤癌?

图1。正常病变(左)与黑色素瘤(右)的相似性。
查看此图

这篇综述分析了来自不同在线数据库的论文。我们定义了严格的纳入和排除标准来决定哪些论文被纳入。然后,我们根据所使用的方法对论文进行分组,并分析论文所涵盖的领域。最后,我们确定了文献中的空白,并讨论了如何在未来的工作中填补这些空白。我们在开始审查之前制定了一个方案。为确保范围评审的透明度和可复制性,我们遵循了系统评审和元分析扩展范围评审的首选报告项目(PRISMA-ScR)说明和指南[9].

搜索策略

我们于2020年7月15日进行了系统搜索。我们从电气和电子工程师协会(IEEE) Xplore、计算机协会数字图书馆(ACM DL)和Ovid MEDLINE数据库中确定了文章。用于搜索书目数据库的术语是基于目标人群(如“皮肤肿瘤”、“皮肤癌”、“皮肤病变”)、干预(如“人工智能”、“机器学习”、“深度学习”)和结果(“诊断”、“筛查”、“检测”、“分类”)确定的。我们从以前的文献研究和评论中获得搜索词。由于实际原因,我们没有进行向后或向前的参考文献列表检查,也没有联系专家。多媒体附件1显示了用于搜索Ovid MEDLINE的搜索策略,其中“皮肤肿瘤”、“人工智能”、“机器学习”和“深度学习”被用作MESH术语。多媒体附件1还显示了IEEE Xplore和ACM DL的搜索查询。

研究资格准则

我们纳入了符合以下标准的研究:

  • 2009年1月1日至2020年7月15日期间发表的研究。
  • 用英语写作的研究。
  • 人口:研究只讨论皮肤癌。讨论其他疾病或癌症形式的研究被排除在外。
  • 干预:研究只讨论基于人工智能的应用。讨论皮肤癌相关应用或系统(包括理论、统计或数学方法)的研究被排除在外。
  • 研究讨论了人工智能在检测、分类或诊断皮肤癌方面的具体用途。仅讨论人工智能在临床环境中的一般使用的研究被排除在外。
  • 研究提出了一种新的基于人工智能的方法。案例研究、调查、综述或回应论文,或回顾、评估、分析、评价或比较现有方法的论文被排除在外。

对发表国、研究设计、比较国或结果均无限制。

研究选择

作者Abdulrahman Takiddin (AT)和Alaa Abd-Alrazaq (AA)独立筛选了所有检索到的研究的标题和摘要。按照书面协议,他们在阅读标题和摘要后,独立阅读本研究中包括的论文全文。两位审稿人之间的任何分歧都通过讨论解决。我们通过计算Cohen kappa (κ)来评估编码器之间的一致性,筛选标题和摘要以及阅读全文的Cohen kappa分别为0.86和0.93,表明一致性良好。

数据提取

为了从纳入的研究中可靠和准确地提取数据,开发了一个数据提取表单,并使用八项纳入的研究进行了试验(多媒体附件2).数据提取过程由AT和AA独立进行。审稿人之间的任何分歧都通过讨论解决,并具有良好的编码间协议(Cohen κ=0.88)。

数据合成

采用叙述的方法来综合提取的数据。具体来说,我们首先根据基于复杂性的诊断技术对纳入的研究进行分组。然后,我们讨论了每个研究中使用的评估指标。接下来,我们根据所使用的评价指标对研究进行分组。此外,我们还考虑了使用的数据集,包括图像数量、图像类型和数据集包含的疾病(诊断类)数量。我们评估了准确性评分与数据集的图像数量和诊断类别之间的相关性。


搜索结果

在搜索了3个在线数据库后,我们总共检索了906项研究。然后我们分三个阶段开始排除论文。如图2在第一阶段“鉴定”中,我们排除了42篇论文。在第二阶段“筛选”中,我们排除了711篇论文。在最后一个阶段,“资格”,我们纳入了153篇论文进行全文审查。在对论文全文进行审阅后,我们剔除了100篇论文。将各阶段论文排除在外的具体原因见图2.因此,本次范围综述中纳入的论文总数为53篇。

图2。棱镜的方法。美国计算机协会数字图书馆;AI:人工智能;电气与电子工程师学会;PRISMA:系统评价和元分析的首选报告项目。
查看此图

研究特点

表1总结所选研究的特点。图3显示每年发表的论文数量:53项研究中有4项(7.6%)是在2016年之前发表的[10-13], 2016年、2017年和2018年共发表研究26篇(49.1%)[14-39], 2019年和2020年发表研究23篇(43.4%)[40-62].虽然我们的选择标准包括2009年至2020年7月发表的论文,但全文综述后最古老的发表论文是在2011年发表的。我们观察到,2018年和2019年论文数量大幅增加。

表1。研究特征(N=53)。
特征 n (%)
出版年
在2016年之前 4 (7.5)
2016 - 2018 26日(49.1)
2019 - 2020 23日(43.4)
出版国家
美国 9 (16.9)
中国 6 (11.3)
印度 5 (9.4)
波兰 3 (5.7)
新西兰 2 (3.8)
奥地利 2 (3.8)
德国 2 (3.8)
孟加拉国 2 (3.8)
印尼 2 (3.8)
巴基斯坦 2 (3.8)
火鸡 2 (3.8)
法国 1 (1.9)
俄罗斯 1 (1.9)
联合王国 1 (1.9)
香港 1 (1.9)
伊朗 1 (1.9)
韩国 1 (1.9)
菲律宾 1 (1.9)
黎巴嫩 1 (1.9)
沙特阿拉伯 1 (1.9)
新加坡 1 (1.9)
泰国 1 (1.9)
澳大利亚 1 (1.9)
加拿大 1 (1.9)
埃及 1 (1.9)
尼日利亚 1 (1.9)
南非 1 (1.9)
发布类型
会议论文集 31 (58.5)
期刊 22日(41.5)
图3。年发表论文数。
查看此图

图4显示所收录研究的出版区域。所包括的研究在世界不同地区发表。在南亚,在中国、印度、孟加拉国、印度尼西亚、巴基斯坦、新加坡、韩国和泰国进行了22项研究(41.5%);10项研究(18.9%)在北美进行,特别是美国和加拿大;在欧洲进行了10项研究,包括奥地利、波兰、德国、法国、英国和俄罗斯;5项研究(9.4%)在中东地区进行,包括黎巴嫩、土耳其、伊朗和沙特阿拉伯;3项研究(5.7%)在非洲进行,特别是埃及、南非和尼日利亚;在大洋洲,新西兰和澳大利亚完成了3项研究。

所选的研究要么发表在会议论文集上,要么发表在期刊上:53项研究中有31项(58.5%)发表在会议论文集上,其余的论文(22/ 53,41.5%)发表在期刊上。多媒体显示每个纳入的研究的特点。

图4。各地区发表论文数。
查看此图

数据的特点

表2总结所选研究中所用数据的特点。这些研究使用不同大小的数据集来训练模型。在所选研究中使用的图像的平均数量约为7800张。使用的图像数量最少为40张[24],而使用最多的图片数量为129,450张[23].根据使用的图像数量,我们将这些数据集大小分为三组。第一类包含小于1000张图像的小数据集(21/ 53,39.6%)。第二类使用由1000-10,000张图像组成的中型数据集(25/ 53,47.2%)。最后一类包含超过10,000张图像的大型数据集(7/ 53,13.2%)。

我们根据论文的分类类型将论文分为两组。我们发现超过一半的论文(31/ 53,58.5%)建立了模型来分类病变是良性还是恶性(两类/二元分类)。其余的论文(22/ 53,41.5%)采用三个或三个以上的诊断等级(多类分类)对皮损进行分类。图5显示使用不同诊断类别的论文数量。在多类分类中,8项研究使用3个诊断类,1项研究使用4个诊断类,2项研究使用5个诊断类,10项研究使用7个诊断类,1项研究使用9个诊断类。良性类包括良性角化病、黑素细胞痣和皮肤纤维瘤。恶性肿瘤包括黑素瘤和基底细胞癌。其他病变,如血管病变、光化性角化病、基因皮肤病和肿瘤,可能是良性或恶性的。

表2。数据和部署特征(N=53)。
特征 n (%)
数据集大小
21日(39.6)
媒介 25 (47.1)
7 (13.2)
分类类型
2类 31 (58.5)
3类 8 (15.1)
4类 1 (1.9)
5类 2 (3.8)
7类 10 (18.9)
9类 1 (1.9)
图像类型
Dermoscopic 43 (81.1)
临床 5 (9.4)
高质量的 4 (7.5)
光谱 1 (1.9)
部署
发展 45 (84.9)
系统 3 (5.7)
Web应用程序 3 (5.7)
移动应用程序 2 (3.8)

关于用于训练、测试和验证模型的图像类型,53项研究中有43项(81.1%)使用皮肤镜图像;5项研究(9.4%)使用了使用普通相机拍摄的临床图像;4项研究(7.5%)使用专业相机拍摄的高质量图像。其余的研究使用了光谱图像,需要一个专门的系统,从三个不同的地方使用偏振光和非偏振光对病变进行成像。

大多数研究(45/ 53,84.9%)提出的技术仍处于开发阶段。其余的研究(8/ 53,15.1%)已部署成可用的形式:3项研究开发了医疗保健系统,3项研究将模型部署到移动应用程序,2项研究将模型转移到web应用程序。多媒体附件4显示每个纳入研究的数据和部署特征。

图5。按所使用的诊断分类的发表论文数量。
查看此图

诊断技术

我们根据用于检测和分类皮肤癌的人工智能技术将论文分为两组。这些小组是技术和技术。这两组人的区别主要在于模型背后的AI架构的复杂性。技术使用简单的机器学习算法,如支持向量机(SVM),或仅使用几层神经网络[63].相比之下,如果人工智能架构是一个至少由三层组成的神经网络,那么它就被归类为人工智能技术(19].结果表明,大约四分之一的研究(14/ 53,26.4%)使用了浅层技术,而其余的研究(39/ 53,73.6%)使用了深层技术。在每个组中,研究可能使用了不同的模型或算法,一些研究提出了多种方法或使用多种方法提供测试数据。在本研究中,我们只考虑每篇论文中报告性能最好的模型。

表3大多数研究都使用了技术采用支持向量机(9/14,64.3%),这是一种常见的两类分类器,使用超平面作为决策边界[6].其余的研究(5/14,35.7%)采用朴素贝叶斯(NB)算法(1/14,7.1%),这是一种概率分类器,假设特征之间的条件独立性[6];logistic回归(LR;1/14),使用概率进行预测;k-最近邻(kNNs;1/14),根据接近的样本对样本进行分类;随机森林(RFs;1/14),使用决策树进行分类[6].混合模型(1/14)使用Adaboost和SVM通过多次迭代对图像进行分类。

表3。纳入的研究采用浅技术(N=14)。
模型 n (%) 参考
支持向量机一个 9 (64.3) 121516192126272960
b 1 (7.1) 11
LRc 1 (7.1) 13
然而,d 1 (7.1) 25
射频e 1 (7.1) 28
混合动力 1 (7.1) 18

一个支持向量机:支持向量机。

b注意:朴素贝叶斯。

c逻辑回归。

dkNN: k-最近邻。

eRF:随机森林。

大多数研究都使用了技术(表4)采用了不同类型的卷积神经网络(cnn;36/ 39,92.3%),将部分图像的重要性分配给使用imagenet预训练的架构(18/ 39,46.2%),包括剩余网络(ResNet), Inception, AlexNet, MobileNet, Visual Geometry Group (VGG), Xception, DenseNet和GoogleNet。此外,一些基于cnn的研究(11/ 39,28.2%)构建了定制的cnn或resnet。此外,一些研究采用了不同的cnn组合以及其他模型(混合模型;5/ 39,12.8%),以及使用集成模型(4/ 39,10.3%);其余研究(1/ 39,2.6%)使用OpenCV库。多媒体提供了关于每个模型的详细信息,包括所使用的方法、层数(从1层到121层)、用于选择超参数的方法,以及所提出的模型相对于研究中其他报告模型的性能。

表4。纳入的研究采用了深度技术(N=39)。
模型 n (%) 参考
Pretrained cnn一个
ResNetb 5 (12.8) 2241495054
《盗梦空间》 3 (7.7) 234256
AlexNet 3 (7.7) 343539
MobileNet 3 (7.7) 455155
VGGc 2 (5.1) 30.52
Xception 1 (2.6) 43
DenseNet 1 (2.6) 58
自定义
美国有线电视新闻网 9 (23.1) 142440475357596162
ResNet 2 (5.1) 3133
混合动力 5 (12.8) 1732384446
系综 4 (10.3) 20.363748
OpenCV 1 (2.6) 10

一个CNN:卷积神经网络。

bResNet:剩余网络。

cVGG:视觉几何组。

评价指标

本范围综述中包括的研究使用不同的评价指标来评估他们提出的模型。在这些研究中,使用以下五个主要评价指标来评估构建的模型:准确性、敏感性和特异性、阳性预测值(PPV)或精度、曲线下面积(AUC)和f1评分。所有五个指标的范围从0%到100%;得分越高,模型表现越好。为了计算不同的评估指标,确定了以下类型的样本:第一,真阳性(TPs),这是AI工具也检测为恶性的恶性样本;第二,假阳性(FPs),即人工智能工具检测为恶性的良性样本;第三,真阴性(TNs),这是良性样本,也被AI工具检测为良性;第四,假阴性(FNs),即被AI工具检测为良性的恶性样本。值得一提的是,超过一半的研究(33/ 53,62.3%)除了主要指标外,还报告了多个评估指标。

准确率= (TP + TN)/(TP + TN + FP + FN),这表明模型检测诊断类别的好坏,在大多数论文中被报道(44/ 53,83%)。30篇(56.6%)论文报道了敏感性或召回率= TP/(TP + FN),即仅给出恶性样本时,模型正确诊断为恶性的概率。特异性= TN/(TN + FP),它决定了阴性样本被正确检测的比例,有24篇(45.3%)论文报道。PPV或precision = TP/(TP + FP)有13篇(24.5%)报道。AUC是受试者工作特征(ROC)曲线的面积,用于绘制TP与FP的关系,有11篇(20.8%)论文报道。有9篇(16.9%)论文报道了F1-score,即召回率和准确度的调和平均值。此外,有4篇(7.5%)论文报道了骰子系数= 4TP/(FN + 2TP + FP)。2篇(3.8%)报道阴性预测值(NPV) = TN/(TN + FN)。Jaccard指数= 2TP/(TP + FN + FP)有2篇文献报道。Cohen κ在2篇论文中也有报道。 Finally, the Youden index = sensitivity + specificity – 1 was reported in 1 (1.9%) paper.

在这里,我们在进行多个实验的情况下,根据表现最好的实验对每篇论文进行分析。此外,如果使用多个评价指标,我们使用作者在摘要或结论中报告的主要评价指标得分作为论文的主要重点,或在多类分类论文中使用每个诊断类的平均分。在上述指标中,准确性、AUC、敏感性和特异性以及f1评分被用作主要评价指标。约73%(39/53)的论文使用准确性作为主要评估指标来评估训练过的模型。平均准确率为86.8%,最大值为98.8% [60]及最少67% [10].9项研究报告了AUC,平均得分87.2%;AUC评分最高为91.7% [41],而最低AUC评分为82.0% [26].4项研究采用敏感性和特异性,1项研究报告f1评分。多媒体附件6显示每个纳入研究的数据特征、使用模型和评估分数(表5).

表5所示。纳入研究报告的主要评价指标和评分(N=53)。
分数 参考
精度

99% 60

98% 2127

96% 24

95% 172261

94% 20.40

93% 16

92% 18

91% 515262

90% 364257

89% 1143

88% 1348

87% 254953

86% 354458

84% 34

83% 5455

81% 14

80% 19

77% 28

75% 394759

72% 2356

67% 10
AUC一个

92% 41

91% 3338

89% 32

87% 46

85% 3750

84% 30.

82% 26
灵敏度

96% 31

90% 15

83% 12

77% 29
特异性

96% 15

90% 12

89% 31

70% 29
F1-score

83% 45

一个AUC:曲线下面积。


主要发现

我们研究了53个入选研究的多种特征类型。首先,我们纳入了研究特征。大多数研究发表在2019年,大多数研究发表在南亚,大多数研究发表在期刊上。其次,我们讨论了数据特征。对于训练和测试,大多数研究使用中等大小的数据集,大多数研究建立了二进制分类器,皮肤镜图像使用最多。第三,我们将采用的AI模型分为浅层和深层。大多数浅层模型是基于SVM的,而大多数深层模型是基于cnn的神经网络。一般来说,深层模型比浅层模型被采用得多。第四,我们列出了用于评估模型性能的评估指标以及报告的分数。总共使用了11个不同的评估指标,其中准确性是最常用的指标,因此我们专注于准确性。

性能因素

在分析报告的性能分数之后,我们得出的结论是,性能与使用的类数量之间存在相关性。此外,影响性能的另一个因素是数据集大小。接下来,我们研究这个假设的准确性,因为大多数研究(39/ 53,73.6%)使用它作为主要评价指标,尽管它可能不是最合适的评价指标来评估这样的任务,特别是在数据不平衡的情况下。我们相信,拥有一个混淆矩阵或TPs、FPs、tn和fn的数量将避免偏差,并对模型在每个诊断类别上的行为给出更清晰的评估。从这些研究中,最高的准确性分数为~98% [212760].在导致这种准确性的研究中,作者分别使用200、356和200张图像的数据集建立了一个两类分类(良性和恶性)模型。前10个准确率分数(99%-92%)还使用平均约800张图像构建了两类分类器。此外,26项研究使用大约1000张图像的平均数据集大小构建了平均准确率约为88%的两类分类器,而17项研究构建了平均准确率为85%的多类分类器;他们平均使用了大约15000张图片。准确度第二低的为72% [23],其中作者使用9个不同的诊断类和129,450张图像开发了一个多类分类器,这是本研究中包含的类数量最多、数据集规模最大的分类器。图6用对数数据集的大小和准确度绘制图,用颜色表示诊断类的数量。可以看出,准确率随着诊断类的数量和数据集大小的减少而增加。具体来说,在准确率达到90%的阈值之后,我们可以看到大多数研究都建立了两类分类器。下面将进一步讨论这种模式背后可能存在的因素。

图6。诊断类的数量和数据集大小对准确性的影响。
查看此图

分类类型

与多类分类器相比,二进制分类器往往具有更好的性能。从直觉上看,这似乎是正确的,因为二进制分类器的表达能力较弱。二进制分类器“要学习的东西更少”,而不是区分几个类。为了说明这一点,让我们比较二元分类器和五类分类器的每个类的概率限制。对于五类分类器,必须至少有一个概率≤20%的类(根据鸽子洞原理64])。因此,预测这种低概率类通常比二元分类器的情况更难,对于二元分类器,我们知道存在恰好(因此,最多)一个概率≤50%的类。另一种看待它的方式是考虑一个算法,它在假设数据完美平衡的情况下执行随机选择。在二进制情况下,该算法的错误率为50%,而对于五类分类器,错误率增加到80%,增加了1.6倍。数据不平衡可能会进一步加剧这一问题,这种不平衡往往是由于医疗状况流行率的差异而自然产生的。因此,在给定较少的训练数据的情况下,二进制分类器工作良好也就不足为奇了,因为模型仍然可以为每个类提供足够数量的示例。

数据集大小因子

然而,令人惊讶的是图6表明训练数据越少,性能越好。为此,我们想要注意的是,性能最好的两种方法使用了浅层技术,与深层方法相比,浅层技术对数据的需求要小得多,因为手动特征工程通常是管道的一部分。此外,Afifi等[21]使用临床图像数据,这些数据可能具有较高的质量。此外,根据测试设置的不同,不能排除依赖较少数据的方法缺乏使用大量数据训练的模型的通用性。在这种情况下,由于过拟合,模型将比一般的检测器和分类器更接近数据检索机。为了充分评估这类明显的问题,在报告结果时不要依赖单一的性能指标,这很重要。特别是,在这种情况下,敏感性和特异性与准确性同样重要,因为它们模拟了FN和FP率。因此,综上所述,我们想重申我们之前的声明,我们认为任何人工智能在部署到临床环境之前,都必须进行严格的临床研究和测试。

技术类型因素

关于本综述中所包括的研究中描述的技术,深层和浅层模型(无论层数)具有相似的性能。例如,在浅层模型中,使用支持向量机(SVM)构建前五种皮肤癌探测器,使用相对较小的数据集,准确率为93%-99%。支持向量机是浅层模型中最常用的方法。同样,在深度模型中,前五种基于cnn的皮肤癌检测器使用中型数据集的准确率为94%-96%。在深度模型中,cnn也是最常用的方法。从理论上讲,深度神经网络在图像分类方面往往具有更好的性能[65].其中一个原因是,与深度网络相比,浅模型通常局限于表达能力较差的功能空间。从技术角度来看,这可能很好地解释了它们由于在训练中缺乏完全捕捉图像复杂性质的能力而导致的较低性能。相比之下,深度网络和cnn可以在多个尺度和复杂性下学习特征,以提供快速诊断[66].因此,它们不仅从医学图像中检测、选择和提取特征,而且还通过增强和构建医学图像中的新特征来做出贡献[67].所纳入研究中表现的相似性和不一致性是由于所使用的不同评价指标、数据集大小、图像类型和研究中诊断类的数量。

出版年

根据研究特点,我们注意到自2016年以来发表的论文数量有所增加,并且大多数论文讨论了皮肤镜图像的使用,使其成为皮肤癌检测和分类中使用最多的图像方式。我们认为这是因为国际皮肤成像合作(ISIC)比赛始于2016年[8,该公司提供了几个皮肤镜图像的医疗数据集,这些数据集后来被用于构建基于人工智能的模型。这些研究大多还处于发展阶段,我们坚信这些模型还需要在医院进行进一步的验证和测试。然而,皮肤科医生和患者开始适应依靠人工智能诊断皮肤癌的概念。

实践及研究意义

在这篇范围综述中,我们总结了文献中有关使用基于人工智能的技术诊断皮肤癌的发现。我们还根据所使用的方法、人工智能技术的类型及其性能对这篇综述中包含的论文进行了分类,并发现了这些方面之间的联系。

我们注意到,尽管本范围综述中包括的所有论文都讨论了特定人工智能技术的应用和性能,但报告是异构的。通常不会讨论使用特定AI技术与其他方面(如数据集大小)之间的关系,甚至讨论为什么所使用的评估指标是合理的。当然,这可能会阻碍这一方向的研究,因为未来的研究越来越难以与遵循科学严谨性的现有工作进行全面比较。这个范围审查通过执行必要的特征和分析来填补这一空白。这是通过将每种使用的人工智能技术分组为浅方法和深方法,将每种类型与所使用的评估指标联系起来,列出和解释每项研究中使用的诊断类别的数量,并强调性能对数据集大小和其他因素的依赖关系来实现的。据我们所知,还没有类似的工作来填补这一空白。在结论部分,我们将强调我们的主要发现。

限制

本范围综述检查了2009年1月至2020年7月之间发表的论文,在此时间线之外发表的任何研究都被排除在外,这可能排除了旧的基于人工智能的方法。此外,我们还检查了用英语写的论文;其他语言没有被包括在内,这可能导致在世界其他地区进行的一些研究被排除在外。另一个限制可能是进行研究的时间和提交工作的时间之间的差距,这排除了在这段时间内发表的论文。尽管我们尽了全力,但仍不能完全排除在学术数据库中偶然忽略论文的可能性。此外,尽管我们试图讨论文献中的所有发现,但详细介绍论文的每一个发现超出了本文的范围。同样,对文献中的数据偏差(诊断类别、患者种族、肤色、性别等方面的数据不平衡)进行调查,作为未来研究的方向。

结论

人工智能的使用在促进皮肤癌诊断方面具有很大的潜力。人工智能的两个主要分支用于检测和分类皮肤癌,即浅层和深层技术。然而,这种人工智能工具的可靠性是值得怀疑的,因为不同的数据集大小、图像类型和诊断类的数量正在使用不同的评估指标进行评估。准确性是最常用的主要评价指标,但不允许独立评估FN和FP率。这项研究发现,当包括更少的诊断类别时,报告的准确性得分更高。有趣且与直觉相反的是,我们的分析还表明,当包括较小的样本量时,报告的准确性得分更高,这可能是由于图像类型和所使用的技术等因素。此外,只有使用大型、多样化和无偏倚的数据库进行独立的外部验证,才能在临床部署之前证明任何人工智能技术的通用性和可靠性。

利益冲突

没有宣布。

多媒体附件1

搜索查询。

DOCX文件,16kb

多媒体附件2

数据提取表单。

DOCX文件,14kb

多媒体

研究的特点。

DOCX文件,20kb

多媒体附件4

数据和部署特征。

DOCX文件,21 KB

多媒体

技术细节。

DOCX文件,32kb

多媒体附件6

数据、模型和评估。

DOCX文件,32kb

  1. 李,李,李国强。基于深度卷积神经网络的皮肤损伤分类方法研究。JMIR Dermatol 2020年5月7日;3(1):e18438。[CrossRef
  2. de Carvalho TM, Noels E, Wakkee M, Udrea A, Nijsten T.皮肤癌风险评估智能手机应用程序的开发:进展和前景。JMIR Dermatol 2019 7月11日;2(1):e13376。[CrossRef
  3. 罗旭东,李志强,李志强,陈志强。皮肤癌早期诊断方法的研究进展。Semin Oncol Nurs 2013年8月;29(3):170-181。[CrossRef] [Medline
  4. 李丽娟,李丽娟,李丽娟,李丽娟。拉曼微光谱技术在非黑素瘤皮肤癌诊断中的应用。激光外科医学2008 Sep;40(7):461-467 [免费全文] [CrossRef] [Medline
  5. 墨菲R.人工智能机器人入门。马萨诸塞州剑桥:麻省理工学院出版社;2019.
  6. 《机器学习:算法视角》。佛罗里达州博卡拉顿:CRC出版社;2011.
  7. Mitra B, Craswell N.神经信息检索导论。波士顿,马萨诸塞州:Now Foundations and Trends;2018.
  8. ISIC 2018:黑色素瘤检测的皮肤损伤分析。URL:https://challenge2018.isic-archive.com/[2020-06-11]访问
  9. 崔科,李丽丽,李丽娟,李丽娟,等。用于范围审查的PRISMA扩展(PRISMA- scr):检查表和解释。安实习生医学2018年10月02日;169(7):467-473。[CrossRef
  10. 刘国强,李志强,李志强。一种移动自动皮肤病变分类系统。2011年发表于:IEEE第23届人工智能工具国际会议;2011;佛罗里达州博卡拉顿[CrossRef
  11. 李玲,张强,丁勇,姜辉,Thiers BH,王建忠。在光谱系统上使用机器学习方法自动诊断黑色素瘤。BMC医学影像2014 Oct 13;14(1):36 [免费全文] [CrossRef] [Medline
  12. 王晓明,李志强,李志强,等。一种基于分级分类器的黑素瘤诊断方法。2014年发表于:2014年第36届IEEE医学与生物工程国际年会;2014年8月26日至30日;伊利诺伊州芝加哥,第6751页。[CrossRef
  13. Kaur R, Albano PP, Cole JG, Hagerty J, LeAnder RW, Moss RH,等。黑色素瘤皮肤镜图像中粉红色区域的实时监督检测:颜色深浅、纹理和位置的重要性。皮肤测量技术2015年11月22日;21(4):466-473 [免费全文] [CrossRef] [Medline
  14. Nasr-Esfahani E, Samavi S, Karimi N, Soroushmehr SMR, Jafari MH, Ward K,等。利用卷积神经网络分析临床图像的黑色素瘤检测。2016年发表于:第38届IEEE医学与生物工程学国际年会(EMBC);2016;佛罗里达州奥兰多[CrossRef
  15. 支持向量机在微恶性黑色素瘤病变计算机辅助诊断中的应用。Biomed Res Int 2016;2016:4381972 [免费全文] [CrossRef] [Medline
  16. 杨晓明,王晓明,王晓明,等。基于人工智能的黑色素细胞病变自动分类。Biomed Res Int 2016;2016:8934242 [免费全文] [CrossRef] [Medline
  17. Sabbaghi S, Aldeen M, Garnavi R.皮肤镜图像中黑色素瘤分类的深度特征袋模型。2016年发表于:2016年第38届IEEE医学与生物工程学会国际年会(EMBC);2016;奥兰多,佛罗里达州,2016年。[CrossRef
  18. Premaladha J, Ravichandran KS。通过监督和深度学习算法诊断黑素瘤皮肤病变的新方法。中华医学杂志2016年4月12日;40(4):96。[CrossRef] [Medline
  19. 杨晓东,张晓东,张晓东。基于SVM的黑素瘤检测方法研究。2017年出席:2017计算网络与信息学国际会议(ICCNI);2017;尼日利亚拉各斯,p. 1-5。[CrossRef
  20. 谢峰,范海红,李艳,蒋震,王志强,王志强。基于神经网络集成模型的皮肤镜图像黑色素瘤分类。IEEE跨医学影像2017年3月36(3):849-858。[CrossRef
  21. 孙晓峰,李晓峰,李晓峰,等。基于SVM的黑素瘤芯片检测方法。2017年发表于:第39届IEEE医学与生物工程学会国际年会(EMBC);2017;济州岛,韩国。[CrossRef
  22. 余玲,陈宏,窦强,秦军,恒平。基于深度残差网络的皮肤镜图像黑色素瘤自动识别。《医学影像学报》2017年4月27日(4):994-1004。[CrossRef
  23. Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM,等。利用深度神经网络对皮肤癌进行皮肤科医生级别的分类。自然杂志2017年1月25日;542(7639):115-118。[CrossRef
  24. Mandache D, Dalimier E, Durkin J, Boceara C, Olivo-Marin J, measi - yedid V.基于卷积神经网络的全视野OCT图像基底细胞癌检测。2018年发表于:IEEE第15届生物医学成像国际研讨会(ISBI);2018;华盛顿特区。[CrossRef
  25. 林三甘,李志刚,李志刚。基于k-最近邻算法的痣皮肤癌检测分类。2018年发表于:第五届生物信息学研究应用国际会议;2018;纽约,纽约州。[CrossRef
  26. Marchetti MA, Codella NC, Dusza SW, Gutman DA, Helba B, Kalloo A,国际皮肤成像合作组织。2016年国际皮肤成像合作国际生物医学成像研讨会的结果挑战:比较计算机算法与皮肤科医生从皮肤镜图像诊断黑色素瘤的准确性。中国皮肤科杂志2018年2月;78(2):270-277。e1 (免费全文] [CrossRef] [Medline
  27. Nasir M, Attique Khan M, Sharif M, Lali IU, Saba T, Iqbal T.一种改进的基于均匀分割和特征选择的皮肤病变检测和分类策略。Microsc Res Tech 2018年6月21日;81(6):528-543。[CrossRef] [Medline
  28. Gautam D, Ahmed M, Meena YK, Ul Haq A.基于机器学习的黑素瘤宏图像诊断。生物医学工程2018年5月20日;34(5):e2953。[CrossRef] [Medline
  29. Salem C, Azar D, Tokajian S.基于图像处理和遗传算法的黑色素瘤患者检测方法。方法Inf Med 2018:231-286。
  30. 俞超,杨松,金伟,郑杰,郑凯,李文文,等。肢端黑色素瘤检测使用卷积神经网络皮肤镜图像。PLoS ONE 2018 3月7日;13(3):e0193321。[CrossRef
  31. Putten EV, Kambod A, Kambod M.深度残余神经网络用于自动基底细胞癌检测。2018年发表于:IEEE EMBS生物医学健康信息学国际会议(BHI);2018;内华达州拉斯维加斯[CrossRef
  32. 杨霞,洪航星,王玲,杨松,苏勇,曾哲。多目标深度神经网络皮肤病变分析。2018年发表于:第40届IEEE医学与生物工程学国际年会(EMBC);2018;檀香山,嗨,2018年。[CrossRef
  33. 李勇,沈璐。基于深度学习网络的黑色素瘤皮肤病变分析。传感器(巴塞尔)2018年2月11日;18(2):556 [免费全文] [CrossRef] [Medline
  34. 王晓峰,李晓峰,李晓峰,等。基于深度学习的恶性色素性皮损分类方法研究。2018年发表于:第十四届神经网络与应用研讨会(NEUREL);2018;贝尔格莱德,塞尔维亚。[CrossRef
  35. 王晓明,王晓明,王晓明,等。基于深度卷积神经网络和支持向量机的多类别皮肤病分类方法。2018年出席:第12届软件、知识、信息管理应用国际会议(SKIMA);2018;柬埔寨,金边。[CrossRef
  36. 张志强,张志强,张志强,等。基于深度集成学习的皮肤病变分类方法。2018年发表于:第九届开罗国际生物医学工程会议(CIBEC);2018;开罗,埃及。[CrossRef
  37. 哈兰吉B, Baran A, Hajdu A.皮肤损伤分类使用的深度神经网络集合。2018年发表于:2018年第40届IEEE医学与生物工程学会国际年会(EMBC);2018;檀香山,嗨,2018年。[CrossRef
  38. 王春华,王志强,王志强。基于深度神经网络的皮肤损伤分类方法。2019年发表于:ICASSP IEEE声学、语音和信号处理国际会议(ICASSP);2019;英国布莱顿。[CrossRef
  39. 王晓峰,王晓峰,王晓峰,等。基于深度学习的远程医学诊断图像分类。2018年发表于:IEEE全球人道主义技术会议(GHTC);2018;加利福尼亚州圣何塞[CrossRef
  40. Nida N, Irtaza A, Javed A, Yousaf MH, Mahmood MT.基于深度区域卷积神经网络和模糊c均值聚类的黑色素瘤病灶检测和分割。国际医学杂志2019年4月;124:37-48。[CrossRef] [Medline
  41. 张健,谢勇,夏勇,沈超。基于注意残差学习的皮肤病变分类。IEEE跨医学影像2019年9月38日(9):2092-2103。[CrossRef
  42. Demir A, Yilmaz F, Kose O.使用深度学习架构早期检测皮肤癌:ResNet-101和Inception-v3。2019年出席:医疗技术大会(TIPTEKNO);2019;伊兹密尔,土耳其。[CrossRef
  43. 李志强,李志强,李志强,等。人工智能技术在皮肤病理检测中的应用。2019发表于:2019人工智能国际会议:应用与创新(IC-AIAI);2019;贝尔格莱德,塞尔维亚。[CrossRef
  44. 李志强,李志强,李志强,等。基于神经网络的皮肤肿瘤分类方法研究。2019年发表于:第九届图像处理理论、工具和应用国际会议(IPTA);2019;伊斯坦布尔,土耳其。[CrossRef
  45. 刘颖。深度学习在皮肤癌快速诊断中的应用。2019出席:2019信息技术与计算机应用国际会议(ITCA);2019;广州,中国。[CrossRef
  46. 梁锐,吴强,杨霞。多池注意力学习在黑色素瘤识别中的应用。2019数字图像计算:技术与应用(DICTA);2019;珀斯,WA,澳大利亚。[CrossRef
  47. Dai X, Spasi I, Meyer B, Chapman S, Andres F.移动机器学习:用于皮肤癌检测的设备推理应用程序。2019年发表于:第四届雾与移动边缘计算国际会议(FMEC);2019;罗马,意大利CrossRef
  48. Mahbod, Schaefer G,我和我的朋友我,艾克尔R,王Pitiot A, c .调整深度融合特征为皮肤病变分类。Comput Med Imaging Graph 2019年1月;71:19-29。[CrossRef] [Medline
  49. Wodzinski M, Skalski A, Witkowski A, Pellacani G, Ludzik J.使用反射共聚焦显微镜对皮肤病变进行分类的卷积神经网络方法。2019发表于:2019年第41届IEEE医学与生物工程学会国际年会(EMBC);2019;德国柏林。[CrossRef
  50. Brinker TJ, Hekler A, Enk AH, von Kalle C.增强分类器训练以提高卷积神经网络识别皮肤病变图像的精度。PLoS One 2019 6月24日;14(6):e0218713 [免费全文] [CrossRef] [Medline
  51. 陈晓峰,陈晓峰,陈晓峰,等。基于深度神经网络的移动皮肤镜在皮肤癌分类检测中的应用。2019年发表于:第二届计算机应用信息安全国际会议(ICCAIS);2019;沙特阿拉伯利雅得。[CrossRef
  52. Guha SR, Rafizul Haque SM。基于卷积神经网络的黑色素瘤皮肤病变分类分析。2019年出席:工业4.0可持续技术国际会议(STI);2019;达卡,孟加拉国。[CrossRef
  53. Kassani SH, Kassani PH, Wesolowski MJ, Schneider KA, Deters R.用于皮肤病变分类的深度可分离卷积神经网络。2019年发表于:IEEE信号处理与信息技术国际研讨会(ISSPIT);2019;阿吉曼,阿拉伯联合酋长国。[CrossRef
  54. 杨晓东,张晓明,张晓明,等。基于ResNet的黑素瘤分类方法。2019出席:2019信息技术与智能系统研究国际研讨会(ISRITI);2019;日惹,印尼。[CrossRef
  55. 李世林,李志强,李志强,等。基于卷积神经网络的皮肤损伤分类方法。2019年发表于:第16届计算机科学与软件工程国际联合会议(JCSSE);2019;泰国春武里。[CrossRef
  56. 普勒纳玛·艾克,赫尔南达·AK,拉特纳·AAP,努尔塔尼奥·I,希达亚提·安,普尔诺莫,等。远程皮肤病学系统中基于皮肤镜皮肤图像的疾病分类。2019年出席:计算机工程、网络与智能多媒体国际会议(CENIM);2019;印度尼西亚泗水。[CrossRef
  57. Hasan M, Barman SD, Islam S, Reza AW。基于卷积神经网络的皮肤癌检测。2019发表于:第五届国际计算人工智能会议,美国纽约,纽约;2019;印尼巴厘岛。[CrossRef
  58. 魏玲,丁凯,胡慧。基于集成轻量级深度学习网络的皮肤镜图像皮肤癌自动检测。IEEE Access 2020;8:99633-99647。[CrossRef
  59. Nasiri S, Helsper J, Jung M, Fathi M.描述黑色素瘤深类:一种深度卷积神经网络方法对皮肤病变图像进行分类。BMC Bioinformatics 2020 Mar 11;21(增刊2):84-13 [免费全文] [CrossRef] [Medline
  60. 孙晓峰,王晓峰,王晓峰,等。基于支持向量机和Bendlet变换的皮肤癌诊断系统。中国科学院胸罩科学研究2020;92(1):e20190554 [免费全文] [CrossRef] [Medline
  61. adadgun AA, Viriri S.基于深度学习的黑色素瘤自动检测系统。IEEE Access 2020;8:7160-7172。[CrossRef
  62. Sanketh RS, Madhu Bala M, Narendra Reddy PV, Phani Kumar GVS。利用卷积神经网络检测黑素瘤疾病。发表于:2020第四届智能计算与控制系统国际会议(ICICCS), 2020;2020;马杜赖,印度。[CrossRef
  63. Goodfellow I, Bengio Y, Courville A.深度学习。马萨诸塞州剑桥:麻省理工学院出版社;2016.
  64. 赫斯坦I.代数主题。马萨诸塞州沃尔瑟姆:布莱斯德尔;1964:90。
  65. 尹霞,杨超,裴伟,郝慧。浅分类或深度学习的实验研究。2014年发表于:2014年第22届模式识别国际会议;2014;斯德哥尔摩,瑞典。[CrossRef
  66. 张志刚,张志刚,张志刚,张志刚,等。使用卷积神经网络的皮肤癌分类:系统综述。J Med Internet Res 2018 10月17日;20(10):e11936 [免费全文] [CrossRef] [Medline
  67. Razzak MI, Zaib A.医学图像处理的深度学习:概述,挑战和未来。在:分类在生物应用程序:自动化决策。瑞士占姆:施普林格国际;2018:323。


ACM DL:计算机数字图书馆协会
人工智能:人工智能
AUC:曲线下面积
有线电视新闻网:卷积神经网络
FN:假阴性
外交政策:假阳性
IEEE:美国电气和电子工程师学会
ISIC:国际皮肤成像合作组织
资讯:
LR:逻辑回归
注:朴素贝叶斯
净现值:负预测值
PPV:阳性预测值
PRISMA-ScR:系统评价和元分析的首选报告项目范围评价的扩展
ResNet:剩余的网络
射频:随机森林
中华民国:接收机工作特性
支持向量机:支持向量机
TN:真正的负
TP:真阳性
VGG:视觉几何组


编辑:R库卡夫卡,G艾森巴赫;提交27.07.20;同行评议:J Makin, E Frontoni, JA Benítez-Andrades, S Shams, R Sutton;对作者17.11.20的评论;修订版本收到05.01.21;接受03.08.21;发表24.11.21

版权

©Abdulrahman Takiddin, Jens Schneider, Yin Yang, Alaa Abd-Alrazaq, Mowafa Househ。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2021年11月24日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map