JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v23i11e22934 34821566 10.2196/22934 原始论文 原始论文 皮肤癌检测的人工智能:范围综述 Kukafka 丽塔 Eysenbach 冈瑟 马金 Frontoni Benitez-Andrades 何塞•阿尔贝托。 沙姆斯 萨顿 里德 Takiddin 二元同步通信,MSc 1
电气与计算机工程系“, 德州农工大学 比泽尔街188号 大学城,德克萨斯州,77843 美国 974 44230425 abdulrahman.takiddin@tamu.edu
2 https://orcid.org/0000-0003-4793-003X
施耐德 延斯 理学士、理学硕士、博士 2 https://orcid.org/0000-0002-0546-2816 理学士、理学硕士、博士 2 https://orcid.org/0000-0002-0549-3882 Abd-Alrazaq 阿拉 理学士、理学硕士、博士 2 https://orcid.org/0000-0001-7695-4626 Househ Mowafa 理学士、理学硕士、博士 2 https://orcid.org/0000-0002-3648-6271
电气与计算机工程系“, 德州农工大学 大学城,德克萨斯州 美国 科学与工程学院 哈马德·本·哈利法大学 多哈回合谈判 卡塔尔 通讯作者:Abdulrahman Takiddin abdulrahman.takiddin@tamu.edu 11 2021 24 11 2021 23 11 e22934 27 7 2020 17 11 2020 5 1 2021 3. 8 2021 ©Abdulrahman Takiddin, Jens Schneider, Yin Yang, Alaa Abd-Alrazaq, Mowafa Househ。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2021年11月24日。 2021

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

皮肤癌是影响人类最常见的癌症类型。传统的皮肤癌诊断方法成本高昂,需要专业的医生,而且需要时间。因此,为了帮助诊断皮肤癌,人们正在使用人工智能(AI)工具,包括基于浅层和深层机器学习的方法,这些方法经过训练,可以使用计算机算法和深度神经网络来检测和分类皮肤癌。

客观的

这项研究的目的是识别和分组用于检测和分类皮肤癌的不同类型的基于人工智能的技术。该研究还通过研究数据集大小和诊断类数量与用于评估模型的性能指标之间的相关性来检查所选论文的可靠性。

方法

我们使用电气与电子工程师学会(IEEE) Xplore、计算机协会数字图书馆(ACM DL)和Ovid MEDLINE数据库,按照系统评价首选报告项和范围评价扩展元分析(PRISMA-ScR)指南对论文进行了系统搜索。这项范围综述中包括的研究必须满足几个选择标准:具体涉及皮肤癌,检测或分类皮肤癌,以及使用人工智能技术。研究选择和数据提取由两位审稿人独立进行。提取的数据被叙述性地合成,其中研究根据诊断AI技术及其评估指标进行分组。

结果

我们从3个数据库中检索了906篇论文,其中53篇符合本次审查的条件。14项研究使用了基于浅人工智能的技术,39项研究使用了基于深度人工智能的技术。这些研究使用了多达11个评价指标来评估所提出的模型,其中39项研究使用准确性作为主要评价指标。总的来说,使用更小数据集的研究报告了更高的准确性。

结论

本文研究了多种基于人工智能的皮肤癌检测模型。但是,由于不同评价指标和图像类型的不同使用,阻碍了方法之间的直接比较。性能分数受数据集大小、诊断类别数量和技术等因素的影响。因此,具有较高准确度分数的浅模型和深模型的可靠性值得怀疑,因为它们是在少数诊断类的相对较小的数据集上进行训练和测试的。

人工智能 皮肤癌 皮肤损害 机器学习 深度神经网络
简介 背景

皮肤癌是影响人类最常见的癌症类型[ 1].黑色素瘤和非黑色素瘤是两种主要的皮肤癌[ 2].非黑色素瘤不太受关注,因为它通常可以通过手术治愈,而且是非致命的。然而,黑色素瘤是最危险的皮肤癌类型,死亡率很高,尽管它只占所有皮肤癌病例的不到5% [ 1].世界卫生组织(WHO)估计,全球每年有13.2万例黑色素瘤病例。2015年,6万例死亡[ 2].

早期发现皮肤癌的传统方法包括皮肤自检和皮肤临床检查(筛查)[ 3.].但是,在患者或家属发现病变时进行皮肤自检是一种随机的方法,因为人们可能会反应过度或反应不足。此外,使用昂贵的专业医疗工具进行临床检查,如皮肤镜、微光谱学和激光工具,需要培训、操作努力、时间和定期随访[ 4].因此,患者开始使用智能手机等移动技术与医生分享图像,以更快地进行诊断。然而,在互联网上分享图片可能会损害隐私。更糟糕的是,图像质量可能不够,这可能导致不准确的诊断。随着进化,人工智能(AI),即训练有素的机器所表现出的类人智能[ 5,已经变得如此普遍,以至于大多数人每天都与基于人工智能的工具进行交互,这些工具可以帮助医生做出决策,并减少医生之间的决策差异。值得一提的是,即使有这样的人工智能技术,皮肤科专家的作用对于诊断和治疗也是至关重要的。

这篇综述的重点是将人工智能作为一种工具,用于帮助皮肤癌诊断过程。在此,基于人工智能的皮肤癌诊断工具使用浅AI方法或深AI方法。这两种方法都涉及通过一种叫做训练的过程来定制计算机算法,从预定义特征形成的数据中学习。不同之处在于,浅层方法倾向于根本不使用多层神经网络,或者使用限制在最小层数的网络[ 6].相比之下,深度方法涉及训练具有许多隐藏层的大型深层多层神经网络,通常范围从数十到数百[ 7].

研究问题

检测皮肤癌具有挑战性、耗时且相对昂贵。 4].例如, 图1显示两个表面上看起来相同的病变[ 8].然而,左图为正常良性病变,右图为黑色素瘤病变。随着人工智能技术变得越来越智能和快速[ 5),因此,它们被用来协助诊断皮肤癌并提出行动方案也就不足为奇了。这是因为基于人工智能的方法被认为是相对便宜、易于使用和可获得的[ 5].因此,它们提供了克服上述现有皮肤癌检测方法固有问题的潜力。然而,随着关于人工智能医疗应用的文献迅速增长,并继续报告使用不兼容的性能指标的发现,在以前的工作之间进行直接比较变得更具挑战性,并可能阻碍未来的研究。本研究旨在通过对现有文献进行严格和透明的回顾来解决这一问题。我们的目标是回答研究问题, 目前有哪些基于人工智能的工具被用于检测和分类皮肤癌?

正常病变(左)与黑色素瘤(右)的相似性。

方法

这篇综述分析了来自不同在线数据库的论文。我们定义了严格的纳入和排除标准来决定哪些论文被纳入。然后,我们根据所使用的方法对论文进行分组,并分析论文所涵盖的领域。最后,我们确定了文献中的空白,并讨论了如何在未来的工作中填补这些空白。我们在开始审查之前制定了一个方案。为确保范围评审的透明度和可复制性,我们遵循了系统评审和元分析扩展范围评审的首选报告项目(PRISMA-ScR)说明和指南[ 9].

搜索策略

我们于2020年7月15日进行了系统搜索。我们从电气和电子工程师协会(IEEE) Xplore、计算机协会数字图书馆(ACM DL)和Ovid MEDLINE数据库中确定了文章。用于搜索书目数据库的术语是基于目标人群(如“皮肤肿瘤”、“皮肤癌”、“皮肤病变”)、干预(如“人工智能”、“机器学习”、“深度学习”)和结果(“诊断”、“筛查”、“检测”、“分类”)确定的。我们从以前的文献研究和评论中获得搜索词。由于实际原因,我们没有进行向后或向前的参考文献列表检查,也没有联系专家。 多媒体附件1显示了用于搜索Ovid MEDLINE的搜索策略,其中“皮肤肿瘤”、“人工智能”、“机器学习”和“深度学习”被用作MESH术语。 多媒体附件1还显示了IEEE Xplore和ACM DL的搜索查询。

研究资格准则

我们纳入了符合以下标准的研究:

2009年1月1日至2020年7月15日期间发表的研究。

用英语写作的研究。

人口:研究只讨论皮肤癌。讨论其他疾病或癌症形式的研究被排除在外。

干预:研究只讨论基于人工智能的应用。讨论皮肤癌相关应用或系统(包括理论、统计或数学方法)的研究被排除在外。

研究讨论了人工智能在检测、分类或诊断皮肤癌方面的具体用途。仅讨论人工智能在临床环境中的一般使用的研究被排除在外。

研究提出了一种新的基于人工智能的方法。案例研究、调查、综述或回应论文,或回顾、评估、分析、评价或比较现有方法的论文被排除在外。

对发表国、研究设计、比较国或结果均无限制。

研究选择

作者Abdulrahman Takiddin (AT)和Alaa Abd-Alrazaq (AA)独立筛选了所有检索到的研究的标题和摘要。按照书面协议,他们在阅读标题和摘要后,独立阅读本研究中包括的论文全文。两位审稿人之间的任何分歧都通过讨论解决。我们通过计算Cohen kappa (κ)来评估编码器之间的一致性,筛选标题和摘要以及阅读全文的Cohen kappa分别为0.86和0.93,表明一致性良好。

数据提取

为了从纳入的研究中可靠和准确地提取数据,开发了一个数据提取表单,并使用八项纳入的研究进行了试验( 多媒体附件2).数据提取过程由AT和AA独立进行。审稿人之间的任何分歧都通过讨论解决,并具有良好的编码间协议(Cohen κ=0.88)。

数据合成

采用叙述的方法来综合提取的数据。具体来说,我们首先根据基于复杂性的诊断技术对纳入的研究进行分组。然后,我们讨论了每个研究中使用的评估指标。接下来,我们根据所使用的评价指标对研究进行分组。此外,我们还考虑了使用的数据集,包括图像数量、图像类型和数据集包含的疾病(诊断类)数量。我们评估了准确性评分与数据集的图像数量和诊断类别之间的相关性。

结果 搜索结果

在搜索了3个在线数据库后,我们总共检索了906项研究。然后我们分三个阶段开始排除论文。如 图2在第一阶段“鉴定”中,我们排除了42篇论文。在第二阶段“筛选”中,我们排除了711篇论文。在最后一个阶段,“资格”,我们纳入了153篇论文进行全文审查。在对论文全文进行审阅后,我们剔除了100篇论文。将各阶段论文排除在外的具体原因见 图2.因此,本次范围综述中纳入的论文总数为53篇。

棱镜的方法。美国计算机协会数字图书馆;AI:人工智能;电气与电子工程师学会;PRISMA:系统评价和元分析的首选报告项目。

研究特点

表1总结所选研究的特点。 图3显示每年发表的论文数量:53项研究中有4项(7.6%)是在2016年之前发表的[ 10- 13], 2016年、2017年和2018年共发表研究26篇(49.1%)[ 14- 39], 2019年和2020年发表研究23篇(43.4%)[ 40- 62].虽然我们的选择标准包括2009年至2020年7月发表的论文,但全文综述后最古老的发表论文是在2011年发表的。我们观察到,2018年和2019年论文数量大幅增加。

研究特征(N=53)。

特征 n (%)
出版年
在2016年之前 4 (7.5)
2016 - 2018 26日(49.1)
2019 - 2020 23日(43.4)
出版国家
美国 9 (16.9)
中国 6 (11.3)
印度 5 (9.4)
波兰 3 (5.7)
新西兰 2 (3.8)
奥地利 2 (3.8)
德国 2 (3.8)
孟加拉国 2 (3.8)
印尼 2 (3.8)
巴基斯坦 2 (3.8)
火鸡 2 (3.8)
法国 1 (1.9)
俄罗斯 1 (1.9)
联合王国 1 (1.9)
香港 1 (1.9)
伊朗 1 (1.9)
韩国 1 (1.9)
菲律宾 1 (1.9)
黎巴嫩 1 (1.9)
沙特阿拉伯 1 (1.9)
新加坡 1 (1.9)
泰国 1 (1.9)
澳大利亚 1 (1.9)
加拿大 1 (1.9)
埃及 1 (1.9)
尼日利亚 1 (1.9)
南非 1 (1.9)
发布类型
会议论文集 31 (58.5)
期刊 22日(41.5)

年发表论文数。

图4显示所收录研究的出版区域。所包括的研究在世界不同地区发表。在南亚,在中国、印度、孟加拉国、印度尼西亚、巴基斯坦、新加坡、韩国和泰国进行了22项研究(41.5%);10项研究(18.9%)在北美进行,特别是美国和加拿大;在欧洲进行了10项研究,包括奥地利、波兰、德国、法国、英国和俄罗斯;5项研究(9.4%)在中东地区进行,包括黎巴嫩、土耳其、伊朗和沙特阿拉伯;3项研究(5.7%)在非洲进行,特别是埃及、南非和尼日利亚;在大洋洲,新西兰和澳大利亚完成了3项研究。

所选的研究要么发表在会议论文集上,要么发表在期刊上:53项研究中有31项(58.5%)发表在会议论文集上,其余的论文(22/ 53,41.5%)发表在期刊上。 多媒体显示每个纳入的研究的特点。

各地区发表论文数。

数据的特点

表2总结所选研究中所用数据的特点。这些研究使用不同大小的数据集来训练模型。在所选研究中使用的图像的平均数量约为7800张。使用的图像数量最少为40张[ 24],而使用最多的图片数量为129,450张[ 23].根据使用的图像数量,我们将这些数据集大小分为三组。第一类包含小于1000张图像的小数据集(21/ 53,39.6%)。第二类使用由1000-10,000张图像组成的中型数据集(25/ 53,47.2%)。最后一类包含超过10,000张图像的大型数据集(7/ 53,13.2%)。

我们根据论文的分类类型将论文分为两组。我们发现超过一半的论文(31/ 53,58.5%)建立了模型来分类病变是良性还是恶性(两类/二元分类)。其余的论文(22/ 53,41.5%)采用三个或三个以上的诊断等级(多类分类)对皮损进行分类。 图5显示使用不同诊断类别的论文数量。在多类分类中,8项研究使用3个诊断类,1项研究使用4个诊断类,2项研究使用5个诊断类,10项研究使用7个诊断类,1项研究使用9个诊断类。良性类包括良性角化病、黑素细胞痣和皮肤纤维瘤。恶性肿瘤包括黑素瘤和基底细胞癌。其他病变,如血管病变、光化性角化病、基因皮肤病和肿瘤,可能是良性或恶性的。

数据和部署特征(N=53)。

特征 n (%)
数据集大小
21日(39.6)
媒介 25 (47.1)
7 (13.2)
分类类型
2类 31 (58.5)
3类 8 (15.1)
4类 1 (1.9)
5类 2 (3.8)
7类 10 (18.9)
9类 1 (1.9)
图像类型
Dermoscopic 43 (81.1)
临床 5 (9.4)
高质量的 4 (7.5)
光谱 1 (1.9)
部署
发展 45 (84.9)
系统 3 (5.7)
Web应用程序 3 (5.7)
移动应用程序 2 (3.8)

关于用于训练、测试和验证模型的图像类型,53项研究中有43项(81.1%)使用皮肤镜图像;5项研究(9.4%)使用了使用普通相机拍摄的临床图像;4项研究(7.5%)使用专业相机拍摄的高质量图像。其余的研究使用了光谱图像,需要一个专门的系统,从三个不同的地方使用偏振光和非偏振光对病变进行成像。

大多数研究(45/ 53,84.9%)提出的技术仍处于开发阶段。其余的研究(8/ 53,15.1%)已部署成可用的形式:3项研究开发了医疗保健系统,3项研究将模型部署到移动应用程序,2项研究将模型转移到web应用程序。 多媒体附件4显示每个纳入研究的数据和部署特征。

按所使用的诊断分类的发表论文数量。

诊断技术

我们根据用于检测和分类皮肤癌的人工智能技术将论文分为两组。这些小组是技术和技术。这两组人的区别主要在于模型背后的AI架构的复杂性。技术使用简单的机器学习算法,如支持向量机(SVM),或仅使用几层神经网络[ 63].相比之下,如果人工智能架构是一个至少由三层组成的神经网络,那么它就被归类为人工智能技术( 19].结果表明,大约四分之一的研究(14/ 53,26.4%)使用了浅层技术,而其余的研究(39/ 53,73.6%)使用了深层技术。在每个组中,研究可能使用了不同的模型或算法,一些研究提出了多种方法或使用多种方法提供测试数据。在本研究中,我们只考虑每篇论文中报告性能最好的模型。

表3大多数研究都使用了技术采用支持向量机(9/14,64.3%),这是一种常见的两类分类器,使用超平面作为决策边界[ 6].其余的研究(5/14,35.7%)采用朴素贝叶斯(NB)算法(1/14,7.1%),这是一种概率分类器,假设特征之间的条件独立性[ 6];logistic回归(LR;1/14),使用概率进行预测;k-最近邻(kNNs;1/14),根据接近的样本对样本进行分类;随机森林(RFs;1/14),使用决策树进行分类[ 6].混合模型(1/14)使用Adaboost和SVM通过多次迭代对图像进行分类。

纳入的研究采用浅技术(N=14)。

模型 n (%) 参考
支持向量机一个 9 (64.3) 12 15 16 19 21 26 27 29 60
b 1 (7.1) 11
LRc 1 (7.1) 13
然而,d 1 (7.1) 25
射频e 1 (7.1) 28
混合动力 1 (7.1) 18

一个支持向量机:支持向量机。

b注意:朴素贝叶斯。

c逻辑回归。

dkNN: k-最近邻。

eRF:随机森林。

大多数研究都使用了技术( 表4)采用了不同类型的卷积神经网络(cnn;36/ 39,92.3%),将部分图像的重要性分配给使用imagenet预训练的架构(18/ 39,46.2%),包括剩余网络(ResNet), Inception, AlexNet, MobileNet, Visual Geometry Group (VGG), Xception, DenseNet和GoogleNet。此外,一些基于cnn的研究(11/ 39,28.2%)构建了定制的cnn或resnet。此外,一些研究采用了不同的cnn组合以及其他模型(混合模型;5/ 39,12.8%),以及使用集成模型(4/ 39,10.3%);其余研究(1/ 39,2.6%)使用OpenCV库。 多媒体提供了关于每个模型的详细信息,包括所使用的方法、层数(从1层到121层)、用于选择超参数的方法,以及所提出的模型相对于研究中其他报告模型的性能。

纳入的研究采用了深度技术(N=39)。

模型 n (%) 参考
Pretrained cnn一个
ResNetb 5 (12.8) 22 41 49 50 54
《盗梦空间》 3 (7.7) 23 42 56
AlexNet 3 (7.7) 34 35 39
MobileNet 3 (7.7) 45 51 55
VGGc 2 (5.1) 30. 52
Xception 1 (2.6) 43
DenseNet 1 (2.6) 58
自定义
美国有线电视新闻网 9 (23.1) 14 24 40 47 53 57 59 61 62
ResNet 2 (5.1) 31 33
混合动力 5 (12.8) 17 32 38 44 46
系综 4 (10.3) 20. 36 37 48
OpenCV 1 (2.6) 10

一个CNN:卷积神经网络。

bResNet:剩余网络。

cVGG:视觉几何组。

评价指标

本范围综述中包括的研究使用不同的评价指标来评估他们提出的模型。在这些研究中,使用以下五个主要评价指标来评估构建的模型:准确性、敏感性和特异性、阳性预测值(PPV)或精度、曲线下面积(AUC)和f1评分。所有五个指标的范围从0%到100%;得分越高,模型表现越好。为了计算不同的评估指标,确定了以下类型的样本:第一,真阳性(TPs),这是AI工具也检测为恶性的恶性样本;第二,假阳性(FPs),即人工智能工具检测为恶性的良性样本;第三,真阴性(TNs),这是良性样本,也被AI工具检测为良性;第四,假阴性(FNs),即被AI工具检测为良性的恶性样本。值得一提的是,超过一半的研究(33/ 53,62.3%)除了主要指标外,还报告了多个评估指标。

准确率= (TP + TN)/(TP + TN + FP + FN),这表明模型检测诊断类别的好坏,在大多数论文中被报道(44/ 53,83%)。30篇(56.6%)论文报道了敏感性或召回率= TP/(TP + FN),即仅给出恶性样本时,模型正确诊断为恶性的概率。特异性= TN/(TN + FP),它决定了阴性样本被正确检测的比例,有24篇(45.3%)论文报道。PPV或precision = TP/(TP + FP)有13篇(24.5%)报道。AUC是受试者工作特征(ROC)曲线的面积,用于绘制TP与FP的关系,有11篇(20.8%)论文报道。有9篇(16.9%)论文报道了F1-score,即召回率和准确度的调和平均值。此外,有4篇(7.5%)论文报道了骰子系数= 4TP/(FN + 2TP + FP)。2篇(3.8%)报道阴性预测值(NPV) = TN/(TN + FN)。Jaccard指数= 2TP/(TP + FN + FP)有2篇文献报道。Cohen κ在2篇论文中也有报道。 Finally, the Youden index = sensitivity + specificity – 1 was reported in 1 (1.9%) paper.

在这里,我们在进行多个实验的情况下,根据表现最好的实验对每篇论文进行分析。此外,如果使用多个评价指标,我们使用作者在摘要或结论中报告的主要评价指标得分作为论文的主要重点,或在多类分类论文中使用每个诊断类的平均分。在上述指标中,准确性、AUC、敏感性和特异性以及f1评分被用作主要评价指标。约73%(39/53)的论文使用准确性作为主要评估指标来评估训练过的模型。平均准确率为86.8%,最大值为98.8% [ 60]及最少67% [ 10].9项研究报告了AUC,平均得分87.2%;AUC评分最高为91.7% [ 41],而最低AUC评分为82.0% [ 26].4项研究采用敏感性和特异性,1项研究报告f1评分。 多媒体附件6显示每个纳入研究的数据特征、使用模型和评估分数( 表5).

纳入研究报告的主要评价指标和评分(N=53)。

分数 参考
精度
99% 60
98% 21 27
96% 24
95% 17 22 61
94% 20. 40
93% 16
92% 18
91% 51 52 62
90% 36 42 57
89% 11 43
88% 13 48
87% 25 49 53
86% 35 44 58
84% 34
83% 54 55
81% 14
80% 19
77% 28
75% 39 47 59
72% 23 56
67% 10
AUC一个
92% 41
91% 33 38
89% 32
87% 46
85% 37 50
84% 30.
82% 26
灵敏度
96% 31
90% 15
83% 12
77% 29
特异性
96% 15
90% 12
89% 31
70% 29
F1-score
83% 45

一个AUC:曲线下面积。

讨论 主要发现

我们研究了53个入选研究的多种特征类型。首先,我们纳入了研究特征。大多数研究发表在2019年,大多数研究发表在南亚,大多数研究发表在期刊上。其次,我们讨论了数据特征。对于训练和测试,大多数研究使用中等大小的数据集,大多数研究建立了二进制分类器,皮肤镜图像使用最多。第三,我们将采用的AI模型分为浅层和深层。大多数浅层模型是基于SVM的,而大多数深层模型是基于cnn的神经网络。一般来说,深层模型比浅层模型被采用得多。第四,我们列出了用于评估模型性能的评估指标以及报告的分数。总共使用了11个不同的评估指标,其中准确性是最常用的指标,因此我们专注于准确性。

性能因素

在分析报告的性能分数之后,我们得出的结论是,性能与使用的类数量之间存在相关性。此外,影响性能的另一个因素是数据集大小。接下来,我们研究这个假设的准确性,因为大多数研究(39/ 53,73.6%)使用它作为主要评价指标,尽管它可能不是最合适的评价指标来评估这样的任务,特别是在数据不平衡的情况下。我们相信,拥有一个混淆矩阵或TPs、FPs、tn和fn的数量将避免偏差,并对模型在每个诊断类别上的行为给出更清晰的评估。从这些研究中,最高的准确性分数为~98% [ 21 27 60].在导致这种准确性的研究中,作者分别使用200、356和200张图像的数据集建立了一个两类分类(良性和恶性)模型。前10个准确率分数(99%-92%)还使用平均约800张图像构建了两类分类器。此外,26项研究使用大约1000张图像的平均数据集大小构建了平均准确率约为88%的两类分类器,而17项研究构建了平均准确率为85%的多类分类器;他们平均使用了大约15000张图片。准确度第二低的为72% [ 23],其中作者使用9个不同的诊断类和129,450张图像开发了一个多类分类器,这是本研究中包含的类数量最多、数据集规模最大的分类器。 图6用对数数据集的大小和准确度绘制图,用颜色表示诊断类的数量。可以看出,准确率随着诊断类的数量和数据集大小的减少而增加。具体来说,在准确率达到90%的阈值之后,我们可以看到大多数研究都建立了两类分类器。下面将进一步讨论这种模式背后可能存在的因素。

诊断类的数量和数据集大小对准确性的影响。

分类类型

与多类分类器相比,二进制分类器往往具有更好的性能。从直觉上看,这似乎是正确的,因为二进制分类器的表达能力较弱。二进制分类器“要学习的东西更少”,而不是区分几个类。为了说明这一点,让我们比较二元分类器和五类分类器的每个类的概率限制。对于五类分类器,必须至少有一个概率≤20%的类(根据 鸽子洞原理 64])。因此,预测这种低概率类通常比二元分类器的情况更难,对于二元分类器,我们知道存在恰好(因此,最多)一个概率≤50%的类。另一种看待它的方式是考虑一个算法,它在假设数据完美平衡的情况下执行随机选择。在二进制情况下,该算法的错误率为50%,而对于五类分类器,错误率增加到80%,增加了1.6倍。数据不平衡可能会进一步加剧这一问题,这种不平衡往往是由于医疗状况流行率的差异而自然产生的。因此,在给定较少的训练数据的情况下,二进制分类器工作良好也就不足为奇了,因为模型仍然可以为每个类提供足够数量的示例。

数据集大小因子

然而,令人惊讶的是 图6表明训练数据越少,性能越好。为此,我们想要注意的是,性能最好的两种方法使用了浅层技术,与深层方法相比,浅层技术对数据的需求要小得多,因为手动特征工程通常是管道的一部分。此外,Afifi等[ 21]使用临床图像数据,这些数据可能具有较高的质量。此外,根据测试设置的不同,不能排除依赖较少数据的方法缺乏使用大量数据训练的模型的通用性。在这种情况下,由于过拟合,模型将比一般的检测器和分类器更接近数据检索机。为了充分评估这类明显的问题,在报告结果时不要依赖单一的性能指标,这很重要。特别是,在这种情况下,敏感性和特异性与准确性同样重要,因为它们模拟了FN和FP率。因此,综上所述,我们想重申我们之前的声明,我们认为任何人工智能在部署到临床环境之前,都必须进行严格的临床研究和测试。

技术类型因素

关于本综述中所包括的研究中描述的技术,深层和浅层模型(无论层数)具有相似的性能。例如,在浅层模型中,使用支持向量机(SVM)构建前五种皮肤癌探测器,使用相对较小的数据集,准确率为93%-99%。支持向量机是浅层模型中最常用的方法。同样,在深度模型中,前五种基于cnn的皮肤癌检测器使用中型数据集的准确率为94%-96%。在深度模型中,cnn也是最常用的方法。从理论上讲,深度神经网络在图像分类方面往往具有更好的性能[ 65].其中一个原因是,与深度网络相比,浅模型通常局限于表达能力较差的功能空间。从技术角度来看,这可能很好地解释了它们由于在训练中缺乏完全捕捉图像复杂性质的能力而导致的较低性能。相比之下,深度网络和cnn可以在多个尺度和复杂性下学习特征,以提供快速诊断[ 66].因此,它们不仅从医学图像中检测、选择和提取特征,而且还通过增强和构建医学图像中的新特征来做出贡献[ 67].所纳入研究中表现的相似性和不一致性是由于所使用的不同评价指标、数据集大小、图像类型和研究中诊断类的数量。

出版年

根据研究特点,我们注意到自2016年以来发表的论文数量有所增加,并且大多数论文讨论了皮肤镜图像的使用,使其成为皮肤癌检测和分类中使用最多的图像方式。我们认为这是因为国际皮肤成像合作(ISIC)比赛始于2016年[ 8,该公司提供了几个皮肤镜图像的医疗数据集,这些数据集后来被用于构建基于人工智能的模型。这些研究大多还处于发展阶段,我们坚信这些模型还需要在医院进行进一步的验证和测试。然而,皮肤科医生和患者开始适应依靠人工智能诊断皮肤癌的概念。

实践及研究意义

在这篇范围综述中,我们总结了文献中有关使用基于人工智能的技术诊断皮肤癌的发现。我们还根据所使用的方法、人工智能技术的类型及其性能对这篇综述中包含的论文进行了分类,并发现了这些方面之间的联系。

我们注意到,尽管本范围综述中包括的所有论文都讨论了特定人工智能技术的应用和性能,但报告是异构的。通常不会讨论使用特定AI技术与其他方面(如数据集大小)之间的关系,甚至讨论为什么所使用的评估指标是合理的。当然,这可能会阻碍这一方向的研究,因为未来的研究越来越难以与遵循科学严谨性的现有工作进行全面比较。这个范围审查通过执行必要的特征和分析来填补这一空白。这是通过将每种使用的人工智能技术分组为浅方法和深方法,将每种类型与所使用的评估指标联系起来,列出和解释每项研究中使用的诊断类别的数量,并强调性能对数据集大小和其他因素的依赖关系来实现的。据我们所知,还没有类似的工作来填补这一空白。在结论部分,我们将强调我们的主要发现。

限制

本范围综述检查了2009年1月至2020年7月之间发表的论文,在此时间线之外发表的任何研究都被排除在外,这可能排除了旧的基于人工智能的方法。此外,我们还检查了用英语写的论文;其他语言没有被包括在内,这可能导致在世界其他地区进行的一些研究被排除在外。另一个限制可能是进行研究的时间和提交工作的时间之间的差距,这排除了在这段时间内发表的论文。尽管我们尽了全力,但仍不能完全排除在学术数据库中偶然忽略论文的可能性。此外,尽管我们试图讨论文献中的所有发现,但详细介绍论文的每一个发现超出了本文的范围。同样,对文献中的数据偏差(诊断类别、患者种族、肤色、性别等方面的数据不平衡)进行调查,作为未来研究的方向。

结论

人工智能的使用在促进皮肤癌诊断方面具有很大的潜力。人工智能的两个主要分支用于检测和分类皮肤癌,即浅层和深层技术。然而,这种人工智能工具的可靠性是值得怀疑的,因为不同的数据集大小、图像类型和诊断类的数量正在使用不同的评估指标进行评估。准确性是最常用的主要评价指标,但不允许独立评估FN和FP率。这项研究发现,当包括更少的诊断类别时,报告的准确性得分更高。有趣且与直觉相反的是,我们的分析还表明,当包括较小的样本量时,报告的准确性得分更高,这可能是由于图像类型和所使用的技术等因素。此外,只有使用大型、多样化和无偏倚的数据库进行独立的外部验证,才能在临床部署之前证明任何人工智能技术的通用性和可靠性。

搜索查询。

数据提取表单。

研究的特点。

数据和部署特征。

技术细节。

数据、模型和评估。

缩写 ACM DL

计算机数字图书馆协会

人工智能

人工智能

AUC

曲线下面积

美国有线电视新闻网

卷积神经网络

FN

假阴性

《外交政策》

假阳性

IEEE

美国电气和电子工程师学会

ISIC

国际皮肤成像合作组织

然而,

LR

逻辑回归

朴素贝叶斯

净现值

负预测值

PPV

阳性预测值

PRISMA-ScR

系统评价和元分析的首选报告项目范围评价的扩展

ResNet

剩余的网络

射频

随机森林

中华民国

接收机工作特性

支持向量机

支持向量机

TN

真正的负

TP

真阳性

VGG

视觉几何组

没有宣布。

一个 古普塔 一个 艾尔 一个 基于深度卷积神经网络的皮肤病变分类:过程开发与验证 JMIR北京医学 2020 5 7 3. 1 e18438 10.2196/18438 德·卡瓦略 TM 诺埃尔 E Wakkee Udrea 一个 Nijsten T 皮肤癌风险评估智能手机应用程序的开发:进展和前景 JMIR北京医学 2019 07 11 2 1 e13376 10.2196/13376 Loescher LJ 简达 索亚 惠普 非洲酪脂树 K Curiel-Lewandrowski C 皮肤癌早期发现和诊断的研究进展 Semin Oncol Nurs 2013 08 29 3. 170 81 10.1016 / j.soncn.2013.06.003 23958215 s0749 - 2081 (13) 00033 - 8 CA Majumder SK 埃利斯 戴斯。莱纳姆: Billheimer DD Mahadevan-Jansen 一个 活体非黑素瘤皮肤癌的显微拉曼光谱诊断 激光外科医学 2008 09 40 7 461 467 10.1002 / lsm.20653 18727020 PMC2782422 墨菲 R 人工智能机器人技术简介 2019 剑桥,麻 麻省理工学院出版社 Marsland 年代 机器学习:算法视角 2011 佛罗里达州博卡拉顿 CRC的新闻 密特拉 B Craswell N 神经信息检索导论 2018 波士顿 基础和趋势 ISIC 2018:黑色素瘤检测的皮肤损伤分析 2020-06-11 https://challenge2018.isic-archive.com/ Tricco 交流 莉莉· E Zarin W O ' brien Colquhoun H Levac D 莫赫 D 彼得斯 医学博士 霍斯利 T l 亨佩尔 年代 阿克勒说道 EA C 麦高文 J 斯图尔特 l 哈特尔 l Aldcroft 一个 威尔逊 毫克 Garritty C 列文 年代 戈弗雷 厘米 麦克唐纳 Langlois 电动汽车 Soares-Weiser K 莫里亚蒂 J 克利福德 T Tuncalp O 施特劳斯 SE 用于范围审查的PRISMA扩展(PRISMA- scr):检查表和解释 实习医生 2018 10 02 169 7 467 473 10.7326 / m18 - 0850 Ramlakhan K Y 移动自动皮肤病变分类系统 2011 IEEE第23届人工智能工具国际会议 2011 佛罗里达州博卡拉顿 10.1109 / ictai.2011.29 l Y H 梯也尔 黑洞 生理改变 在光谱系统上使用机器学习方法自动诊断黑色素瘤 BMC医学影像 2014 10 13 14 1 36 10.1186 / 1471-2342-14-36 25311811 1471-2342-14-36 PMC4204387 Sabouri P GholamHosseini H 拉赫松 T 柯林斯 J 一种用于临床图像黑素瘤诊断的级联分类器 2014 2014年第36届IEEE医学与生物工程学会国际年会 2014年8月26-30日 芝加哥, 6751 10.1109 / embc.2014.6945177 考尔 R Albano 科尔 哈格蒂 J 利安得 RW 莫斯 RH Stoecker 西弗吉尼亚州 黑色素瘤皮肤镜图像中粉红色区域的实时监督检测:颜色深浅、纹理和位置的重要性 皮肤复原技术 2015 11 22 21 4 466 73 10.1111 / srt.12216 25809473 PMC4578974 Nasr-Esfahani E Samavi 年代 卡里 N Soroushmehr SMR 贾法里 MH 病房 K 纳加里安先生 K 利用卷积神经网络分析临床图像的黑色素瘤检测 2016 第38届IEEE医学与生物工程学会国际年会 2016 奥兰多,佛罗里达 10.1109 / embc.2016.7590963 Jaworek-Korjakowska J 应用支持向量机进行微恶性黑色素瘤病变的计算机辅助诊断 生物医学保留区 2016 2016 4381972 10.1155 / 2016/4381972 27382567 PMC4921724 Jaworek-Korjakowska J Kłeczek P 利用人工智能对特定黑素细胞病变进行自动分类 生物医学保留区 2016 2016 8934242 10.1155 / 2016/8934242 26885520 PMC4739011 Sabbaghi 年代 Aldeen Garnavi R 皮肤镜图像中黑色素瘤分类的深层特征袋模型 2016 2016第38届IEEE医学与生物工程学会国际年会(EMBC) 2016 奥兰多,佛罗里达 2016 10.1109 / embc.2016.7590962 Premaladha J Ravichandran KS 通过监督和深度学习算法诊断黑素瘤皮肤病变的新方法 J医学系统 2016 04 12 40 4 96 10.1007 / s10916 - 016 - 0460 - 2 26872778 10.1007 / s10916 - 016 - 0460 - 2 穆斯塔法 年代 Dauda AB Dauda 黑色素瘤检测的图像处理和SVM分类 2017 2017计算网络与信息学国际会议(ICCNI) 2017 拉各斯,尼日利亚 1 5 10.1109 / iccni.2017.8123777 F 风扇 H Y Z R Bovik 一个 基于神经网络集成模型的皮肤镜图像黑素瘤分类 IEEE跨医学成像 2017 3. 36 3. 849 858 10.1109 / tmi.2016.2633551 阿菲菲 年代 GholamHosseini H Sinha R 基于SVM的黑素瘤芯片分类器 2017 第39届IEEE医学与生物工程学会国际年会 2017 韩国济州岛(南) 10.1109 / embc.2017.8036814 l H J P 基于深度残差网络的皮肤镜图像黑色素瘤自动识别 IEEE跨医学成像 2017 4 36 4 994 1004 10.1109 / tmi.2016.2642839 Esteva 一个 Kuprel B 诺沃亚 类风湿性关节炎 Ko J 不要 SM 蓝色 杜伦 年代 利用深度神经网络对皮肤癌进行皮肤科医生级别的分类 自然 2017 01 25 542 7639 115 118 10.1038 / nature21056 Mandache D Dalimier E Durkin J Boceara C Olivo-Marin J Meas-Yedid V 基于卷积神经网络的全场OCT图像基底细胞癌检测 2018 IEEE第15届生物医学成像国际研讨会(ISBI) 2018 华盛顿特区 10.1109 / isbi.2018.8363689 Linsangan N Adtoon J 基于k-最近邻算法的痣皮肤癌检测分类 2018 第五届生物信息学研究应用国际会议 2018 纽约州纽约 10.1145/3309129.3309141 Codella 数控 Dusza 西南 古特曼 Helba B Kalloo 一个 Mishra N 卡雷拉 C Celebi 德法兹奥 莱托 jaime N Marghoob AA 奎格利 E 范围 一个 Yelamos Oriol Halpern 交流 国际皮肤成像合作组织 2016年国际皮肤成像合作国际生物医学成像研讨会的结果挑战:比较计算机算法与皮肤科医生从皮肤镜图像诊断黑色素瘤的准确性 我是皮肤学院 2018 02 78 2 270 277. e1 10.1016 / j.jaad.2017.08.016 28969863 s0190 - 9622 (17) 32202 - 8 PMC5768444 纳西尔 顶层汗 谢里夫 雀跃起来 国际单位 萨巴 T 伊克巴尔 T 一种改进的基于均匀分割和特征选择的皮肤病变检测与分类策略 Microsc Res Tech 2018 06 21 81 6 528 543 10.1002 / jemt.23009 29464868 Gautam D 艾哈迈德 之一Meena 哈奇 一个 基于机器学习的黑色素瘤宏图像诊断 国际数值方法生物工程 2018 05 20. 34 5 e2953 10.1002 / cnm.2953 29266819 萨勒姆 C 阿扎尔的 D Tokajian 年代 一种基于图像处理和遗传算法的黑色素瘤患者检测方法 方法 2018 231 286 C 年代 W 荣格 J K 西南 B 肢端黑色素瘤检测使用卷积神经网络皮肤镜图像 《公共科学图书馆•综合》 2018 3. 7 13 3. e0193321 10.1371 / journal.pone.0193321 Putten 电动汽车 Kambod 一个 Kambod 深度残余神经网络用于自动检测基底细胞癌 2018 IEEE EMBS生物医学健康信息国际会议(BHI) 2018 内华达州拉斯维加斯 10.1109 / bhi.2018.8333437 X 航行 H l 年代 Y Z 基于多目标深度神经网络的皮肤损伤分析 2018 第40届IEEE医学与生物工程学会国际年会 2018 火奴鲁鲁,嗨 2018 10.1109 / embc.2018.8512488 Y l 基于深度学习网络的黑色素瘤皮肤病变分析 传感器(巴塞尔) 2018 02 11 18 2 556 10.3390 / s18020556 29439500 s18020556 PMC5855504 Kaymak 年代 Esmaili P 宁静 一个 深度学习用于恶性色素性皮肤病变的两步分类 2018 第十四届神经网络与应用研讨会(NEUREL) 2018 贝尔格莱德,塞尔维亚 1 10.1109 / neurel.2018.8587019 Hameed N Shabut 一个 侯赛因 基于深度卷积神经网络和支持向量机的多类皮肤病分类 2018 第12届软件、知识、信息管理应用国际会议 2018 柬埔寨,金边 10.1109 / skima.2018.8631525 萨因 一个 卡迈勒 一个 里德 基于深度集成学习的真皮镜图像皮肤病变分类方法 2018 第九届开罗国际生物医学工程会议(CIBEC) 2018 开罗,埃及 10.1109 / cibec.2018.8641815 Harangi B Baran 一个 不仅如此,豪伊杜还 一个 使用深度神经网络集成的皮肤损伤分类 2018 2018年第40届IEEE医学与生物工程学会国际年会(EMBC) 2018 火奴鲁鲁,嗨 2018 10.1109 / embc.2018.8512800 Mahbod 一个 Schaefer G C 埃克 R Ellinge 基于混合深度神经网络的皮肤损伤分类 2019 IEEE声学、语音和信号处理国际会议(ICASSP) 2019 英国布赖顿 10.1109 / icassp.2019.8683352 Shihadeh J 安萨里 一个 Ozunfunmi T 基于深度学习的远程医学诊断图像分类 2018 IEEE全球人道主义技术会议 2018 圣何塞,加利福尼亚州 10.1109 / ghtc.2018.8601558 尼达 N Irtaza 一个 Javed 一个 Yousaf MH 马哈茂德 基于深度区域卷积神经网络和模糊c均值聚类的黑色素瘤病灶检测与分割 国际医学杂志 2019 04 124 37 48 10.1016 / j.ijmedinf.2019.01.005 30784425 s1386 30747 - 0 - 5056 (18) J Y Y C 注意残差学习对皮损分类的影响 IEEE跨医学成像 2019 9 38 9 2092 2103 10.1109 / tmi.2019.2893944 Demir 一个 Yilmaz F 高丝 O 使用深度学习架构进行皮肤癌早期检测:ResNet-101和Inception-v3 2019 医疗技术大会(TIPTEKNO) 2019 伊兹密尔,土耳其 10.1109 / tiptekno47231.2019.8972045 Gavrilov D Lazarenko l Zakirov E 人工智能识别在皮肤病理检测中的应用 2019 2019人工智能应用与创新国际会议(IC-AIAI) 2019 贝尔格莱德,塞尔维亚 10.1109 / ic-aiai48757.2019.00017 Aggarwal 一个 达斯 N Sreedevi 用于皮肤癌分类的注意力引导深度卷积神经网络 2019 第九届图像处理理论、工具与应用国际会议(IPTA) 2019 土耳其伊斯坦布尔 10.1109 / ipta.2019.8936100 Y 深度学习在皮肤癌快速诊断中的应用 2019 2019国际信息技术与计算机应用会议 2019 广州,中国 10.1109 / itca49981.2019.00034 R X 多池注意力学习在黑色素瘤识别中的应用 2019 2019年数字图像计算技术与应用(DICTA) 2019 珀斯,WA,澳大利亚 10.1109 / dicta47822.2019.8945868 X Spasi 迈耶 B 查普曼 年代 安德烈斯 F 移动机器学习:用于皮肤癌检测的设备推理应用程序 2019 第四届雾与移动边缘计算国际会议(FMEC) 2019 罗马,意大利 一个 10.1109 / fmec.2019.8795362 Mahbod 一个 Schaefer G 我和我的朋友 埃克 R Pitiot 一个 C 融合精细的深层特征用于皮肤病变分类 计算医学成像图 2019 01 71 19 29 10.1016 / j.compmedimag.2018.10.007 30458354 s0895 30605 - 0 - 6111 (18) Wodzinski Skalski 一个 Witkowski 一个 Pellacani G Ludzik J 使用反射共聚焦显微镜进行皮肤病变分类的卷积神经网络方法 2019 2019年第41届IEEE医学与生物工程学会国际年会 2019 柏林,德国 10.1109 / embc.2019.8856731 Brinker TJ Hekler 一个 Enk 冯•勒• C 增强分类器训练,提高卷积神经网络识别皮肤病变图像的精度 《公共科学图书馆•综合》 2019 6 24 14 6 e0218713 10.1371 / journal.pone.0218713 31233565 玉米饼- d - 18 - 30501 PMC6590821 Ech-Cherif 一个 Misbhauddin Ech-Cherif 基于深度神经网络的移动皮肤镜在皮肤癌分类检测中的应用 2019 第二届国际计算机应用及资讯安全会议 2019 沙特阿拉伯利雅得 10.1109 / cais.2019.8769517 古哈 Rafizul Haque SM 基于卷积神经网络的黑色素瘤皮肤病变分类分析 2019 工业4.0可持续技术国际会议 2019 达卡,孟加拉国 10.1109 / sti47673.2019.9067979 Kassani 上海 Kassani PH值 Wesolowski 乔丹 施耐德 阻止了 R 深度可分离卷积神经网络用于皮肤病变分类 2019 IEEE信号处理与信息技术国际研讨会(ISSPIT) 2019 阿吉曼,阿拉伯联合酋长国 10.1109 / isspit47144.2019.9001790 Budhiman 一个 苏言拓 年代 Arifianto 一个 基于ResNet的黑素瘤分类与数据增强 2019 2019年信息技术与智能系统国际研讨会 2019 日惹,印尼 10.1109 / isriti48646.2019.9034624 Sae-Lim W Wettayaprasit W Aiyarak P 使用MobileNet进行皮肤病变分类的卷积神经网络 2019 第16届国际计算机科学与软件工程联席会议(JCSSE) 2019 泰国春武里 10.1109 / jcsse.2019.8864155 Purnama 艾克 Hernanda 正义与发展党 Ratna AAP Nurtanio Hidayati 一个 Purnomo MH 努哥鲁 短信 Rachmadi 射频 远程皮肤病学系统中基于皮肤镜皮肤图像的疾病分类 2019 计算机工程、网络与智能多媒体国际会议(CENIM) 2019 印尼苏腊巴亚 10.1109 / cenim48368.2019.8973303 哈桑 酒吧间招待员 SD 伊斯兰教 年代 雷扎 亚历山大-伍尔兹 基于卷积神经网络的皮肤癌检测 2019 第五届国际计算人工智能会议,美国纽约 2019 印尼巴厘岛 10.1145/3330482.3330525 l K H 基于集成轻量级深度学习网络的皮肤镜图像皮肤癌自动检测 IEEE访问 2020 8 99633 99647 10.1109 / access.2020.2997710 Nasiri 年代 的负责人 J 荣格 Fathi 描述黑色素瘤深类:一种深度卷积神经网络方法来分类皮肤病变图像 BMC生物信息学 2020 03 11 21 增刊2 84 13 10.1186 / s12859 - 020 - 3351 - y 32164530 10.1186 / s12859 - 020 - 3351 - y PMC7068864 Poovizhi 年代 Ganesh先生 TR 基于Bendlet变换和支持向量机的高效皮肤癌诊断系统 巴西科学院 2020 92 1 e20190554 10.1590 / 0001 - 3765202020190554 32491128 s0001 - 37652020000100803 Adegun AA Viriri 年代 基于深度学习的黑色素瘤自动检测系统 IEEE访问 2020 8 7160 7172 10.1109 / access.2019.2962812 Sanketh RS Madhu巴拉 纳兰德拉Reddy 光伏 Phani库马尔 全球之声 利用卷积神经网络检测黑素瘤疾病 2020 2020第四届智能计算与控制系统国际会议,2020 2020 马杜赖,印度 10.1109 / iciccs48265.2020.9121075 格拉汉姆·古德费勒 Bengio Y 考维尔 一个 深度学习 2016 剑桥,麻 麻省理工学院出版社 Herstein 代数主题 1964 沃尔瑟姆,马 布莱斯德尔 90 X C W H 浅分类或深度学习:实验研究 2014 2014年第22届模式识别国际会议 2014 斯德哥尔摩,瑞典 10.1109 / icpr.2014.333 Brinker TJ Hekler 一个 Utikal JS 主观能动性 N Schadendorf D Klode J 伯克 C Steeb T Enk 冯•勒• C 使用卷积神经网络的皮肤癌分类:系统综述 J医疗互联网服务 2018 10 17 20. 10 e11936 10.2196/11936 30333097 v20i10e11936 PMC6231861 Razzak m .我 Zaib 一个 医学图像处理的深度学习:概述、挑战和未来 生物应用分类:决策自动化 2018 可汗、瑞士 施普林格国际 323
Baidu
map