这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
皮肤癌是影响人类最常见的癌症类型。传统的皮肤癌诊断方法成本高昂,需要专业的医生,而且需要时间。因此,为了帮助诊断皮肤癌,人们正在使用人工智能(AI)工具,包括基于浅层和深层机器学习的方法,这些方法经过训练,可以使用计算机算法和深度神经网络来检测和分类皮肤癌。
这项研究的目的是识别和分组用于检测和分类皮肤癌的不同类型的基于人工智能的技术。该研究还通过研究数据集大小和诊断类数量与用于评估模型的性能指标之间的相关性来检查所选论文的可靠性。
我们使用电气与电子工程师学会(IEEE) Xplore、计算机协会数字图书馆(ACM DL)和Ovid MEDLINE数据库,按照系统评价首选报告项和范围评价扩展元分析(PRISMA-ScR)指南对论文进行了系统搜索。这项范围综述中包括的研究必须满足几个选择标准:具体涉及皮肤癌,检测或分类皮肤癌,以及使用人工智能技术。研究选择和数据提取由两位审稿人独立进行。提取的数据被叙述性地合成,其中研究根据诊断AI技术及其评估指标进行分组。
我们从3个数据库中检索了906篇论文,其中53篇符合本次审查的条件。14项研究使用了基于浅人工智能的技术,39项研究使用了基于深度人工智能的技术。这些研究使用了多达11个评价指标来评估所提出的模型,其中39项研究使用准确性作为主要评价指标。总的来说,使用更小数据集的研究报告了更高的准确性。
本文研究了多种基于人工智能的皮肤癌检测模型。但是,由于不同评价指标和图像类型的不同使用,阻碍了方法之间的直接比较。性能分数受数据集大小、诊断类别数量和技术等因素的影响。因此,具有较高准确度分数的浅模型和深模型的可靠性值得怀疑,因为它们是在少数诊断类的相对较小的数据集上进行训练和测试的。
皮肤癌是影响人类最常见的癌症类型[
早期发现皮肤癌的传统方法包括皮肤自检和皮肤临床检查(筛查)[
这篇综述的重点是将人工智能作为一种工具,用于帮助皮肤癌诊断过程。在此,基于人工智能的皮肤癌诊断工具使用浅AI方法或深AI方法。这两种方法都涉及通过一种叫做训练的过程来定制计算机算法,从预定义特征形成的数据中学习。不同之处在于,浅层方法倾向于根本不使用多层神经网络,或者使用限制在最小层数的网络[
检测皮肤癌具有挑战性、耗时且相对昂贵。
正常病变(左)与黑色素瘤(右)的相似性。
这篇综述分析了来自不同在线数据库的论文。我们定义了严格的纳入和排除标准来决定哪些论文被纳入。然后,我们根据所使用的方法对论文进行分组,并分析论文所涵盖的领域。最后,我们确定了文献中的空白,并讨论了如何在未来的工作中填补这些空白。我们在开始审查之前制定了一个方案。为确保范围评审的透明度和可复制性,我们遵循了系统评审和元分析扩展范围评审的首选报告项目(PRISMA-ScR)说明和指南[
我们于2020年7月15日进行了系统搜索。我们从电气和电子工程师协会(IEEE) Xplore、计算机协会数字图书馆(ACM DL)和Ovid MEDLINE数据库中确定了文章。用于搜索书目数据库的术语是基于目标人群(如“皮肤肿瘤”、“皮肤癌”、“皮肤病变”)、干预(如“人工智能”、“机器学习”、“深度学习”)和结果(“诊断”、“筛查”、“检测”、“分类”)确定的。我们从以前的文献研究和评论中获得搜索词。由于实际原因,我们没有进行向后或向前的参考文献列表检查,也没有联系专家。
我们纳入了符合以下标准的研究:
2009年1月1日至2020年7月15日期间发表的研究。
用英语写作的研究。
人口:研究只讨论皮肤癌。讨论其他疾病或癌症形式的研究被排除在外。
干预:研究只讨论基于人工智能的应用。讨论皮肤癌相关应用或系统(包括理论、统计或数学方法)的研究被排除在外。
研究讨论了人工智能在检测、分类或诊断皮肤癌方面的具体用途。仅讨论人工智能在临床环境中的一般使用的研究被排除在外。
研究提出了一种新的基于人工智能的方法。案例研究、调查、综述或回应论文,或回顾、评估、分析、评价或比较现有方法的论文被排除在外。
对发表国、研究设计、比较国或结果均无限制。
作者Abdulrahman Takiddin (AT)和Alaa Abd-Alrazaq (AA)独立筛选了所有检索到的研究的标题和摘要。按照书面协议,他们在阅读标题和摘要后,独立阅读本研究中包括的论文全文。两位审稿人之间的任何分歧都通过讨论解决。我们通过计算Cohen kappa (κ)来评估编码器之间的一致性,筛选标题和摘要以及阅读全文的Cohen kappa分别为0.86和0.93,表明一致性良好。
为了从纳入的研究中可靠和准确地提取数据,开发了一个数据提取表单,并使用八项纳入的研究进行了试验(
采用叙述的方法来综合提取的数据。具体来说,我们首先根据基于复杂性的诊断技术对纳入的研究进行分组。然后,我们讨论了每个研究中使用的评估指标。接下来,我们根据所使用的评价指标对研究进行分组。此外,我们还考虑了使用的数据集,包括图像数量、图像类型和数据集包含的疾病(诊断类)数量。我们评估了准确性评分与数据集的图像数量和诊断类别之间的相关性。
在搜索了3个在线数据库后,我们总共检索了906项研究。然后我们分三个阶段开始排除论文。如
棱镜的方法。美国计算机协会数字图书馆;AI:人工智能;电气与电子工程师学会;PRISMA:系统评价和元分析的首选报告项目。
研究特征(N=53)。
特征 | n (%) | |
|
||
在2016年之前 | 4 (7.5) | |
2016 - 2018 | 26日(49.1) | |
2019 - 2020 | 23日(43.4) | |
|
||
美国 | 9 (16.9) | |
中国 | 6 (11.3) | |
印度 | 5 (9.4) | |
波兰 | 3 (5.7) | |
新西兰 | 2 (3.8) | |
奥地利 | 2 (3.8) | |
德国 | 2 (3.8) | |
孟加拉国 | 2 (3.8) | |
印尼 | 2 (3.8) | |
巴基斯坦 | 2 (3.8) | |
火鸡 | 2 (3.8) | |
法国 | 1 (1.9) | |
俄罗斯 | 1 (1.9) | |
联合王国 | 1 (1.9) | |
香港 | 1 (1.9) | |
伊朗 | 1 (1.9) | |
韩国 | 1 (1.9) | |
菲律宾 | 1 (1.9) | |
黎巴嫩 | 1 (1.9) | |
沙特阿拉伯 | 1 (1.9) | |
新加坡 | 1 (1.9) | |
泰国 | 1 (1.9) | |
澳大利亚 | 1 (1.9) | |
加拿大 | 1 (1.9) | |
埃及 | 1 (1.9) | |
尼日利亚 | 1 (1.9) | |
南非 | 1 (1.9) | |
|
||
会议论文集 | 31 (58.5) | |
期刊 | 22日(41.5) |
年发表论文数。
所选的研究要么发表在会议论文集上,要么发表在期刊上:53项研究中有31项(58.5%)发表在会议论文集上,其余的论文(22/ 53,41.5%)发表在期刊上。
各地区发表论文数。
我们根据论文的分类类型将论文分为两组。我们发现超过一半的论文(31/ 53,58.5%)建立了模型来分类病变是良性还是恶性(两类/二元分类)。其余的论文(22/ 53,41.5%)采用三个或三个以上的诊断等级(多类分类)对皮损进行分类。
数据和部署特征(N=53)。
特征 | n (%) | |
|
||
小 | 21日(39.6) | |
媒介 | 25 (47.1) | |
大 | 7 (13.2) | |
|
||
2类 | 31 (58.5) | |
3类 | 8 (15.1) | |
4类 | 1 (1.9) | |
5类 | 2 (3.8) | |
7类 | 10 (18.9) | |
9类 | 1 (1.9) | |
|
||
Dermoscopic | 43 (81.1) | |
临床 | 5 (9.4) | |
高质量的 | 4 (7.5) | |
光谱 | 1 (1.9) | |
|
||
发展 | 45 (84.9) | |
系统 | 3 (5.7) | |
Web应用程序 | 3 (5.7) | |
移动应用程序 | 2 (3.8) |
关于用于训练、测试和验证模型的图像类型,53项研究中有43项(81.1%)使用皮肤镜图像;5项研究(9.4%)使用了使用普通相机拍摄的临床图像;4项研究(7.5%)使用专业相机拍摄的高质量图像。其余的研究使用了光谱图像,需要一个专门的系统,从三个不同的地方使用偏振光和非偏振光对病变进行成像。
大多数研究(45/ 53,84.9%)提出的技术仍处于开发阶段。其余的研究(8/ 53,15.1%)已部署成可用的形式:3项研究开发了医疗保健系统,3项研究将模型部署到移动应用程序,2项研究将模型转移到web应用程序。
按所使用的诊断分类的发表论文数量。
我们根据用于检测和分类皮肤癌的人工智能技术将论文分为两组。这些小组是
如
纳入的研究采用浅技术(N=14)。
模型 | n (%) | 参考 |
支持向量机一个 | 9 (64.3) | [ |
注b | 1 (7.1) | [ |
LRc | 1 (7.1) | [ |
然而,d | 1 (7.1) | [ |
射频e | 1 (7.1) | [ |
混合动力 | 1 (7.1) | [ |
一个支持向量机:支持向量机。
b注意:朴素贝叶斯。
c逻辑回归。
dkNN: k-最近邻。
eRF:随机森林。
大多数研究都使用了
纳入的研究采用了深度技术(N=39)。
模型 | n (%) | 参考 | |
|
|||
ResNetb | 5 (12.8) | [ |
|
《盗梦空间》 | 3 (7.7) | [ |
|
AlexNet | 3 (7.7) | [ |
|
MobileNet | 3 (7.7) | [ |
|
VGGc | 2 (5.1) | [ |
|
Xception | 1 (2.6) | [ |
|
DenseNet | 1 (2.6) | [ |
|
|
|||
美国有线电视新闻网 | 9 (23.1) | [ |
|
ResNet | 2 (5.1) | [ |
|
混合动力 | 5 (12.8) | [ |
|
系综 | 4 (10.3) | [ |
|
OpenCV | 1 (2.6) | [ |
一个CNN:卷积神经网络。
bResNet:剩余网络。
cVGG:视觉几何组。
本范围综述中包括的研究使用不同的评价指标来评估他们提出的模型。在这些研究中,使用以下五个主要评价指标来评估构建的模型:准确性、敏感性和特异性、阳性预测值(PPV)或精度、曲线下面积(AUC)和f1评分。所有五个指标的范围从0%到100%;得分越高,模型表现越好。为了计算不同的评估指标,确定了以下类型的样本:第一,真阳性(TPs),这是AI工具也检测为恶性的恶性样本;第二,假阳性(FPs),即人工智能工具检测为恶性的良性样本;第三,真阴性(TNs),这是良性样本,也被AI工具检测为良性;第四,假阴性(FNs),即被AI工具检测为良性的恶性样本。值得一提的是,超过一半的研究(33/ 53,62.3%)除了主要指标外,还报告了多个评估指标。
准确率= (TP + TN)/(TP + TN + FP + FN),这表明模型检测诊断类别的好坏,在大多数论文中被报道(44/ 53,83%)。30篇(56.6%)论文报道了敏感性或召回率= TP/(TP + FN),即仅给出恶性样本时,模型正确诊断为恶性的概率。特异性= TN/(TN + FP),它决定了阴性样本被正确检测的比例,有24篇(45.3%)论文报道。PPV或precision = TP/(TP + FP)有13篇(24.5%)报道。AUC是受试者工作特征(ROC)曲线的面积,用于绘制TP与FP的关系,有11篇(20.8%)论文报道。有9篇(16.9%)论文报道了F1-score,即召回率和准确度的调和平均值。此外,有4篇(7.5%)论文报道了骰子系数= 4TP/(FN + 2TP + FP)。2篇(3.8%)报道阴性预测值(NPV) = TN/(TN + FN)。Jaccard指数= 2TP/(TP + FN + FP)有2篇文献报道。Cohen κ在2篇论文中也有报道。 Finally, the Youden index = sensitivity + specificity – 1 was reported in 1 (1.9%) paper.
在这里,我们在进行多个实验的情况下,根据表现最好的实验对每篇论文进行分析。此外,如果使用多个评价指标,我们使用作者在摘要或结论中报告的主要评价指标得分作为论文的主要重点,或在多类分类论文中使用每个诊断类的平均分。在上述指标中,准确性、AUC、敏感性和特异性以及f1评分被用作主要评价指标。约73%(39/53)的论文使用准确性作为主要评估指标来评估训练过的模型。平均准确率为86.8%,最大值为98.8% [
纳入研究报告的主要评价指标和评分(N=53)。
分数 | 参考 | |
|
||
|
99% | [ |
|
98% | [ |
|
96% | [ |
|
95% | [ |
|
94% | [ |
|
93% | [ |
|
92% | [ |
|
91% | [ |
|
90% | [ |
|
89% | [ |
|
88% | [ |
|
87% | [ |
|
86% | [ |
|
84% | [ |
|
83% | [ |
|
81% | [ |
|
80% | [ |
|
77% | [ |
|
75% | [ |
|
72% | [ |
|
67% | [ |
|
||
|
92% | [ |
|
91% | [ |
|
89% | [ |
|
87% | [ |
|
85% | [ |
|
84% | [ |
|
82% | [ |
|
||
|
96% | [ |
|
90% | [ |
|
83% | [ |
|
77% | [ |
|
||
|
96% | [ |
|
90% | [ |
|
89% | [ |
|
70% | [ |
|
||
|
83% | [ |
一个AUC:曲线下面积。
我们研究了53个入选研究的多种特征类型。首先,我们纳入了研究特征。大多数研究发表在2019年,大多数研究发表在南亚,大多数研究发表在期刊上。其次,我们讨论了数据特征。对于训练和测试,大多数研究使用中等大小的数据集,大多数研究建立了二进制分类器,皮肤镜图像使用最多。第三,我们将采用的AI模型分为浅层和深层。大多数浅层模型是基于SVM的,而大多数深层模型是基于cnn的神经网络。一般来说,深层模型比浅层模型被采用得多。第四,我们列出了用于评估模型性能的评估指标以及报告的分数。总共使用了11个不同的评估指标,其中准确性是最常用的指标,因此我们专注于准确性。
在分析报告的性能分数之后,我们得出的结论是,性能与使用的类数量之间存在相关性。此外,影响性能的另一个因素是数据集大小。接下来,我们研究这个假设的准确性,因为大多数研究(39/ 53,73.6%)使用它作为主要评价指标,尽管它可能不是最合适的评价指标来评估这样的任务,特别是在数据不平衡的情况下。我们相信,拥有一个混淆矩阵或TPs、FPs、tn和fn的数量将避免偏差,并对模型在每个诊断类别上的行为给出更清晰的评估。从这些研究中,最高的准确性分数为~98% [
诊断类的数量和数据集大小对准确性的影响。
与多类分类器相比,二进制分类器往往具有更好的性能。从直觉上看,这似乎是正确的,因为二进制分类器的表达能力较弱。二进制分类器“要学习的东西更少”,而不是区分几个类。为了说明这一点,让我们比较二元分类器和五类分类器的每个类的概率限制。对于五类分类器,必须至少有一个概率≤20%的类(根据
然而,令人惊讶的是
关于本综述中所包括的研究中描述的技术,深层和浅层模型(无论层数)具有相似的性能。例如,在浅层模型中,使用支持向量机(SVM)构建前五种皮肤癌探测器,使用相对较小的数据集,准确率为93%-99%。支持向量机是浅层模型中最常用的方法。同样,在深度模型中,前五种基于cnn的皮肤癌检测器使用中型数据集的准确率为94%-96%。在深度模型中,cnn也是最常用的方法。从理论上讲,深度神经网络在图像分类方面往往具有更好的性能[
根据研究特点,我们注意到自2016年以来发表的论文数量有所增加,并且大多数论文讨论了皮肤镜图像的使用,使其成为皮肤癌检测和分类中使用最多的图像方式。我们认为这是因为国际皮肤成像合作(ISIC)比赛始于2016年[
在这篇范围综述中,我们总结了文献中有关使用基于人工智能的技术诊断皮肤癌的发现。我们还根据所使用的方法、人工智能技术的类型及其性能对这篇综述中包含的论文进行了分类,并发现了这些方面之间的联系。
我们注意到,尽管本范围综述中包括的所有论文都讨论了特定人工智能技术的应用和性能,但报告是异构的。通常不会讨论使用特定AI技术与其他方面(如数据集大小)之间的关系,甚至讨论为什么所使用的评估指标是合理的。当然,这可能会阻碍这一方向的研究,因为未来的研究越来越难以与遵循科学严谨性的现有工作进行全面比较。这个范围审查通过执行必要的特征和分析来填补这一空白。这是通过将每种使用的人工智能技术分组为浅方法和深方法,将每种类型与所使用的评估指标联系起来,列出和解释每项研究中使用的诊断类别的数量,并强调性能对数据集大小和其他因素的依赖关系来实现的。据我们所知,还没有类似的工作来填补这一空白。在结论部分,我们将强调我们的主要发现。
本范围综述检查了2009年1月至2020年7月之间发表的论文,在此时间线之外发表的任何研究都被排除在外,这可能排除了旧的基于人工智能的方法。此外,我们还检查了用英语写的论文;其他语言没有被包括在内,这可能导致在世界其他地区进行的一些研究被排除在外。另一个限制可能是进行研究的时间和提交工作的时间之间的差距,这排除了在这段时间内发表的论文。尽管我们尽了全力,但仍不能完全排除在学术数据库中偶然忽略论文的可能性。此外,尽管我们试图讨论文献中的所有发现,但详细介绍论文的每一个发现超出了本文的范围。同样,对文献中的数据偏差(诊断类别、患者种族、肤色、性别等方面的数据不平衡)进行调查,作为未来研究的方向。
人工智能的使用在促进皮肤癌诊断方面具有很大的潜力。人工智能的两个主要分支用于检测和分类皮肤癌,即浅层和深层技术。然而,这种人工智能工具的可靠性是值得怀疑的,因为不同的数据集大小、图像类型和诊断类的数量正在使用不同的评估指标进行评估。准确性是最常用的主要评价指标,但不允许独立评估FN和FP率。这项研究发现,当包括更少的诊断类别时,报告的准确性得分更高。有趣且与直觉相反的是,我们的分析还表明,当包括较小的样本量时,报告的准确性得分更高,这可能是由于图像类型和所使用的技术等因素。此外,只有使用大型、多样化和无偏倚的数据库进行独立的外部验证,才能在临床部署之前证明任何人工智能技术的通用性和可靠性。
搜索查询。
数据提取表单。
研究的特点。
数据和部署特征。
技术细节。
数据、模型和评估。
计算机数字图书馆协会
人工智能
曲线下面积
卷积神经网络
假阴性
假阳性
美国电气和电子工程师学会
国际皮肤成像合作组织
再
逻辑回归
朴素贝叶斯
负预测值
阳性预测值
系统评价和元分析的首选报告项目范围评价的扩展
剩余的网络
随机森林
接收机工作特性
支持向量机
真正的负
真阳性
视觉几何组
没有宣布。