JMIR皮肤病学-人工智能成像模型在检测更高Fitzpatrick肤色分类中的皮肤病学表现的性能

短论文

Pushkar Aggarwal，工商管理硕士

美国俄亥俄州辛辛那提市辛辛那提大学医学院

通讯作者:

Pushkar Aggarwal，工商管理硕士

医学院

辛辛那提大学

伊甸园大街3230号

辛辛那提，俄亥俄州，45267

美国

电话:1 2402000896

电子邮件:aggarwpr@mail.uc.edu

背景:当应用于Fitzpatrick分类皮肤类型4和5的图像时，深度学习图像识别模型的性能低于平均水平。

摘要目的:本研究的目的是评估当两种模型在相同数量的图像上训练时，图像识别模型在区分皮肤颜色较深的个体(Fitzpatrick皮肤类型4和5)的皮肤疾病时，是否与在区分高加索人(Fitzpatrick皮肤类型1、2和3)的相同皮肤疾病时表现不同。

方法:对两个图像识别模型进行了训练、验证和测试。每个模型的目标是区分黑色素瘤和基底细胞癌。黑素瘤和基底细胞癌的开源图像来自希腊皮肤病学图集、皮肤病学图集、交互式皮肤病学图集和新西兰DermNet。

结果:在浅色皮肤图像上训练和验证的图像识别模型在黑色素瘤和基底细胞癌鉴别方面的敏感性、特异性、阳性预测值、阴性预测值和F1评分均高于在彩色皮肤图像上训练和验证的图像识别模型。

结论:人工智能模型要想表现得同样出色，需要收集的深肤色个体的皮肤病图像数量要多于浅肤色个体的皮肤病图像数量。

JMIR Dermatol 2021;4(2):e31697

doi: 10.2196/31697

关键字

深度学习；黑素瘤；基底细胞癌；肤色；图像识别；皮肤病学；疾病；卷积神经网络；特异性；预测；人工智能；皮肤的颜色；肤色

背景

在皮肤病学领域，人工智能(AI)有望提高传统诊断方法的效率和准确性，包括视觉检查、皮肤活检和组织病理学检查[1］．深度学习图像识别模型已经成功地利用浅肤色个体的图像区分皮肤疾病。然而，当这些模型在有色人种的图像上进行测试时，表现就会下降。2］．据认为，造成这种差异的主要原因是缺乏皮肤颜色较深的个体的皮肤疾病的可用图像(Fitzpatrick皮肤类型4和5的分类)[3.］．然而，是否也有可能，即使有相同数量的图像，与皮肤类型1、2和3相比，图像识别模型更难区分Fitzpatrick皮肤类型4和5的个体的皮肤疾病?

客观的

本研究的目的是评估当两种模型在等量的图像上训练时，图像识别模型在区分有色人种(Fitzpatrick皮肤类型4和5)的皮肤疾病时，与在区分白种人(Fitzpatrick皮肤类型1、2和3)的相同皮肤疾病时，是否表现不同。

黑素瘤和基底细胞癌(BCC)的开源图像来自希腊皮肤病学图集[4]、皮肤病学地图集[5]、交互式皮肤病学地图集[6]，及DermNet NZ [7］．使用前面描述的方法训练、验证和测试两个图像识别模型[8］．TensorFlow [9]是谷歌开发的一个开源软件库，它被用作深度学习框架，并用于再训练Inception，版本3 (v3)。Inception v3是一个深度卷积神经网络。该神经网络由多个计算层组成，每个计算层都有一个输入和输出。除了神经网络的最后一层之外，所有的层都用超过120万张图像进行了预训练。神经网络的最后一层使用收集到的皮肤图像进行重新训练。在再训练过程中，神经网络经历了训练和验证步骤。在训练步骤中，使用输入的图像对神经网络进行训练。在验证步骤中，使用输入的naïve图像迭代评估训练精度[10］．

在对模型进行重新训练(训练和验证)后，执行用户输入的测试/评估步骤，其中输入测试图像并对结果进行统计分析。程序评估输出用输入的每个测试图像中每种皮肤表现的概率百分比表示。R软件(R统计计算基础)[11]进行统计分析。计算每种皮肤表现的敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)和F1评分。F1分数是灵敏度和PPV(召回率和精密度的平均值)的谐波平均值。

每个模型的目标是区分黑素瘤和BCC。

第一个模型是:

对150张浅色皮肤(Fitzpatrick皮肤类型1、2和3)、75张黑色素瘤和75张BCC图像进行训练;
对38张浅色皮肤(Fitzpatrick皮肤类型1、2和3)、19张黑色素瘤和19张BCC图像进行验证;
对30张浅色皮肤(Fitzpatrick皮肤类型1、2和3)、15张黑色素瘤和15张BCC图像进行了测试。

第二种模式是:

对150张有色皮肤(Fitzpatrick皮肤类型4和5)、75张黑色素瘤和75张BCC图像进行训练;
对38张有色皮肤(Fitzpatrick皮肤类型4和5)、19张黑色素瘤和19张BCC图像进行验证;
对30张有色皮肤(Fitzpatrick皮肤类型4和5)、15张黑色素瘤和15张BCC图像进行了测试。

计算黑色素瘤和BCC的接受者工作特征(AUC)曲线下的面积，以确定两种模型的性能。

当被要求区分黑色素瘤和BCC时，在浅色皮肤图像上训练和验证的图像识别模型比在彩色皮肤图像上训练和验证的图像识别模型具有更高的灵敏度、特异性、PPV、NPV和F1评分(表1）.

在预测黑色素瘤时，在浅色皮肤图像上训练和验证的图像识别模型的敏感性为0.60，特异性为0.53,PPV为0.56,NPV为0.57,F1评分为0.58。另一方面，在预测黑色素瘤时，在彩色皮肤图像上训练和验证的相同图像识别模型的敏感性为0.53，特异性为0.47,PPV为0.50,NPV为0.50,F1评分为0.52。

在预测BCC时，在浅色皮肤图像上训练并验证的图像识别模型灵敏度为0.53，特异性为0.60,PPV为0.57,NPV为0.56,F1评分为0.55。另一方面，对于BCC的预测，同样的图像识别模型在彩色皮肤图像上进行训练和验证，其灵敏度为0.47，特异性为0.53,PPV为0.50,NPV为0.50,F1评分为0.48。

两种浅色皮肤图像识别模型的平均AUC为0.598，而彩色图像识别模型的平均AUC为0.500(数值指出了差异)表1而且图1）.

表1。深度学习模型的统计测量在不同的Fitzpatrick皮肤类型分类(类型1、2和3 vs类型4和5)上训练、验证和测试，用于评估黑色素瘤和基底细胞癌。

测量	黑色素瘤模型		基底细胞癌模型
	皮肤类型1、2和3	皮肤类型4和5	皮肤类型1、2和3	皮肤类型4和5
灵敏度	0.60	0.53	0.53	0.47
特异性	0.53	0.47	0.60	0.53
阳性预测值	0.56	0.50	0.57	0.50
负预测值	0.57	0.50	0.56	0.50
F1的分数	0.58	0.52	0.55	0.48
接收机工作特性曲线下面积	0.59	0.57	0.60	0.53

图1。在不同皮肤类型的两种模型中，黑色素瘤和基底细胞癌(BCC)的受试者工作特征曲线。FC:菲茨帕特里克分级。

限制

对于Fitzpatrick皮肤类型4和5，可用的图像数量有限;因此，浅色皮肤和彩色模型的皮肤都在训练过程中使用的图像数量的限制下进行了研究。更大的样本量会更好地测试结果是否一致。

结论

当使用相同数量的图像进行训练、验证和测试时，提供属于Fitzpatrick分类皮肤类型1、2和3的黑色素瘤和BCC图像的AI模型比提供皮肤类型4和5的黑色素瘤和BCC图像的AI模型表现更好。这可能是因为皮肤颜色较深的人，皮肤疾病的表现有更多的变异性;此外，肤色较深的个体的皮肤表现可能不容易与周围皮肤区分。因此，AI模型要想表现得同样好，就需要收集更多有皮肤疾病的有色皮肤图像，而不是浅色皮肤疾病的图像。

利益冲突

没有宣布。

王晓峰，王志强，李俊杰。人工智能在皮肤科为临床医生。皮肤科诊所2021年3月;21(8):e208 [免费全文] [CrossRef] [Medline］
Kamulegeya LH, Okello M, Bwanika JM, MusinguziD D, Lubega W, Rusoke D，等。在乌干达使用人工智能治疗皮肤病:机器学习训练数据集的多样性案例。bioRxiv。预印本于2019年10月31日在线发布[免费全文] [CrossRef］
亚当森AS，史密斯A.机器学习和皮肤病学的医疗保健差异。美国医学会皮肤杂志2018年11月01日;154(11):1247-1248。［CrossRef] [Medline］
Verros CD.希腊皮肤病学地图集，2011。URL:http://www.hellenicdermatlas.com/en/[2021-09-02]访问
达席尔瓦SF。皮肤病学地图集，2021。URL:http://www.atlasdermatologico.com.br/[2021-09-02]访问
Usatine RP, Madden BD，交互式皮肤病学地图集，2019。URL:https://www.dermatlas.net/[2021-09-02]访问
Oakley A, Suhonen R, Ashton R，怀卡托区卫生局，新西兰皮肤病学会DermNet新西兰。URL:https://dermnetnz.org/[2021-09-02]访问
使用机器学习在皮肤图像识别中的数据增强。2019年11月25日(6):815-820。［CrossRef] [Medline］
陈杰，陈哲，陈志勇，陈志勇，等。TensorFlow:用于大规模机器学习的系统。出来了。预印本于2016年5月27日在线发布[免费全文］
张玉春，Kagen AC.医学图像分析的机器学习接口。J digital Imaging 2017 Oct;30(5):615-621 [免费全文] [CrossRef] [Medline］
R核心团队。R:用于统计计算的语言和环境。奥地利维也纳:R统计计算基金会网址:http://www.R-project.org/[2021-09-02]访问

‎

人工智能:人工智能

AUC:接收机工作特性下的面积

BCC:基底细胞癌

净现值:负预测值

PPV:阳性预测值

编辑:R德拉瓦莱，T西弗辛德;提交30.06.21;DN Mytle, T Koritala同行评审;对作者18.08.21的评论;订正版本收到23.08.21;接受26.08.21;发表12.10.21

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR皮肤病学研究上的原创作品。必须包括完整的书目信息，http://derma.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

人工智能成像模型在检测高级Fitzpatrick肤色分类中皮肤表现的性能

人工智能成像模型在检测高级Fitzpatrick肤色分类中皮肤表现的性能

短论文

通讯作者:

摘要

关键字

简介

背景

客观的

方法

结果

讨论

限制

结论

利益冲突

参考文献

缩写