发表在7卷, 3号(2019): Jul-Sep

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/10010,首次出版
人工智能与临床医生在疾病诊断中的对比:系统综述

人工智能与临床医生在疾病诊断中的对比:系统综述

人工智能与临床医生在疾病诊断中的对比:系统综述

审查

1中国广州中山大学第一附属医院妇产科

2暨南大学医学院,中国广州

3.香港大学公共卫生学院,中国香港(香港)

4暨南大学国际学院,中国广州

5暨南大学医学院,中国广州

6暨南大学信息科学与技术学院,中国广州

7中山大学国际关系学院,中国广州

8美国马萨诸塞州波士顿的哈佛大学哈佛医学院

9美国马萨诸塞州波士顿布里格姆妇女医院药物流行病学和药物经济学处

这些作者的贡献相同

通讯作者:

明伟杰,公共卫生硕士,医学博士,硕士,博士

妇产科

中山大学附属第一医院

中山路2号58号

广州,

中国

电话:86 14715485116

电子邮件:wkming@connect.hku.hk


背景:人工智能(AI)已广泛应用于一系列医学领域,以促进治疗发展。各种人工智能技术的发展也有助于早期发现、疾病诊断和转诊管理。然而,卫生保健专业人员、医疗服务提供者和卫生政策决策者对先进人工智能在疾病诊断中的价值表示担忧。

摘要目的:本综述旨在系统地检查文献,特别关注先进人工智能和人类临床医生之间的性能比较,以提供有关人工智能在疾病诊断中的应用程度的最新总结。通过这样做,本综述讨论了当前先进的人工智能发展与临床医生在疾病诊断方面的关系,从而从长远来看治疗发展。

方法:我们系统地检索了2000年1月至2019年3月之间发表的文章,按照首选报告项目在以下数据库中进行系统评价和荟萃分析:Scopus、PubMed、CINAHL、Web of Science和Cochrane Library。根据预设的纳入和排除标准,只考虑比较先进人工智能和人类专家医疗表现的文章。

结果:共鉴定出9篇文章。卷积神经网络是目前普遍应用的先进人工智能技术。由于医学领域的差异,在人工智能的分类、标注、训练过程、数据集大小和算法验证等方面,各个研究之间存在差异。文章中报道的性能指标包括诊断准确性、加权误差、假阳性率、敏感性、特异性和受试者工作特征曲线下面积。结果表明,人工智能的表现与临床医生相当,超过了经验较少的临床医生。

结论:目前,人工智能的诊断能力已经可以与医学专家相媲美,尤其是在图像识别相关领域。进一步的研究可以扩展到其他类型的医学成像,如磁共振成像和其他与图像无关的医学实践。随着人工智能辅助技术的不断发展,在未来的人工智能相关和其他基于技术的医学研究中,应不断考虑以临床医生的经验为基础,以患者为中心的医疗原则为指导的临床意义。

中华医学杂志,2019;7(3):e10010

doi: 10.2196/10010

关键字



背景

患者人口的老龄化和医疗专业人员的短缺导致全球关注通过信息技术提高临床服务的效率。人工智能(AI)是一个基于算法的应用领域,它可以模拟人类的心理过程和智力活动,使机器能够用知识解决问题。在信息时代,人工智能被广泛应用于医疗领域,可以促进治疗的发展。AI可以优化慢性病患者的护理轨迹,为复杂疾病提供精准治疗,减少医疗差错[1]。

目前有两种常见的AI类型。第一类是专家系统。专家系统是一种在监督下产生预测的计算机系统,在决策方面可以胜过人类专家。它由两个相互依赖的子系统组成:知识库和推理引擎。虽然知识库中包含了积累的经验,但推理引擎(推理系统)可以访问知识库的当前状态并补充新的知识。专家系统可以为系统创建更明确的关键信息,使维护变得容易,并提高原型的速度[2]。然而,专家系统在知识获取和性能方面存在局限性。计算机辅助技术已经在医疗实践中引入了几十年,但最近收效甚微。第二种是机器学习。这是人工智能的核心,也是使计算机智能化的基本方法。机器学习需要大量的数据进行训练。这系统地提高了他们在这个过程中的表现。机器学习的核心之一是参数筛选。过多的参数会导致不准确的输入和计算;因此,减少参数的数量可以提高人工智能的效率,但也可能降低其准确性。 However, 1 of the critical objectives of AI is to outperform humans via self-study in challenging fields without any previous knowledge.

人工智能已广泛应用于一系列医疗领域。急性阑尾炎等急慢性疾病的临床诊断[3.]及阿尔茨海默病[4],通过人工智能技术(如支持向量机、分类树和人工神经网络)进行辅助。由多种算法而不是单一算法组成的综合人工智能大大提高了其检测恶性细胞的能力,从而提高了诊断准确性[5]。

各种人工智能技术的发展也有助于乳腺癌复发的预测[6]。家用人工智能系统可能会监测胰岛素异常和吞咽问题的患者[7而不是医生。人工智能可实现治疗优化[8由于基于大数据的人工智能算法,患有常见但复杂的疾病(如心血管疾病)的患者更有可能从更精确的治疗中受益[8]。另一方面,人工智能辅助的医院管理系统也可以在更大范围内帮助最大限度地减少与物流相关的金钱和时间成本[9]。

目标

据我们所知,目前还没有发表过比较人工智能和临床医生诊断表现的综述。因此,我们的目的是系统地回顾文献,并提供最新的总结,表明与临床医生相比,人工智能在疾病诊断中的应用程度。我们希望这篇综述能够帮助医护人员提高对人工智能相关临床实践的认识和理解。


检索策略、选择标准和研究选择

这个搜索策略是在与专业图书管理员协商后制定的。文献检索在Scopus(最大的跨多学科摘要和引文数据库)、PubMed、CINAHL、Web of Science和Cochrane Library中使用组合检索词(参见多媒体附录1)。检索限于2000年1月至2019年3月之间发表的文章,遵循系统评价和元分析的首选报告项目。通过筛选纳入文章的参考文献列表以及我们的个人档案,手动搜索其他可能符合条件的文章。

如果文章(1)专注于高级人工智能(定义为包含训练或训练的人工智能),我们将其纳入文章学习(2)包含至少一个特定疾病诊断的应用程序,(3)比较人工智能和人类专家在特定临床任务上的表现,以及(4)用英语编写。如果文章(1)只描述不涉及任何培训或人工智能的更简单的人工智能,则将其排除在外学习过程;(2)没有将人工智能的性能与医学专家的性能进行比较;(3)会议摘要、书籍章节、评论或其他没有详细实证数据的形式。

根据上述纳入和排除标准,2名审稿人(JS和BJ)独立筛选文章标题和摘要,确定符合条件的文章。通过机构检索检索符合条件的文章全文。在此过程中出现的任何差异都是通过与两位资深作者(WKM和CJPZ)讨论解决的。系统检索和鉴定评审文章的过程描述在图1

数据提取、数据综合和质量评估

纳入研究的特征经2名资深作者(WKM和CJPZ)验证后,由2名审稿人(JS和BJ)独立提取。这些特征包括(1)第一作者和出版年份,(2)人工智能技术,(3)分类和标记,(4)数据源(包括总集、训练集、验证和/或调优集和测试集的样本量),(5)训练过程,(6)内部验证方法,(7)人类临床医生参考,(8)性能评估。

使用Cochrane的偏倚风险工具评估研究质量[10]。该工具提供了一种基于领域的方法,通过仔细检查被审查文章中的信息来帮助审稿人判断各种类型风险的报告,反过来,可以根据这些针对特定类型感兴趣的风险的支持信息片段做出判断。本综述评估的风险类型包括:(1)参与者和人员的盲性(表现偏倚),(2)结果评估的盲性(检测偏倚),(3)不完整的结果数据(损耗偏倚),(4)选择性报告(报告偏倚)。

图1所示。研究纳入和排除过程流程图。
查看此图

系统的搜索

经过系统的检索过程,从数据库中检索到41769条引文,根据题目和摘要排除了22900篇文章,对850篇文章进行了详细审查。此外,根据全文进一步排除了842篇文章。一篇文章从人工搜索中被识别出来。最终纳入9项研究(图1)。

纳入研究的特点

表1总结了这9项研究的特点。这9项纳入的研究发表于2017年至2019年之间,在包括中国、德国、韩国、英国和美国在内的国家进行。就其研究的医疗状况而言,有3项研究可归为眼科,包括糖尿病视网膜病变[11]、黄斑变性[11]和先天性白内障[12],而另外3项研究关注的是甲真菌病[13]及皮肤损伤/癌症[1415]。其他与放射学相关的研究主要集中在胸部[1617]和神经学的[18)条件。

在所有被回顾的研究中,卷积神经网络(CNN)是常用的先进人工智能技术,除了1项研究:González-Castro等人在他们的研究中采用了支持向量机分类器[18]。

由于研究目的、研究方法和医学领域的不同,个体研究之间的分类类型也相应不同。例如,与眼科影像有关的研究[1112]在图像来源(如眼图像)上存在差异[12]或光学相干断层扫描[OCT]衍生图像[11]),因此分类也相应不同(表1)。另一项基于oct衍生图像的研究[19]重点研究了临床专家与人工智能之间的转诊建议,并对多个建议决策进行了分类。对于甲真菌病图像,分别使用4类和6类进行训练,Han等随后使用二值分类进行测试[13]。

表1。纳入研究的特征。
作者(年) 人工智能技术 分类/标签 数据来源;总数据集、训练集、验证和/或调优集和测试集的样本量 培训过程 内部验证 人类临床医生(外部验证)
布林克(2019)[14 卷积神经网络;CNN(接受皮肤镜图像增强技术训练) 所有黑色素瘤均经活检组织病理学评估证实;经专家一致认定为良性肿瘤 国际皮肤成像合作组织(ISIC)图像档案;总:13737;培训:12378例(1888例黑色素瘤和10490例非典型痣);验证:1359例(黑素瘤230例,非典型痣1129例);测试:100张皮肤镜图像 用于黑素瘤和非典型痣分类的ResNet50 CNN模型(残差学习)。 没有报告 来自12所德国大学医院的145名皮肤科医生(使用100张图片)
De faw (2018) [19 使用三维U-Net架构的分割CNN模型 转诊建议:紧急/半紧急/常规/仅观察(通过查阅患者临床记录回顾性获得金标准标签,根据随后获得的信息确定最终诊断和最佳转诊途径) 临床OCT扫描来自Topcon 3D OCT, Topcon,日本;设备类型1:培训:分割网络877(分割);金标准转诊决定:14,884(分类);验证:224(分割);993(分类);测试:997;设备类型2:培训:分割网络:从设备类型1(分割)进行额外的152次877次扫描;金标准转诊决定:0,14884来自设备类型1(转诊决定);验证:112(分类);测试:116 1)深度分割网络,用人工分割的OCT扫描训练;2)得到的组织分割图;3)深度分类网络,通过组织图进行训练,得到确诊诊断和最优转诊决策;4)预测诊断概率及转诊建议。 由3名训练有素的眼科医生手工分割和分级,由一名高级眼科医生审查和编辑 设备类型1:8名临床专家(4名顾问眼科医生/视网膜专家和4名接受过OCT口译和视网膜疾病培训的验光师);设备类型2:5名眼科顾问医生(其中4名为第1类装置的参与者,另一名为新参与者)
Esteva (2017) [15 深度CNN(在ImageNet数据集上预训练的GoogleNet Inception v3 CNN架构) 活检证实的临床图像具有2个关键的二元分类,由皮肤科医生标记 来自斯坦福大学医学中心的18个不同的临床医生策划的开放访问在线存储库和临床数据;总:129405;培训和验证:127,463(9倍交叉验证);测试:1942 1)使用单个CNN对皮肤病变进行分类;2)直接从图像端到端进行训练,仅使用像素和疾病标签作为输入 两位皮肤科医生(在3级和9级疾病分区)使用9倍交叉验证 21名委员会认证的皮肤科医生对表皮和黑素细胞病变分类
韩(2018)[13 基于区域的卷积深度神经网络(R-CNN) 4类(甲真菌病、甲营养不良、甲溶解、黑甲)和6类(甲真菌病、甲营养不良、甲溶解、黑甲、正常等),由皮肤科医生手工分类 4家医院(峨山医院、仁济大学、翰林大学、首尔大学);总:57983;培训:53,308包含数据集A1(49,567)和A2 (3741);测试:1358由数据集B1 (100), B2 (194), C(125)和D(939)组成。 1)提取R-CNN自动裁剪的临床照片;2)一位皮肤科医生裁剪了A2、R-CNN模型中使用裁剪位置信息训练的所有图像;3)经过训练的精细图像选择器,以排除未对焦的照片;(4) 3名皮肤科医生参考原始图像中已有的诊断标记,对R-CNN生成的指甲图像进行临床诊断标记;(5)用前馈神经网络计算ResNet-152和VGG-19系统的集合模型作为输出 两类(是否为甲真菌病) 1) B1+C组合数据集中的42名皮肤科医生(16名教授,13名在皮肤科工作10年以上的临床医生,8名住院医师)和57名普通人群(11名全科医生,13名医学生,15名皮肤科护士,18名非医务人员);2)其中B2+D组合数据集中表现最好的5位皮肤科医生。
德国(2018)[11 深度CNN(也使用迁移学习) 四类(3个标签):脉络膜新生血管或糖尿病性黄斑水肿(标记为紧急的推荐), (常规推荐),正常(观察);还进行了二元分类(正常vs脉络膜新生血管/糖尿病黄斑水肿/水肿)。 光学相干断层扫描(OCT)图像选自2013年7月1日至2017年3月1日期间来自加州大学圣地亚哥分校雪利眼科研究所、加州视网膜研究基金会、医学中心眼科协会、上海第一人民医院和北京同仁眼科中心的成年患者的回顾性队列。总:207130;培训:108,312(通过初始图像质量审核);验证:1000例(从相同患者中随机抽取);测试:1000人(独立于其他患者的样本) 在100个epoch(整个数据集的迭代)之后,由于准确率和交叉熵损失都没有进一步提高,训练停止 从用于训练的图像中随机选择1000张图像(有限模型) 六名在学术眼科中心具有丰富临床经验的专家
Long (2017) [12 CNN深处 专家小组根据不透明区域(广泛vs有限)、不透明密度(密集vs非密集)和不透明位置(中心vs外围)进行二值分类。 中国卫生部儿童白内障项目;总:1239;培训:886;验证:5倍交叉验证;多院临床试验57例;53为基于网站的研究;303用于进一步验证;测试:50 来自2014年ImageNet大规模视觉识别挑战赛的冠军模型,除了3个完全连接的层外,还包含5个卷积或下采样层 K-fold交叉验证(K=5) 三名专业知识不同的眼科医生(专家、称职和新手)
Nam (2018) [16 基于深度学习的自动检测算法(DLAD) 二元分类:正常胸片或结节胸片(图像级标记);结节胸片来自经病理分析证实的恶性肺结节患者,并根据其影像学报告获得正常胸片。所有胸片都由胸科放射科医生仔细检查。 韩国三家医院的正常胸片和结节胸片(首尔国立大学医院;Boramae医院;(美国国家癌症中心)和一家美国医院(加州大学旧金山医学中心)。总:43292;培训:42,092张(33,467张正常胸片和8625张结节胸片);调优:600张(300张正常胸片和300张结节胸片);内部验证:600张(300张正常胸片和300张结节胸片);外部验证/测试:693 DLAD以半监督的方式进行训练,使用所有图像级标签,并由13名委员会认证的放射科医生进行部分注释,有25层和8个剩余连接 利用1个内部和4个外部数据集,根据ROC下面积(AUROC)和价值图(FOM)形式的折刀可选自由响应ROC (JAFROC),验证DLAD的x线片分类和结节检测性能。 18名医师(包括3名非放射科医师,6名放射科住院医师,5名委员会认证放射科医师,4名亚专科培训胸科放射科医师)
Rajpurkar (2018) [17 基于121层DenseNet架构的深度CNN (CheXNeXt) 14种病理的二元值(无/有):肺不张、心脏肥大、实变、水肿、积液、肺气肿、纤维化、疝气;渗透,质量;结节,胸膜增厚,肺炎和气胸,在放射学报告中使用自动提取方法获得 ChestX-ray14数据集;总:112120;培训:98637;调优: 6351;验证:420 1)在训练集上训练多个网络,预测14种病理在图像中出现的概率;2)这些网络的一个子集,每个网络都是根据调谐集的平均误差选择的,组成一个集合,通过计算每个单独网络预测的平均值来产生预测 CheXNeXt算法与执业放射科医生在7个性能指标上的综合比较(即没有外部验证) 9名放射科医师(6名委员会认证放射科医师和3名来自3家机构的高级住院医师)
González-Castro (2017) [18 支持向量机(SVM)分类器 血管周围空间增大(PVS)负担的二元分类器为低或高 来自皇家哈勒姆郡医院264名患者的数据;总:264(随机分成5个大小相等的子集);培训:5个子集中的4个(~211);测试:5个子集之一(~53) 使用正则化参数C和gamma的几种组合,并使用所有描述符进行评估,以使用libSVM库提供的实现找到最佳配置 分层5次交叉验证,重复10次 两名观察员(一名经验丰富的神经放射学家和一名训练有素的图像分析师)

同样,在个别研究中采用的训练过程彼此也不相同,因为它们具有特定领域的性质和分类特有的算法。例如,一项眼科研究的预测[11在分级OCT图像训练的基础上,使用基于web平台的迁移学习模型。另一项眼科研究[12]以先天性白内障为重点,采用三阶段培训程序(即识别、评估和策略网络)建立了一个超越疾病识别的协同疾病管理系统。因此,培训的数据来源是针对具体领域的。其他研究的训练程序详见表1

此外,有2项研究[1116]采用内部和外部验证方法,通过训练和/或使用来自自己数据集和外部数据集的图像验证其人工智能算法的有效性。Kermany等人研究了他们的人工智能系统在他们自己的眼科图像中预测诊断的有效性,以及对胸部x线图像的推广[11]。相比之下,Nam等人不仅使用他们自己医院的数据集,还使用其他不同的本地或海外医院的数据集来验证他们的工作[16]。其余的研究没有报告内部或外部验证,也没有区分。

还观察到数据集大小的变化。具体来说,训练集、验证(和调优)集和测试集的数量分别从211到大约113,300,从53到大约14,163,从50到1942。

人工智能与临床医生的绩效指标及比较

所有研究都比较了人工智能和执业医生之间的诊断表现(见表2)。用于比较的性能指标包括诊断准确性、加权误差、敏感性、特异性(和/或受试者工作特征曲线下面积[AUC])和假阳性率。共4篇文章[11121517采纳;采纳精度(即,真实结果(阳性和阴性)在检查病例总数中的比例),以比较人工智能和人类之间的诊断性能。Long等人观察到,与一组专科医生预先确定的诊断决策相比,人工智能的准确率很高(90%-100%),在大多数临床情况下,除了治疗建议外,人工智能的准确率超过了临床医生的平均水平。Esteva等人还发现,人工智能达到了与人类对手相当的准确率,甚至超过了他们的人类对手(人工智能对皮肤科医生:使用3类疾病划分为72.1%(标准差为0.9%)对65.8%,使用9类疾病划分为55.4%(标准差为1.7%)对54.2% [15])。Rajpurkar等人的研究也发现了同样的情况[17],表明人工智能和放射科医生在结果上达成了一致。类似地,Kermany等人表明,他们的人工智能达到了很高的准确率(96.6%),同时承认他们的6名经验丰富的眼科医生仍然表现良好[11]。他们还报告了加权错误率,医生保持了更好的准确性(4.8%对6.6%)。De Fauw等[19]报告了使用两种设备的未加权误差,结果显示他们的人工智能性能与视网膜专家相当,并可推广到另一种OCT设备类型。

总共有7项研究[1113-18比较了人工智能和医学专家之间的敏感性、特异性和/或AUC。总体而言,该算法的性能与人类专家相当,明显优于经验较少的专家[11131618) (表2)。

人工智能与临床医生的假阳性率比较有2项研究[1216]。人工智能在图像评估(人工智能vs专家或主管:9 vs 5或11)和治疗建议(人工智能vs专家或主管:5 vs 1或3)方面与专家和主管眼科医生的错误发现数量接近,但在图像评估和治疗建议方面,新手眼科医生的错误发现数量分别为5 vs 12和8 [12]。另一项研究也发现,他们的深度学习算法在结节检测中的假阳性率接近胸科放射科医生的平均水平(0.3 vs 0.25) [16]。

其他性能指标在单个研究中进行比较。除了假阳性外,Long等人还比较了他们的人工智能和眼科医生之间的漏检次数,他们的人工智能表现优于所有具有不同专业知识(专家、胜任和新手)的眼科医生(即漏检次数更少)。Rajpurkar等人报道了人工智能和人类放射科医生之间解释测试图像的时间[16作者还比较了人工智能和放射科医生在阳性和阴性预测值、Cohen kappa和F1指标方面的差异(表2)。

表2。人工智能与人类临床医生的比较。
作者(年) 性能指数(AI)一个Vs人类临床医生)
精度 AUCb 灵敏度 特异性 错误/加权误差 假阳性 其他指标
布林克(2019)[14 N/Ac 文章中提供了详细信息 敏感性(特异性=73.3%):86.1%;对比;86.7%(3名住院皮肤科医生) 特异性(敏感度=89.4%):平均=68.2%(范围:47.5%-86.25%)vs平均=64.4%(所有145名皮肤科医生,范围:22.5%-92.5%);特异性(敏感度=92.8%):平均=61.1% vs平均= 57.7%(在16名皮肤科主治医师中) N/A N/A N/A
De faw (2018) [19 N/A 没有比较 N/A N/A 设备类型1:错误率:5.5% vs . 2名最好的视网膜专家:6.7%和6.8%(与2名最好的专家相比,明显优于其他6名专家);设备类型2:错误率:3.4% vs 2.4%(平均)(详情见文章) N/A N/A
Esteva (2017) [15 (与2名皮肤科医生进行内部验证);三类疾病分区:72.1% (SD 0.9%) vs . 65.56%和66.0%;九类病分区:55.4% (SD1.7)对比53.3%和55.0% 报告了人工智能的AUC,但没有与人类临床医生进行比较(详情见文章)。 人工智能的表现优于皮肤科医生的平均水平;(详情见文章) 人工智能的表现超过了皮肤科医生的平均水平(详情见文章) N/A N/A N/A
González-Castro (2017) [18 N/A AUC(模型1):0.9265 vs 0.9813和0.9074;AUC(模型2):0.9041 vs . 0.8395和0.8622;AUC(模型3):0.9152 vs . 0.9411和0.8934 N/A N/A N/A N/A N/A
韩(2018)[13 N/A N/A 约登指数(灵敏度+特异性- 1):B1+C数据集:>67.62%(用A1数据集训练)和>63.03%(用A2数据集训练)vs 48.39% (99% CI 29.16% (SD 67.62%);95% ci 33.76% (sd 63.03%);B2+D数据集:只有一位皮肤科医生的表现优于使用A1数据集训练的集成模型,并且在三个实验中只有一次
N/A N/A N/A
德国(2018)[11 96.6% vs 95.9%(平均;范围:92.1% - -99.7%) N/A 97.8% vs 99.3%(平均;范围:98.2% - -100%) 97.4% vs 95.4%(平均;范围:82% - -99.8%) 6.6% vs 4.8%(平均;范围:0.4% - -10.5%) N/A N/A
Long (2017) [12 准确率(区分患者和健康个体):100% vs 98%(专家),98%(合格),96%(新手)[平均=97.33%];精度(不透明区域):90% vs 90%(专家),84%(胜任),78%(新手)[平均=84%]准确性(密度):90% vs 90%(专家),90%(胜任),86%(新手)[平均=88.7%];准确性(位置):96% vs 88%(专家),88%(胜任),86%(新手)[平均=82.7%];准确率(治疗建议):90% vs . 92%(专家),92%(胜任),82%(新手)[平均=88.7%] N/A N/A N/A N/A 50例假阳性数;评估网络(不透明区域、密度和位置):9对5(专家)、11(胜任)、12(新手);策略网络(治疗建议):5 vs 1(专家),3(胜任),8(新手) 错过的检测:评估网络(不透明区域、密度和位置):4对11(专家)、8(胜任)、20(新手)。策略网络(治疗建议):0对3(专家)、1(胜任)、1(新手)
Nam (2018) [16 N/A AUROC (x线片分类):0.91对平均值=0.885 (DLAD高于16名医生,显著高于11名医生);JAFROC FOM(结节检测):0.885,平均值=0.794 (DLAD高于所有医生,其中15位显著高于其他医生) 80.7% vs平均值=70.4% 没有医生表现的报告 N/A 0.3 vs平均值=0.25 N/A
Rajpurkar (2018) [16 所有病理的平均比例正确率:0.828 (SD=0.12) vs 0.675 (SD=0.15;委员会认证放射科医师)和0.654 (SD=0.16;居民) AUC(心脏肥大):0.831 vs 0.888 (P< . 05);AUC(肺气肿):0.704 vs 0.911 (P< . 05);AUC(疝气):0.851 vs 0.985;(P< . 05);AUC(肺不张):0.862 vs 0.808 (P< . 05);其他10种病理差异无统计学意义 CheXNEXt和委员会认证的放射科医生只有;灵敏度(质量):0.754 (95% CI 0.644-0.860) vs 0.495 (95% CI 0.443-0.546);敏感性(结节):0.690 (95% CI 0.581-0.797) vs 0.573 (95% CI 0.525-0.619);敏感性(合并):0.594 (95% CI 0.500-0.688) vs 0.456 (95% CI 0.418-0.495);灵敏度(积液);0.674 (95% CI 0.592-0.754) vs 0.761 (95% CI 0.731-0.790);(其他10种病理的详细对比见原文) CheXNEXt和委员会认证的放射科医生只有;特异性(质量):0.911 (95% CI 0.880-0.939) vs 0.933 (95% CI 0.922-0.944);特异性(结节):0.900 (95% CI 0.867-0.931) vs 0.937 (95% CI 0.927-0.947)特异性(实变):0.927 (95% CI 0.897-0.954) vs 0.935 (95% CI 0.924-0.946)特异性(积液);0.921 (95% CI 0.889-0.951) vs 0.883 (95% CI 0.868-0.898);(其他10种病理的详细对比见原文) N/A N/A 下面是解读420张图片的时间:1.5分钟vs 240分钟(180-300分钟范围);正、负预测值;科恩的kappa F1度规详情载于本文的附录)

一个AI:人工智能。

bAUC:接收机工作特性曲线下的面积。

c不适用。

纳入研究的质量评估

纳入研究的方法学质量(见图23.)使用Cochrane的偏倚风险工具进行评估[10]。该工具的设计目的是根据被评审文章在特定领域的报道,协助评估其偏倚风险。评估的依据是个别文章是否提供了支持性细节,摘要在图表中以高、低或不明确的偏差呈现。总体而言,大多数研究在特定领域的偏倚风险较低(图23.)。共有3项研究被分类为不清楚风险在特定的领域。具体来说,De Fauw等人的研究中是否观察到参与者和工作人员的盲化(与绩效偏差相关),尚无报道[19]。González-Castro等人[18在选择性报告(报告偏差)方面被归类为风险不明确,因为未能报告所有预先指定的绩效指标。根据Nam等人的报告,由于不完整的结果数据(即医生的表现)而产生的损耗偏差是无法评估的[16)(见多媒体附录2详情)。

图2。纳入研究的偏倚分布。
查看此图
图3。纳入研究的偏倚风险。
查看此图

主要研究结果

我们的系统综述确定了9篇关于先进人工智能在疾病诊断中的应用的文章。这些研究涉及多个医学主题,包括视网膜疾病、皮肤癌、肺结节和脑肿瘤。虽然有几篇文章涵盖了类似的医学主题,但不同的文章采用了不同的人工智能算法和训练过程。人工智能算法有效性的验证方法在不同的文章中也有所不同。根据我们的纳入标准,只审查了包括先进人工智能和临床专家之间诊断表现比较的文章。

文献表明,人工智能的表现与医学专家不相上下。主要的先进人工智能方法,如深度学习和cnn,在提供足够的训练数据集的情况下,可以产生显著的判别性能。除了在对象识别任务中具有较高的灵敏度和特异性外[1115],人工智能的优势还体现在报告的即时性和产生结果的一致性[17]。虽然神经网络方法通常需要大量数据进行训练,但最近的研究表明,将人工智能应用于罕见疾病是可行的[1112],在特殊情况下,也适用于无法获得大量示例的数据库。与其他技术(如基于云的数据共享平台)的结合,将使人工智能的应用范围超越临床环境或空间限制。20.]。

大多数AI成就都可以在图像识别中观察到[21]。对象识别任务是在医学诊断中的主要应用。计算机辅助技术有助于根据图像特征(如色调和边缘)快速检测感兴趣的临床症状(如良性和恶性),从而产生一致的输出。在训练过程中,通过大量的例子,基于人工智能的身体特征分类得到了加强,这种能力得到了巩固,并逐渐消除了基于外貌的诊断(如皮肤病)中的歧视性学术表现[1521]。这种人工智能辅助的影像相关临床任务可以减轻人类专家的认知负担[17从而提高医疗保健服务的效率。

人工智能在图像分析方面的表现与人类专家不相上下。图像分析涉及许多对象识别任务,其输出完全依赖于形状和颜色等具体特征的检测和解释。先进人工网络的非疲劳特性使其能够不断地训练和学习,直到达到令人满意的精度[17]。这显示了与图像评估相关的疾病诊断的显著成功。这一人类在生物学上不可能拥有的独特优势,使得人工智能的表现超过了临床专业人员。

文献表明,人工智能的几乎每一项成就都是基于诊断结果建立的。然而,对诊断结果的任何评估都需要产生有意义的影响。诊断标准是基于长期和递归的过程,包括临床医生评估的现实世界的实践,如总结在表1。尽管最近人工智能的自我学习能力可能会带来更多的前景[22],这种诊断过程的可行性不可避免地要由人类专家通过累积的临床经验来确定[2324]。换句话说,临床专家是告诉人工智能期望的预测是什么的人。人工智能仍然无法解释它从数据中获得的东西,也无法提供有说服力的结果。因此,人工智能的最终成功有条件地受到医疗专业人员的限制,而医疗专业人员才是人工智能诊断性能的真正评估者。这标志着它的人工人类主导的医疗环境中的自然。

考虑到人工智能与人类用户之间的这种关系,先进人工智能的适用性和临床意义是不能孤立的。人工智能技术的发展本身可能为医学应用提供了令人鼓舞的前景,但医学专家的评估在人工智能的持续发展中起着至关重要的作用。在医疗应用中,人工智能离不开人类的参与,因为最终的诊断需要对现实世界产生影响。以患者为导向的药物规定了人工智能建立和学习过程中患者数据的本质。每一个成功的人工智能,无论是数据库驱动的还是自我学习的,最终都需要改善患者的健康。人工智能不知疲倦的学习能力可以弥补人类的认知疲劳[17],可大幅提高临床效率。其优异的性能可与专家媲美,在临床实践中节省了大量的时间,从而缓解了长期以来从临床新手到专家过渡过程中的紧张情绪。

尽管对人工智能来说是一个有利的时刻,但在未来阶段仍有一些问题需要解决。目前尚不清楚人工智能是否能改变目前临床程序中以临床医生为主的评估方式。由人工智能和医生共同贡献的混合系统将产生更有效的诊断实践,这并不奇怪,正如其中一篇综述文章所证明的那样[17]。这反过来又可以改善医疗保健。数据解释似乎仍然是人工智能面临的重大挑战。未来的研究可能会更多地关注这一主题。

与以往工作的比较

在这篇综述之前,已经有一些关于人工智能在特定领域的应用的综述,如神经外科、数字皮肤镜和产时胎儿心率的解释[25-27]。然而,这些评论中的大多数并没有将其范围限制在高级人工智能或深度学习上,这被认为是医疗保健专业人员在疾病诊断方面的新兴兴趣。我们的综述特别将先进人工智能的诊断性能与临床医生专家的诊断性能进行了比较,提供了人工智能应用于疾病诊断的最新发展的最新总结。我们的研究结果表明,人工智能的诊断表现与临床专家不相上下,人工智能的精简效率超越了人类医生。认识到人工智能在当前实践中增加的实用价值,人类临床经验和以患者为中心的原则应该在未来人工智能在疾病诊断中的应用中保持基础。

限制

我们的综述系统地检索了在选定的主要数据库中发表的文章。根据我们预设的纳入和排除标准,我们没有具体审查可能包含最先进的人工智能的会议摘要,这些人工智能可以为诊断实践提供信息。本综述只纳入了英文文章,因此可能遗漏了其他语言发表的相关研究。

结论

总而言之,目前的人工智能发展已经在特定领域取得了与医学专家相当的成绩。由于它们孜孜不倦和稳定的特性,它们在疾病诊断方面的预测性能和简化效率——特别是在医学成像任务方面——已经超越了临床医生。进一步的研究可以集中在其他医学成像上,如磁共振成像和其他与图像无关的医学实践[2829]。随着人工智能辅助技术的不断发展,在未来与人工智能相关的和基于技术的医学研究中,应考虑以临床医生的经验为基础,以患者为中心的医疗原则为指导的临床意义。

致谢

本综述没有从公共、商业或非营利部门的资助机构获得任何特定的资助。

利益冲突

没有宣布。

多媒体附录1

用于识别与疾病诊断中使用的远程医疗和相关技术相关的文章的搜索术语。

PDF档案(adobepdf档案),34KB

多媒体附录2

个别研究的偏倚风险表。

PDF档案(adobepdf档案),105KB

  1. 米勒博士,布朗博士。医疗实践中的人工智能:从问题到答案?中华医学杂志,2018;31(2):129-133。[CrossRef] [Medline
  2. 吉尔TG。早期的专家系统:它们现在在哪里?MIS Q 1995;19(1):51-81。[CrossRef
  3. 朴世祥,徐敬祥,李世祥,金思明。人工智能方法在急性阑尾炎诊断中的应用:支持向量机。In: Park JJ, Stojmenovic I, Choi M, Xhafa F,编辑。未来信息技术:FutureTech。柏林,海德堡:施普林格;2013:85 - 92。
  4. Cascianelli S, Scialpi M, Amici S, Forini N, Minestrini M, Fravolini M,等。人工智能技术(自动分类器)在神经退行性疾病分子成像模式中的作用。中华老年痴呆症杂志,2017;14(2):198-207。[CrossRef] [Medline
  5. 宋建平,Dąbrowski M, Szajnar W, Piróg-Mazur M, Kożak T.语义学者。2009。人工智能在糖尿病诊断中的应用https://pdfs.semanticscholar.org/40f3/e4017d497bffe556f882d4f1389462296b59.pdf
  6. 李建军,李建军,李建军,等。三种数据挖掘方法在乳腺癌生存率预测中的应用。[j] .中华医学杂志,2005;34(2):113-127。[CrossRef] [Medline
  7. Jayatilake D, Ueno T, Teramoto Y, Nakai K, Hidaka K, Ayuzawa S,等。基于智能手机的吞咽能力实时评估。中华医学杂志[J]; 2009 (3): 391 - 391 [J]免费全文] [CrossRef] [Medline
  8. Krittanawong C,张宏,王忠,Aydar M, Kitai T.人工智能在精准心血管医学中的应用。中华心血管病杂志,2017,30 (5):557 - 564 [J]免费全文] [CrossRef] [Medline
  9. 香港卡茨街w街迟志强具有成本效益的诊断决策支持系统。中华医学杂志,2010,30(3):149-161。[CrossRef] [Medline
  10. 希金斯JP,格林S,编辑。Cochrane干预措施系统评价手册。5.1版。伦敦,英国:Cochrane协作;2011.
  11. Kermany DS, Goldbaum M,蔡伟,Valentim CC,梁辉,Baxter SL,等。通过基于图像的深度学习识别医学诊断和可治疗疾病。细胞2018年2月22日;172(5):1122-31。e9 [免费全文] [CrossRef] [Medline
  12. 龙娥,林海,刘志,吴霞,王丽,姜杰,等。先天性白内障多医院协同治疗的人工智能平台。中国生物医学工程学报,2017;1(2):1。[CrossRef
  13. 韩顺生,朴根根,林伟,金美思,罗智,朴毅,等。深度神经网络在甲癣诊断中表现出与皮肤科医生相当且通常优于皮肤科医生的表现:基于区域的卷积深度神经网络自动构建甲癣数据集。科学通报,2018;13(1):e0191493 [j]免费全文] [CrossRef] [Medline
  14. 刘建军,何建军,何建军,何建军,何建军,何建军。经过皮肤镜图像训练的卷积神经网络与145名皮肤科医生在临床黑色素瘤图像分类任务中的表现相当。中华医学杂志,2019;31 (4):391 - 391 [J]免费全文] [CrossRef] [Medline
  15. 李建军,刘建军,刘建军,李建军,等。用深度神经网络对皮肤癌进行皮肤科医生级别的分类。Nature 2017 Feb 2;542(7639):115-118。[CrossRef] [Medline
  16. 南建刚,朴生,黄恩杰,李建辉,靳健,林基基,等。基于深度学习的胸片恶性肺结节自动检测算法的开发与验证。中华放射学杂志,2019;29(1):218-228。[CrossRef] [Medline
  17. Rajpurkar P, Irvin J, Ball RL, Zhu K, Yang B, Mehta H,等。胸片诊断的深度学习:CheXNeXt算法与执业放射科医生的回顾性比较。PLoS Med 2018;15(11):e1002686 [j]免费全文] [CrossRef] [Medline
  18. González-Castro V, Hernández MD, Chappell F, Armitage P, Makin S, Wardlaw J.脑血管周围空间负荷自动分类器的可靠性及与人类性能的比较。中国临床医学杂志(英文版)2017;31(6):1465-1481。[CrossRef] [Medline
  19. de faw J, Ledsam JR, Romera-Paredes B, Nikolov S, Tomasev N, Blackwell S,等。深度学习在视网膜疾病诊断和转诊中的临床应用。中华医学杂志2018;24(9):1342-1350。[CrossRef] [Medline
  20. 林宏,龙娥,陈伟,刘勇。中国罕见病数据的记录。Science 2015年9月4日;349(6252):1064。[CrossRef] [Medline
  21. Brinker TJ, Hekler A, Utikal JS, Grabe N, Schadendorf D, Klode J,等。使用卷积神经网络进行皮肤癌分类:系统综述。[J]医学互联网研究,2018;17;20(10):e11936 [J]免费全文] [CrossRef] [Medline
  22. 张建军,张建军,张建军,等。在没有人类知识的情况下掌握围棋。Nature 2017; Oct 18;550(7676):354-359。[CrossRef] [Medline
  23. Gulshan V, Peng L, Coram M, Stumpe MC, Wu D, Narayanaswamy A,等。开发和验证一种深度学习算法,用于检测视网膜眼底照片中的糖尿病视网膜病变。中华医学杂志,2016,31(2):369 - 369。[CrossRef] [Medline
  24. 马马涛,López A, Peña-Méndez EM, Vaňhara P, haml A, Havel J.人工神经网络在医学诊断中的应用。中国生物医学杂志,2013;11(2):47-58。[CrossRef
  25. 发送者JT, Arnaout O, Karhade AV, Dasenbrock HH, Gormley WB, Broekman ML,等。神经外科中的自然和人工智能:系统综述。神经外科杂志,2018;33(2):181-192。[CrossRef] [Medline
  26. Balayla J, Shrem GJ。使用人工智能(AI)解释产时胎儿心率(FHR)追踪:系统回顾和荟萃分析。中华妇产医学杂志;2019;30(1):7-14。[CrossRef] [Medline
  27. Rajpara SM, Botello AP, Townend J, Ormerod AD。皮肤镜和数字皮肤镜/人工智能诊断黑色素瘤的系统综述。中华皮肤科杂志,2009,31(3):591- 594。[CrossRef] [Medline
  28. de Langavant LC, Bayen E, Yaffe K.无监督机器学习在基于人群的调查中识别痴呆症的高可能性:开发和验证研究。中国医学信息学报,2018;20(7):10493 [J]免费全文] [CrossRef] [Medline
  29. Gibbons C, Richards S, Valderas JM, Campbell J.监督式机器学习算法可以对医生表现的开放文本反馈进行分类,准确率达到人类水平。医学互联网研究,2017年3月15日;19(3):e65 [J]免费全文] [CrossRef] [Medline


人工智能:人工智能
AUC:接收机工作特性曲线下的面积
有线电视新闻网:卷积神经网络
10月:光学相干层析成像


G·艾森巴赫编辑;提交01.02.18;C . kritanawong, T . Arroyo-Gallego, I . Gabashvili, M . Mulvenna, YH Yeo;对作者的评论17.08.18;收到修订版本31.01.19;接受19.07.19;发表16.08.19

版权

©沈佳怡,Casper J P Zhang,蒋邦生,陈杰斌,宋健,刘振瑞,何宗林,王素义,方宝涵,明伟杰。原发表于JMIR Medical Informatics (http://medinform.www.mybigtv.com), 16.08.2019。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map