发表在gydF4y2Ba在gydF4y2Ba第23卷第2期(2021年):2月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/23436gydF4y2Ba,首次出版gydF4y2Ba.gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba数字生物标志物肿瘤组,国家肿瘤疾病中心,德国癌症研究中心(DKFZ),海德堡,德国gydF4y2Ba

2gydF4y2Ba德国海德堡大学海德堡大学医院病理研究所gydF4y2Ba

3.gydF4y2Ba德国基尔大学基尔大学医院皮肤科gydF4y2Ba

4gydF4y2Ba德国汉堡血液病理学研究所gydF4y2Ba

5gydF4y2Ba德国海德堡皮肤病私人研究所gydF4y2Ba

6gydF4y2Ba德国弗里德里希港私人皮肤病研究所gydF4y2Ba

7gydF4y2Ba德国癌症研究中心(DKFZ)皮肤癌组,德国海德堡gydF4y2Ba

8gydF4y2Ba德国曼海姆海德堡大学曼海姆大学医学中心皮肤科gydF4y2Ba

9gydF4y2Ba德国雷根斯堡大学医院皮肤科gydF4y2Ba

10gydF4y2Ba德国亚琛工业大学附属亚琛医院医学部三科gydF4y2Ba

11gydF4y2Ba病理研究所,Charité柏林大学医院,柏林,德国gydF4y2Ba

12gydF4y2Ba国家肿瘤疾病中心,德国癌症研究中心(DKFZ),德国海德堡gydF4y2Ba

13gydF4y2Ba临床转化科学系,Charité和柏林卫生研究所,德国柏林gydF4y2Ba

*这些作者贡献相同gydF4y2Ba

通讯作者:gydF4y2Ba

Titus Josef Brinker医学博士gydF4y2Ba

肿瘤学组的数字生物标志物gydF4y2Ba

国家肿瘤疾病中心gydF4y2Ba

德国癌症研究中心gydF4y2Ba

伊姆·纽海默费尔德460gydF4y2Ba

海德堡69120gydF4y2Ba

德国gydF4y2Ba

电话:49 6221 3219304gydF4y2Ba

电子邮件:gydF4y2Batitus.brinker@dkfz.degydF4y2Ba


背景:gydF4y2Ba数字病理学领域越来越多的研究表明,人工智能(AI)在使用组织学全切片图像诊断癌症方面具有潜力,这需要大量和多样化的数据集。虽然多样化可能会导致更一般化的基于人工智能的系统,但它也可能引入隐藏变量。如果神经网络能够区分/学习隐变量,这些变量可能会引入批处理效应,从而影响分类系统的准确性。gydF4y2Ba

摘要目的:gydF4y2Ba本研究的目的是分析隐变量示例选择(患者年龄、玻片制备日期、玻片来源和扫描仪类型)的可学习性,这些隐变量通常出现在数字病理学的整个玻片图像数据集中,并可能产生批量效应。gydF4y2Ba

方法:gydF4y2Ba我们训练了四个独立的卷积神经网络(cnn)来学习四个变量,使用来自五个不同研究所的数字化整张幻灯片黑色素瘤图像的数据集。为了鲁棒性,每个CNN训练和评估运行都重复多次,只有当一个变量的平均平衡精度的95%置信区间的下界高于50.0%时,才被认为是可学习的。gydF4y2Ba

结果:gydF4y2Ba即使考虑到95%置信区间的下界,所有四项任务的平均平衡准确度也达到了50.0%以上。不同任务之间的表现差异很大,从56.1%(幻灯片准备日期)到100%(幻灯片开始日期)。gydF4y2Ba

结论:gydF4y2Ba因为所有分析的隐变量都是可学习的,它们有可能在皮肤病理数据集中产生批量效应,这对基于人工智能的分类系统产生负面影响。从业人员在开发和评估此类系统时应该意识到这些和类似的缺陷,并通过充分的数据集分层来解决数据集中的这些和潜在的其他批处理效应变量。gydF4y2Ba

中国医学杂志,2017;23(2):e23436gydF4y2Ba

doi: 10.2196/23436gydF4y2Ba

关键字gydF4y2Ba



数字病理学(DP)中人工智能(AI)的出现导致了各种用于检测、分类和进一步评估多种癌症亚型的算法的发展[gydF4y2Ba1gydF4y2Ba].人们对这一新兴技术的普遍兴趣和热情持续增长,以各种基于卷积神经网络(CNN)的肿瘤系统的开发为例,用于分析乳房组织学图像[gydF4y2Ba2gydF4y2Ba,gydF4y2Ba3.gydF4y2Ba], lung [gydF4y2Ba4gydF4y2Ba],皮肤[gydF4y2Ba5gydF4y2Ba,gydF4y2Ba6gydF4y2Ba],以及胃肠[gydF4y2Ba7gydF4y2Ba癌症)。然而,在DP中基于cnn的辅助系统的成功实施由于大量的挑战而变得复杂[gydF4y2Ba8gydF4y2Ba-gydF4y2Ba10gydF4y2Ba],其中一些是特定领域的,而另一些则普遍存在于深度学习(DL)和机器学习(ML)领域。gydF4y2Ba

生物医学数据分析领域的一个重要问题是批效应的出现,批效应被定义为通过技术工件引入的数据集子集之间的差异[gydF4y2Ba11gydF4y2Ba,gydF4y2Ba12gydF4y2Ba].在DP中,这种伪影是在组织处理和切片制备过程中引入的[gydF4y2Ba13gydF4y2Ba],大概也在幻灯片数字化、图像压缩和存储过程中[gydF4y2Ba14gydF4y2Ba],所有这些都会影响幻灯片和图像的外观(gydF4y2Ba图1gydF4y2Ba).我们扩展了批量效应的定义,包括生物因素,假设与实际分类任务无关,作为病原体。这两个因素(生物的和非生物的)从此被称为隐变量。gydF4y2Ba

‎gydF4y2Ba
图1。不同研究所获得的示范性全切片切片的比较:(A)德国海德堡海德堡大学海德堡大学医院病理研究所(蔡司扫描仪;卡尔蔡司公司;(B)德国基尔大学基尔大学医院皮肤科(3DHISTECH扫描仪;3 dhistech有限公司);(C)私人皮肤病理研究所,Mönchhofstraße 52,海德堡,德国(蔡司扫描仪);(D)德国曼海姆海德堡大学曼海姆大学医学中心皮肤科(蔡司扫描仪);和(E)私人皮肤病理研究所,Siemensstraße 6/1, Friedrichshafen, Germany(蔡司扫描仪)。(F)与(E)所示的幻灯片部分相同,但使用Hamamatsu扫描仪(Hamamatsu Photonics KK)扫描,而不是蔡司扫描仪。gydF4y2Ba
查看此图gydF4y2Ba

批处理效应在ML模型的开发过程中可能会出现问题,其中隐藏变量是学习的,而不是预期的目标变量。然后,隐藏变量作为预期目标变量的完全或部分代理,对模型的性能产生负面影响。研究通过关注各种标准化技术来解决这个问题[gydF4y2Ba15gydF4y2Ba-gydF4y2Ba19gydF4y2Ba].此外,标准化的预处理程序和平衡的数据集构建可能有助于减少但不能消除批效应。总的来说,这是令人担忧的,之前一项使用乳腺癌组织队列的研究已经表明,在公开可用的癌症基因组图谱(TCGA)病理储存库的部分中存在批次效应[gydF4y2Ba20.gydF4y2Ba].gydF4y2Ba

我们通过分析四个示例性选择的隐变量的可学习性来扩展这些发现,因为可学习变量会导致对DL算法产生负面影响的批处理效应。我们对隐藏变量的研究旨在强调批量效应不是不可能发生的,从而加强了正确的数据集构建和实验设计的重要性,以及使社区对DP中DL新兴领域的这些和类似陷阱敏感。gydF4y2Ba


研究设计gydF4y2Ba

使用匿名幻灯片的专有皮肤病理数据集,制定了一系列ML任务,其中每个任务都调查了某个隐藏变量的学习性。所分析的变量被认为存在于DP全幻灯片图像(WSI)数据集中,但其学习性并不一定需要泛化。gydF4y2Ba

接下来,在每个任务所陈述的变量上训练相同架构的多个DL模型,然后进行后续性能分析,其中评估任务的变量是可学习的还是不可学习的。当一个变量的平均平衡精度的95%置信区间在幻灯片水平上计算时,其下界高于50.0%时,该变量被认为是可学习的。请注意,一个无法学习变量的随机分类器将有望达到约50.0%的平衡精度。gydF4y2Ba

获得了德国曼海姆海德堡大学曼海姆医学院伦理委员会的伦理批准。gydF4y2Ba

数据集gydF4y2Ba

共有427个苏木精和伊红染色制剂从5个不同的研究所获得,每个幻灯片属于一个病人,包含黑色素瘤活检的组织切片(gydF4y2Ba表1gydF4y2Ba).有关幻灯片数字化过程的详细信息,请参见gydF4y2Ba多媒体附件1gydF4y2Ba.gydF4y2Ba

表1。各个数据集的概述。gydF4y2Ba
数据集gydF4y2Ba 幻灯片的来源gydF4y2Ba 幻灯片数量gydF4y2Ba 方块数gydF4y2Ba 扫描仪的类型gydF4y2Ba 任务gydF4y2Ba
1gydF4y2Ba 海德堡gydF4y2Ba一个gydF4y2Ba 81gydF4y2Ba 1344825年gydF4y2Ba 蔡司gydF4y2BabgydF4y2Ba 2(幻灯片制作日期);3(幻灯片原点)gydF4y2Ba
2gydF4y2Ba 基尔gydF4y2BacgydF4y2Ba 196gydF4y2Ba 2092726年gydF4y2Ba 3 dhistechgydF4y2BadgydF4y2Ba 1(患者年龄);2(幻灯片准备日期)gydF4y2Ba
3.gydF4y2Ba 海德堡gydF4y2BaegydF4y2Ba 73gydF4y2Ba 832940年gydF4y2Ba 蔡司gydF4y2Ba 3(幻灯片原点)gydF4y2Ba
4gydF4y2Ba 菲德gydF4y2BafgydF4y2Ba 54gydF4y2Ba 350518;364196年gydF4y2Ba 蔡司;滨松gydF4y2BaggydF4y2Ba 3(幻灯片原点);4(扫描仪型)gydF4y2Ba
5gydF4y2Ba 曼海姆gydF4y2BahgydF4y2Ba 23gydF4y2Ba 513256年gydF4y2Ba 蔡司gydF4y2Ba 3(幻灯片原点)gydF4y2Ba

一个gydF4y2Ba德国海德堡大学海德堡大学医院病理研究所。gydF4y2Ba

bgydF4y2Ba卡尔蔡司公司。gydF4y2Ba

cgydF4y2Ba德国基尔大学基尔大学医院皮肤科。gydF4y2Ba

dgydF4y2Ba3 dhistech有限公司。gydF4y2Ba

egydF4y2Ba私人皮肤病研究所,Mönchhofstraße 52,海德堡,德国。gydF4y2Ba

fgydF4y2Ba私人皮肤病理研究所,Siemensstraße 6/1, Friedrichshafen,德国。gydF4y2Ba

ggydF4y2Ba滨松光电KK。gydF4y2Ba

hgydF4y2Ba德国曼海姆海德堡大学曼海姆大学医学中心皮肤科。gydF4y2Ba

分类任务gydF4y2Ba

执行四个分类任务,每个任务分析一个预定义的隐藏变量。每个任务的数据集是根据数据可用性选择的,同时最大限度地降低跨任务学习的风险。例如,除数据集2外,所有数据集都用于幻灯片来源预测任务(任务3),因为基尔大学医院皮肤科使用了不同的扫描仪类型(3DHISTECH扫描仪;3DHISTECH有限公司)将幻灯片数码化(gydF4y2Ba表1gydF4y2Ba).因此,分类器可以通过确定扫描仪类型潜在地确定数据集2的幻灯片原点。gydF4y2Ba

任务1:患者年龄gydF4y2Ba

为了确定患者年龄,使用数据集2,只分析指定患者年龄的幻灯片。根据患者年龄将玻片分为两类(≤48岁和>78岁),排除年龄介于两者之间的患者玻片。选择分界点是为了在两个年龄组之间实现自然平衡,30岁的差距使观察可能不同的年龄依赖性形态特征变得合理。gydF4y2Ba

任务2:幻灯片准备日期gydF4y2Ba

为了确定玻片制备的年份,使用数据集1和2。2014-2018年的数据可用性各不相同,但总体上足够。对于每个数据集,定义了单独的二进制分类任务,其中每隔一年提取一次幻灯片,以确保每个类别的幻灯片的准备日期之间至少有365天(例如,数据集1,2015年与2017年)。这产生了五个单独的分类子任务。gydF4y2Ba

任务3:幻灯片原点gydF4y2Ba

为了确定各自幻灯片的来源,使用了除数据集2之外的所有数据集。来源被定义为获得幻灯片的机构。gydF4y2Ba

任务4:扫描仪类型gydF4y2Ba

为了确定扫描仪类型,使用数据集4。这些幻灯片被扫描了两次,但由于蔡司(Carl Zeiss AG)和滨松光电(Hamamatsu Photonics KK)扫描仪之间的分辨率略有差异,扫描的蔡司幻灯片被专门重新处理,通过缩小其分辨率(0.22 μ m/px)来匹配滨松扫描仪的分辨率(0.23 μ m/px)。gydF4y2Ba

模型训练gydF4y2Ba

每个任务都有一个基于上述设置的指定组合数据集。每个组合数据集按照80:20的比例划分为一个训练集和一个测试集。如果得到的测试集包含少于10张幻灯片,则采用幻灯片级别的交叉验证方法将测试集的大小增加到每个类至少10张幻灯片。gydF4y2Ba

为每个任务训练一个ResNet50体系结构。在使用交叉验证进行测试的情况下,训练的cnn数量等于交叉验证折叠的数量。每个任务的训练运行总共重复5次,以获得不受随机训练事件影响的稳健平均性能。这个数字是任意选择的,但目的是减少总体计算时间。有关交叉验证和培训程序的确切技术细节,请参见gydF4y2Ba多媒体附件1gydF4y2Ba或参考gydF4y2Ba多媒体附件2gydF4y2Ba为示范jupyter笔记本基本训练程序。gydF4y2Ba

模型推断与统计评价gydF4y2Ba

对每个任务的各自测试集进行推理,使用每个幻灯片的完整瓷砖集。WSI的类是通过以下方法计算的:首先对其完整的瓦片集进行预测,平均所有输出概率,并将平均概率最高的类标签分配给幻灯片。由于每个任务的训练和评估运行都重复5次,因此可以计算出具有相应95%置信区间的平均平衡精度。gydF4y2Ba


在幻灯片水平上研究学习性,因为学习性是DP的标准和决定性标准。在所有的任务中,在幻灯片水平上的平衡准确度普遍高于在瓷砖水平上的平衡准确度。gydF4y2Ba

对于每个任务,即使考虑到相应置信区间的范围,也实现了超过50.0%的平衡准确性。任务2的分类器性能在任务间和任务内差异很大,因为任务2有多个子任务。任务1(患者年龄)的平均平衡准确度为87.5% (gydF4y2Ba表2gydF4y2Ba).对于任务2(幻灯片准备日期),子任务之间的表现差异很大,范围为56.1%(95%置信区间为52.7%至59.5%)至83.5%(95%置信区间为80.9%至86.1%)。任务3(幻灯片来源)和任务4(扫描仪类型)的分类器分别显示了97.9% (95% CI 97.3%至98.5%)和100%的平衡准确性。gydF4y2Ba

表2。每个任务的分类器的总体平均性能使用平均平衡精度测量,并在瓦片水平和幻灯片水平上进行评估。gydF4y2Ba
任务gydF4y2Ba一个gydF4y2Ba ResNet50性能(平均平衡精度)gydF4y2Ba
瓦级gydF4y2Ba 幻灯片水平(95%置信区间)gydF4y2BabgydF4y2Ba
1:患者年龄gydF4y2Ba 76.2%gydF4y2Ba 87.5%gydF4y2Ba
2:幻灯片准备日期gydF4y2Ba


数据集1:2015年对比2017年gydF4y2Ba 54.1%gydF4y2Ba 56.1%(52.7%至59.5%)gydF4y2Ba

数据集1:2016年对比2018年gydF4y2Ba 56.5%gydF4y2Ba 63.2%(53.4%至73.0%)gydF4y2Ba

数据集2:2014年对比2016年gydF4y2Ba 69.0%gydF4y2Ba 82.0%(76.4%至87.6%)gydF4y2Ba

数据集2:2015年对比2017年gydF4y2Ba 66.6%gydF4y2Ba 83.5%(80.9%至86.1%)gydF4y2Ba

数据集2:2016年与2018年gydF4y2Ba 52.7%gydF4y2Ba 56.7%(52.6%至60.7%)gydF4y2Ba
3:幻灯片原点gydF4y2Ba 94.2%gydF4y2Ba 97.9% (97.3% ~ 98.5%)gydF4y2Ba
4:扫描仪型gydF4y2Ba 100%gydF4y2Ba 100%gydF4y2Ba

一个gydF4y2Ba每个任务的测试集每节课至少有10张幻灯片。gydF4y2Ba

bgydF4y2Ba对于决定性标准(幻灯片水平)显示置信区间,对于没有观察到幻灯片水平变化的任务省略。gydF4y2Ba

观察第一次运行的每个特定任务模型的分布,可以非常准确地预测幻灯片来源和扫描仪类型,任务3(幻灯片来源)有轻微的错误分类错误,任务4(扫描仪类型)没有错误分类。对于任务1,48岁以下的患者年龄预测精度较高,但来自老年患者(>78岁)的玻片有四分之一被错误地归类为年轻年龄组。对于任务2(幻灯片准备日期),对比结果差异很大。平衡精度最高的2年比较(数据集2,2015年与2017年)显示了一些错误分类,2015年的幻灯片偶尔被归类为2017年,而平衡精度最低的任务(数据集1,2015年与2017年)在两个方向上都显示了频繁的错误分类(gydF4y2Ba图2gydF4y2Ba).gydF4y2Ba

‎gydF4y2Ba
图2。在ResNet50幻灯片水平上,任务1到任务4模型预测的分布(运行1)。(A)任务1(患者年龄)预测。(B)任务4(扫描仪类型)预测。(C, D)任务2(幻灯片准备日期)中两个最不同的分类子任务的比较,其中平衡精度要么处于最大值(C:数据集2,2015年与2017年),要么处于最小值(D:数据集1,2015年与2017年)。(E)任务3(幻灯片原点)预测,显示数据集编号,而不是数据集原点,以提高可读性。gydF4y2Ba
查看此图gydF4y2Ba

原理的发现gydF4y2Ba

使用在DP WSI数据集中发现的四个示例隐藏变量,我们表明这些变量是由皮肤病理数据集的DL算法学习的。一个可学习的隐藏变量可能会导致批处理效应,如果所述变量被无意中拾取而不是预期的目标变量或添加到预期的目标变量之外,这将极大地影响此类算法的训练。我们假设在幻灯片上有一些隐藏的变量。这些更有可能被算法提取并用于对幻灯片进行分类,因此对分类的准确性构成了最大的威胁。为了识别这种“高风险”变量,我们限制了CNN接受的训练量,使用标准架构和训练过程,很少优化,直到收敛才进行训练。这应该导致只学习突出的变量,这可能对分类器的准确性构成最大的威胁,尽管不能排除可能通过更广泛的训练过程学习到的因素的影响。gydF4y2Ba

所有四个测试变量(患者年龄、玻片制备日期、玻片来源和扫描仪类型)都被分类器学习,尽管程度不同。在任务4(扫描仪类型)中观察到最高的平衡精度。在这项任务中,数据集4中的幻灯片用不同的设备扫描了两次,但使用相同的图像处理管道进行处理,扫描仪类型的差异(例如,特定的扫描仪硬件或软件)是导致变化的唯一原因,基于高平衡精度,这种差异必须非常明显。gydF4y2Ba

任务3(幻灯片起源)和任务4(扫描仪类型)的表现是相当的。由于任务3的所有幻灯片都是使用相同的扫描仪类型和管道扫描和处理的,因此可以排除数字化作为观察到的批处理效果的来源。因此,变化的来源很可能源于载玻片的准备步骤,这是一个复杂的过程,有许多与切片、固定、染色和安装程序相关的潜在变量。确定图像的来源以前是在DP领域之外显示的,其中CNN仅根据胸部x光片正确识别了医院系统[gydF4y2Ba21gydF4y2Ba].gydF4y2Ba

上述玻片制备步骤也可能是玻片制备日期“可分类性”的一个因素(任务2),以及玻片老化本身(即少量组织和染料降解)。虽然玻片老化可能是一个渐进的过程,但随着时间的推移,当机构改变玻片制备的确切模式时(例如,当引入一种新的染色方案时),玻片制备步骤预计会发生更突然的变化。这可以解释任务2中分类器性能的巨大差异,在某些情况下,在同一机构中,两个特定年份之间的差异可以比其他两年之间的差异更准确地识别出来。基于这些结果,这项任务的学习性在很大程度上取决于所选择的年份和数据集,使得基础变量的风险因素较小,但仍然值得考虑。gydF4y2Ba

患者年龄预测任务是唯一反映了分析组之间真正的“生物学”差异的任务。众所周知,皮肤质地的变化是衰老过程中一系列过程的结果。gydF4y2Ba22gydF4y2Ba].例如,弹性蛋白和胶原蛋白的数量随着时间的推移而减少,这导致皮肤深层纤维组织的重组。在紫外线照射的皮肤上,光老化也可能引起其他类似的影响。此外,衰老过程可能存在一定程度的生物可变性。这种相当复杂的皮肤老化模式可能解释了为什么CNN区分所选年龄组的能力并不完美。如果缩小30岁的年龄差距,或者如果只考虑肿瘤区域而不是同时显示肿瘤和健康皮肤的wsi,则表现可能会下降。尽管如此,分类器拾取代表较大年龄差异的变量的能力是需要考虑的重要因素,因为对于某些医学DL目标,不平等的患者年龄分布不太可能发生,特别是癌症发病率随着年龄的增长而增加。gydF4y2Ba

基于这些发现,讨论的变量可能会干扰基于cnn的准确分类器的生成。由于载玻片制备日期、载玻片来源和扫描仪类型的技术性质,它们的可学习性可以推广到DP中的其他领域,这可能需要在进一步的研究中进行研究。然而,患者年龄的可学习性可能在皮肤病学领域更为具体。虽然已知患者年龄对皮肤有影响,但年龄相关的差异在其他组织中可能不那么突出。gydF4y2Ba

预防与验证gydF4y2Ba

为了最小化批效应变量的学习,我们建议在创建训练数据集时平衡任何已知的批效应变量,除了任何归一化和预处理标准化。如果易于学习的变量在类之间是平等平衡的,基于这些变量的分离应该不再导致训练损失的减少,从而失去其优化价值。此外,大型和多样化的验证集降低了批效应变量和预期生物变量之间存在不必要相关性的可能性,从而有助于揭示预期生物变量或某些混淆隐藏变量是否被学习。gydF4y2Ba

不幸的是,为所有潜在的批效应平衡训练数据集是不可行的。即使是随机临床试验也只能在一些被认为对相关比较至关重要的特征上达到平衡。随着时间的推移,在人工智能支持的医学领域内外积累的额外知识可能会帮助研究人员澄清哪些潜在的影响变量必须考虑哪些任务。在这方面,未来实现更透明的人工智能系统,促进解释性和因果性[gydF4y2Ba23gydF4y2Ba通过更好地理解人工智能系统的决策过程,将有助于从业者更好地评估人工智能系统的可靠性。gydF4y2Ba

限制gydF4y2Ba

一个主要的限制是所考虑的工件的列表不是详尽的。由于存在许多其他潜在的混杂因素,其中一些我们还没有意识到,在一项研究中完全覆盖所有可能的人为因素是不可能的,因此必须仅限于被认为是至关重要的选择。然而,由于深度学习算法的黑盒性质,没有证据表明模型实际学习了什么,这意味着任何未解释的工件都可能偶然与任务的类分布相关并被学习。不能排除这种可能性;然而,通过增加验证集的大小和多样性,这些意外训练集相关性持续到验证集的几率会降低,因此应该在验证阶段被检测到。gydF4y2Ba

在本研究中,只展示了一种DL架构所获得的结果。因此,我们研究了另外两种架构(DenseNet121和VGG16),并观察到类似的趋势(参见gydF4y2Ba多媒体附件1gydF4y2Ba).gydF4y2Ba

虽然本研究仅对皮肤病理数据集进行了可学习性调查,但这里获得的一些见解可能可转移到DP的其他领域。此外,这项研究并不是要说明可以学习哪些变量,而是要说明可以学习意想不到的变量。gydF4y2Ba

结论gydF4y2Ba

我们的DL模型能够相对轻松地学习几个潜在的批处理效应变量,这一发现可能也适用于其他DL模型。因此,我们的结果强调了识别和最小化这些影响的重要性,不仅通过标准化和预处理标准化,而且通过仔细构造DL分类任务的训练和验证集。gydF4y2Ba

致谢gydF4y2Ba

本研究由德国柏林联邦卫生部资助(资助:皮肤分类项目;资助人:Titus J Brinker博士,国家肿瘤疾病中心,德国癌症研究中心肿瘤组数字生物标志物)。发起人在研究的设计和实施中没有任何作用;数据的收集、管理、分析或解释;手稿的准备、审查或批准;或决定投稿发表。gydF4y2Ba

利益冲突gydF4y2Ba

Hauschild从以下公司获得临床试验支持、演讲者酬金或咨询费:Amgen、Bristol Myers Squibb、Merck Serono、MSD、Novartis、Oncosec、Philogen、Pierre Fabre、Provectus、Regeneron、Roche、Oncosec、Sanofi-Genzyme和Sun Pharma。在提交的工作之外,JSU是咨询委员会成员,或已从Amgen, Bristol Myers Squibb, GlaxoSmithKline, LeoPharma, Merck Sharp和Dohme, Novartis, Pierre Fabre和Roche获得了酬金和旅行支持。除了提交的工作,SH还担任皮埃尔法布尔制药公司、诺华公司、罗氏公司、百时美施贵宝公司、安进公司和默沙丹公司的顾问职位或接受过酬金。TJB拥有一家开发移动应用程序的公司(Smart Health Heidelberg GmbH, Handschuhsheimer Landstr. 9/ 1,69120 Heidelberg)。gydF4y2Ba

‎gydF4y2Ba
多媒体附件1gydF4y2Ba

附加的方法和结果。gydF4y2Ba

DOCX文件,26 KBgydF4y2Ba

‎gydF4y2Ba
多媒体附件2gydF4y2Ba

典型的jupyter笔记本。gydF4y2Ba

ZIP文件(ZIP Archive), 6kbgydF4y2Ba

  1. 李志强,李志强,李志强。数字病理学中的人工智能——诊断和精准肿瘤的新工具。Nat Rev clinin Oncol 2019 11月;16(11):703-715 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  2. Ehteshami Bejnordi B, Veta M, Johannes van Diest P, van Ginneken B, Karssemeijer N, Litjens G, CAMELYON16 Consortium,等。深度学习算法用于检测乳腺癌女性淋巴结转移的诊断评估。中国医学杂志2017年12月12日;318(22):2199-2210 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. Cruz-Roa A, Gilmore H, Basavanhally A, Feldman M, Ganesan S, Shih NNC,等。在整个幻灯片图像中准确和可重复的浸润性乳腺癌检测:一种用于量化肿瘤范围的深度学习方法。科学报告2017年4月18日;7:46450 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  4. Coudray N, Ocampo PS, Sakellaropoulos T, Narula N, Snuderl M, Fenyö D,等。基于深度学习的非小细胞肺癌组织病理图像分类和突变预测。2018年10月;24(10):1559-1567。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. 张志刚,张志刚,张志刚,张志刚,等。用深度神经网络对组织病理学黑色素瘤图像进行病理学级别的分类。2019年7月;115:79-83 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. 张志刚,张志刚,张志刚,等。深度学习在组织病理学黑色素瘤图像分类方面优于11名病理学家。2019年9月;118:91-96 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. 刘志强,刘志强,刘志强,等。深度学习可以直接从组织学角度预测胃肠道癌的微卫星不稳定性。中国医学杂志2019 7月;25(7):1054-1056。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. 数字病理学和全玻片成像的应用和挑战。生物技术组织化学2015七月;90(5):341-347。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  9. Madabhushi A, Lee G.数字病理学中的图像分析和机器学习:挑战和机遇。2016年10月:33:170-175 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. Tizhoosh HR, Pantanowitz L.人工智能和数字病理学:挑战和机遇。J Pathol Inform 2018;9:38 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. 吴世宝,王伟,王磊。批效应在组学数据中的重要性,以及如何避免它们。生物技术2017年6月;35(6):498-507。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. 潘建华,郭芳芳,程成,王冬梅。生物医学信息学中组学、成像和临床数据的多尺度集成。IEEE生物医学工程学报2012;5:74-87 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  13. Taqi SA,萨米SA,萨米LB, Zaki SA。组织病理学中伪影的回顾。中华口腔颌面外科杂志2018;22(2):279 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  14. 贾诺兹克,马达布希。基于稀疏自编码器(StaNoSA)的染色归一化:在数字病理学中的应用。Comput Med Imaging Graph 2017 Apr;57:50-61 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  15. 王晓明,王晓明,王晓明,王晓明,潘俊华,王晓明。组织病理学图像中批量效应的去除及其在肿瘤诊断中的应用。IEEE生物医学健康信息2014 5月;18(3):765-772 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. 潘建华,王冬梅,王俊华。组织病理学图像的标度归一化在批量不变癌症诊断模型中的应用。IEEE工程医学生物Soc 2012;2012:4406-4409 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. 王志强,王志强,王志强,等。组织病理学图像颜色归一化方法的研究。美光2018 11月;114:42-61。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  18. Van Eycke Y, Allard J, Salmon I, Debeir O, Decaestecker C.数字病理学中的图像处理:解决免疫组织化学染色批间变异的机会。科学报告2017 Feb 21;7:42964 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  19. 张志强,张志强,张志强,等。组织学肿瘤图像的批量不变颜色自动分割。Proc IEEE Int Symp生物医学成像2011;2011:657-660 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  20. 贾诺奇克,左R,吉摩H, Feldman M, Madabhushi A. HistoQC:一种开源的数字病理切片质量控制工具。JCO临床癌症通报2019年4月;3:1-7 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. Zech JR, Badgeley MA, Liu M, Costa AB, Titano JJ, Oermann EK。在胸片中检测肺炎的深度学习模型的可变泛化性能:一项横断面研究。PLoS Med 2018 11月;15(11):e1002683 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  22. Rittié L, Fisher GJ。自然和阳光引起的人体皮肤老化。冷泉Harb透视医学2015年1月05日;5(1):a015370 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  23. Holzinger A, Langs G, Denk H, Zatloukal K, Müller H.人工智能在医学中的因果性和可解释性。Wiley interdisc Rev Data Min Knowl Discov 2019;9(4):e1312 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
人工智能:gydF4y2Ba人工智能gydF4y2Ba
有线电视新闻网:gydF4y2Ba卷积神经网络gydF4y2Ba
DL:gydF4y2Ba深度学习gydF4y2Ba
DP:gydF4y2Ba数字病理gydF4y2Ba
ML:gydF4y2Ba机器学习gydF4y2Ba
TCGA:gydF4y2Ba癌症基因组图谱gydF4y2Ba
WSI公司:gydF4y2Ba整张幻灯片gydF4y2Ba


G·艾森巴赫(G Eysenbach)编辑;提交12.08.20;A Böer-Auer, JA Benítez-Andrades, A Holzinger同行评审;对作者10.10.20的评论;订正版本收到14.10.20;接受06.12.20;发表02.02.21gydF4y2Ba

版权gydF4y2Ba

©Max Schmitt, Roman Christoph Maron, Achim Hekler, Albrecht Stenzinger, Axel Hauschild, Michael Weichenthal, Markus Tiemann, Dieter Krahl, Heinz Kutzner, Jochen Sven Utikal, Sebastian Haferkamp, Jakob Nikolas Kather, Frederick Klauschen, Eva Krieghoff-Henning, Stefan Fröhling, Christof von Kalle, Titus Josef Brinker。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 02.02.2021。gydF4y2Ba

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba


Baidu
map