发表在gydF4y2Ba在gydF4y2Ba23卷gydF4y2Ba, No . 2gydF4y2Ba(2021)gydF4y2Ba: 2月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/23436gydF4y2Ba,首次出版gydF4y2Ba.gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba德国癌症研究中心(DKFZ),德国海德堡,国家肿瘤疾病中心,肿瘤组数字生物标志物gydF4y2Ba

2gydF4y2Ba德国海德堡,海德堡大学,海德堡大学医院病理研究所gydF4y2Ba

3.gydF4y2Ba德国基尔大学基尔大学附属医院皮肤科gydF4y2Ba

4gydF4y2Ba德国汉堡血液病研究所gydF4y2Ba

5gydF4y2Ba私人皮肤病研究所,海德堡,德国gydF4y2Ba

6gydF4y2Ba德国腓特烈港私人皮肤病理学研究所gydF4y2Ba

7gydF4y2Ba德国海德堡德国癌症研究中心皮肤癌组gydF4y2Ba

8gydF4y2Ba德国曼海姆海德堡大学曼海姆大学医学中心皮肤科gydF4y2Ba

9gydF4y2Ba德国雷根斯堡大学医院皮肤科gydF4y2Ba

10gydF4y2Ba德国亚琛工业大学附属亚琛医院医学三科gydF4y2Ba

11gydF4y2Ba德国柏林慈善大学医院病理研究所gydF4y2Ba

12gydF4y2Ba国家肿瘤疾病中心,德国癌症研究中心(DKFZ),德国海德堡gydF4y2Ba

13gydF4y2Ba德国柏林慈善医院临床转化科学系和柏林卫生研究所gydF4y2Ba

这些作者的贡献相同gydF4y2Ba

通讯作者:gydF4y2Ba

Titus Josef Brinker,医学博士gydF4y2Ba

肿瘤组数字生物标志物gydF4y2Ba

国家肿瘤疾病中心gydF4y2Ba

德国癌症研究中心gydF4y2Ba

我是纽恩海默,460号gydF4y2Ba

海德堡69120gydF4y2Ba

德国gydF4y2Ba

电话:49 6221 3219304gydF4y2Ba

电子邮件:gydF4y2Batitus.brinker@dkfz.degydF4y2Ba


背景:gydF4y2Ba越来越多的数字病理学研究表明,人工智能(AI)有潜力利用组织学整张幻灯片图像诊断癌症,这需要大量不同的数据集。虽然多样化可能会产生更一般化的基于ai的系统,但它也可能引入隐藏变量。如果神经网络能够区分/学习隐藏变量,这些变量可能会引入损害分类系统准确性的批处理效应。gydF4y2Ba

摘要目的:gydF4y2Ba本研究的目的是分析隐藏变量(患者年龄、切片制备日期、切片起源和扫描仪类型)的可学习性,这些隐变量通常存在于数字病理学的整个切片图像数据集中,并可能产生批处理效果。gydF4y2Ba

方法:gydF4y2Ba我们训练了四个独立的卷积神经网络(cnn)来学习四个变量,使用来自五个不同机构的数字化全幻灯片黑色素瘤图像数据集。为了鲁棒性,每次CNN训练和评估运行都要重复多次,只有当一个变量的平均平衡准确率的95%置信区间下界大于50.0%时,才认为该变量是可学习的。gydF4y2Ba

结果:gydF4y2Ba即使考虑到95%置信区间的下限,所有四个任务的平均平衡精度也达到了50.0%以上。任务之间的表现差异很大,从56.1%(幻灯片制作日期)到100%(幻灯片起源)不等。gydF4y2Ba

结论:gydF4y2Ba由于所有分析的隐变量都是可学习的,因此它们有可能在皮肤病理数据集中产生批处理效应,从而对基于人工智能的分类系统产生负面影响。在开发和评估此类系统时,从业者应该意识到这些和类似的陷阱,并通过充分的数据集分层处理数据集中的这些和潜在的其他批效应变量。gydF4y2Ba

[J] .中国医学信息学报,2011;23(2):563 - 563gydF4y2Ba

doi: 10.2196/23436gydF4y2Ba

关键字gydF4y2Ba



人工智能(AI)在数字病理学(DP)中的出现导致了各种算法的发展,用于检测,分类和进一步评估多种癌症亚型[gydF4y2Ba1gydF4y2Ba]。人们对这一新兴技术的普遍兴趣和热情持续增长,以各种基于卷积神经网络(CNN)的肿瘤系统的发展为例,该系统用于分析乳腺组织图像[gydF4y2Ba2gydF4y2Ba,gydF4y2Ba3.gydF4y2Ba],肺[gydF4y2Ba4gydF4y2Ba],皮肤[gydF4y2Ba5gydF4y2Ba,gydF4y2Ba6gydF4y2Ba]和胃肠道[gydF4y2Ba7gydF4y2Ba癌症)。然而,在DP中成功实施基于cnn的辅助系统由于面临过多的挑战而变得复杂[gydF4y2Ba8gydF4y2Ba-gydF4y2Ba10gydF4y2Ba],其中一些是特定于领域的,而另一些则普遍存在于深度学习(DL)和机器学习(ML)领域。gydF4y2Ba

生物医学数据分析领域的一个重要问题是批效应的发生,批效应被定义为通过技术人工制品引入的数据集子集之间的差异[gydF4y2Ba11gydF4y2Ba,gydF4y2Ba12gydF4y2Ba]。在DP中,这些伪影在组织处理和载玻片制备过程中被引入[gydF4y2Ba13gydF4y2Ba],也可能是在幻灯片数字化、图像压缩和存储过程中[gydF4y2Ba14gydF4y2Ba],所有这些都会影响幻灯片和图像的外观(gydF4y2Ba图1gydF4y2Ba).我们通过包括生物因素(可能与实际分类任务无关)作为病原体来扩展批效应的定义。从这里开始,这两个因素(生物和非生物)都被称为隐藏变量。gydF4y2Ba

‎gydF4y2Ba
图1所示。(A)德国海德堡大学海德堡大学附属医院病理研究所(蔡司扫描仪;卡尔蔡司股份有限公司;(B)德国基尔大学基尔大学医院皮肤科(3DHISTECH扫描仪;3 dhistech有限公司);(C)私人皮肤病理学研究所,Mönchhofstraße 52,德国海德堡(蔡司扫描仪);(D)德国曼海姆海德堡大学曼海姆大学医学中心皮肤科(蔡司扫描仪);(E)德国Friedrichshafen Siemensstraße 6/1私人皮肤病理学研究所(蔡司扫描仪)。(F)与(E)相同的切片,但使用的是Hamamatsu扫描仪(Hamamatsu Photonics KK)而不是蔡司扫描仪。gydF4y2Ba
查看此图gydF4y2Ba

在ML模型的开发过程中,批处理效果可能会出现问题,其中隐藏变量被学习,而不是预期的目标变量。然后,隐藏变量充当预期目标变量的完全或部分代理,对模型的性能产生负面影响。研究通过关注各种规范化技术来解决这个问题[gydF4y2Ba15gydF4y2Ba-gydF4y2Ba19gydF4y2Ba]。此外,标准化的预处理程序和平衡的数据集构建可能有助于减少但不能消除批效应。总的来说,这是令人担忧的,之前一项使用乳腺癌组织队列的研究已经表明,在部分公开可用的癌症基因组图谱(TCGA)病理库中存在批量效应[gydF4y2Ba20.gydF4y2Ba]。gydF4y2Ba

我们通过分析四个示例性选定的隐藏变量的可学习性来扩展这些发现,因为可学习性变量会导致对深度学习算法产生负面影响的批处理效应。我们对隐变量的研究旨在强调批效应并非不可能发生,从而加强了正确的数据集构建和实验设计的重要性,以及使社区对DP中DL新兴领域的这些和类似陷阱敏感。gydF4y2Ba


研究设计gydF4y2Ba

使用专有的匿名幻灯片皮肤病理数据集,制定了一系列ML任务,其中每个任务调查某个隐藏变量的可学习性。所分析的变量被认为可以在DP整个幻灯片图像(WSI)数据集中找到,但它们的可学习性并不一定需要一般化。gydF4y2Ba

接下来,在每个任务声明的变量上训练相同架构的多个DL模型,然后进行后续的性能分析,其中评估任务的变量是可学习的还是不可学习的。当在幻灯片水平上计算时,其平均平衡精度的95%置信区间的下界大于50.0%时,认为变量是可学习的。请注意,无法学习变量的随机分类器将期望达到约50.0%的平衡精度。gydF4y2Ba

获得了德国曼海姆海德堡大学曼海姆医学院伦理委员会的伦理批准。gydF4y2Ba

数据集gydF4y2Ba

共从5个不同的研究所获得427份苏木精和伊红染色的制剂,每张载玻片属于一名患者,并包含黑色素瘤活检组织切片(gydF4y2Ba表1gydF4y2Ba).有关幻灯片数字化过程的详细信息,请参见gydF4y2Ba多媒体附录1gydF4y2Ba.gydF4y2Ba

表1。单个数据集的概述。gydF4y2Ba
数据集gydF4y2Ba 幻灯片的起源gydF4y2Ba 幻灯片数gydF4y2Ba 瓷砖数量gydF4y2Ba 扫描仪的类型gydF4y2Ba 任务gydF4y2Ba
1gydF4y2Ba 海德堡gydF4y2Ba一个gydF4y2Ba 81gydF4y2Ba 1344825年gydF4y2Ba 蔡司gydF4y2BabgydF4y2Ba 2(幻灯片准备日期);3(幻灯片原点)gydF4y2Ba
2gydF4y2Ba 基尔gydF4y2BacgydF4y2Ba 196gydF4y2Ba 2092726年gydF4y2Ba 3 dhistechgydF4y2BadgydF4y2Ba 1(患者年龄);2(幻灯片制作日期)gydF4y2Ba
3.gydF4y2Ba 海德堡gydF4y2BaegydF4y2Ba 73gydF4y2Ba 832940年gydF4y2Ba 蔡司gydF4y2Ba 3(幻灯片原点)gydF4y2Ba
4gydF4y2Ba 菲德gydF4y2BafgydF4y2Ba 54gydF4y2Ba 350518;364196年gydF4y2Ba 蔡司;滨松gydF4y2BaggydF4y2Ba 3(滑动原点);4(扫描器式)gydF4y2Ba
5gydF4y2Ba 曼海姆gydF4y2BahgydF4y2Ba 23gydF4y2Ba 513256年gydF4y2Ba 蔡司gydF4y2Ba 3(幻灯片原点)gydF4y2Ba

一个gydF4y2Ba德国海德堡,海德堡大学,海德堡大学医院病理研究所。gydF4y2Ba

bgydF4y2Ba卡尔蔡司股份有限公司gydF4y2Ba

cgydF4y2Ba德国基尔大学基尔大学附属医院皮肤科。gydF4y2Ba

dgydF4y2Ba3 dhistech有限公司。gydF4y2Ba

egydF4y2Ba私人皮肤病理学研究所,Mönchhofstraße 52,海德堡,德国。gydF4y2Ba

fgydF4y2Ba德国弗里德里希港私人皮肤病理学研究所,Siemensstraße 6/1。gydF4y2Ba

ggydF4y2Ba滨松光电KK。gydF4y2Ba

hgydF4y2Ba德国曼海姆海德堡大学曼海姆大学医学中心皮肤科。gydF4y2Ba

分类任务gydF4y2Ba

执行四个分类任务,每个任务分析一个预定义的隐藏变量。每个任务的数据集都是基于数据的可用性来选择的,同时最小化了跨任务学习的风险。例如,除数据集2外,所有数据集都用于幻灯片原点预测任务(任务3),因为基尔大学医院皮肤科使用了不同的扫描仪类型(3DHISTECH扫描仪;3DHISTECH Ltd)将幻灯片数字化(gydF4y2Ba表1gydF4y2Ba).因此,分类器可以通过确定扫描仪类型来确定数据集2的滑动原点。gydF4y2Ba

任务1:患者年龄gydF4y2Ba

为了确定患者的年龄,使用了数据集2,并且只分析具有指定患者年龄的幻灯片。根据患者年龄(≤48岁和>78岁)将载玻片分为两类之一,不包括年龄介于两者之间的患者的载玻片。选择截断点是为了在两个年龄组之间实现自然平衡,30岁的差距使得观察到可能存在的不同年龄相关的形态特征变得合理。gydF4y2Ba

任务2:幻灯片准备日期gydF4y2Ba

为了确定载玻片制备的年份,使用了数据集1和2。2014-2018年的数据可用性各不相同,但总体上是足够的。对于每个数据集,定义了单独的二元分类任务,其中每隔一年采集一次幻灯片,以确保每个类别的幻灯片准备日期之间至少有365天(例如,数据集1,2015年与2017年)。这产生了五个独立的分类子任务。gydF4y2Ba

任务3:滑动原点gydF4y2Ba

为了确定各自幻灯片的原点,使用了除数据集2以外的所有数据集。来源被定义为获得幻灯片的机构。gydF4y2Ba

任务4:扫描仪类型gydF4y2Ba

为了确定扫描仪类型,使用了数据集4。这些载玻片被扫描了两次,但由于蔡司(卡尔蔡司AG)和Hamamatsu (Hamamatsu Photonics KK)扫描仪之间的分辨率略有差异,扫描的蔡司载玻片被重新处理,通过降低其分辨率(0.22µm/px)来匹配Hamamatsu扫描仪的分辨率(0.23µm/px)。gydF4y2Ba

模型训练gydF4y2Ba

每个任务都有一个指定的基于上述设置的组合数据集。每个组合数据集在幻灯片水平上使用80:20分割分为训练集和测试集。如果结果测试集包含少于10张幻灯片,则采用幻灯片水平上的交叉验证方法将测试集的大小增加到每个类至少10张幻灯片。gydF4y2Ba

每个任务都训练了一个ResNet50架构。在使用交叉验证进行测试的情况下,训练的cnn数量等于交叉验证折叠的数量。每个任务的训练运行共重复五次,以获得不受随机训练事件影响的稳健平均性能。这个数字是任意选择的,但目的是减少总体计算时间。有关交叉验证和培训程序的确切技术细节,请参见gydF4y2Ba多媒体附录1gydF4y2Ba或者参考gydF4y2Ba多媒体附录2gydF4y2Ba一个示范的jupyter笔记本演示基本的训练程序。gydF4y2Ba

模型推断与统计评估gydF4y2Ba

对每个任务的各自测试集进行推理,使用每个幻灯片的完整瓦片集。WSI的类是这样计算的:首先对其完整的贴片集进行预测,取所有输出概率的平均值,然后将平均概率最高的类标签分配给幻灯片。由于每个任务的训练和评估运行重复了五次,因此可以计算出具有相应95%置信区间的平均平衡精度。gydF4y2Ba


可学习性在幻灯片水平上进行了调查,因为这是DP的标准和决定性标准。在所有任务中,幻灯片水平的平衡精度通常高于瓷砖水平。gydF4y2Ba

对于每个任务,即使考虑到相应置信区间的范围,也实现了超过50.0%的平衡精度。任务2具有多个子任务,分类器性能在任务间和任务内差异很大。任务1(患者年龄)的平均平衡准确率为87.5% (gydF4y2Ba表2gydF4y2Ba).对于任务2(幻灯片准备日期),子任务之间的表现差异很大,范围从56.1% (95% CI 52.7%至59.5%)到83.5% (95% CI 80.9%至86.1%)。任务3(幻灯片原点)和4(扫描仪类型)的分类器分别显示97.9% (95% CI 97.3%至98.5%)和100%的平衡精度。gydF4y2Ba

表2。使用平均平衡精度测量每个任务分类器的总体平均性能,并在瓷砖水平和滑动水平上进行评估。gydF4y2Ba
任务gydF4y2Ba一个gydF4y2Ba ResNet50性能(平均平衡精度)gydF4y2Ba
瓦级gydF4y2Ba 幻灯片水平(95% CI)gydF4y2BabgydF4y2Ba
1:患者年龄gydF4y2Ba 76.2%gydF4y2Ba 87.5%gydF4y2Ba
2:幻灯片准备日期gydF4y2Ba


数据集1:2015年与2017年gydF4y2Ba 54.1%gydF4y2Ba 56.1% (52.7% ~ 59.5%)gydF4y2Ba

数据集1:2016年与2018年gydF4y2Ba 56.5%gydF4y2Ba 63.2% (53.4% - 73.0%)gydF4y2Ba

数据集2:2014年与2016年gydF4y2Ba 69.0%gydF4y2Ba 82.0% (76.4% ~ 87.6%)gydF4y2Ba

数据集2:2015年与2017年gydF4y2Ba 66.6%gydF4y2Ba 83.5% (80.9% - 86.1%)gydF4y2Ba

数据集2:2016年与2018年gydF4y2Ba 52.7%gydF4y2Ba 56.7% (52.6% ~ 60.7%)gydF4y2Ba
3:滑动原点gydF4y2Ba 94.2%gydF4y2Ba 97.9% (97.3% ~ 98.5%)gydF4y2Ba
4:扫描器类型gydF4y2Ba 100%gydF4y2Ba 100%gydF4y2Ba

一个gydF4y2Ba每个任务的测试集每节课至少有10张幻灯片。gydF4y2Ba

bgydF4y2Ba对于决定性标准(幻灯片水平)显示置信区间,对于没有观察到幻灯片水平变化的任务则省略置信区间。gydF4y2Ba

查看第一次运行时每个任务特定模型的分布,可以非常准确地预测幻灯片原点和扫描仪类型,任务3(幻灯片原点)的分类错误很小,任务4(扫描仪类型)没有分类错误。在任务1中,48岁以下患者的年龄预测准确率很高,但来自老年患者(>78岁)的四分之一的载玻片被错误地归类为年轻年龄组。对于任务2(幻灯片准备日期),比较的结果差异很大。与最高平衡精度的2年比较(数据集2,2015年与2017年)显示出一些错误分类,2015年的幻灯片偶尔被分类为2017年,而平衡精度最低的任务(数据集1,2015年与2017年)在两个方向上都显示出频繁的错误分类(gydF4y2Ba图2gydF4y2Ba).gydF4y2Ba

‎gydF4y2Ba
图2。在ResNet50(运行1)的幻灯片水平上,模型对任务1至4的预测分布。(A)任务1(患者年龄)预测。(B)任务4(扫描仪类型)预测。(C, D)任务2(幻灯片准备日期)的两个最明显的分类子任务的比较,其中平衡精度要么达到最大值(C:数据集2,2015年与2017年),要么达到最小值(D:数据集1,2015年与2017年)。(E)任务3(幻灯片原点)预测,显示数据集编号而不是数据集原点,以提高可读性。gydF4y2Ba
查看此图gydF4y2Ba

原理的发现gydF4y2Ba

使用DP WSI数据集中发现的四个示例性隐藏变量,我们展示了这些变量是通过皮肤病理数据集的深度学习算法学习的。一个可学习的隐藏变量可能会导致批处理效应,如果该变量被无意地提取出来,而不是预期的目标变量,或者除了预期的目标变量之外,这可能会极大地影响此类算法的训练。我们假设会有一些隐藏的变量会在幻灯片上很显眼地显示出来。这些更有可能被算法挑选和使用来对幻灯片进行分类,因此对分类准确性构成最大的威胁。为了识别这样的“高风险”变量,我们限制了CNN接受的训练量,使用标准架构和训练过程,几乎没有优化,直到收敛才进行训练。这应该导致只学习突出的变量,这可能对分类器的准确性构成最大的威胁,尽管不能排除可能通过更广泛的训练过程学习的因素的影响。gydF4y2Ba

所有测试的四个变量(患者年龄、载玻片制备日期、载玻片来源和扫描仪类型)都由分类器学习,尽管程度不同。在任务4(扫描仪类型)中观察到最高的平衡精度。在这项任务中,数据集4的幻灯片用不同的设备扫描了两次,但用相同的图像处理管道进行了处理,留下扫描仪类型(例如特定扫描仪硬件或软件)的差异是唯一导致变化的原因,基于高平衡精度,这必须非常明显。gydF4y2Ba

任务3(幻灯片原点)和任务4(扫描仪类型)的性能可比较。由于任务3的所有幻灯片都使用相同的扫描仪类型和流水线进行扫描和处理,因此可以排除将数字化作为观察到的批处理效果的来源。因此,变异的来源很可能源于载玻片制备步骤,这是一个复杂的过程,与切片、固定、染色和贴装程序相关的潜在变量很多。先前在DP领域之外展示了确定图像来源的方法,其中CNN仅根据胸片正确识别了医院系统[gydF4y2Ba21gydF4y2Ba]。gydF4y2Ba

上述载玻片制备步骤也可能影响载玻片制备日期的“可分类性”(任务2),以及载玻片老化本身(即少量组织和染料降解)。虽然载玻片老化可能是一个渐进的过程,但当机构随着时间的推移改变载玻片制备的确切模式时(例如,当引入新的染色方案时),载玻片制备步骤预计会发生更突然的变化。这可以解释任务2中分类器性能的巨大差异,在某些情况下,在同一机构中,两个特定年份之间的差异可以比其他两个年份之间的差异更准确地识别出来。基于这些结果,该任务的可学习性高度依赖于所选择的年份和数据集,这使得潜在变量的风险因素较小,但仍然值得考虑。gydF4y2Ba

患者年龄预测任务是唯一反映被分析组之间真正的“生物学”差异的任务。众所周知,随着年龄的增长,皮肤的质地会发生多种变化[gydF4y2Ba22gydF4y2Ba]。例如,弹性蛋白和胶原蛋白的数量随着时间的推移而减少,这导致皮肤深层纤维组织的重组。在暴露在紫外线下的皮肤上,光老化也可能引起其他类似的影响。此外,在衰老过程中可能存在一定程度的生物学变异性。这种相当复杂的皮肤老化模式可以解释为什么CNN区分所选年龄组的能力并不完美。如果要缩小30岁的年龄差距,或者如果不同时显示肿瘤和健康皮肤,而只显示肿瘤区域,则表现可能会下降。尽管如此,分类器挑选代表大年龄差异的变量的能力是很重要的,因为对于某些医疗DL目标来说,不平等的患者年龄分布并非不可能发生,特别是因为癌症发病率随着年龄的增长而增加。gydF4y2Ba

基于这些发现,讨论的变量可能会干扰基于cnn的准确分类器的生成,这不是不可能的。由于幻灯片制作日期、幻灯片来源和扫描仪类型的技术性质,它们的可学习性可以推广到DP的其他领域,这可能需要进一步的研究。然而,患者年龄的可学习性可能更具体到皮肤病学领域。虽然已知患者的年龄对皮肤有影响,但与年龄相关的差异在其他组织中可能不那么突出。gydF4y2Ba

预防与核查gydF4y2Ba

为了最小化批效应变量的学习,我们建议在创建训练数据集的过程中,除了任何规范化和预处理标准化之外,还要平衡任何已知的批效应变量。如果易于学习的变量在类之间均衡,那么基于这些变量的分离将不再导致训练损失的减少,从而失去其优化价值。此外,大型和多样化的验证集减少了批效应变量与预期生物变量之间存在不必要的相关性的可能性,从而有助于揭示是否学习了预期的生物变量或一些混淆隐藏变量。gydF4y2Ba

不幸的是,平衡所有潜在批处理效应的训练数据集是不可行的。即使是随机临床试验,也只能在几个被认为对所讨论的比较至关重要的特征上取得平衡。随着时间的推移,人工智能支持的医学领域内外积累的更多知识可能有助于研究人员澄清哪些任务必须考虑哪些潜在的影响变量。在这方面,未来实现更透明的人工智能系统,促进可解释性和因果性[gydF4y2Ba23gydF4y2Ba通过更好地理解人工智能系统的决策过程,将有助于从业者更好地评估其可靠性。gydF4y2Ba

限制gydF4y2Ba

一个主要的限制是所考虑的工件列表并不详尽。由于存在许多其他潜在的混杂因素,其中一些我们还没有意识到,在一项研究中完全覆盖所有可能的人工制品是不可能的,因此必须限制在一个被认为是至关重要的选择。然而,由于深度学习算法的黑箱性质,没有证据表明模型实际学习了什么,这意味着任何未解释的工件都可能偶然与任务的类分布相关联,而不是被学习。不能排除这种可能性;然而,通过增加验证集的大小和多样性,这些偶然的训练集相关性持续到验证集的机会减少,因此应该在验证阶段检测到。gydF4y2Ba

在本研究中,只显示了一种DL架构的结果。因此,我们研究了另外两个架构(DenseNet121和VGG16),并观察到类似的趋势(参见gydF4y2Ba多媒体附录1gydF4y2Ba).gydF4y2Ba

虽然本研究仅在皮肤病理学数据集上调查了可学习性,但这里获得的一些见解可能可转移到DP的其他领域。此外,这项研究并没有打算确切地表明哪些变量可以被学习,而是表明意想不到的变量可以被学习。gydF4y2Ba

结论gydF4y2Ba

我们的深度学习模型能够相对容易地学习几个潜在的批处理效应变量,这一发现也可能适用于其他深度学习模型。因此,我们的研究结果强调了识别和最小化这些影响的重要性,不仅要通过规范化和预处理标准化,还要通过仔细构建DL分类任务的训练和验证集。gydF4y2Ba

致谢gydF4y2Ba

本研究由德国柏林联邦卫生部资助(资助:皮肤分类项目;资助人:Titus J Brinker博士,肿瘤数字生物标志物组,国家肿瘤疾病中心,德国癌症研究中心)。申办者在研究的设计和实施中没有任何作用;数据的收集、管理、分析或解释;审稿:手稿的准备、审查或批准;或决定投稿发表。gydF4y2Ba

利益冲突gydF4y2Ba

Hauschild从以下公司获得临床试验支持、演讲酬金或咨询费用:安进(Amgen)、百时美施贵宝(Bristol Myers Squibb)、默克雪兰诺(Merck Serono)、默沙东(MSD)、诺华(Novartis)、Oncosec、Philogen、Pierre Fabre、Provectus、Regeneron、罗氏(Roche)、Oncosec、赛诺菲-健赞(Sanofi-Genzyme)和太阳制药(Sun Pharma)。在提交的工作之外,JSU是顾问委员会成员或获得安进,Bristol Myers Squibb,葛兰素史克,LeoPharma,默克夏普和Dohme,诺华,皮埃尔法布尔和罗氏的酬金和差旅支持。在提交的工作之外,她还担任皮埃尔法伯制药公司、诺华制药公司、罗氏制药公司、百时美施贵宝公司、安进公司和默沙明公司的顾问或获得了荣誉。TJB拥有一家开发移动应用程序的公司(Smart Health Heidelberg GmbH, Handschuhsheimer Landstr. 9/ 1,69120 Heidelberg)。gydF4y2Ba

‎gydF4y2Ba
多媒体附录1gydF4y2Ba

其他方法和结果。gydF4y2Ba

DOCX文件,26kbgydF4y2Ba

‎gydF4y2Ba
多媒体附录2gydF4y2Ba

典型的jupyter笔记本。gydF4y2Ba

ZIP文件(ZIP Archive), 6kbgydF4y2Ba

  1. 张建军,张建军,张建军,张建军。基于人工智能的数字病理学研究进展。中华医学杂志,2019,11 (11):703-715 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  2. Ehteshami Bejnordi B, Veta M, Johannes van Diest P, van Ginneken B, Karssemeijer N, Litjens G, CAMELYON16 Consortium,等。深度学习算法在女性乳腺癌淋巴结转移检测中的诊断评估。中国医学杂志2017年12月12日;318(22):2199-2210 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. Cruz-Roa A, Gilmore H, Basavanhally A, Feldman M, Ganesan S, Shih NNC等。准确和可重复的浸润性乳腺癌全片图像检测:一种量化肿瘤范围的深度学习方法。科学通报2017年4月18日;7:46 . 450 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  4. Coudray N, Ocampo PS, Sakellaropoulos T, Narula N, Snuderl M, Fenyö D,等。基于深度学习的非小细胞肺癌组织病理学图像分类和突变预测。中华医学杂志,2018;24(10):1559-1567。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. Hekler A, Utikal JS, Enk AH, Berking C, Klode J, Schadendorf D,等。用深度神经网络对组织病理黑色素瘤图像进行病理水平的分类。[J]中国生物医学工程学报;2009;33 (2):391 - 391 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. 刘建军,刘建军,刘建军,等。深度学习在组织病理黑色素瘤图像分类方面优于11位病理学家。[J]中国癌症杂志2019年9月;18 (1):91-96 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. Kather JN, Pearson AT, Halama N, Jäger D, Krause J,松开SH,等。深度学习可以直接从胃肠道肿瘤的组织学预测微卫星不稳定性。中华医学杂志,2019;25(7):1054-1056。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. 数字病理学和全切片成像的应用和挑战。生物化学杂志,2015;20(5):341-347。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  9. 李建军,李建军。数字病理图像分析与机器学习的研究进展。医学影像肛门2016年10月;33:170-175 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. 人工智能与数字病理学:挑战与机遇。[J]中华病毒学杂志2018;9:38 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. 吴伟斌,王伟,王磊。为什么批处理效应在组学数据中很重要,以及如何避免它们。生物医学进展,2017;35(6):498-507。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. 潘建辉,郭春春,程晨,王明德。生物医学信息学中基因组、影像和临床数据的多尺度集成。生物医学工程学报(英文版);2012;5 (5):391 - 391 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  13. Taqi SA, Sami SA, Sami LB, Zaki SA组织病理学中伪影的综述。口腔颌面杂志2018;22(2):279 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  14. 张建军,张建军,张建军,等。基于稀疏自编码器(StaNoSA)的染色归一化算法。计算机医学成像图2017年4月;57:50-61 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  15. 引用本文:Kothari S, Phan JH, Stokes TH, Osunkoya AO, Young AN, Wang MD.去除组织病理图像中的批效应以增强肿瘤诊断。IEEE J Biomed Health Inform 2014;18(3):765-772 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. 王德明,潘建辉,王德明。组织病理图像的尺度归一化在批不变肿瘤诊断模型中的应用。中国生物医学工程学报(英文版);2012;44 -44 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. Roy S, Kumar Jain A, Lal S, Kini J.组织病理学图像颜色归一化方法的研究。美光2018;11:42-61。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  18. Van Eycke Y, Allard J, Salmon I, Debeir O, Decaestecker C.数字病理学中的图像处理:解决免疫组织化学染色批次间变异性的机会。科学通报2017年2月21日;7:42964 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  19. 刘建军,刘建军,刘建军,等。组织学肿瘤图像的批量不变自动颜色分割。中国生物医学工程学报(英文版);2011;37 - 39 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  20. 张建军,左瑞,张建军,张建军,等。一种数字化病理切片的质量控制方法。中华临床肿瘤杂志2019年4月3日:1-7gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. Zech JR, Badgeley MA, Liu M, Costa AB, Titano JJ, Oermann EK。深度学习模型检测胸片肺炎的变量泛化性能:一项横断面研究。PLoS Med 2018;15(11):e1002683 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  22. 丽蒂丽·L,费希尔·GJ。自然和日晒引起的人体皮肤老化。冷泉港透视医学2015年01月05日;5(1):a015370 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  23. 贺青杰,杨建军,杨建军,杨建军。人工智能在医学研究中的应用。科学通报,2019;9(4):349 - 349 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
人工智能:gydF4y2Ba人工智能gydF4y2Ba
有线电视新闻网:gydF4y2Ba卷积神经网络gydF4y2Ba
DL:gydF4y2Ba深度学习gydF4y2Ba
DP:gydF4y2Ba数字病理gydF4y2Ba
ML:gydF4y2Ba机器学习gydF4y2Ba
TCGA:gydF4y2Ba癌症基因组图谱gydF4y2Ba
WSI公司:gydF4y2Ba整张幻灯片图像gydF4y2Ba


G·艾森巴赫编辑;提交12.08.20;A Böer-Auer、JA Benítez-Andrades、A Holzinger同行评议;对作者10.10.20的评论;修订版本收到14.10.20;接受06.12.20;发表02.02.21gydF4y2Ba

版权gydF4y2Ba

©Max Schmitt, Roman Christoph Maron, Achim Hekler, Albrecht Stenzinger, Axel Hauschild, Michael Weichenthal, Markus Tiemann, Dieter Krahl, Heinz Kutzner, Jochen Sven Utikal, Sebastian Haferkamp, Jakob Nikolas Kather, Frederick Klauschen, Eva Krieghoff-Henning, Stefan Fröhling, Christof von Kalle, Titus Josef Brinker。原载于医学互联网研究杂志(//www.mybigtv.com), 02.02.2021。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba


Baidu
map