这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba
越来越多的数字病理学研究表明,人工智能(AI)有潜力利用组织学整张幻灯片图像诊断癌症,这需要大量不同的数据集。虽然多样化可能会产生更一般化的基于ai的系统,但它也可能引入隐藏变量。如果神经网络能够区分/学习隐藏变量,这些变量可能会引入损害分类系统准确性的批处理效应。gydF4y2Ba
本研究的目的是分析隐藏变量(患者年龄、切片制备日期、切片起源和扫描仪类型)的可学习性,这些隐变量通常存在于数字病理学的整个切片图像数据集中,并可能产生批处理效果。gydF4y2Ba
我们训练了四个独立的卷积神经网络(cnn)来学习四个变量,使用来自五个不同机构的数字化全幻灯片黑色素瘤图像数据集。为了鲁棒性,每次CNN训练和评估运行都要重复多次,只有当一个变量的平均平衡准确率的95%置信区间下界大于50.0%时,才认为该变量是可学习的。gydF4y2Ba
即使考虑到95%置信区间的下限,所有四个任务的平均平衡精度也达到了50.0%以上。任务之间的表现差异很大,从56.1%(幻灯片制作日期)到100%(幻灯片起源)不等。gydF4y2Ba
由于所有分析的隐变量都是可学习的,因此它们有可能在皮肤病理数据集中产生批处理效应,从而对基于人工智能的分类系统产生负面影响。在开发和评估此类系统时,从业者应该意识到这些和类似的陷阱,并通过充分的数据集分层处理数据集中的这些和潜在的其他批效应变量。gydF4y2Ba
人工智能(AI)在数字病理学(DP)中的出现导致了各种算法的发展,用于检测,分类和进一步评估多种癌症亚型[gydF4y2Ba
生物医学数据分析领域的一个重要问题是批效应的发生,批效应被定义为通过技术人工制品引入的数据集子集之间的差异[gydF4y2Ba
(A)德国海德堡大学海德堡大学附属医院病理研究所(蔡司扫描仪;卡尔蔡司股份有限公司;(B)德国基尔大学基尔大学医院皮肤科(3DHISTECH扫描仪;3 dhistech有限公司);(C)私人皮肤病理学研究所,Mönchhofstraße 52,德国海德堡(蔡司扫描仪);(D)德国曼海姆海德堡大学曼海姆大学医学中心皮肤科(蔡司扫描仪);(E)德国Friedrichshafen Siemensstraße 6/1私人皮肤病理学研究所(蔡司扫描仪)。(F)与(E)相同的切片,但使用的是Hamamatsu扫描仪(Hamamatsu Photonics KK)而不是蔡司扫描仪。gydF4y2Ba
在ML模型的开发过程中,批处理效果可能会出现问题,其中隐藏变量被学习,而不是预期的目标变量。然后,隐藏变量充当预期目标变量的完全或部分代理,对模型的性能产生负面影响。研究通过关注各种规范化技术来解决这个问题[gydF4y2Ba
我们通过分析四个示例性选定的隐藏变量的可学习性来扩展这些发现,因为可学习性变量会导致对深度学习算法产生负面影响的批处理效应。我们对隐变量的研究旨在强调批效应并非不可能发生,从而加强了正确的数据集构建和实验设计的重要性,以及使社区对DP中DL新兴领域的这些和类似陷阱敏感。gydF4y2Ba
使用专有的匿名幻灯片皮肤病理数据集,制定了一系列ML任务,其中每个任务调查某个隐藏变量的可学习性。所分析的变量被认为可以在DP整个幻灯片图像(WSI)数据集中找到,但它们的可学习性并不一定需要一般化。gydF4y2Ba
接下来,在每个任务声明的变量上训练相同架构的多个DL模型,然后进行后续的性能分析,其中评估任务的变量是可学习的还是不可学习的。当在幻灯片水平上计算时,其平均平衡精度的95%置信区间的下界大于50.0%时,认为变量是可学习的。请注意,无法学习变量的随机分类器将期望达到约50.0%的平衡精度。gydF4y2Ba
获得了德国曼海姆海德堡大学曼海姆医学院伦理委员会的伦理批准。gydF4y2Ba
共从5个不同的研究所获得427份苏木精和伊红染色的制剂,每张载玻片属于一名患者,并包含黑色素瘤活检组织切片(gydF4y2Ba
单个数据集的概述。gydF4y2Ba
数据集gydF4y2Ba | 幻灯片的起源gydF4y2Ba | 幻灯片数gydF4y2Ba | 瓷砖数量gydF4y2Ba | 扫描仪的类型gydF4y2Ba | 任务gydF4y2Ba |
1gydF4y2Ba | 海德堡gydF4y2Ba一个gydF4y2Ba | 81gydF4y2Ba | 1344825年gydF4y2Ba | 蔡司gydF4y2BabgydF4y2Ba | 2(幻灯片准备日期);3(幻灯片原点)gydF4y2Ba |
2gydF4y2Ba | 基尔gydF4y2BacgydF4y2Ba | 196gydF4y2Ba | 2092726年gydF4y2Ba | 3 dhistechgydF4y2BadgydF4y2Ba | 1(患者年龄);2(幻灯片制作日期)gydF4y2Ba |
3.gydF4y2Ba | 海德堡gydF4y2BaegydF4y2Ba | 73gydF4y2Ba | 832940年gydF4y2Ba | 蔡司gydF4y2Ba | 3(幻灯片原点)gydF4y2Ba |
4gydF4y2Ba | 菲德gydF4y2BafgydF4y2Ba | 54gydF4y2Ba | 350518;364196年gydF4y2Ba | 蔡司;滨松gydF4y2BaggydF4y2Ba | 3(滑动原点);4(扫描器式)gydF4y2Ba |
5gydF4y2Ba | 曼海姆gydF4y2BahgydF4y2Ba | 23gydF4y2Ba | 513256年gydF4y2Ba | 蔡司gydF4y2Ba | 3(幻灯片原点)gydF4y2Ba |
一个gydF4y2Ba德国海德堡,海德堡大学,海德堡大学医院病理研究所。gydF4y2Ba
bgydF4y2Ba卡尔蔡司股份有限公司gydF4y2Ba
cgydF4y2Ba德国基尔大学基尔大学附属医院皮肤科。gydF4y2Ba
dgydF4y2Ba3 dhistech有限公司。gydF4y2Ba
egydF4y2Ba私人皮肤病理学研究所,Mönchhofstraße 52,海德堡,德国。gydF4y2Ba
fgydF4y2Ba德国弗里德里希港私人皮肤病理学研究所,Siemensstraße 6/1。gydF4y2Ba
ggydF4y2Ba滨松光电KK。gydF4y2Ba
hgydF4y2Ba德国曼海姆海德堡大学曼海姆大学医学中心皮肤科。gydF4y2Ba
执行四个分类任务,每个任务分析一个预定义的隐藏变量。每个任务的数据集都是基于数据的可用性来选择的,同时最小化了跨任务学习的风险。例如,除数据集2外,所有数据集都用于幻灯片原点预测任务(任务3),因为基尔大学医院皮肤科使用了不同的扫描仪类型(3DHISTECH扫描仪;3DHISTECH Ltd)将幻灯片数字化(gydF4y2Ba
为了确定患者的年龄,使用了数据集2,并且只分析具有指定患者年龄的幻灯片。根据患者年龄(≤48岁和>78岁)将载玻片分为两类之一,不包括年龄介于两者之间的患者的载玻片。选择截断点是为了在两个年龄组之间实现自然平衡,30岁的差距使得观察到可能存在的不同年龄相关的形态特征变得合理。gydF4y2Ba
为了确定载玻片制备的年份,使用了数据集1和2。2014-2018年的数据可用性各不相同,但总体上是足够的。对于每个数据集,定义了单独的二元分类任务,其中每隔一年采集一次幻灯片,以确保每个类别的幻灯片准备日期之间至少有365天(例如,数据集1,2015年与2017年)。这产生了五个独立的分类子任务。gydF4y2Ba
为了确定各自幻灯片的原点,使用了除数据集2以外的所有数据集。来源被定义为获得幻灯片的机构。gydF4y2Ba
为了确定扫描仪类型,使用了数据集4。这些载玻片被扫描了两次,但由于蔡司(卡尔蔡司AG)和Hamamatsu (Hamamatsu Photonics KK)扫描仪之间的分辨率略有差异,扫描的蔡司载玻片被重新处理,通过降低其分辨率(0.22µm/px)来匹配Hamamatsu扫描仪的分辨率(0.23µm/px)。gydF4y2Ba
每个任务都有一个指定的基于上述设置的组合数据集。每个组合数据集在幻灯片水平上使用80:20分割分为训练集和测试集。如果结果测试集包含少于10张幻灯片,则采用幻灯片水平上的交叉验证方法将测试集的大小增加到每个类至少10张幻灯片。gydF4y2Ba
每个任务都训练了一个ResNet50架构。在使用交叉验证进行测试的情况下,训练的cnn数量等于交叉验证折叠的数量。每个任务的训练运行共重复五次,以获得不受随机训练事件影响的稳健平均性能。这个数字是任意选择的,但目的是减少总体计算时间。有关交叉验证和培训程序的确切技术细节,请参见gydF4y2Ba
对每个任务的各自测试集进行推理,使用每个幻灯片的完整瓦片集。WSI的类是这样计算的:首先对其完整的贴片集进行预测,取所有输出概率的平均值,然后将平均概率最高的类标签分配给幻灯片。由于每个任务的训练和评估运行重复了五次,因此可以计算出具有相应95%置信区间的平均平衡精度。gydF4y2Ba
可学习性在幻灯片水平上进行了调查,因为这是DP的标准和决定性标准。在所有任务中,幻灯片水平的平衡精度通常高于瓷砖水平。gydF4y2Ba
对于每个任务,即使考虑到相应置信区间的范围,也实现了超过50.0%的平衡精度。任务2具有多个子任务,分类器性能在任务间和任务内差异很大。任务1(患者年龄)的平均平衡准确率为87.5% (gydF4y2Ba
使用平均平衡精度测量每个任务分类器的总体平均性能,并在瓷砖水平和滑动水平上进行评估。gydF4y2Ba
任务gydF4y2Ba一个gydF4y2Ba | ResNet50性能(平均平衡精度)gydF4y2Ba | ||
瓦级gydF4y2Ba | 幻灯片水平(95% CI)gydF4y2BabgydF4y2Ba | ||
1:患者年龄gydF4y2Ba | 76.2%gydF4y2Ba | 87.5%gydF4y2Ba | |
2:幻灯片准备日期gydF4y2Ba |
|
|
|
|
数据集1:2015年与2017年gydF4y2Ba | 54.1%gydF4y2Ba | 56.1% (52.7% ~ 59.5%)gydF4y2Ba |
|
数据集1:2016年与2018年gydF4y2Ba | 56.5%gydF4y2Ba | 63.2% (53.4% - 73.0%)gydF4y2Ba |
|
数据集2:2014年与2016年gydF4y2Ba | 69.0%gydF4y2Ba | 82.0% (76.4% ~ 87.6%)gydF4y2Ba |
|
数据集2:2015年与2017年gydF4y2Ba | 66.6%gydF4y2Ba | 83.5% (80.9% - 86.1%)gydF4y2Ba |
|
数据集2:2016年与2018年gydF4y2Ba | 52.7%gydF4y2Ba | 56.7% (52.6% ~ 60.7%)gydF4y2Ba |
3:滑动原点gydF4y2Ba | 94.2%gydF4y2Ba | 97.9% (97.3% ~ 98.5%)gydF4y2Ba | |
4:扫描器类型gydF4y2Ba | 100%gydF4y2Ba | 100%gydF4y2Ba |
一个gydF4y2Ba每个任务的测试集每节课至少有10张幻灯片。gydF4y2Ba
bgydF4y2Ba对于决定性标准(幻灯片水平)显示置信区间,对于没有观察到幻灯片水平变化的任务则省略置信区间。gydF4y2Ba
查看第一次运行时每个任务特定模型的分布,可以非常准确地预测幻灯片原点和扫描仪类型,任务3(幻灯片原点)的分类错误很小,任务4(扫描仪类型)没有分类错误。在任务1中,48岁以下患者的年龄预测准确率很高,但来自老年患者(>78岁)的四分之一的载玻片被错误地归类为年轻年龄组。对于任务2(幻灯片准备日期),比较的结果差异很大。与最高平衡精度的2年比较(数据集2,2015年与2017年)显示出一些错误分类,2015年的幻灯片偶尔被分类为2017年,而平衡精度最低的任务(数据集1,2015年与2017年)在两个方向上都显示出频繁的错误分类(gydF4y2Ba
在ResNet50(运行1)的幻灯片水平上,模型对任务1至4的预测分布。(A)任务1(患者年龄)预测。(B)任务4(扫描仪类型)预测。(C, D)任务2(幻灯片准备日期)的两个最明显的分类子任务的比较,其中平衡精度要么达到最大值(C:数据集2,2015年与2017年),要么达到最小值(D:数据集1,2015年与2017年)。(E)任务3(幻灯片原点)预测,显示数据集编号而不是数据集原点,以提高可读性。gydF4y2Ba
使用DP WSI数据集中发现的四个示例性隐藏变量,我们展示了这些变量是通过皮肤病理数据集的深度学习算法学习的。一个可学习的隐藏变量可能会导致批处理效应,如果该变量被无意地提取出来,而不是预期的目标变量,或者除了预期的目标变量之外,这可能会极大地影响此类算法的训练。我们假设会有一些隐藏的变量会在幻灯片上很显眼地显示出来。这些更有可能被算法挑选和使用来对幻灯片进行分类,因此对分类准确性构成最大的威胁。为了识别这样的“高风险”变量,我们限制了CNN接受的训练量,使用标准架构和训练过程,几乎没有优化,直到收敛才进行训练。这应该导致只学习突出的变量,这可能对分类器的准确性构成最大的威胁,尽管不能排除可能通过更广泛的训练过程学习的因素的影响。gydF4y2Ba
所有测试的四个变量(患者年龄、载玻片制备日期、载玻片来源和扫描仪类型)都由分类器学习,尽管程度不同。在任务4(扫描仪类型)中观察到最高的平衡精度。在这项任务中,数据集4的幻灯片用不同的设备扫描了两次,但用相同的图像处理管道进行了处理,留下扫描仪类型(例如特定扫描仪硬件或软件)的差异是唯一导致变化的原因,基于高平衡精度,这必须非常明显。gydF4y2Ba
任务3(幻灯片原点)和任务4(扫描仪类型)的性能可比较。由于任务3的所有幻灯片都使用相同的扫描仪类型和流水线进行扫描和处理,因此可以排除将数字化作为观察到的批处理效果的来源。因此,变异的来源很可能源于载玻片制备步骤,这是一个复杂的过程,与切片、固定、染色和贴装程序相关的潜在变量很多。先前在DP领域之外展示了确定图像来源的方法,其中CNN仅根据胸片正确识别了医院系统[gydF4y2Ba
上述载玻片制备步骤也可能影响载玻片制备日期的“可分类性”(任务2),以及载玻片老化本身(即少量组织和染料降解)。虽然载玻片老化可能是一个渐进的过程,但当机构随着时间的推移改变载玻片制备的确切模式时(例如,当引入新的染色方案时),载玻片制备步骤预计会发生更突然的变化。这可以解释任务2中分类器性能的巨大差异,在某些情况下,在同一机构中,两个特定年份之间的差异可以比其他两个年份之间的差异更准确地识别出来。基于这些结果,该任务的可学习性高度依赖于所选择的年份和数据集,这使得潜在变量的风险因素较小,但仍然值得考虑。gydF4y2Ba
患者年龄预测任务是唯一反映被分析组之间真正的“生物学”差异的任务。众所周知,随着年龄的增长,皮肤的质地会发生多种变化[gydF4y2Ba
基于这些发现,讨论的变量可能会干扰基于cnn的准确分类器的生成,这不是不可能的。由于幻灯片制作日期、幻灯片来源和扫描仪类型的技术性质,它们的可学习性可以推广到DP的其他领域,这可能需要进一步的研究。然而,患者年龄的可学习性可能更具体到皮肤病学领域。虽然已知患者的年龄对皮肤有影响,但与年龄相关的差异在其他组织中可能不那么突出。gydF4y2Ba
为了最小化批效应变量的学习,我们建议在创建训练数据集的过程中,除了任何规范化和预处理标准化之外,还要平衡任何已知的批效应变量。如果易于学习的变量在类之间均衡,那么基于这些变量的分离将不再导致训练损失的减少,从而失去其优化价值。此外,大型和多样化的验证集减少了批效应变量与预期生物变量之间存在不必要的相关性的可能性,从而有助于揭示是否学习了预期的生物变量或一些混淆隐藏变量。gydF4y2Ba
不幸的是,平衡所有潜在批处理效应的训练数据集是不可行的。即使是随机临床试验,也只能在几个被认为对所讨论的比较至关重要的特征上取得平衡。随着时间的推移,人工智能支持的医学领域内外积累的更多知识可能有助于研究人员澄清哪些任务必须考虑哪些潜在的影响变量。在这方面,未来实现更透明的人工智能系统,促进可解释性和因果性[gydF4y2Ba
一个主要的限制是所考虑的工件列表并不详尽。由于存在许多其他潜在的混杂因素,其中一些我们还没有意识到,在一项研究中完全覆盖所有可能的人工制品是不可能的,因此必须限制在一个被认为是至关重要的选择。然而,由于深度学习算法的黑箱性质,没有证据表明模型实际学习了什么,这意味着任何未解释的工件都可能偶然与任务的类分布相关联,而不是被学习。不能排除这种可能性;然而,通过增加验证集的大小和多样性,这些偶然的训练集相关性持续到验证集的机会减少,因此应该在验证阶段检测到。gydF4y2Ba
在本研究中,只显示了一种DL架构的结果。因此,我们研究了另外两个架构(DenseNet121和VGG16),并观察到类似的趋势(参见gydF4y2Ba
虽然本研究仅在皮肤病理学数据集上调查了可学习性,但这里获得的一些见解可能可转移到DP的其他领域。此外,这项研究并没有打算确切地表明哪些变量可以被学习,而是表明意想不到的变量可以被学习。gydF4y2Ba
我们的深度学习模型能够相对容易地学习几个潜在的批处理效应变量,这一发现也可能适用于其他深度学习模型。因此,我们的研究结果强调了识别和最小化这些影响的重要性,不仅要通过规范化和预处理标准化,还要通过仔细构建DL分类任务的训练和验证集。gydF4y2Ba
其他方法和结果。gydF4y2Ba
典型的jupyter笔记本。gydF4y2Ba
人工智能gydF4y2Ba
卷积神经网络gydF4y2Ba
深度学习gydF4y2Ba
数字病理gydF4y2Ba
机器学习gydF4y2Ba
癌症基因组图谱gydF4y2Ba
整张幻灯片图像gydF4y2Ba
本研究由德国柏林联邦卫生部资助(资助:皮肤分类项目;资助人:Titus J Brinker博士,肿瘤数字生物标志物组,国家肿瘤疾病中心,德国癌症研究中心)。申办者在研究的设计和实施中没有任何作用;数据的收集、管理、分析或解释;审稿:手稿的准备、审查或批准;或决定投稿发表。gydF4y2Ba
Hauschild从以下公司获得临床试验支持、演讲酬金或咨询费用:安进(Amgen)、百时美施贵宝(Bristol Myers Squibb)、默克雪兰诺(Merck Serono)、默沙东(MSD)、诺华(Novartis)、Oncosec、Philogen、Pierre Fabre、Provectus、Regeneron、罗氏(Roche)、Oncosec、赛诺菲-健赞(Sanofi-Genzyme)和太阳制药(Sun Pharma)。在提交的工作之外,JSU是顾问委员会成员或获得安进,Bristol Myers Squibb,葛兰素史克,LeoPharma,默克夏普和Dohme,诺华,皮埃尔法布尔和罗氏的酬金和差旅支持。在提交的工作之外,她还担任皮埃尔法伯制药公司、诺华制药公司、罗氏制药公司、百时美施贵宝公司、安进公司和默沙明公司的顾问或获得了荣誉。TJB拥有一家开发移动应用程序的公司(Smart Health Heidelberg GmbH, Handschuhsheimer Landstr. 9/ 1,69120 Heidelberg)。gydF4y2Ba