发表在第八卷, 4号(2020): 4月

基于深度人工神经网络的死亡证明书潜在死因预测模型:算法开发与验证

基于深度人工神经网络的死亡证明书潜在死因预测模型:算法开发与验证

基于深度人工神经网络的死亡证明书潜在死因预测模型:算法开发与验证

原始论文

1Inserm(国家医学和医学研究所)- cims(医学和医学研究中心),克里姆林宫Bicêtre,法国

2巴黎萨克雷大学,克里姆林宫Bicêtre,法国

通讯作者:

路易斯·法利萨尔理学硕士

巴西国家桑达尔和莫达尔研究中心-莫达尔-莫达尔-莫达尔-莫达尔-莫达尔

格萨姆·勒克莱尔街80号

克里姆林宫Bicêtre, 94270

法国

电话:33 679649178

电子邮件:louis.falissard@gmail.com


背景:从死亡证明中对潜在的死亡原因进行编码是一个目前主要由人类在专家系统(如Iris软件)的潜在帮助下进行的过程。因此,这是一个代价高昂的过程,而且还可能受到地理空间差异的影响,从而严重损害了国际一级死亡统计数据的可比性。人工智能的最新进展,特别是深度学习方法的兴起,使计算机能够在许多复杂的问题上做出有效的决策,这些问题通常被认为是没有人类帮助无法实现的;它们需要大量的数据来学习,这通常是它们的主要限制因素。然而,csamididc (Centre d ' samidacmiologie sur les causes msamidacales de dsamidacires)在法国全国范围内存储了一个详尽的死亡证明数据库,总共有数百万个可供机器学习从业者使用的训练示例。

摘要目的:本文研究了深度神经网络方法在编码潜在死亡原因中的应用。

方法:调查的数据集基于2000年至2015年法国每个死亡证明中的数据,其中包含主题的年龄和性别以及导致其死亡的事件链等信息,总共约有800万次观察。自动编码受试者潜在死因的任务随后被制定为一个预测建模问题。然后设计了一个基于深度神经网络的模型并对数据集进行了拟合。然后在外部测试数据集上评估其错误率,并与当前最先进的(即Iris软件)进行比较。通过自举法评估了该方法优越性的统计显著性。

结果:所提出的方法的测试准确率为97.8% (95% CI 97.7-97.9),与当前最先进的方法相比,在相同的测试示例中评估的准确率为74.5% (95% CI 74.0-75.0),这是一个显著的改进。这样的改进开辟了一个全新的应用领域,从疾病学家级别的批量自动化编码到死因统计的国际和时间统一。通过重新记录2000年至2010年法国与过量用药有关的死亡,可以证明这种应用的一个典型例子。

结论:本文表明,深度人工神经网络非常适合于电子健康记录的分析,并且可以直接从大量数据集中学习一套复杂的医疗规则,而无需任何明确的先验知识。虽然不是完全没有错误,但派生的算法构成了一个强大的决策工具,能够以前所未有的性能处理结构化医疗数据。我们坚信,本文中开发的方法在与流行病学,生物统计学和一般医学科学相关的各种设置中具有高度可重用性。

中华医学杂志,2020;8(4):117125

doi: 10.2196/17125

关键字



在与公共卫生有关的学科中,获得最新、可靠的死亡率统计数据是一个非常重要的问题。例如,监测主要死亡原因是公共卫生从业人员的一项重要工具,对与卫生政策有关的决策过程具有相当大的影响[1-6].然而,上述数据的收集是复杂和耗时的,通常涉及许多不同行为者的协调,从医生在个人去世后撰写死亡证明,到公共机构传播最终的死亡率统计数据。在这一过程中涉及的一项重要任务的一个例子是,从医生在死亡证明中报告的一系列事件中确定潜在的死亡原因[7].根据《疾病和有关健康问题国际统计分类》,死亡的根本原因定义为" (a)引起一系列直接导致死亡的病态事件的疾病或伤害,或(b)造成致命伤害的事故或暴力情况" [8].由于死亡的根本原因是死亡率统计数据表中使用的主要信息,因此从死亡证明中提取这些信息至关重要。

如今,为了保持空间和时间的可比性,死亡的根本原因通常由专家系统确定[9],例如虹膜软件(the Iris Institute) [10]是一种人工智能形式,它将一系列世界卫生组织(世卫组织)定义的编码规则编码为一个完全手工构建的知识库,存储在决策表10].不幸的是,这些决策系统无法处理大量更复杂的死亡场景,通常包括多种发病率或疾病相互作用。然后,这些病例需要人工评估,因此导致一个耗时的编码过程,可能会在两个国家和年份之间发生分布变化,从而明显损害统计数据的可比性。

在过去的几年中,人工智能领域得到了显著的扩展,主要是由于最近在图像分析、语音分析或自然语言处理等各种任务中应用基于深度人工神经网络的预测模型取得了成功。众所周知,这些方法的性能优于专家系统,但通常需要大量的数据来进行训练,这通常是令人望而却步的。另一方面,包括法国在内的一些国家一直在将其死亡证明及其衍生的根本原因存储在庞大的数据库中,从而为使用深度学习方法提供了最佳环境。

本文将从死亡证明中提取潜在死亡原因的过程表述为一个统计预测建模问题,并提出用深度人工神经网络来解决这一问题。下一节重点介绍死亡证明中包含的结构化信息。方法部分介绍了用于预测潜在死因任务的神经网络架构。结果部分报告了从2000年到2015年在法国死亡证明上训练神经网络获得的性能——大约800万个训练样本——以及与使用Iris软件获得的预测性能的比较,Iris软件是目前最先进的预测任务,也是许多国家用于潜在死亡原因编码的解决方案。最后,实际应用部分展示了所提出的方法在流行病学中的潜在用途,重点是法国与阿片类药物过量有关的死亡。


数据集

本研究期间使用的数据集包括2000年至2015年在cims数据库中发现的所有可用的死亡证明及其相关的死亡原因,由人类专家或Iris软件根据证书的复杂性进行编码。整个数据集代表了超过800万个训练示例,并记录了有关其主题的各种信息,对于潜在的死亡原因具有不同的预测能力。本文旨在通过解决以下建模问题,从死亡证明中包含的信息推导出一个基于深度神经网络的预测模型,解释潜在的死亡原因:

PUCD|直流) =ƒ直流) (1)

直流代表法国死亡证明上的信息,UCD代表其相应的潜在死因,以及ƒ表示基于神经网络的预测函数。

为了从这些信息中对潜在的死亡原因进行建模,选择以下项目作为解释变量:(1)导致死亡的事件因果链,(2)年龄,(3)性别,(4)死亡年份。

死亡因果链

死亡因果链是死亡证明上可获得的主要信息来源,以便确定相应的潜在死亡原因。它通常总结了导致受试者死亡的一系列事件,从直接原因(如心脏骤停)开始,逐步扩展到个体的过去,直至死亡的潜在原因(见图1).后者是所调查的预测模型的目标,死亡因果链中包含的信息对于导致建立潜在死亡原因的决策过程至关重要。为了加强各国死亡统计数据的可比性,从事件因果链中对潜在死亡原因进行编码是根据世卫组织发布的一些规则定义的,在更复杂的情况下,这些规则往往达到诡辩的程度[11].

图1所示。法国死亡证明上发现的死亡因果链的例子。其相应的潜在死亡原因被定义为“2型糖尿病(DM II),合并多种并发症”。国际疾病和有关健康问题统计分类。
查看此图

世卫组织向各国提供了标准化的事件因果链格式,法国和使用Iris软件的每个国家都遵循该格式。世卫组织标准要求负责报告导致受试者死亡的事件的医生用自然语言填写一份两部分的表格。第一部分由四行组成,其中从业者被要求报告事件链,从直接原因到潜在原因,以反因果顺序(即,直接原因报告在第一行,潜在原因报告在最后一行)。虽然有四行可用于报告,但它们不需要全部填写。事实上,从业者很少使用最后可用的行(例如,在调查的数据集中,第4行使用的时间少于20%)。第二部分由两行组成,要求医生报告任何“导致死亡但与导致死亡的疾病或状况无关的其他重大情况”[12受试者可能患有的疾病。虽然这一部分乍一看似乎对根本的死亡原因几乎没有影响,但一些编码规则要求从死亡证明的这一部分中去掉后者。例如,死于卡波西肉瘤的艾滋病患者的根本死亡原因应被编码为艾滋病,尽管这种情况可能被医生认为是一种合并症,因此应写在证书的第二部分。因此,死亡证明的这一部分也为所研究的预测模型提供了一些重要信息,因此,应将其作为输入变量。

为了消除各国死亡证书的语言差异,通常对导致个人死亡的事件因果链采用预处理步骤,将证书上基于自然语言的每一行转换为《国际疾病和相关健康问题统计分类》(ICD-10)第十次修订版定义的一系列代码。ICD-10是世界卫生组织定义的一种医学分类[8]界定14,199个医疗实体[13](如疾病、体征和症状等),分布在22章中,用三个或四个十进制符号(即一个字母和两个或三个数字)进行编码,其中7404个符号存在于所调查的数据集中。世卫组织定义的关于潜在死亡原因过程的决策规则实际上是根据这一转化为《国际疾病分类-10》的因果链定义的,前者将作为唯一的《国际疾病分类-10》代码报告。

经过处理的死亡因果链,以其编码格式,可以被理解为六个不同长度的ICD-10编码序列。为了简化模型和计算,这个分层的数据结构将在这里被吸收,见图2,为填充的ICD-10代码的6 × 20网格,其中行和列分别表示代码的行和行级;20是在所调查数据集中存在的所有证书的因果链线上发现的ICD-10代码的最大数量。在本文报道的实验之前,已经探索了几种更微妙的方法来实现这种网格状同化,但所有模型的预测能力都明显较差。虽然这种编码方案显然阻止编码处理至少一行包含20多个代码的死亡证书,但进一步引入的模型没有这种限制。更大的证书可以用一个适当的更大的代码矩阵编码来处理,理论上没有显著的性能损失,因为模型是转换不变的[14].

图2。死亡因果链被编码成三维张量。每个节点将ICD-10代码表示为7404维虚拟变量。其行、列位置分别表示相应代码在相应证书中的行、级。Ci,j:表示死亡证明第i行第j代码;国际疾病和有关健康问题统计分类第十次修订版。
查看此图

将ICD-10编码为统计可利用格式的问题本身就是另一个挑战。一种直接的方法是将每个ICD-10代码分解为一个7404维的虚拟变量。然而,这种简单的编码方案可以得到改进,通常是通过将代码视为字符序列来利用ICD-10层次结构。我们对这种方法进行了研究,但结果明显较低。因此,本文报告的结果只涉及虚拟变量编码方案。

各种各样的变量

从性别到出生地,死亡证明除了包含导致死亡的一系列事件外,还包含有关其主题的各种附加信息项目。由于虹膜和人类编码人员通常使用其中一些项目来确定潜在的死亡原因,因此它们作为所研究的预测模型的解释变量呈现出兴趣。在与编码专家协商后,选择法国死亡证书上的下列项目作为额外的外生变量:

  1. 性别:分类变量的两种状态。
  2. 死亡年份:16种分类变量状态。
  3. 年龄,以5年为间隔,从1岁以下的受试者分为两类。

神经结构

将死亡证明及其所选变量转换为能够进行分析的格式后,根据前面定义的解释变量,估算其对应的ICD-10代码的概率密度,即可解决潜在死亡原因提取任务:

PUCD|CCD一个YGΘ) =ƒΘCCD一个YG) (2)

UCDΕR7404作为潜在死因的代表CCDεR6×R20.×R7404代表ICD-10网格编码的死亡因果链,一个εR25代表分类的年龄,YεR16代表死亡的年份GεR2代表性别,和ƒΘ表示从问题的输入空间到它的输出空间的映射,参数化为Θ一个实值向量,通常是一个神经网络。

虽然正确地定义了所研究的预测问题,但仍然对传统的统计建模方法提出了重大挑战。首先,预计输入变量和调查回归之间的关系应该是高度非线性的,而大多数统计建模技术通常用于线性设置。前馈神经网络[15],然而,它是传统线性或逻辑回归的强大非线性扩展,在各种任务中具有最先进的性能,通常在计算机视觉和自然语言处理中。虽然目前研究的建模问题不属于这些类别之一,但这两方面的最新进展深深启发了本文中提出的神经结构,可以在图3,可分解为:

图3。整体模型架构。Ci,j:表示死亡证明第i行第j代码;国际疾病分类-10:疾病和有关健康问题国际统计分类第十次修订版;UC:根本原因。
查看此图
  1. 对每个一元编码的分类变量应用线性投影[16(即,在死亡因果链中存在的所有ICD-10代码共享一个线性投影),所有线性投影共享相同的输出空间维度。
  2. 杂项变量的投影被添加到所有投影网格的元素中。
  3. 得到的网格被用作卷积神经网络的输入[17].
  4. 针对潜在的死亡原因对卷积神经网络的输出进行多项逻辑回归(即softmax回归)[18].
  5. 所有模型参数(即线性投影和卷积网络)都通过使用基于梯度的优化最小化交叉熵目标来调整。模型的梯度采用反向传播方法计算[15].

作者认为所有模型组成部分的正式定义超出了本文的范围。不过,感兴趣的读者可以在多媒体附录1,以及一个完全实现的例子,用Python和TensorFlow编写,在Falissard [19].我们还鼓励有兴趣的读者探索影响该架构设计的多篇文章,这些文章都可以在参考书目中找到[1620.-22].

培训及评估方法

所调查的模型使用2000年至2015年所有法国死亡证明进行训练。每年共随机排除10,000个证书,并分散到超参数微调的验证集和无偏预测性能估计的测试数据集(每个数据集5000个),从而产生三个数据集,其样本量如下:

  1. 训练数据集:8,553,705条记录。
  2. 验证和测试数据集:各80,000条记录。

由于大约是训练集大小的1%,验证集和测试集可能显得小得不合理。然而,这是机器学习学术文献在处理大数据集(即数百万个训练示例)时的标准做法[23].此外,最终模型在验证和测试设置上显示出相同的性能,达到十分之一,从而构成了样本分布稳定性的有力证据。

模型使用TensorFlow [24],一个基于python的分布式机器学习框架,同时在两个NVIDIA RTX 2070 gpu(图形处理单元)上使用镜像分发策略。训练使用随机梯度下降的一种变体,即Adam优化算法。

使用随机搜索过程对模型和优化过程定义中涉及的众多超参数进行了调整。然而,由于为实验训练的不同版本的模型需要大量的时间来达到收敛(即每个模型大约1周),因此只训练了三个模型,下面显示的结果是其中最好的模型在验证集上的预测精度。感兴趣的读者可以找到定义该模型的超参数的完整列表多媒体附录1(见表MA1-1)。考虑到本文中报道的实验中进行的相当小的超参数探索,作者期望更好的设置可能会略微提高预测性能。然而,考虑到获得的成功结果和精细调优的计算成本,决定不再进一步探索。

训练后,模型的预测性能在测试数据集上进行评估,如前所述,测试数据集在训练前被排除在外,并与Iris软件的预测性能进行比较,Iris软件目前被认为是自动化编码领域最先进的软件,并在国际上使用。为了确保两个系统之间的公平比较,Iris的性能也在测试集上进行了评估,并给出了相同的解释变量。正如机器学习学术文献中传统的做法一样,预测性能是根据预测精度来报告的,即在整个测试数据集中正确预测代码的比例。

Iris软件的自动编码准确性被评估为两个不同的值,这是由于该软件能够自动拒绝被认为过于复杂而无法由决策系统处理的案例。因此,第一个精度测量-最低的一个-被评估考虑拒绝作为不良预测的情况下,而第二个从精度计算中排除这些拒绝,从而产生一个改进的估计。为了让读者对这两种方法的性能有一个更全面的了解,这些准确性指标也是在同一测试集上以每章为基础得出的。


概述

基于神经网络的模型按照前面的描述进行了大约5天18小时的训练,其预测性能与虹膜的预测性能一样被报道表1

基于神经网络的方法对潜在的死亡原因的自动编码显著优于关于这两个指标的国家的最先进的。事实上,即使与Iris在非拒绝情况下的表现相比,所提出的方法提供的错误率也低3.4倍。当包括虹膜性能中的拒绝病例时,这种性能差异增加到11倍。

表1。虹膜的预测精度及自举法得到的最佳预测模型。
选择的方法 预测精度 95%可信区间
虹膜整体精度 0.745 0.740 - -0.750
未被拒绝证书上的虹膜 0.925 0.921 - -0.928
建议的方法 0.978 0.977 - -0.979

此外,图4显示了每个ICD-10章节的模型错误率,以及后者的流行程度。在这张图中,第七章——眼睛和附件的疾病——在错误率方面似乎是一个很强的异常值。虽然没有统计学意义(即,在测试集中抽样的8万份死亡证明中,只有3份死亡证明与第七章相关),但这一观察结果可能表明,训练集的样本量不够大,无法让模型处理极其罕见的情况,例如与第七章相关的死亡证明,这种情况可能更好地由手工制作的、基于规则的决策系统处理。

图4。顶部的图显示了潜在原因(按ICD-10章节)与ICD-10章节级别模型错误率的相关性。下图是上图左下角的放大图。国际疾病和有关健康问题统计分类第十次修订版。
查看此图

最后,图5显示了所提出的神经网络方法与Iris软件在未被拒绝证书上的每章错误率差异。正如之前的假设,虹膜软件在眼部疾病和附件相关死亡证明方面优于深度学习方法(第七章),尽管仍然没有显著性。即使Iris软件在每一章中都被击败,也应该从从未出现过的章节中提出一个案例。事实上,许多章节——即第19章、第21章和第22章——在测试数据集中并没有被观察到是潜在的原因,这强烈表明它们可能受益于一组手工制作的规则,就像第7章相关的证书一样,如果它们出现在极其罕见的情况下。

图5。顶部的图显示了所提出的模型和Iris软件之间的错误率差异,而ICD-10 -章节患病率是潜在原因。下图是上图左下角的放大图。国际疾病和有关健康问题统计分类第十次修订版。
查看此图

误差分析

尽管提出的方法明显优于当前最先进的Iris软件,但已知基于神经网络的方法存在一些缺陷,这些缺陷可能会严重限制其在某些情况下的应用。通常,目前缺乏系统的方法来解释和理解基于神经网络的模型及其决策过程,这可能导致前者在预测不良的情况下执行灾难性的操作,而不依赖于它们的高预测性能。

因此,在无法预测的情况下提出的模型行为需要仔细分析。此外,系统的性能可能会从这样的调查中获益。例如,尽管该模型的平均性能优于Iris,但可能存在一些高度非线性的例外,这些例外更适合基于规则的决策系统,在这种情况下,混合方法可以通过利用两者的优点,再次获得性能收益。

尽管如前面所示,评估每章错误率是理解模型弱点的一种简单、直接的方法,但要深入了解模型的行为,还可以做更多的工作。例如,在确定被调查模型预测错误的情况后,评估后者所犯错误的性质是很自然的。如前所述,在错误预测的情况下,基于神经网络的分类器倾向于输出与基本事实不合理的答案。然而,我们应该期望一个好的预测模型在错误情况下,输出的预测结果尽可能接近正确答案。图6显示了一个由预测不良的测试用例构建的ICD-10章级混淆矩阵,并表明,除了第七章之外,大多数错误仍然在与基本事实相同的章节中,表明了一定程度的模型鲁棒性。

图6。左边的图表显示了每个ICD-10章节的错误预测的分布与它们的基本事实(越轻越少)。右图显示了相同的分布模式。两个图中明显缺失的值对应的章节要么没有在测试数据集中表示,要么没有出现错误。国际疾病和有关健康问题统计分类第十次修订版。
查看此图

模型的误差行为也可以从校准适应度的角度来研究。如前所述,已知一些基于人工神经网络的模型在预测错误的情况下表现很差,这在处理健康数据时可能构成非常不受欢迎的现象。当模型以类似于多项逻辑回归的方式拟合时,它不直接学习预测ICD-10代码,而是估计所有可能代码的离散条件概率分布。预测定义为所述分布的最大值的参数,因此与概率权重相关联,当适当校准时,可以将其视为单个模型预测的置信度得分。通常,一个校准良好的预测模型应该在预测正确的情况下显示高可信度,而在预测错误的情况下显示低可信度。所述预测置信度的柱状图可在图7并且清楚地表明,在正确预测的情况下,模型对其预测更有信心。

图7。预测置信度以正确(蓝色)和不正确(橙色)预测表示。该模型通常预测高置信度的正确值和低置信度的错误值。
查看此图

如果以低置信度预测不正确的值是预测模型的理想行为,那么即使在错误预测的情况下,将基本事实与高概率联系起来也应该同样重要。这通常是通过评估每个测试集受试者的相应基础真值是否包含在kε N*最可能的值出现在模型相应的输出分布中。这种类型的度量通常表示为模型的顶部k准确性,并有助于评估模型的能力,即使在错误预测的情况下,也能给正确的值提供高可信度。尽管学术机器学习文献通常在这种情况下使用前5名的精度,但所研究的模型仅使用前2名的精度进行研究。事实上,数据集中的大多数死亡证明显示的事件因果链包含5个或更少的ICD-10代码,潜在的死亡原因就是其中之一。因此,期望模型将这五个代码作为最可能的输出是合理的,从而导致高但无意义的前5个精度。评估的前2名精度可以在表2,并有力地表明,该模型始终如一地将正确的潜在死亡原因与更高的概率联系起来,即使是在无法预测的情况下。

表2。被提出的模型错误预测的代码的精度,以及模型的前2名精度。
性能指标 价值 95%可信区间
在预测错误的证书上,第二可能的代码预测精度 0.663 0.641 - -0.685
提出的模型精度排名前2位 0.993 0.992 - -0.993

由潜在死亡原因编码专家对每个错误病例进行人工观察,可以得出更丰富(尽管更耗时)的错误分析。为此,从测试集中的1777份预测错误的死亡证明中随机选出96份,并向法国的医疗从业人员参考和最终决策者展示潜在死亡原因编码,他们对每一份选定的证书给出以下说明:

  1. 她个人认为每个证书对应的潜在原因应该是什么。
  2. 对所研究模型误差的定性评价。

然后将获得的上述根本原因与数据集中包含的实际值和推导模型预测的值进行比较,得到以下观察结果:

  1. 在41%(39/96)的案例中,参考文献同意模型的预测。
  2. 在38%(36/96)的病例中,参考文献与数据集中存在的根本原因一致。
  3. 在22%(21/96)的病例中,被推荐人不同意这两种观点。

从这些证书中,随机抽取4个医疗参照物不同意所提出的预测模型的证书,显示在多媒体附录1。这些错误可以分为三个不同的类别:

  1. 表MA1-2和MA1-3中显示的证书是依赖于高度非线性、几乎是诡疑规则的错误,是深度学习和基于专家的混合系统应该有益的典型场景。
  2. 表a1 -4所示的证明构成了罕见的复杂死亡情景,需要医疗参考人的专业知识。
  3. 表MA1-5中显示的证书与几种潜在死亡原因兼容,ICD-10代码的潜在死亡原因的第四个字符由编码员自行决定。

从这个实验中可以看出,推导出的预测模型的编码在质量上可以被认为与负责产生研究数据集编码的实际过程相当。此外,对医生对模型错误的评论进行的定性分析表明,预测模型所犯的错误中有30%与编码规则中的随意性例外有关,例如作为潜在死亡原因的不可接受代码。这样的观察强烈地强化了一个假设,即混合专家系统-深度学习方法应该提高所提出系统的编码准确性。

数据和材料的可用性

支持本研究结果的数据可从法国医学死亡原因流行病学中心获得,但这些数据的可获得性受到限制,这些数据是根据本研究的许可使用的,因此无法公开获得。但是,应合理要求,可从法国死因医学流行病学中心获得数据。


主要研究结果

之前手工错误分析的结果提出了一些关于训练数据集中编码的潜在死亡原因的问题,以及它对所提出的预测模型的影响。事实上,虹膜软件和人类编码员都难免会犯错误,因此,导致死亡的根本原因并不完全可靠。已经进行了对人类编码器性能的调查,并报告了在更复杂的情况下,编码器之间和编码器内部的一致性分别低至70%和89% [25].这些分数可以,至少部分地,用表示相似病理的代码之间有时存在的细微差异来解释。ICD-10的粒度有时会使人类编码员的潜在死亡原因决策过程变得有点随机。这种现象的一个众所周知的例子是前面显示的与糖尿病相关的死亡的错误示例。然而,测量噪声一直是医疗数据集中无处不在的一部分,期望基于人类决策的完美、确定性编码过程似乎有些不合理。此外,统计预测模型,即深度学习模型,在面对噪声数据集时表现相对较好。最后,该模型的实质性预测性能为死亡原因编码质量的基本事实提供了强有力的论据。

最后,应该彻底评估模型中包含各种变量的必要性。实际上,尽管这些变量通常以一种直接的方式出现在死亡证明上,但将提供给模型的额外信息的数量最小化是一个重要的主题。年份和年龄变量都对编码过程具有先验已知的确定性影响。

年龄变量明确地干预了一些世卫组织定义的规则。例如,新生儿死亡(<28天)适用一套完全不同的《国际疾病分类-10》准则和规则[8].因此,从模型中排除任何关于受试者年龄的信息,必然会损害其预测性能。

严格来说,受试者的死亡年份对潜在死亡原因的影响应该是有限的。然而,世卫组织定义的编码规则多年来不断变化,从增加新的ICD-10编码到决策过程本身的变化[26].因此,就预测性能而言,该模型应该受益于能够区分不同年份。此外,在模型中包含该变量将允许从业者使用从给定年份学习到的规则重新编码数据集的整个部分,从而平滑时间分布变量。

然而,性别变量似乎不影响任何编码规则,而是根据法国死因编码医学专家的意见添加的。为了评估其在研究决策过程中的兴趣,实现了消融研究。本文提出的模型是在排除性别变量的情况下进行训练的,预测性能没有显著变化,有力地支持了性别信息不影响决策过程,不应被纳入未来相关工作的观点。

实际应用:重新编码2012年法国药物过量异常

与过量用药有关的死亡监测问题最近引起了世界各地公共卫生机构的注意,特别是考虑到最近在美国发生的与阿片类药物有关的卫生危机。死亡原因数据是调查这类专题的首选信息来源。在法国,通过每年统计与以下根本原因有关的死亡人数(ICD-10代码在括号中所示),使用c pidc数据库来评估2000年至2015年与过量用药有关的死亡的演变情况:

  1. 阿片类药物和大麻相关疾病(ICD-10代码以F11和F12开头)。
  2. 可卡因、致幻剂和其他与兴奋剂有关的疾病(F14至F16)。
  3. 其他精神活性物质相关疾病(F19)。
  4. 意外中毒,并暴露于麻醉药品和精神障碍药物,未在其他地方分类(X42)。
  5. 故意自我中毒,并暴露于麻醉药品和精神障碍药物,未在其他地方分类(X62)。
  6. 未在其他地方分类的麻醉品和精神障碍药物中毒或暴露于这些药物,目的不明(Y12)。

得到的轨迹可以在图8并显示2011年和2012年与过量用药相关的死亡人数显著下降。

图8。左图显示了2000年至2015年法国过量用药相关死亡的演变。2012年的突然下降似乎有些反常。右图显示了与dames数据的比较,dames数据是一个非详尽的独立数据源,它发现2012年的死亡人数比详尽的cims数据库(Centre d ' samidacmiologie sur les causes msamdiacales de dsamicans)数据更多。
查看此图

尽管这种准时的减少至少可以部分地解释为海洛因纯度的降低[27和与海洛因过量有关的死亡[28]在同一时期,与一个独立来源的数据集(dames)的结果相比较,提出了另一种假设。DRAMES研究构成了法国法律医学研究所发现的与过量有关的死亡的非详尽清单。作为一个非详尽数据库,其死亡计数不应超过从csamidc数据库获得的值。可以看出在图8在美国,从2009年到2013年的所有年份都是如此,只有2012年例外。这种差异可能是编码过程的缺陷造成的,这一假设很容易通过对2012年以来的每份证书进行重新编码并比较两种情况下与过量服用有关的死亡人数来验证。

使用之前实验中导出的模型对2000 - 2015年的每一张法国死亡证明进行重新编码,编码年份设置为2015年,以防止编码规则变化导致的差异。然后根据上述方法从预测的潜在死亡原因中选择与过量有关的死亡。

得到的曲线见图9与官方曲线一致,并清楚地显示阿片类药物相关死亡的下降更为平稳。此外,在考虑重新编码的潜在死亡原因时,与DRAMES数据库的差异就消失了。

图9。左图显示了2000年至2015年法国阿片类药物过量相关死亡的演变,要么用虹膜和人类编码器(橙色)编码,要么用拟议的方法(蓝色)编码。尽管2012年的差距仍然存在,但在使用预测的潜在原因时,差距要小得多。右图显示了与DRAMES数据的比较(dvac数据与dvac数据的关系)。与cims数据库的矛盾完全被预测的原因所纠正。
查看此图

结论

在这篇文章中,我们提出了死亡证明中死亡编码的潜在原因的公式,作为一个统计建模问题,然后用深度人工神经网络解决这个问题,创造了一个新的技术水平。为了识别潜在的有害偏差,并评估混合基于规则的决策系统和统计建模的混合方法的潜力,根据不同的方法对衍生模型的行为进行了彻底评估。虽然拟议的解决办法在法国死亡证明上的表现明显优于任何其他现有的自动编码方法,但模式是否可转移到其他国家的问题需要进行更多的调查。事实上,分布转移的问题在机器学习社区中是众所周知的,并且会严重损害模型的质量[29].

作者相信,该模型在其他国家的死亡证明上应该具有类似的预测能力,几乎不需要额外的努力,尽管这种说法需要一些实验验证,没有国际合作是无法实现的。综上所述,本文表明深度人工神经网络非常适合于电子健康记录的分析,并且可以直接从大量数据集中学习一套复杂的医疗规则,而无需任何明确的先验知识。虽然不是完全没有错误,但派生的算法构成了一个强大的决策工具,能够以前所未有的性能处理结构化的医疗数据。我们坚信,本文中开发的方法在与流行病学,生物统计学和一般医学科学相关的各种设置中具有高度可重用性。

利益冲突

没有宣布。

多媒体附录1

模型体系结构、培训方法和错误预测证书的示例。

DOCX文件,256 KB

  1. 张建军,张建军,张建军,张建军,生命事件监测。民事登记制度和人口统计:成功与错失的机会。柳叶刀2007年11月10日;370(9599):1653-1663。[CrossRef] [Medline
  2. AbouZahr C, de Savigny D, Mikkelsen L, Setel PW, Lozano R, Lopez AD。实现普遍的民事登记和生命统计系统:现在是时候了。Lancet 2015 Oct 03;386(10001):1407-1418。[CrossRef] [Medline
  3. AbouZahr C, de Savigny D, Mikkelsen L, Setel PW, Lozano R, Nichols E,等。民事登记和人口动态统计:计数和问责制数据革命的进展。Lancet 2015 Oct 03;386(10001):1373-1385。[CrossRef] [Medline
  4. Mikkelsen L, Phillips DE, AbouZahr C, Setel PW, DE Savigny D, Lozano R,等。民事登记和生命统计系统的全球评估:监测数据质量和进展。Lancet 2015 Oct 03;386(10001):1395-1406。[CrossRef] [Medline
  5. Brolan CE, Gouda HN, AbouZahr C, Lopez AD。超越健康:民事登记和生命统计的五个全球政策隐喻。柳叶刀2017年3月18日;389(10074):1084-1085。[CrossRef] [Medline
  6. 经济和社会事务部统计司。生命统计系统的原则和建议。版本2。纽约,纽约:联合国;2001.URL:https://unstats.un.org/unsd/publication/SeriesM/SeriesM_19rev2E.pdf[2020-03-27]访问
  7. 疾病和有关健康问题国际统计分类。第十版(ICD-10)。卷1。第二版。瑞士,日内瓦:世界卫生组织;2004.
  8. Terron Cuadrado M. eHealth DSI语义社区,欧盟委员会,2018年5月18日。诊断结果。国际疾病和有关健康问题统计分类第十次修订版https://tinyurl.com/se2orcj[2019-01-09]访问
  9. Jackson P.专家系统介绍。第3版。英国埃塞克斯:培生教育;1999.
  10. 陆TH。运用ACME (Automatic Classification of Medical Entry)软件对死亡原因统计进行监控,提高统计质量。流行病学杂志[J]; 2003; 31 (6): 457 - 457 [J]免费全文] [CrossRef] [Medline
  11. 国际疾病分类,第11版。瑞士,日内瓦:世界卫生组织;2018年6月18日。URL:https://www.who.int/classifications/icd/en/[2019-01-09]访问
  12. 英国护照办公室。GOV.UK。2018年9月25日。填写死因医学证明(MCCD)https://www.gov.uk/government/publications/guidance-notes-for-completing-a-medical-certificate-of-cause-of-death[2019-04-24]访问
  13. 世界卫生组织。ICD常见问题解答网址:https://www.who.int/classifications/help/icdfaq/en/[2019-03-06]访问
  14. leun Y, Boser B, Denker JS, Henderson D, Howard RE, Hubbard W,等。反向传播应用于手写邮政编码识别。神经网络计算[j] .计算机工程学报;2009;31 (4):541-551 [j]免费全文] [CrossRef
  15. Rumelhart DE, Hinton GE, Williams RJ。通过反向传播错误学习表征。Nature 1986 Oct 9;323(6088):533-536。[CrossRef
  16. 陈凯,陈建军,陈建军。基于分布式表征的词和短语组合。第27届国际神经信息处理系统会议论文集,神经信息处理系统的进展26。2013年10月16日发表于:第27届国际神经信息处理系统会议,Advances in Neural Information Processing Systems 26;2013年12月5日至10日;Lake Tahoe, NV p. 3111-3119https://arxiv.org/pdf/1310.4546.pdf
  17. 张伟,李建平,李建平,等。基于局部空间不变互连的并行分布式处理模型及其光学结构。应用光学,1990,11,29(32):4790-4797。[CrossRef] [Medline
  18. Krizhevsky A, Sutskever I, Hinton GE。基于深度卷积神经网络的ImageNet分类。第26届神经信息处理系统国际会议论文集,神经信息处理系统的进展25。2012发表于:第26届国际神经信息处理系统会议,Advances in Neural Information Processing Systems 25;2012年12月3日至8日;太浩湖,内华达州,第84-90页https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdfCrossRef
  19. Falissard L. GitHub。csamidc初始URL:https://github.com/Liloulou/CepiDc_Inception[2019-06-06]访问
  20. 陈建军,陈建军,陈建军,刘建军。计算机视觉的初始化体系结构。见:IEEE计算机视觉与模式识别会议论文集。2016年发表于:IEEE计算机视觉与模式识别会议(CVPR);2016年6月27日至30日;拉斯维加斯,NV, 2818-2826https://arxiv.org/pdf/1512.00567.pdfCrossRef
  21. 刘建军,刘建军,刘建军,等。残差连接对学习的影响。参见:第三十一届AAAI人工智能会议论文集(AAAI'17)。2017年发表于:第三十一届AAAI人工智能会议(AAAI'17);2017年2月4日至9日;旧金山,CA页4278-4284https://arxiv.org/pdf/1602.07261.pdf
  22. 使用输出嵌入改进语言模型。在:计算语言学协会欧洲分会第15届会议论文集。2017提交于:计算语言学协会欧洲分会第15届会议;2017年4月3日至7日;瓦伦西亚,西班牙,第157-163页https://www.aclweb.org/anthology/E17-2025.pdfCrossRef
  23. Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S,等。ImageNet大规模视觉识别挑战赛。[J]计算机学报,2015;15 (3):391 - 391 [J]免费全文] [CrossRef
  24. Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z, Citro C, Google Research。TensorFlow。2015年11月9日TensorFlow:基于异构分布式系统的大规模机器学习http://download.tensorflow.org/paper/whitepaper2015.pdf[2020-03-27]访问
  25. 王晓东,王晓东,王晓东,等。中国农村人口死亡原因编码的研究进展。中华流行病学杂志,2010;25(8):531-538。[CrossRef] [Medline
  26. 世界卫生组织。ICD-10在线版本https://www.who.int/classifications/icd/icdonlineversions/en/[2020-01-21]访问
  27. 法国麻醉品和毒理学观察站。20110.10 synth thsammatique: Héroïne et autres opioïdes网址:https://www.ofdt.fr/produits-et-addictions/de-z/heroine-et-autres-opiaces/[2019-05-27]访问
  28. 法国麻醉品和毒理学观察站。2018年11月12月在药物的关系用l 'abus不吸烟者物质(dram)网址:https://tinyurl.com/st6eahm[2019-05-27]访问
  29. 季诺内罗-坎德拉J, Sugiyama M, Schwaighofer A, Lawrence ND,编辑。机器学习中的数据集移位。马萨诸塞州剑桥:麻省理工学院出版社;2008年12月。


CepiDc: - - - - - - - - - - - - - - - - - - - - - - -中心
德拉姆:dsm与dsm的关系与dsm与dsm的关系是一致的
GPU:图形处理单元
诊断结果:《疾病和有关健康问题国际统计分类》第十次修订版
人:世界卫生组织


G·艾森巴赫编辑;提交19.11.19;张忠、林国光同行评议;对作者06.01.20的评论;收到修订版本31.01.20;接受04.02.20;发表28.04.20

版权

©Louis Falissard, Claire Morgand, Sylvie Roussel, Claire Imbaud, Walid Ghosn, Karim Bounebache, gracimgoire Rey。原发表于JMIR医学信息学(http://medinform.www.mybigtv.com), 2020年4月28日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map