这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
行政索赔数据库因其样本量大且易于获取而在研究中得到广泛应用。然而,使用行政数据库的研究缺乏疾病严重程度的信息,因此需要开发一种风险调整方法。
我们的目标是开发和验证基于深度学习的急性护理患者住院死亡率预测模型。
主要模型仅使用行政索赔数据(年龄、性别、诊断和入院当天的程序)开发。我们还使用这些疾病的常见严重程度指标构建了急性心肌梗死、心力衰竭、中风和肺炎的疾病特异性模型。使用2010年7月至2017年3月的日本诊断程序组合数据,我们确定了46,665,933名住院患者,并以95:5的比例将其分为衍生队列和验证队列。主要模型使用9层深度神经网络开发,其中4个隐藏密集层有1000个节点,并与相邻层完全连接。我们以接受者工作特征曲线(AUC)下的面积来评价模型的鉴别能力,以校准图来评价模型的校准能力。
在符合条件的患者中,2,005,035例(4.3%)死亡。模型的鉴别和校正结果令人满意。验证队列中主要模型的AUC为0.954 (95% CI 0.954-0.955)。主模型比疾病特异性模型具有更高的鉴别能力。
我们基于深度学习的模型使用诊断和程序产生了有效的院内死亡率预测。
行政索赔数据库已广泛用于临床和流行病学研究,因为其样本量大,易于获取。然而,行政数据通常缺乏临床信息[
使用管理数据中记录的共病,已经开发了各种预测住院死亡率的模型。在这些模型的基础上,已经创建了风险评分,并用于临床和流行病学研究中调整疾病严重程度。然而,这些模型的有效性和可用性仍存在争议[
先前的研究表明,额外的临床信息提高了使用管理数据库的死亡率预测模型的性能。在之前的研究中,我们使用日本诊断程序组合(DPC)数据库(一个全国性的行政索赔数据库)开发了一个基于程序的预测模型[
机器学习(包括深度学习)方法的最新进展使处理大量信息和复杂模型成为可能[
许多先前的研究使用机器学习来创建特定疾病的死亡率预测模型(包括心力衰竭模型[
在这项研究中,我们开发并验证了一个基于深度学习的模型,仅使用行政索赔数据(包括诊断和程序数据)预测所有患者的住院死亡率,这些数据是统一格式化的,并在全国范围内定期收集。为了测试全患者模型的性能,我们还构建了疾病特异性模型,用于预测急性心肌梗死(AMI)、心力衰竭(HF)、中风或肺炎患者的住院死亡率,使用每个疾病亚组的常见严重程度指数。然后,我们比较了每个疾病亚组的全患者模型和疾病特异性模型之间的预测能力。
我们进行了一项回顾性队列研究。2010年7月至2017年3月的数据来自DPC数据库。将数据库中的所有患者纳入,以最大限度地提高结果的泛化性。在研究期间,1569家医院为数据库提供了数据。数据库中的患者约占日本所有急症住院患者的50% [
DPC数据库包括以下数据:每个患者的年龄、性别、入院日期、出院日期、诊断和程序(药物、检查、手术和非手术治疗)。在DPC数据库中,入院时存在的合并症与入院后出现的并发症明显区别。所有诊断均使用国际疾病和相关健康问题统计分类第十版(ICD-10)代码进行记录。程序记录用日本常规代码编码。
DPC数据库还包括若干严重程度指数,即AMI的Killip分类[
我们的研究得到了东京大学医学院伦理委员会的批准(批准号:3501-(4))。
我们提取了2010年7月1日至2017年3月31日期间出院的住院患者的数据。研究人群随机分为衍生队列(95%)和验证队列(5%)。对于住院1天的病例,我们收集预测信息的时间与结果发生的时间可以同时进行。由于这可能导致对预测模型准确性的高估,我们从验证队列中排除了出院或住院当天死亡的患者。
结局变量为住院死亡。对于预测变量,我们使用了患者的人口统计信息(年龄、性别、入院前180天内的住院史)、入院时所有基于icd -10的诊断以及入院当天执行的所有程序。年龄被视为一个连续变量;其他变量作为二分类变量(0或1)处理。我们还提取了Killip分类[
我们开发了一个深度神经网络模型,作为预测所有患者住院死亡的主要模型,使用9层4隐密层[
我们构建了疾病特异性模型,用于预测AMI、HF、stoke或肺炎亚组的住院死亡率。4个模型包括患者背景(年龄、性别、入院前180天的住院史)和诊断,没有一个模型包括手术。对于AMI特异性模型,我们选择了AMI患者,并纳入了Killip分类[
我们将主模型应用于AMI、HF、stoke和肺炎患者亚组,并将其预测性能与疾病特异性模型对AMI、HF、stoke和肺炎的预测性能进行比较。我们通过计算验证队列中的性能度量来评估每个模型的性能。性能指标包括接受者工作特征曲线(AUC)下的面积,用于确定模型的鉴别能力。我们使用DeLong方法计算AUC的95% CI [
我们还研究了由疾病特异性模型计算的风险评分是否提高了由主模型计算的风险评分的辨别能力。我们将主要模型和疾病特异性模型计算的风险评分纳入logistic回归模型的预测变量,并计算预测每种疾病人群住院死亡率的联合风险评分。通过综合风险评分的AUC评价其判别能力,并与主模型的AUC进行比较。使用DeLong方法计算AUC的ci和主模型风险评分与综合风险评分之间差异的假设检验。
我们从DPC数据库中获得了研究期间46,665,942例患者的数据,并将其分为推导队列(n=44,334,477)和验证队列(n=2,331,465)。我们根据排除标准将患者从验证队列中排除,验证队列中剩下2,277,968例患者(
推导和验证队列的特征显示在
主要模型的结构如图所示
推导和验证队列和疾病特异性亚组中的患者数量。AMI:急性心肌梗死,HF:心力衰竭。
推导和验证队列中患者的特征。
特征 | 推导队列(n=44,334,477) | 验证队列(n=2,277,968) |
|
|||
死亡,n (%) | 1905286 (4.3) | 83292 (3.7) | <措施 | |||
住院天数(天),平均值(SD) | 14.2 (24.1) | 14.5 (24.2) | <措施 | |||
年龄(年),平均值(SD) | 60.1 (24.4) | 60.4 (24.2) | <措施 | |||
性别(男性),n (%) | 23480628 (53.0) | 1207886 (53.0) | 07 | |||
180天内住院史,n (%) | 12282386 (27.7) | 632362 (27.8) | 07 | |||
|
<措施 | |||||
|
0 - 1 | 28734890 (64.8) | 1465779 (64.3) |
|
||
|
2 - 3 | 11432403 (25.8) | 594500 (26.1) |
|
||
|
≥4 | 4165579 (9.4) | 217605 (9.6) |
|
主要模型的结构。
层 | 输入(节点) | 输出(节点) | 重量、n |
1:输入 | 49297年 | 1000 | 49297000年 |
2:退学 | N/A一个 | N/A | N/A |
3:隐藏1 | 1001 | 1000 | 1001000年 |
4:退学 | N/A | N/A | N/A |
5:隐藏2 | 1001 | 1000 | 1001000年 |
6:退学 | N/A | N/A | N/A |
7:隐藏3 | 1001 | 1000 | 1001000年 |
8:退学 | N/A | N/A | N/A |
9:输出 | 1001 | 2 | 2002 |
权值和 | N/A | N/A | 52302002年 |
一个N/A:不适用。
本文概述了本研究中使用的主要模型和疾病特异性模型
验证队列中主要模型的AUC为0.954 (95% CI 0.9537-0.9547)。主模型尤登指数法测定的敏感性、特异性和截止点(0.0435)的阳性预测值和阴性预测值分别为0.920 (95% CI 0.915 ~ 0.924)、0.855 (95% CI 0.852 ~ 0.860)、0.195 (95% CI 0.192 ~ 0.199)和0.996 (95% CI 0.996 ~ 0.997) (
验证队列中观察到的和估计的死亡率的校准曲线见
主要和疾病特异性模型的auc和其他预测指标显示在
主要模型和疾病特异性模型概述。
模型 | 输入(节点) | 重量、N |
主要模型 | 49297年 | 52302002年 |
急性心肌梗死模型 | 9 | 3014002年 |
中风模型 | 54 | 3059002年 |
心力衰竭模型 | 9 | 3014002年 |
肺炎模型 | 9 | 3014002年 |
主要模型和疾病特异性模型的性能。
|
AUC一个(95%置信区间) | 阈值 | 敏感度(95% CI) | 特异性(95% CI) | PPVb(95%置信区间) | 净现值c(95%置信区间) | |||||||
|
|||||||||||||
|
主要模型 | 0.954 (0.954 - -0.955) | 0.0435 | 0.920 (0.915 - -0.924) | 0.855 (0.852 - -0.860) | 0.195 (0.192 - -0.199) | 0.996 (0.996 - -0.997) | ||||||
|
|||||||||||||
|
主要模型 | 0.944 (0.938 - -0.950) | 0.087 | 0.888 (0.864 - -0.947) | 0.862 (0.796 - -0.881) | 0.334 (0.264 - -0.363) | 0.990 (0.988 - -0.995) | ||||||
|
针对疾病的模型 | 0.876 (0.866 - -0.887) | 0.087 | 0.837 (0.797 - -0.877) | 0.783 (0.745 - -0.817) | 0.233 (0.210 - -0.257) | 0.984 (0.981 - -0.988) | ||||||
|
|||||||||||||
|
主要模型 | 0.831 (0.825 - -0.837) | 0.118 | 0.782 (0.729 - -0.813) | 0.719 (0.678 - -0.771) | 0.220 (0.205 - -0.245) | 0.970 (0.965 - -0.973) | ||||||
|
针对疾病的模型 | 0.745 (0.738 - -0.753) | 0.097 | 0.727 (0.678 - -0.754) | 0.642 (0.613 - -0.688) | 0.172 (0.166 - -0.184) | 0.958 (0.954 - -0.961) | ||||||
|
|||||||||||||
|
主要模型 | 0.921 (0.918 - -0.925) | 0.091 | 0.863 (0.847 - -0.901) | 0.824 (0.781 - -0.837) | 0.267 (0.234 - -0.279) | 0.988 (0.987 - -0.991) | ||||||
|
针对疾病的模型 | 0.894 (0.890 - -0.898) | 0.080 | 0.824 (0.805 - -0.836) | 0.800 (0.793 - -0.818) | 0.235 (0.229 - -0.249) | 0.984 (0.983 - -0.985) | ||||||
|
|||||||||||||
|
主要模型 | 0.918 (0.915 - -0.920) | 0.075 | 0.913 (0.896 - -0.925) | 0.769 (0.762 - -0.786) | 0.209 (0.204 - -0.219) | 0.993 (0.991 - -0.994) | ||||||
|
针对疾病的模型 | 0.863 (0.859 - -0.867) | 0.064 | 0.851 (0.809 - -0.913) | 0.705 (0.638 - -0.744) | 0.160 (0.143 - -0.173) | 0.986 (0.983 - -0.991) |
一个AUC:接收机工作特性曲线下的面积。
bPPV:阳性预测值。
cNPV:负预测值。
主模型验证队列中观察和估计死亡率的校准曲线。x轴表示预测死亡率,y轴表示实际死亡率。
综合风险评分和主模型计算的风险评分的判别能力显示在
亚组的主要模型和疾病特异性模型的校准曲线如图所示
综合风险评分与主模型计算的风险评分的判别能力比较。
|
主要型号AUC一个(95%置信区间) | 综合风险评分AUC (95% CI) |
|
急性心肌梗死 | 0.944 (0.938 - -0.950) | 0.945 (0.939 - -0.951) | 23) |
心脏衰竭 | 0.831 (0.825 - -0.837) | 0.838 (0.832 - -0.844) | <措施 |
中风 | 0.921 (0.918 - -0.925) | 0.927 (0.924 - -0.930) | <措施 |
肺炎 | 0.918 (0.915 - -0.920) | 0.921 (0.918 - -0.924) | <措施 |
一个AUC:接收机工作特性曲线下的面积。
疾病特异性模型验证队列中观察到的和估计的死亡率的校准曲线。(A)急性心肌梗死,(B)心力衰竭,(C)中风,(D)肺炎的模型。x轴:预测死亡率。y轴:实际死亡率。实线:主要型号。虚线:疾病特异性模型。
我们利用大型日本住院患者数据库构建了基于深度倾斜的住院死亡率预测模型。患者背景、诊断和入院第一天的治疗被输入模型。在AMI、HF、中风和肺炎患者亚组中,模型的整体辨别能力较高。主模型比使用常见严重程度指数的疾病特异性模型具有更好的鉴别能力。我们整合了主要模型和特定疾病模型的风险评分,并计算了综合风险评分。然而,与主要模型风险评分相比,联合风险评分在预测性能方面的改进只是轻微的。
以前已经从行政索赔数据库中开发了风险评分。例如,Charlson和Elixhauser模型利用共病信息预测长期生存,已被用于临床和流行病学研究中的风险调整[
在之前的一项研究中,我们构建了住院死亡率的预测模型,其中包括入院当天的合并症和几个选定的程序(血液检查、x线摄影、超声心动图)[
在之前的一项研究中,将单独使用行政索赔数据的模型的预测能力与使用电子病历结合行政索赔数据的模型的预测能力进行了比较[
在这项研究中,只使用大量管理数据的深度学习模型比使用特定疾病严重程度信息的模型具有更高的预测能力。基于我们的结果,我们认为大规模的行政数据可以用来预测住院死亡率比一般使用的严重程度指数更准确。Kharrazi等[
以标准化的方式收集电子健康档案信息并用于研究并不容易。我们相信,这项研究的结果可以用于不可能获得详细临床信息的情况,如疾病严重程度和生命体征,这些信息将包含在电子健康记录中。
这项研究有几个局限性。首先,我们没有进行外部验证。其次,我们没有使用各种机器学习方法(如随机森林、套索回归、XGBoost及其集合),因此我们无法比较其他机器学习方法的预测性能。第三,由于本研究使用的数据库是急性住院,我们无法获得长期结果的数据。第四,并非所有疾病都能保证模型的准确性,因此需要考虑模型对其他人群的适用性。
总之,我们构建了一个深度神经网络模型,使用日本行政索赔数据库中入院当天进行的所有诊断和程序数据来预测住院死亡率。我们只使用行政索赔数据的模型比使用更普遍使用的严重程度指数的模型显示出更高的预测能力。我们建议使用仅从行政索赔数据库获得的诊断和程序数据的预后模型可以预测住院死亡率,并可用于临床和流行病学研究中的风险调整。
模型权重优化过程细节。
年龄,脱水,呼吸衰竭,定向障碍,低血压
急性心肌梗死
接收机工作特性曲线下面积
日语诊断程序组合
心脏衰竭
《国际疾病和有关健康问题统计分类》,第十版
负预测值
阳性预测值
没有宣布。