JMIR J Med Internet Res 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v23i4e26211 33793407 10.2196/26211 原始论文 原始论文 机器学习应用于西班牙临床实验室数据用于COVID-19结局预测:模型开发和验证 Basch 科里 Rivas桑托斯 维克多 Dominguez-Olmedo 胡安L 博士学位 1
高等技术工程学院 韦尔瓦大学 舰队大道 到时,21007 西班牙 34 959217371 juan.dominguez@dti.uhu.es
https://orcid.org/0000-0001-5083-2313
Gragera-Martinez Alvaro 硕士,MBA,药学博士 2 https://orcid.org/0000-0002-1705-422X 马塔 哈辛托 博士学位 1 https://orcid.org/0000-0001-5329-9622 Pachon阿尔瓦雷斯 维多利亚 博士学位 1 https://orcid.org/0000-0003-0697-4044
高等技术工程学院 韦尔瓦大学 马德里竞技 西班牙 胡安Ramón吉米内斯大学医院 马德里竞技 西班牙 通讯作者:Juan L Domínguez-Olmedo juan.dominguez@dti.uhu.es 4 2021 14 4 2021 23 4 e26211 7 12 2020 23 12 2020 29 12 2020 8 3. 2021 ©Juan L Domínguez-Olmedo, Álvaro Gragera-Martínez, Jacinto Mata, Victoria Pachón Álvarez。原载于医学互联网研究杂志(//www.mybigtv.com), 2021年4月14日。 2021

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。

背景

COVID-19大流行可能是现代最大的健康灾难。西班牙的医疗保健系统在短时间内暴露于无法控制的患者数量,导致系统崩溃。由于无法立即诊断,而且COVID-19没有有效的治疗方法,因此必须开发其他工具来识别有严重疾病并发症风险的患者,从而优化医疗保健方面的物质和人力资源。目前还没有工具可以确定哪些患者的预后比其他患者差。

客观的

本研究旨在处理COVID-19患者的电子健康记录样本,以开发机器学习模型,从临床实验室参数中预测感染的严重程度和死亡率。早期患者分类可以帮助优化物质和人力资源,对模型最重要特征的分析可以提供对疾病更详细的了解。

方法

在与其他几种已知方法进行比较的基础上进行初步性能评估后,选择极值梯度增强算法作为本研究的预测方法。此外,使用Shapley加性解释来分析所得模型特征的重要性。

结果

经数据预处理后,共筛选出1823例新冠肺炎确诊患者和32个预测特征。在自举验证中,极端梯度增强分类器的接收算子特征曲线下面积为0.97 (95% CI 0.96-0.98),精密度-召回率曲线下面积为0.86 (95% CI 0.80-0.91),准确度为0.94 (95% CI 0.92-0.95), f分数为0.77 (95% CI 0.72-0.83),灵敏度为0.93 (95% CI 0.89-0.98),特异性为0.91 (95% CI 0.86-0.96)。模型预测的4个最相关的特征是乳酸脱氢酶活性、c反应蛋白水平、中性粒细胞计数和尿素水平。

结论

我们的预测模型在区分COVID-19死亡患者方面取得了很好的结果,主要是根据实验室参数值。对结果模型的分析确定了一组对预测影响最大的特征,从而将它们与较高的死亡风险联系起来。

新型冠状病毒肺炎 电子健康记录 机器学习 死亡率 预测
介绍

2019冠状病毒病大流行是现代最严重的健康灾难之一。这并非卫生领域独有的问题,因为这一危机的深远经济和社会后果仍然无法量化[ 1]。该病主要影响呼吸系统,引起呼吸衰竭,某些患者可导致严重的炎症综合征。这是由促炎细胞因子介导的,可导致明显的全身并发症,在许多情况下可能是致命的[ 2]。

由于缺乏对这种病毒的了解,世界卫生组织与美国疾病控制和预防中心共同确定了高风险患者的概况;这些因素包括年龄超过65岁、住在养老院、至少有以下一种健康问题:慢性肺病、严重心脏病、肥胖、糖尿病、肾衰竭、肝病或免疫功能低下。其结果是,无论是在治疗方面,还是在疾病的诊断和预后标准方面,对这一流行病的反应都极不平衡[ 3.]。

COVID-19病例在短时间内呈指数级增长,缺乏对病毒的经验和知识,以及卫生资源和卫生保健人员的不足(其中许多人被感染)导致医院饱和,特别是重症监护病房,每天接收的患者数量非常多,其中许多人需要长期住院。在第一波大流行之后,卫生保健系统面临的压力促使人们寻找不同的资源,以帮助了解和准确预测每位患者在与病毒相互作用时的反应。能够使我们对高危患者进行分类的工具的可用性至关重要,因为微生物诊断速度很慢,聚合酶链反应检测需要4个多小时,急诊医生通常在收集样本后长达24小时才能收到结果。此外,治疗是基于生命支持,并不总是有效的,并可能导致大量的不良事件;此外,药物供应有时是有限的。开发工具,使我们能够对有并发症风险的患者进行分类,例如那些具有血栓形成前状态的患者,或血液样本中炎症参数数量增加的患者,将有助于缓解卫生系统的饱和,优化资源,并节省解决临床并发症的时间。 4]。

因此,我们开发了一个模型,根据患者住院期间获得的实验室参数预测死亡风险[ 5]。利用该模型,我们旨在评估实验室参数如何与更严重(或更轻微)疾病的风险相关,以便当患者出现在医院急诊科时,可以根据血液参数预测死亡风险。

方法 数据描述

本研究基于从西班牙一家私人医院集团(HM医院)获得的匿名临床数据,其中心主要位于马德里和加利西亚自治区以及巴塞罗那。该小组将其数据提供给科学界用于研究目的。利用这些电子病例记录,我们访问了2020年3月至6月期间入院的疑似COVID-19患者的数据。从提供的所有数据表中,我们选择了以下数据表:(1)包含住院和患者具体数据的主表(2547条记录)和(2)包含住院期间每位患者和急诊科患者要求的各种检查结果的实验室数据表(584,136条记录)。

在表中,有一个“结果”特征,有5个可能的值:“死亡”、“回家”、“转到医院”、“转到社会卫生中心”和“自愿出院”。这个结果特征是本研究中开发的预测模型的目的。

数据预处理

在开发模型之前,作为任何机器学习过程的前一步,对这2个表中的信息进行如下预处理:

只选择“结局”特征为“回家”或“死亡”的确诊患者。

根据患者ID合并两表数据。由于患者可以为每个实验室参数提供可变数量的测量,因此计算平均值并将其分配给每个参数。

由于大量的缺失值,我们决定过滤记录和特征,以便处理没有缺失值的数据。一些机器学习算法可以通过直接使用缺失值的数据来发挥作用,也可以使用imputation方法。在本研究中,为了统一和简单起见,采用以下步骤:首先,剔除所有记录中缺失值大于10%的特征;此后,只选择那些在所有剩余特征中具有价值的记录。

“性别”和“结果”等特征被正确地编码为二进制值。没有其他预处理,如归一化或标量化应用于数据。

机器学习技术

已经开发了一系列用于获得预测模型的机器学习方法,例如基于逻辑回归,线性判别分析,基于实例的学习,人工神经网络,决策树和集成学习的机器学习方法。本研究采用梯度增强方法建立预测模型。

梯度增加

梯度增强是一种机器学习技术,用于解决回归和分类问题,并通过弱预测模型(通常是决策树)的集合产生预测模型。与其他增强方法一样,它通过合并弱预测模型来逐步构建模型,但它优化了任意可微损失函数。最后,通过汇总构成模型的所有单个决策树的预测来获得新情况的预测。通过组合多棵树,实现了预测特征之间的非线性和相互作用[ 6]。

极限梯度增强(XGBoost)是一种相对较新的梯度增强实现,在许多分类任务中取得了优异的效果。它是一个开源软件库,提供了一个设计为高效和灵活的梯度增强框架[ 7]。它也被成功地应用于医学;例如,对于糖尿病风险的预测[ 8],高血压[ 9],药物反应[ 10],或肾脏损伤[ 11]。

沙普利加法解释

用机器学习技术进行研究的一个基本特征是结果的可解释性。在医学中,这一特征对于医疗保健专业人员根据机器学习算法获得的结果得出结论和做出决策至关重要。Doshi-Velez和Kim [ 12将可解释性定义为“以可理解的方式向人类解释或呈现的能力”。这使得机器学习中的可解释性成为一个有利的模型特征。

最近,Shapley加性解释(SHAP)框架被应用于解释派生的机器学习模型[ 13]。SHAP是基于博弈论[ 14并帮助评估特征对模型预测的贡献,识别最显著影响预测的特征。当聚合到模型中时,SHAP值与每个特征的边际贡献相关联。当使用SHAP时,XGBoost方法还有一个额外的优势,因为基于决策树,我们可以使用TreeSHAP,这是SHAP的快速变体,用于基于树的机器学习[ 15]。

模型培训与评估

为了获得死亡率预测模型(“结局”特征),使用先前描述的数据训练梯度增强模型。输入特征为“年龄”、“性别”和根据上述数据预处理得到的每个实验室值(平均值)。为此,XGBoost模型是使用Python的现有实现开发的。

为了初步评估XGBoost算法与文献中其他模型的性能,我们与机器学习中的8种代表性分类器进行了比较:决策树、k近邻、线性判别分析、逻辑回归、多层感知器、高斯朴素贝叶斯、随机森林和支持向量机。为此,Python Scikit-learn库中的相应实现[ 16]被使用。分析的指标为受试者操作特征曲线下面积(AUROC)、精密度-召回率曲线下面积(AUPRC)、准确度和f分数(F1)。为了评估这些指标的值,使用了引导验证。

对于每个分类器,通过在迭代调优过程后选择最佳值来调整最相关的模型参数(超参数),并保留其余的默认值。使用hyperopt(一个用于分布式超参数优化的Python库)识别超参数值[ 17];优化的度量和算法为AUROC和3结构Parzen估计器。为了估计AUROC值,采用k-fold分层交叉验证(k=10)。因此,每个调优周期包括使用不同的非重叠测试数据执行10次训练测试(每次使用总记录的10%)。通过交叉验证,可以减小估计的方差,提高估计的泛化性能[ 18]。

一旦分析了结果,在使用XGBoost获得的大多数指标中都确认了合适的行为。为了进一步提高其性能,使用更详尽的调优过程调整最终模型参数。在XGBoost中可用的各种参数中,选择被认为更相关的参数进行调优。这6个选定的参数影响梯度增强树的数量及其结构(n_estimators、max_depth和min_child_weight),以及学习过程(learning_rate、subsample和colsample_bytree)。

在这个参数调优阶段之后,通过bootstrapping对最终模型进行评估。性能指标如下:AUROC、AUPRC、准确性、F1、约登指数、敏感性和特异性。最后,利用SHAP ( 图1)。

获取模型参数、验证和特征重要性的过程。AUC:曲线下面积,SHAP:沙普利加法解释。

结果 研究人群及特征

在最初的数据预处理阶段之后,将2个表中的数据组合在一起,产生了一个由1823条记录和33个特征组成的数据集。所有数据均对应于确诊为COVID-19的患者。 表1 2分别显示患病率和临床实验室值。所有患者的中位年龄为68岁(IQR 57-79)岁,男性1114例(61.1%)。数据预处理后,“死亡”的发生率约为14%。

“年龄”、“性别”和“结果”特征的患病率。

功能 患者,n (%)
年龄(年)
0-25 7 (0.4)
25 - 50 235 (12.9)
50 - 75 942 (51.7)
75 - 100 635 (34.8)
100 - 125 4 (0.2)
男性 1114 (61.1)
709 (38.9)
结果
首页 1561 (85.6)
死亡 262 (14.4)

数据集中的特征的临床实验室值。

特性(单位) 中位数(位差一个 的参考价值
丙氨酸转氨酶(U/L) 31.7 (19.2 - -55.7) < 40
谷草转氨酶(U/L) 31.8 (22.2 - -47.3) < 40
异细胞增生系数(%) 13.0 (11.9 - -14.1) 11.5 - -14.5
嗜碱粒细胞(%) 0.3 (0.2 - -0.5) 0 - 1
嗜碱性粒细胞计数(103/µL) 0.02 (0.01 - -0.03) 0 - 0.1
c反应蛋白(mg/L) 52.8 (24.1 - -94.0) < 5
肌酐(mg / dL) 0.8 (0.7 - -1.0) 0.6 - -1.0
肺动脉栓塞(ng / mL) 885年(492 - 1883) < 500
嗜酸性粒细胞(%) 0.8 (0.2 - -1.6) 2 - 7日
嗜酸性粒细胞计数(10)3/µL) 0.05 (0.01 - -0.10) 0.1 - -0.6
葡萄糖(mg / dL) 110年(97 - 132) 70 - 105
血细胞比容(%) 39.5 (36.5 - -42.5)
血红蛋白(g / dL) 13.3 (12.1 - -14.3) 13.5 - -17.5
乳酸脱氢酶(U/L) 507年(402 - 654) 120 - 230
白细胞计数(103/µL) 7.0 (5.5 - -9.2) 4.4 - -11.3
淋巴细胞(%) 18.4 (12.1 - -25.5) 20-48
淋巴细胞计数(103/µL) 1.2 (0.9 - -1.6) 1.2 - -3.4
平均红细胞血红蛋白(pg) 29.7 (28.6 - -30.8) 进一步
平均红细胞血红蛋白浓度(g/dL) 33.5 (32.7 - -34.2) 33-36
平均红细胞体积(fL) 88.4 (85.5 - -91.5) 80 - 95
平均血小板体积(fL) 10.3 (9.7 - -11.0) 7.4 - -10.4
单核细胞(%) 8.1 (6.0 - -10.5) 1 - 11
单核细胞计数(103/µL) 0.6 (0.4 - -0.7) 0.1 - 1
中性粒细胞(%) 71.0 (62.5 - -80.1) 40 - 75
中性粒细胞计数(103/µL) 4.9 (3.6 - -7.1) 1.5 - -7.5
血小板计数(10)3/µL) 250年(195 - 317) 150 - 450
钾(更易/ L 4.3 (4.0 - -4.6) 3.5 - -5.1
红细胞计数(106/µL) 4.5 (4.1 - -4.9) 4.1 - -5.9
钠(更易/ L 138年(136 - 140) 135 - 145
尿素(mg / dL) 38 (29-54) 5-50

一个IQR: Q1-Q3值。

模型的性能

在对XGBoost性能的初步评估中,我们与几个知名的分类器进行了比较。 表3显示了这个比较的结果。XGBoost在3个度量中产生了最好的结果,在F1中产生了第二好的结果。这些结果重申了选择XGBoost作为本研究的预测方法。 图2显示了XGBoost的接收算子特性和精确召回曲线 多媒体附录1显示其他方法的对应值。

bootstrap验证后各方法结果的比较。

方法 AUROC一个,平均值(95% CI) AUPRCb,平均值(95% CI) 准确率,平均值(95% CI) F1c,平均值(95% CI)
决策树 0.89 (0.84 - -0.92) 0.67 (0.58 - -0.74) 0.89 (0.85 - -0.92) 0.60 (0.52 - -0.68)
再邻居 0.87 (0.85 - -0.90) 0.55 (0.46 - -0.64) 0.88 (0.86 - -0.90) 0.41 (0.29 - -0.50)
线性判别分析 0.96 (0.94 - -0.97) 0.85 (0.80 - -0.90) 0.94 (0.92 - -0.95) 0.75 (0.70 - -0.82)
分对数 0.96 (0.94 - -0.98) 0.84 (0.79 - -0.89) 0.94 (0.92 - -0.95) 0.76 (0.70 - -0.82)
多层感知器 0.95 (0.93 - -0.97) 0.79 (0.71 - -0.86) 0.93 (0.91 - -0.94) 0.73 (0.65 - -0.79)
朴素贝叶斯 0.94 (0.91 - -0.96) 0.74 (0.66 - -0.82) 0.91 (0.89 - -0.92) 0.68 (0.62 - -0.76)
随机森林 0.96 (0.95 - -0.98) 0.84 (0.76 - -0.90) 0.93 (0.91 - -0.95) 0.73 (0.67 - -0.79)
支持向量机 0.91 (0.88 - -0.94) 0.62 (0.53 - -0.71) 0.87 (0.85 - -0.88) 0.21 (0.11 - -0.31)
XGBoost 0.97 (0.96 - -0.98) 0.85 (0.79 - -0.91) 0.94 (0.92 - -0.95) 0.76 (0.71 - -0.81)

一个AUROC:接收机工作特性曲线下的面积。

bAUPRC:精密度-召回曲线下面积。

c外国游客1:f值。

自举验证后的XGBoost模型中的接收算子特征曲线(左)和精确召回率曲线(右)。AUROC:接收算子特征曲线下面积,AUPRC:精确召回曲线下面积,XGBoost:极端梯度增强。

为了改进XGBoost的性能,通过使用Python hyperopt库进行更详尽的调优过程来调整最终的模型参数。将迭代次数(max_eval)设置为8000,产生的超参数值如 表4。其余的超参数保持默认值。该模型使用了110棵决策树,最大深度为3。

极值梯度提升模型中调优超参数的最终值。

Hyperparameter 价值
梯度增强树的数量 110
最大树深 3.
儿童所需的最小实例权值总和 5
提高学习率 0.094
训练实例的子样本比率 0.928
列的子样本比 0.474

有了这些超参数值,在300次引导迭代之后,再次使用引导验证来获得性能指标的模型结果。通过这一过程,获得的AUROC值为0.97 (95% CI 0.96- 0.98), AUPRC值为0.86 (95% CI 0.80- 0.91),准确度值为0.94 (95% CI 0.92-0.95), F1值为0.77 (95% CI 0.72- 0.83)。由于在超参数搜索过程中进行了更多的处理(8000 vs 1000次迭代),我们观察到了轻微的改进。此外,使用接收者操作者特征曲线值计算相关的敏感性和特异性值,以确定最大化约登指数的临界值。这些计算得出约登指数的值为0.85 (95% CI 0.80-0.90),敏感性为0.93 (95% CI 0.89-0.98),特异性为0.91 (95% CI 0.86-0.96)。

功能的重要性

在将调优的XGBoost模型应用于整个数据集之后,计算与该模型相关的SHAP值。根据这些SHAP值对模型输出的平均影响,可以确定每个特征的整体性能。 图3显示了16个最重要特征的SHAP总结图。从平均绝对SHAP值来看,乳酸脱氢酶、c反应蛋白、中性粒细胞(%)、尿素和年龄等5个特征对模型输出的平均影响较大。其中,特征的最高值(红色)通常与较高的SHAP值相关联,进而与更大的“死亡”结果可能性相关联。在其他情况下,例如嗜酸性粒细胞(%)和丙氨酸转氨酶,该特征的最低值(蓝色)与“死亡”结果的更高风险相关。

根据16个最重要的特征的平均绝对值绘制了SHAP总结图。蜂群图(左),其中每个点对应一个患者,显示了该特征对该患者的模型预测的影响。右图显示了对模型输出的平均影响。ALT:丙氨酸转氨酶,AST:天冬氨酸转氨酶,CRP: c反应蛋白,LDH:乳酸脱氢酶,MCHC:红细胞血红蛋白平均浓度,Shapley添加剂解释。

使用SHAP值开发的图显示在 多媒体附录1;这些突出了这些特征与死亡风险之间的关系。每个点代表一个病人。此外, 多媒体附录1包含箱形图,描述康复患者和死亡患者之间相同特征的价值分布。

讨论 主要研究结果

COVID-19死亡率与两个事件密切相关。有些患者会出现严重的炎症综合征,导致免疫系统不受控制的激活和促炎细胞因子的大量释放,这导致急性期反应物如c反应蛋白、白细胞介素-6、铁蛋白、细胞破坏标志物如乳酸脱氢酶的增加,以及促炎细胞如中性粒细胞的增加。这种严重的炎症综合征已被描述为大多数SARS-CoV-2感染并发症患者死亡的原因。在这类患者中,乳酸脱氢酶与细胞破坏增加相关,导致淋巴细胞减少、炎症导致肺实质破裂、细胞损伤、细胞重塑和肺纤维化[ 19 20.]。我们的研究数据与这一趋势一致,乳酸脱氢酶、c反应蛋白和中性粒细胞对这些患者的死亡率影响最大。这些患者的另一个重要并发症是急性肾功能衰竭[ 21];我们的数据显示,与肾功能有关的对死亡率影响最大的实验室参数是尿素,它是肾前水平肾功能的标志,表明肾过滤是否有效。当患者脱水或体液流失过多时,尿素水平会升高[ 3.]。

从临床实验室结果来看,建立一个急性期反应物的生化小组,以促进对急性炎症综合征易感患者的识别是至关重要的。在这种情况下,根据获得的数据,我们建议乳酸脱氢酶和c反应蛋白作为最佳候选,至少应该添加白细胞介素-6铁蛋白。

导致这些患者高死亡率的另一个并发症是凝血功能障碍。COVID-19导致全身性高凝状态,产生肺血栓栓塞、缺血性中风和其他疾病,并且明显大量患者出现严重并发症。该并发症可根据2个实验室参数进行评估:d -二聚体和血小板。作为先前形成的凝块的降解产物,该参数的增加将与先前形成的凝块的数量成正比。在凝血过程的第一步,血小板数量的减少表明血栓正在形成。因此,一个危险因素是d -二聚体水平的增加和血小板计数的减少[ 22]。

约30%的COVID-19并发症患者患有高凝功能障碍;因此,重要的是能够预测这些并发症,以便在确定这种血液疾病的患者中尽早建立预防性抗凝治疗。一些研究将COVID-19引起的高凝状态与出现相同并发症且治疗相同的抗磷脂综合征患者的高凝状态进行了比较[ 23]。值得注意的是,我们在本研究中建立的预测模型中建立了凝血参数与死亡率之间的密切关系。

图4显示了最有趣的参数——从临床的角度来看——以及它们与死亡率的关系。这三个图有一个共同的关系;也就是说,从某个值开始,变量值与死亡率的关系曲线显著增加。在这一点上,医疗干预可能会改变患者的临床病程,因为如图所示,这些测试的数值非常高代表较高的死亡风险,而低水平则与更有利的预后相关。

使用SHAP值绘制的图显示了实验室值(包括LDH、CRP和d -二聚体)与死亡风险之间的关系。每个点代表一个病人。这些特征值越高,表明死亡风险越高,而这些特征值越低,预后越好。CRP: c反应蛋白,LDH:乳酸脱氢酶,Shapley添加剂解释。

在大流行开始时,对患者进行分类的主要风险因素之一是年龄;正如预期的那样,老年人的发病率和死亡率普遍较高。在我们的预测模型中,年龄排在第五位,这很重要,但在那些发展为严重炎症综合征的患者中,死亡率仍然更为突出。因此,如果我们将年龄作为一个独立变量与严重炎症的主要生化标志物联系起来,我们就可以根据患者的年龄和临床实验室值( 图5)。另一方面, 图6显示死亡或出院患者不同临床化验值的差异。我们观察到不同的实验室值之间有明显的差异,这取决于每一组。

部分依赖图表示与年龄和其他特征(LDH、CRP和尿素)相关的模型输出。红色区域表示对死亡风险的影响更大。CRP: c反应蛋白,LDH:乳酸脱氢酶。

根据LDH、CRP、尿素和d -二聚体的实验室值,箱形图描述了康复患者和死亡患者之间的值分布。CRP: c反应蛋白,LDH:乳酸脱氢酶。

由于受其他无法量化的变量和环境因素的影响,对COVID-19患者的死亡率制定严格的标准并不容易。这些患者在感染COVID-19之前的合并症在管理这些患者和预测并发症时非常重要[ 24]。患有慢性疾病(如高血压或糖尿病)的患者的并发症数量和死亡率高于没有慢性疾病的患者;然而,根本原因尚不清楚。据推测,这些患者的血管紧张素转换酶2受体的表达水平较高,病毒通过这种受体进入细胞进行复制;这样的病人是更严重的疾病的候选者。此外,Fang等[ 25报道称,编码这种受体的基因的多态性增加了疾病的严重程度。

Carrasco-Sánchez等[ 26]收集了西班牙大约20 000名患者的数据,并报告说,在那些到达急诊科并在住院期间发现高血糖水平的患者中,只要他们不是处于危急状态,死亡率是可以预测的。因此,血糖是患者死亡率最重要的预测指标之一,这与我们的假设是一致的。因此,在患者住院前和住院期间控制血糖对提高其生存率至关重要。

限制

在临床上,本研究存在一系列局限性。首先,这项研究有一个小的患者队列;先前的类似研究包括了一个明显更大的患者队列[ 21 26]。其次,我们没有记录这些患者的合并症;因此,我们无法评估它们与其他变量的关系以及它们预测患者死亡率的潜力。最后,进行一系列实验室测试非常重要,这有助于用更多参数(如白细胞介素-6和铁蛋白)评估炎症综合征。

结论

本研究旨在建立一种预测COVID-19患者死亡率的模型,该模型可以高度准确地根据实验室值评估死亡率。机器学习技术的使用,在本例中是XGBoost预测方法,在几个性能指标上产生了出色的结果。对结果模型的分析使我们能够识别出一组具有显著高预测潜力的特征,这对于改善护理决策和提高患者存活率非常有用。

补充数据。

缩写 AUPRC

精密度-召回曲线下面积

AUROC

接收操作员特性曲线下的面积

世鹏科技电子

沙普利加法解释

XGBoost

极端梯度增强

没有宣布。

Mahase E 尽管病死率较低,但冠状病毒covid-19造成的死亡人数超过了SARS和MERS的总和 BMJ 2020 02 18 368 m641 10.1136 / bmj.m641 32071063 兰尼 毫升 Griffeth V 杰哈 正义与发展党 严重供应短缺——Covid-19大流行期间对呼吸机和个人防护设备的需求 [英]医学 2020 04 30. 382 18 出价 10.1056 / NEJMp2006141 32212516 l H Goncalves J Y Y 太阳 C X l X Y H 程ydF4y2Ba Y T F Y 年代 唐ydF4y2Ba X N B C Y 一个 Mombaerts l 京ydF4y2Ba J Z 年代 H Y COVID-19患者可解释的死亡率预测模型 纳特马赫英特尔 2020 05 14 2 5 283 288 10.1038 / s42256 - 020 - 0180 - 7 施瓦布 P 杜蒙特舒特等人 一个 迪茨 B 鲍尔 年代 COVID-19临床预测模型:系统研究 J Med Internet Res 2020 10 06 22 10 e21439 10.2196/21439 32976111 v22i10e21439 PMC7541040 Barda N Riesel D Akriv 一个 莱维 J 芬克尔 U 尤纳 G Greenfeld D Sheiba 年代 海默 J Bachmat E Rothblum GN 沙利特 U Netzer D Balicer R 达冈 N 在没有个人数据的情况下,开发COVID-19死亡风险预测模型 Nat Commun 2020 09 07 11 1 4439 10.1038 / s41467 - 020 - 18297 - 9 32895375 10.1038 / s41467 - 020 - 18297 - 9 PMC7477233 弗里德曼 JH 随机梯度增强 计算数据统计 2002 2 38 4 367 378 10.1016 / s0167 - 9473 (01) 00065 - 2 程ydF4y2Ba T Guestrin CE XGBoost:一个可扩展的树提升系统 第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集 2016 08 第22届ACM SIGKDD知识发现与数据挖掘国际会议 2016年8月 旧金山,加州 纽约,纽约 计算机协会 785 794 10.1145/2939672.2939785 l X 程ydF4y2Ba 一个 京ydF4y2Ba X H 基于XGBoost模型的2型糖尿病风险预测及效果评价 医疗保健(巴塞尔) 2020 07 31 8 3. 247 10.3390 / healthcare8030247 32751894 healthcare8030247 PMC7551910 W Y Y X X 年代 年代 基于医学数据的高血压预后机器学习预测方法 诊断(巴塞尔) 2019 11 07 9 4 178 10.3390 / diagnostics9040178 31703364 diagnostics9040178 PMC6963807 X 程ydF4y2Ba X H J F 程ydF4y2Ba Y F 年代 H l P Y H Y H H 利用机器学习早期准确预测甲氨蝶呤治疗青少年特发性关节炎的临床反应 前药物杂志 2019 10 1155 10.3389 / fphar.2019.01155 31649533 PMC6791251 C C 锡箔 Y C Y 基于电子健康记录的社区获得性急性肾损伤住院风险预测的机器学习模型:开发和验证研究 J Med Internet Res 2020 08 04 22 8 e16903 10.2196/16903 32749223 v22i8e16903 PMC7435690 Doshi-Velez F B 迈向可解释机器学习的严谨科学 出来了。 预印本于2017年2月28日在线发布。 Lundberg 年代 G 程ydF4y2Ba H DeGrave 一个 Prutkin JM 奈尔 B 卡茨 R Himmelfarb J 邦萨尔 N 如果 从局部解释到全球理解与树木可解释的人工智能 纳特马赫英特尔 2020 01 2 1 56 67 10.1038 / s42256 - 019 - 0138 - 9 32607472 PMC7326367 库恩 HW 塔克 亚历山大-伍尔兹 对博弈论的贡献(AM-28),第二卷 1953 普林斯顿,纽约 普林斯顿大学出版社 Lundberg 年代 G 年代 树集成的一致个性化特征归属 出来了。 预印本发布于2018年2月12日 Pedregosa F Varoquaux G Gramfort 一个 米歇尔 V 蒂里翁 B Grisel O 他们批判 Prettenhofer P 维斯 R Dubourg V Vanderplas J 斯帕索斯 一个 Cournapeau D 布鲁赫 Perrot Duchesnay 爱德华。 Scikit-learn: Python中的机器学习 J Mach Learn Res 2011 12 2825 2830 Bergstra J yamin D 考克斯 D 建立模型搜索的科学:视觉架构的数百维超参数优化 第30届国际机器学习会议论文集-第28卷 2013 第30届国际机器学习国际会议 2013年6月16日至21日 亚特兰大,乔治亚州 i - 115 i - 123 Arlot 年代 Celisse 一个 模型选择交叉验证程序的调查 集权Surv 2010 1 1 4 40 79 10.1214 / 09-ss054 Drent Cobben N 亨德森 R 伍特斯 E 范Dieijen-Visser 乳酸脱氢酶及其同工酶作为肺损伤或炎症指标的有效性 Eur呼吸器 1996 08 9 8 1736 1742 10.1183 / 09031936.96.09081736 8866602 亨利 BM de Oliveira 肉类 Benoit 年代 Plebani 里皮 G 与2019冠状病毒病(COVID-19)重症和死亡率相关的血液学、生化和免疫生物标志物异常:一项荟萃分析 临床化学实验室医学 2020 06 25 58 7 1021 1028 10.1515 / cclm - 2020 - 0369 32286245 / j / cclm.ahead-of-print / cclm - 2020 - 0369 / cclm - 2020 - 0369. - xml Vaid 一个 Somani 年代 Russak AJ De Freitas JK 乔杜里 FF 帕兰杰佩 约翰逊 千瓦 SJ Miotto R 里希特 F 年代 贝克曼 ND 奈克 N 克钦独立军 一个 Timsina P 拉拉 一个 帕兰杰佩 E Danieletto 辛格 迈耶 D O ' reilly PF Huckins l Kovatch P 芬克尔斯坦 J 弗里曼 RM Argulian E Kasarskis 一个 B Aberg 晶澳 Bagiella E 霍洛维茨 CR 墨菲 B 是个好 EJ 斯凯特 EE JH Cordon-Cardo C 柱身 V 恰尼 DS 帝国 戴斯。莱纳姆: 借钱 EP 莱文 Narula J 只是 交流 恰尼 亚历山大-伍尔兹 GN Glicksberg 废话 机器学习预测纽约市COVID-19患者队列中的死亡率和关键事件:模型开发和验证 J Med Internet Res 2020 11 06 22 11 e24018 10.2196/24018 33027032 v22i11e24018 PMC7652593 Klok F Kruip 范德密尔 N Arbous Gommers D 康德 K Kaptein F 范Paassen J “斯太尔 豪氏威马 Endeman H COVID-19重症监护室患者血栓性并发症的发生率 Thromb Res 2020 07 191 145 147 10.1016 / j.thromres.2020.04.013 32291094 s0049 - 3848 (20) 30120 - 1 PMC7146714 Y 年代 P W W 程ydF4y2Ba H X H H C J 太阳 X R W D J 程ydF4y2Ba Y D J X X Z J B Y P X Y W T F Y Y 年代 Covid-19患者凝血功能障碍和抗磷脂抗体 [英]医学 2020 04 23 382 17 e38 10.1056 / NEJMc2007575 32268022 PMC7161262 N E 月亮 JS Y 莎莉 冠状病毒病急性高血糖危象19例报告 糖尿病 2020 04 44 2 349 353 10.4093 / dmj.2020.0091 32347027 44.349 PMC7188962 l Karakiulakis G 罗斯 高血压和糖尿病患者感染COVID-19的风险增加吗? 柳叶刀呼吸医学 2020 04 8 4 e21 10.1016 / s2213 - 2600 (20) 30116 - 8 32171062 s2213 - 2600 (20) 30116 - 8 PMC7118626 Carrasco-Sanchez FJ Lopez-Carmona 医学博士 Martinez-Marcos FJ Perez-Belmonte LM Hidalgo-Jimenez 一个 Buonaiuto V 苏亚雷斯费尔南德斯 C Freire卡斯特罗 SJ Luordo D Pesqueira Fontan 他基 JC Magallanes Gamboa de la Peña Fernández 一个 托雷斯佩纳 JD 费尔南德斯苍井空 J Napal Lecumberri JJ Amoros马丁内斯 F Guisado Espartero Jorge开膛手 C 戈麦斯门德斯 R 韦森特洛佩兹 N 罗马伯纳尔 B Rojano Rivero 毫克 拉莫斯林康 JM 戈麦斯Huelgas R SEMI-COVID-19网络 入院时高血糖可作为COVID-19住院患者死亡率的预测因子,无论糖尿病状况如何:来自西班牙SEMI-COVID-19登记处的数据 地中海安 2021 12 53 1 103 116 10.1080 / 07853890.2020.1836566 33063540 PMC7651248
Baidu
map