这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
COVID-19大流行可能是现代最大的健康灾难。西班牙的医疗保健系统在短时间内暴露于无法控制的患者数量,导致系统崩溃。由于无法立即诊断,而且COVID-19没有有效的治疗方法,因此必须开发其他工具来识别有严重疾病并发症风险的患者,从而优化医疗保健方面的物质和人力资源。目前还没有工具可以确定哪些患者的预后比其他患者差。
本研究旨在处理COVID-19患者的电子健康记录样本,以开发机器学习模型,从临床实验室参数中预测感染的严重程度和死亡率。早期患者分类可以帮助优化物质和人力资源,对模型最重要特征的分析可以提供对疾病更详细的了解。
在与其他几种已知方法进行比较的基础上进行初步性能评估后,选择极值梯度增强算法作为本研究的预测方法。此外,使用Shapley加性解释来分析所得模型特征的重要性。
经数据预处理后,共筛选出1823例新冠肺炎确诊患者和32个预测特征。在自举验证中,极端梯度增强分类器的接收算子特征曲线下面积为0.97 (95% CI 0.96-0.98),精密度-召回率曲线下面积为0.86 (95% CI 0.80-0.91),准确度为0.94 (95% CI 0.92-0.95), f分数为0.77 (95% CI 0.72-0.83),灵敏度为0.93 (95% CI 0.89-0.98),特异性为0.91 (95% CI 0.86-0.96)。模型预测的4个最相关的特征是乳酸脱氢酶活性、c反应蛋白水平、中性粒细胞计数和尿素水平。
我们的预测模型在区分COVID-19死亡患者方面取得了很好的结果,主要是根据实验室参数值。对结果模型的分析确定了一组对预测影响最大的特征,从而将它们与较高的死亡风险联系起来。
2019冠状病毒病大流行是现代最严重的健康灾难之一。这并非卫生领域独有的问题,因为这一危机的深远经济和社会后果仍然无法量化[
由于缺乏对这种病毒的了解,世界卫生组织与美国疾病控制和预防中心共同确定了高风险患者的概况;这些因素包括年龄超过65岁、住在养老院、至少有以下一种健康问题:慢性肺病、严重心脏病、肥胖、糖尿病、肾衰竭、肝病或免疫功能低下。其结果是,无论是在治疗方面,还是在疾病的诊断和预后标准方面,对这一流行病的反应都极不平衡[
COVID-19病例在短时间内呈指数级增长,缺乏对病毒的经验和知识,以及卫生资源和卫生保健人员的不足(其中许多人被感染)导致医院饱和,特别是重症监护病房,每天接收的患者数量非常多,其中许多人需要长期住院。在第一波大流行之后,卫生保健系统面临的压力促使人们寻找不同的资源,以帮助了解和准确预测每位患者在与病毒相互作用时的反应。能够使我们对高危患者进行分类的工具的可用性至关重要,因为微生物诊断速度很慢,聚合酶链反应检测需要4个多小时,急诊医生通常在收集样本后长达24小时才能收到结果。此外,治疗是基于生命支持,并不总是有效的,并可能导致大量的不良事件;此外,药物供应有时是有限的。开发工具,使我们能够对有并发症风险的患者进行分类,例如那些具有血栓形成前状态的患者,或血液样本中炎症参数数量增加的患者,将有助于缓解卫生系统的饱和,优化资源,并节省解决临床并发症的时间。
因此,我们开发了一个模型,根据患者住院期间获得的实验室参数预测死亡风险[
本研究基于从西班牙一家私人医院集团(HM医院)获得的匿名临床数据,其中心主要位于马德里和加利西亚自治区以及巴塞罗那。该小组将其数据提供给科学界用于研究目的。利用这些电子病例记录,我们访问了2020年3月至6月期间入院的疑似COVID-19患者的数据。从提供的所有数据表中,我们选择了以下数据表:(1)包含住院和患者具体数据的主表(2547条记录)和(2)包含住院期间每位患者和急诊科患者要求的各种检查结果的实验室数据表(584,136条记录)。
在表中,有一个“结果”特征,有5个可能的值:“死亡”、“回家”、“转到医院”、“转到社会卫生中心”和“自愿出院”。这个结果特征是本研究中开发的预测模型的目的。
在开发模型之前,作为任何机器学习过程的前一步,对这2个表中的信息进行如下预处理:
只选择“结局”特征为“回家”或“死亡”的确诊患者。
根据患者ID合并两表数据。由于患者可以为每个实验室参数提供可变数量的测量,因此计算平均值并将其分配给每个参数。
由于大量的缺失值,我们决定过滤记录和特征,以便处理没有缺失值的数据。一些机器学习算法可以通过直接使用缺失值的数据来发挥作用,也可以使用imputation方法。在本研究中,为了统一和简单起见,采用以下步骤:首先,剔除所有记录中缺失值大于10%的特征;此后,只选择那些在所有剩余特征中具有价值的记录。
“性别”和“结果”等特征被正确地编码为二进制值。没有其他预处理,如归一化或标量化应用于数据。
已经开发了一系列用于获得预测模型的机器学习方法,例如基于逻辑回归,线性判别分析,基于实例的学习,人工神经网络,决策树和集成学习的机器学习方法。本研究采用梯度增强方法建立预测模型。
梯度增强是一种机器学习技术,用于解决回归和分类问题,并通过弱预测模型(通常是决策树)的集合产生预测模型。与其他增强方法一样,它通过合并弱预测模型来逐步构建模型,但它优化了任意可微损失函数。最后,通过汇总构成模型的所有单个决策树的预测来获得新情况的预测。通过组合多棵树,实现了预测特征之间的非线性和相互作用[
极限梯度增强(XGBoost)是一种相对较新的梯度增强实现,在许多分类任务中取得了优异的效果。它是一个开源软件库,提供了一个设计为高效和灵活的梯度增强框架[
用机器学习技术进行研究的一个基本特征是结果的可解释性。在医学中,这一特征对于医疗保健专业人员根据机器学习算法获得的结果得出结论和做出决策至关重要。Doshi-Velez和Kim [
最近,Shapley加性解释(SHAP)框架被应用于解释派生的机器学习模型[
为了获得死亡率预测模型(“结局”特征),使用先前描述的数据训练梯度增强模型。输入特征为“年龄”、“性别”和根据上述数据预处理得到的每个实验室值(平均值)。为此,XGBoost模型是使用Python的现有实现开发的。
为了初步评估XGBoost算法与文献中其他模型的性能,我们与机器学习中的8种代表性分类器进行了比较:决策树、k近邻、线性判别分析、逻辑回归、多层感知器、高斯朴素贝叶斯、随机森林和支持向量机。为此,Python Scikit-learn库中的相应实现[
对于每个分类器,通过在迭代调优过程后选择最佳值来调整最相关的模型参数(超参数),并保留其余的默认值。使用hyperopt(一个用于分布式超参数优化的Python库)识别超参数值[
一旦分析了结果,在使用XGBoost获得的大多数指标中都确认了合适的行为。为了进一步提高其性能,使用更详尽的调优过程调整最终模型参数。在XGBoost中可用的各种参数中,选择被认为更相关的参数进行调优。这6个选定的参数影响梯度增强树的数量及其结构(n_estimators、max_depth和min_child_weight),以及学习过程(learning_rate、subsample和colsample_bytree)。
在这个参数调优阶段之后,通过bootstrapping对最终模型进行评估。性能指标如下:AUROC、AUPRC、准确性、F1、约登指数、敏感性和特异性。最后,利用SHAP (
获取模型参数、验证和特征重要性的过程。AUC:曲线下面积,SHAP:沙普利加法解释。
在最初的数据预处理阶段之后,将2个表中的数据组合在一起,产生了一个由1823条记录和33个特征组成的数据集。所有数据均对应于确诊为COVID-19的患者。
“年龄”、“性别”和“结果”特征的患病率。
功能 | 患者,n (%) | ||
|
|
||
|
0-25 | 7 (0.4) | |
|
25 - 50 | 235 (12.9) | |
|
50 - 75 | 942 (51.7) | |
|
75 - 100 | 635 (34.8) | |
|
100 - 125 | 4 (0.2) | |
|
|
||
|
男性 | 1114 (61.1) | |
|
女 | 709 (38.9) | |
|
|
||
|
首页 | 1561 (85.6) | |
|
死亡 | 262 (14.4) |
数据集中的特征的临床实验室值。
特性(单位) | 中位数(位差一个) | 的参考价值 |
丙氨酸转氨酶(U/L) | 31.7 (19.2 - -55.7) | < 40 |
谷草转氨酶(U/L) | 31.8 (22.2 - -47.3) | < 40 |
异细胞增生系数(%) | 13.0 (11.9 - -14.1) | 11.5 - -14.5 |
嗜碱粒细胞(%) | 0.3 (0.2 - -0.5) | 0 - 1 |
嗜碱性粒细胞计数(103/µL) | 0.02 (0.01 - -0.03) | 0 - 0.1 |
c反应蛋白(mg/L) | 52.8 (24.1 - -94.0) | < 5 |
肌酐(mg / dL) | 0.8 (0.7 - -1.0) | 0.6 - -1.0 |
肺动脉栓塞(ng / mL) | 885年(492 - 1883) | < 500 |
嗜酸性粒细胞(%) | 0.8 (0.2 - -1.6) | 2 - 7日 |
嗜酸性粒细胞计数(10)3/µL) | 0.05 (0.01 - -0.10) | 0.1 - -0.6 |
葡萄糖(mg / dL) | 110年(97 - 132) | 70 - 105 |
血细胞比容(%) | 39.5 (36.5 - -42.5) | 盂 |
血红蛋白(g / dL) | 13.3 (12.1 - -14.3) | 13.5 - -17.5 |
乳酸脱氢酶(U/L) | 507年(402 - 654) | 120 - 230 |
白细胞计数(103/µL) | 7.0 (5.5 - -9.2) | 4.4 - -11.3 |
淋巴细胞(%) | 18.4 (12.1 - -25.5) | 20-48 |
淋巴细胞计数(103/µL) | 1.2 (0.9 - -1.6) | 1.2 - -3.4 |
平均红细胞血红蛋白(pg) | 29.7 (28.6 - -30.8) | 进一步 |
平均红细胞血红蛋白浓度(g/dL) | 33.5 (32.7 - -34.2) | 33-36 |
平均红细胞体积(fL) | 88.4 (85.5 - -91.5) | 80 - 95 |
平均血小板体积(fL) | 10.3 (9.7 - -11.0) | 7.4 - -10.4 |
单核细胞(%) | 8.1 (6.0 - -10.5) | 1 - 11 |
单核细胞计数(103/µL) | 0.6 (0.4 - -0.7) | 0.1 - 1 |
中性粒细胞(%) | 71.0 (62.5 - -80.1) | 40 - 75 |
中性粒细胞计数(103/µL) | 4.9 (3.6 - -7.1) | 1.5 - -7.5 |
血小板计数(10)3/µL) | 250年(195 - 317) | 150 - 450 |
钾(更易/ L |
4.3 (4.0 - -4.6) | 3.5 - -5.1 |
红细胞计数(106/µL) | 4.5 (4.1 - -4.9) | 4.1 - -5.9 |
钠(更易/ L |
138年(136 - 140) | 135 - 145 |
尿素(mg / dL) | 38 (29-54) | 5-50 |
一个IQR: Q1-Q3值。
在对XGBoost性能的初步评估中,我们与几个知名的分类器进行了比较。
bootstrap验证后各方法结果的比较。
方法 | AUROC一个,平均值(95% CI) | AUPRCb,平均值(95% CI) | 准确率,平均值(95% CI) | F1c,平均值(95% CI) |
决策树 | 0.89 (0.84 - -0.92) | 0.67 (0.58 - -0.74) | 0.89 (0.85 - -0.92) | 0.60 (0.52 - -0.68) |
再邻居 | 0.87 (0.85 - -0.90) | 0.55 (0.46 - -0.64) | 0.88 (0.86 - -0.90) | 0.41 (0.29 - -0.50) |
线性判别分析 | 0.96 (0.94 - -0.97) | 0.85 (0.80 - -0.90) | 0.94 (0.92 - -0.95) | 0.75 (0.70 - -0.82) |
分对数 | 0.96 (0.94 - -0.98) | 0.84 (0.79 - -0.89) | 0.94 (0.92 - -0.95) | 0.76 (0.70 - -0.82) |
多层感知器 | 0.95 (0.93 - -0.97) | 0.79 (0.71 - -0.86) | 0.93 (0.91 - -0.94) | 0.73 (0.65 - -0.79) |
朴素贝叶斯 | 0.94 (0.91 - -0.96) | 0.74 (0.66 - -0.82) | 0.91 (0.89 - -0.92) | 0.68 (0.62 - -0.76) |
随机森林 | 0.96 (0.95 - -0.98) | 0.84 (0.76 - -0.90) | 0.93 (0.91 - -0.95) | 0.73 (0.67 - -0.79) |
支持向量机 | 0.91 (0.88 - -0.94) | 0.62 (0.53 - -0.71) | 0.87 (0.85 - -0.88) | 0.21 (0.11 - -0.31) |
XGBoost | 0.97 (0.96 - -0.98) | 0.85 (0.79 - -0.91) | 0.94 (0.92 - -0.95) | 0.76 (0.71 - -0.81) |
一个AUROC:接收机工作特性曲线下的面积。
bAUPRC:精密度-召回曲线下面积。
c外国游客1:f值。
自举验证后的XGBoost模型中的接收算子特征曲线(左)和精确召回率曲线(右)。AUROC:接收算子特征曲线下面积,AUPRC:精确召回曲线下面积,XGBoost:极端梯度增强。
为了改进XGBoost的性能,通过使用Python hyperopt库进行更详尽的调优过程来调整最终的模型参数。将迭代次数(max_eval)设置为8000,产生的超参数值如
极值梯度提升模型中调优超参数的最终值。
Hyperparameter | 价值 |
梯度增强树的数量 | 110 |
最大树深 | 3. |
儿童所需的最小实例权值总和 | 5 |
提高学习率 | 0.094 |
训练实例的子样本比率 | 0.928 |
列的子样本比 | 0.474 |
有了这些超参数值,在300次引导迭代之后,再次使用引导验证来获得性能指标的模型结果。通过这一过程,获得的AUROC值为0.97 (95% CI 0.96- 0.98), AUPRC值为0.86 (95% CI 0.80- 0.91),准确度值为0.94 (95% CI 0.92-0.95), F1值为0.77 (95% CI 0.72- 0.83)。由于在超参数搜索过程中进行了更多的处理(8000 vs 1000次迭代),我们观察到了轻微的改进。此外,使用接收者操作者特征曲线值计算相关的敏感性和特异性值,以确定最大化约登指数的临界值。这些计算得出约登指数的值为0.85 (95% CI 0.80-0.90),敏感性为0.93 (95% CI 0.89-0.98),特异性为0.91 (95% CI 0.86-0.96)。
在将调优的XGBoost模型应用于整个数据集之后,计算与该模型相关的SHAP值。根据这些SHAP值对模型输出的平均影响,可以确定每个特征的整体性能。
根据16个最重要的特征的平均绝对值绘制了SHAP总结图。蜂群图(左),其中每个点对应一个患者,显示了该特征对该患者的模型预测的影响。右图显示了对模型输出的平均影响。ALT:丙氨酸转氨酶,AST:天冬氨酸转氨酶,CRP: c反应蛋白,LDH:乳酸脱氢酶,MCHC:红细胞血红蛋白平均浓度,Shapley添加剂解释。
使用SHAP值开发的图显示在
COVID-19死亡率与两个事件密切相关。有些患者会出现严重的炎症综合征,导致免疫系统不受控制的激活和促炎细胞因子的大量释放,这导致急性期反应物如c反应蛋白、白细胞介素-6、铁蛋白、细胞破坏标志物如乳酸脱氢酶的增加,以及促炎细胞如中性粒细胞的增加。这种严重的炎症综合征已被描述为大多数SARS-CoV-2感染并发症患者死亡的原因。在这类患者中,乳酸脱氢酶与细胞破坏增加相关,导致淋巴细胞减少、炎症导致肺实质破裂、细胞损伤、细胞重塑和肺纤维化[
从临床实验室结果来看,建立一个急性期反应物的生化小组,以促进对急性炎症综合征易感患者的识别是至关重要的。在这种情况下,根据获得的数据,我们建议乳酸脱氢酶和c反应蛋白作为最佳候选,至少应该添加白细胞介素-6铁蛋白。
导致这些患者高死亡率的另一个并发症是凝血功能障碍。COVID-19导致全身性高凝状态,产生肺血栓栓塞、缺血性中风和其他疾病,并且明显大量患者出现严重并发症。该并发症可根据2个实验室参数进行评估:d -二聚体和血小板。作为先前形成的凝块的降解产物,该参数的增加将与先前形成的凝块的数量成正比。在凝血过程的第一步,血小板数量的减少表明血栓正在形成。因此,一个危险因素是d -二聚体水平的增加和血小板计数的减少[
约30%的COVID-19并发症患者患有高凝功能障碍;因此,重要的是能够预测这些并发症,以便在确定这种血液疾病的患者中尽早建立预防性抗凝治疗。一些研究将COVID-19引起的高凝状态与出现相同并发症且治疗相同的抗磷脂综合征患者的高凝状态进行了比较[
使用SHAP值绘制的图显示了实验室值(包括LDH、CRP和d -二聚体)与死亡风险之间的关系。每个点代表一个病人。这些特征值越高,表明死亡风险越高,而这些特征值越低,预后越好。CRP: c反应蛋白,LDH:乳酸脱氢酶,Shapley添加剂解释。
在大流行开始时,对患者进行分类的主要风险因素之一是年龄;正如预期的那样,老年人的发病率和死亡率普遍较高。在我们的预测模型中,年龄排在第五位,这很重要,但在那些发展为严重炎症综合征的患者中,死亡率仍然更为突出。因此,如果我们将年龄作为一个独立变量与严重炎症的主要生化标志物联系起来,我们就可以根据患者的年龄和临床实验室值(
部分依赖图表示与年龄和其他特征(LDH、CRP和尿素)相关的模型输出。红色区域表示对死亡风险的影响更大。CRP: c反应蛋白,LDH:乳酸脱氢酶。
根据LDH、CRP、尿素和d -二聚体的实验室值,箱形图描述了康复患者和死亡患者之间的值分布。CRP: c反应蛋白,LDH:乳酸脱氢酶。
由于受其他无法量化的变量和环境因素的影响,对COVID-19患者的死亡率制定严格的标准并不容易。这些患者在感染COVID-19之前的合并症在管理这些患者和预测并发症时非常重要[
Carrasco-Sánchez等[
在临床上,本研究存在一系列局限性。首先,这项研究有一个小的患者队列;先前的类似研究包括了一个明显更大的患者队列[
本研究旨在建立一种预测COVID-19患者死亡率的模型,该模型可以高度准确地根据实验室值评估死亡率。机器学习技术的使用,在本例中是XGBoost预测方法,在几个性能指标上产生了出色的结果。对结果模型的分析使我们能够识别出一组具有显著高预测潜力的特征,这对于改善护理决策和提高患者存活率非常有用。
补充数据。
精密度-召回曲线下面积
接收操作员特性曲线下的面积
沙普利加法解释
极端梯度增强
没有宣布。