卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J Med Internet Res

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v23i4e26211

33793407

10.2196/26211

原始论文

机器学习应用于西班牙临床实验室数据用于COVID-19结局预测:模型开发和验证

Basch

科里

Rivas桑托斯

维克多

吴

魏

Dominguez-Olmedo

胡安L

博士学位 1

高等技术工程学院韦尔瓦大学

舰队大道

到时,21007

西班牙 34 959217371 juan.dominguez@dti.uhu.es

https://orcid.org/0000-0001-5083-2313

Gragera-Martinez

Alvaro

硕士，MBA，药学博士 2

https://orcid.org/0000-0002-1705-422X

马塔

哈辛托

博士学位 1

https://orcid.org/0000-0001-5329-9622

Pachon阿尔瓦雷斯

维多利亚

博士学位 1

https://orcid.org/0000-0003-0697-4044

1 高等技术工程学院韦尔瓦大学

马德里竞技

西班牙 2 胡安Ramón吉米内斯大学医院

马德里竞技

西班牙

通讯作者:Juan L Domínguez-Olmedo juan.dominguez@dti.uhu.es

4 2021

14 4 2021

23 4

e26211

7 12 2020 23 12 2020 29 12 2020 8 3. 2021

©Juan L Domínguez-Olmedo， Álvaro Gragera-Martínez, Jacinto Mata, Victoria Pachón Álvarez。原载于医学互联网研究杂志(//www.mybigtv.com)， 2021年4月14日。

2021

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

背景

COVID-19大流行可能是现代最大的健康灾难。西班牙的医疗保健系统在短时间内暴露于无法控制的患者数量，导致系统崩溃。由于无法立即诊断，而且COVID-19没有有效的治疗方法，因此必须开发其他工具来识别有严重疾病并发症风险的患者，从而优化医疗保健方面的物质和人力资源。目前还没有工具可以确定哪些患者的预后比其他患者差。

客观的

本研究旨在处理COVID-19患者的电子健康记录样本，以开发机器学习模型，从临床实验室参数中预测感染的严重程度和死亡率。早期患者分类可以帮助优化物质和人力资源，对模型最重要特征的分析可以提供对疾病更详细的了解。

方法

在与其他几种已知方法进行比较的基础上进行初步性能评估后，选择极值梯度增强算法作为本研究的预测方法。此外，使用Shapley加性解释来分析所得模型特征的重要性。

结果

经数据预处理后，共筛选出1823例新冠肺炎确诊患者和32个预测特征。在自举验证中，极端梯度增强分类器的接收算子特征曲线下面积为0.97 (95% CI 0.96-0.98)，精密度-召回率曲线下面积为0.86 (95% CI 0.80-0.91)，准确度为0.94 (95% CI 0.92-0.95)， f分数为0.77 (95% CI 0.72-0.83)，灵敏度为0.93 (95% CI 0.89-0.98)，特异性为0.91 (95% CI 0.86-0.96)。模型预测的4个最相关的特征是乳酸脱氢酶活性、c反应蛋白水平、中性粒细胞计数和尿素水平。

结论

我们的预测模型在区分COVID-19死亡患者方面取得了很好的结果，主要是根据实验室参数值。对结果模型的分析确定了一组对预测影响最大的特征，从而将它们与较高的死亡风险联系起来。

新型冠状病毒肺炎电子健康记录机器学习死亡率预测

介绍

2019冠状病毒病大流行是现代最严重的健康灾难之一。这并非卫生领域独有的问题，因为这一危机的深远经济和社会后果仍然无法量化[ 1]。该病主要影响呼吸系统，引起呼吸衰竭，某些患者可导致严重的炎症综合征。这是由促炎细胞因子介导的，可导致明显的全身并发症，在许多情况下可能是致命的[ 2]。

由于缺乏对这种病毒的了解，世界卫生组织与美国疾病控制和预防中心共同确定了高风险患者的概况;这些因素包括年龄超过65岁、住在养老院、至少有以下一种健康问题:慢性肺病、严重心脏病、肥胖、糖尿病、肾衰竭、肝病或免疫功能低下。其结果是，无论是在治疗方面，还是在疾病的诊断和预后标准方面，对这一流行病的反应都极不平衡[ 3.]。

COVID-19病例在短时间内呈指数级增长，缺乏对病毒的经验和知识，以及卫生资源和卫生保健人员的不足(其中许多人被感染)导致医院饱和，特别是重症监护病房，每天接收的患者数量非常多，其中许多人需要长期住院。在第一波大流行之后，卫生保健系统面临的压力促使人们寻找不同的资源，以帮助了解和准确预测每位患者在与病毒相互作用时的反应。能够使我们对高危患者进行分类的工具的可用性至关重要，因为微生物诊断速度很慢，聚合酶链反应检测需要4个多小时，急诊医生通常在收集样本后长达24小时才能收到结果。此外，治疗是基于生命支持，并不总是有效的，并可能导致大量的不良事件;此外，药物供应有时是有限的。开发工具，使我们能够对有并发症风险的患者进行分类，例如那些具有血栓形成前状态的患者，或血液样本中炎症参数数量增加的患者，将有助于缓解卫生系统的饱和，优化资源，并节省解决临床并发症的时间。 4]。

因此，我们开发了一个模型，根据患者住院期间获得的实验室参数预测死亡风险[ 5]。利用该模型，我们旨在评估实验室参数如何与更严重(或更轻微)疾病的风险相关，以便当患者出现在医院急诊科时，可以根据血液参数预测死亡风险。

方法数据描述

本研究基于从西班牙一家私人医院集团(HM医院)获得的匿名临床数据，其中心主要位于马德里和加利西亚自治区以及巴塞罗那。该小组将其数据提供给科学界用于研究目的。利用这些电子病例记录，我们访问了2020年3月至6月期间入院的疑似COVID-19患者的数据。从提供的所有数据表中，我们选择了以下数据表:(1)包含住院和患者具体数据的主表(2547条记录)和(2)包含住院期间每位患者和急诊科患者要求的各种检查结果的实验室数据表(584,136条记录)。

在表中，有一个“结果”特征，有5个可能的值:“死亡”、“回家”、“转到医院”、“转到社会卫生中心”和“自愿出院”。这个结果特征是本研究中开发的预测模型的目的。

数据预处理

在开发模型之前，作为任何机器学习过程的前一步，对这2个表中的信息进行如下预处理:

只选择“结局”特征为“回家”或“死亡”的确诊患者。

根据患者ID合并两表数据。由于患者可以为每个实验室参数提供可变数量的测量，因此计算平均值并将其分配给每个参数。

由于大量的缺失值，我们决定过滤记录和特征，以便处理没有缺失值的数据。一些机器学习算法可以通过直接使用缺失值的数据来发挥作用，也可以使用imputation方法。在本研究中，为了统一和简单起见，采用以下步骤:首先，剔除所有记录中缺失值大于10%的特征;此后，只选择那些在所有剩余特征中具有价值的记录。

“性别”和“结果”等特征被正确地编码为二进制值。没有其他预处理，如归一化或标量化应用于数据。

机器学习技术

已经开发了一系列用于获得预测模型的机器学习方法，例如基于逻辑回归，线性判别分析，基于实例的学习，人工神经网络，决策树和集成学习的机器学习方法。本研究采用梯度增强方法建立预测模型。

梯度增加

梯度增强是一种机器学习技术，用于解决回归和分类问题，并通过弱预测模型(通常是决策树)的集合产生预测模型。与其他增强方法一样，它通过合并弱预测模型来逐步构建模型，但它优化了任意可微损失函数。最后，通过汇总构成模型的所有单个决策树的预测来获得新情况的预测。通过组合多棵树，实现了预测特征之间的非线性和相互作用[ 6]。

极限梯度增强(XGBoost)是一种相对较新的梯度增强实现，在许多分类任务中取得了优异的效果。它是一个开源软件库，提供了一个设计为高效和灵活的梯度增强框架[ 7]。它也被成功地应用于医学;例如，对于糖尿病风险的预测[ 8]，高血压[ 9]，药物反应[ 10]，或肾脏损伤[ 11]。

沙普利加法解释

用机器学习技术进行研究的一个基本特征是结果的可解释性。在医学中，这一特征对于医疗保健专业人员根据机器学习算法获得的结果得出结论和做出决策至关重要。Doshi-Velez和Kim [ 12将可解释性定义为“以可理解的方式向人类解释或呈现的能力”。这使得机器学习中的可解释性成为一个有利的模型特征。

最近，Shapley加性解释(SHAP)框架被应用于解释派生的机器学习模型[ 13]。SHAP是基于博弈论[ 14并帮助评估特征对模型预测的贡献，识别最显著影响预测的特征。当聚合到模型中时，SHAP值与每个特征的边际贡献相关联。当使用SHAP时，XGBoost方法还有一个额外的优势，因为基于决策树，我们可以使用TreeSHAP，这是SHAP的快速变体，用于基于树的机器学习[ 15]。

模型培训与评估

为了获得死亡率预测模型(“结局”特征)，使用先前描述的数据训练梯度增强模型。输入特征为“年龄”、“性别”和根据上述数据预处理得到的每个实验室值(平均值)。为此，XGBoost模型是使用Python的现有实现开发的。

为了初步评估XGBoost算法与文献中其他模型的性能，我们与机器学习中的8种代表性分类器进行了比较:决策树、k近邻、线性判别分析、逻辑回归、多层感知器、高斯朴素贝叶斯、随机森林和支持向量机。为此，Python Scikit-learn库中的相应实现[ 16]被使用。分析的指标为受试者操作特征曲线下面积(AUROC)、精密度-召回率曲线下面积(AUPRC)、准确度和f分数(F1)。为了评估这些指标的值，使用了引导验证。

对于每个分类器，通过在迭代调优过程后选择最佳值来调整最相关的模型参数(超参数)，并保留其余的默认值。使用hyperopt(一个用于分布式超参数优化的Python库)识别超参数值[ 17];优化的度量和算法为AUROC和3结构Parzen估计器。为了估计AUROC值，采用k-fold分层交叉验证(k=10)。因此，每个调优周期包括使用不同的非重叠测试数据执行10次训练测试(每次使用总记录的10%)。通过交叉验证，可以减小估计的方差，提高估计的泛化性能[ 18]。

一旦分析了结果，在使用XGBoost获得的大多数指标中都确认了合适的行为。为了进一步提高其性能，使用更详尽的调优过程调整最终模型参数。在XGBoost中可用的各种参数中，选择被认为更相关的参数进行调优。这6个选定的参数影响梯度增强树的数量及其结构(n_estimators、max_depth和min_child_weight)，以及学习过程(learning_rate、subsample和colsample_bytree)。

在这个参数调优阶段之后，通过bootstrapping对最终模型进行评估。性能指标如下:AUROC、AUPRC、准确性、F1、约登指数、敏感性和特异性。最后，利用SHAP ( 图1)。

图1

获取模型参数、验证和特征重要性的过程。AUC:曲线下面积，SHAP:沙普利加法解释。

结果研究人群及特征

在最初的数据预处理阶段之后，将2个表中的数据组合在一起，产生了一个由1823条记录和33个特征组成的数据集。所有数据均对应于确诊为COVID-19的患者。表1和 2分别显示患病率和临床实验室值。所有患者的中位年龄为68岁(IQR 57-79)岁，男性1114例(61.1%)。数据预处理后，“死亡”的发生率约为14%。

表1

“年龄”、“性别”和“结果”特征的患病率。

功能			患者，n (%)
年龄(年)
	0-25		7 (0.4)
	25 - 50		235 (12.9)
	50 - 75		942 (51.7)
	75 - 100		635 (34.8)
	100 - 125		4 (0.2)
性
	男性		1114 (61.1)
	女		709 (38.9)
结果
		首页	1561 (85.6)
		死亡	262 (14.4)

表2

数据集中的特征的临床实验室值。

特性(单位)	中位数(位差^一个）	的参考价值
丙氨酸转氨酶(U/L)	31.7 (19.2 - -55.7)	< 40
谷草转氨酶(U/L)	31.8 (22.2 - -47.3)	< 40
异细胞增生系数(%)	13.0 (11.9 - -14.1)	11.5 - -14.5
嗜碱粒细胞(%)	0.3 (0.2 - -0.5)	0 - 1
嗜碱性粒细胞计数(10³/µL)	0.02 (0.01 - -0.03)	0 - 0.1
c反应蛋白(mg/L)	52.8 (24.1 - -94.0)	< 5
肌酐(mg / dL)	0.8 (0.7 - -1.0)	0.6 - -1.0
肺动脉栓塞(ng / mL)	885年(492 - 1883)	< 500
嗜酸性粒细胞(%)	0.8 (0.2 - -1.6)	2 - 7日
嗜酸性粒细胞计数(10)³/µL)	0.05 (0.01 - -0.10)	0.1 - -0.6
葡萄糖(mg / dL)	110年(97 - 132)	70 - 105
血细胞比容(%)	39.5 (36.5 - -42.5)	盂
血红蛋白(g / dL)	13.3 (12.1 - -14.3)	13.5 - -17.5
乳酸脱氢酶(U/L)	507年(402 - 654)	120 - 230
白细胞计数(10³/µL)	7.0 (5.5 - -9.2)	4.4 - -11.3
淋巴细胞(%)	18.4 (12.1 - -25.5)	20-48
淋巴细胞计数(10³/µL)	1.2 (0.9 - -1.6)	1.2 - -3.4
平均红细胞血红蛋白(pg)	29.7 (28.6 - -30.8)	进一步
平均红细胞血红蛋白浓度(g/dL)	33.5 (32.7 - -34.2)	33-36
平均红细胞体积(fL)	88.4 (85.5 - -91.5)	80 - 95
平均血小板体积(fL)	10.3 (9.7 - -11.0)	7.4 - -10.4
单核细胞(%)	8.1 (6.0 - -10.5)	1 - 11
单核细胞计数(10³/µL)	0.6 (0.4 - -0.7)	0.1 - 1
中性粒细胞(%)	71.0 (62.5 - -80.1)	40 - 75
中性粒细胞计数(10³/µL)	4.9 (3.6 - -7.1)	1.5 - -7.5
血小板计数(10)³/µL)	250年(195 - 317)	150 - 450
钾(更易/ L ）	4.3 (4.0 - -4.6)	3.5 - -5.1
红细胞计数(10⁶/µL)	4.5 (4.1 - -4.9)	4.1 - -5.9
钠(更易/ L ）	138年(136 - 140)	135 - 145
尿素(mg / dL)	38 (29-54)	5-50

^一个IQR: Q1-Q3值。

模型的性能

在对XGBoost性能的初步评估中，我们与几个知名的分类器进行了比较。表3显示了这个比较的结果。XGBoost在3个度量中产生了最好的结果，在F1中产生了第二好的结果。这些结果重申了选择XGBoost作为本研究的预测方法。图2显示了XGBoost的接收算子特性和精确召回曲线多媒体附录1显示其他方法的对应值。

表3

bootstrap验证后各方法结果的比较。

方法	AUROC^一个，平均值(95% CI)	AUPRC^b，平均值(95% CI)	准确率，平均值(95% CI)	F1^c，平均值(95% CI)
决策树	0.89 (0.84 - -0.92)	0.67 (0.58 - -0.74)	0.89 (0.85 - -0.92)	0.60 (0.52 - -0.68)
再邻居	0.87 (0.85 - -0.90)	0.55 (0.46 - -0.64)	0.88 (0.86 - -0.90)	0.41 (0.29 - -0.50)
线性判别分析	0.96 (0.94 - -0.97)	0.85 (0.80 - -0.90)	0.94 (0.92 - -0.95)	0.75 (0.70 - -0.82)
分对数	0.96 (0.94 - -0.98)	0.84 (0.79 - -0.89)	0.94 (0.92 - -0.95)	0.76 (0.70 - -0.82)
多层感知器	0.95 (0.93 - -0.97)	0.79 (0.71 - -0.86)	0.93 (0.91 - -0.94)	0.73 (0.65 - -0.79)
朴素贝叶斯	0.94 (0.91 - -0.96)	0.74 (0.66 - -0.82)	0.91 (0.89 - -0.92)	0.68 (0.62 - -0.76)
随机森林	0.96 (0.95 - -0.98)	0.84 (0.76 - -0.90)	0.93 (0.91 - -0.95)	0.73 (0.67 - -0.79)
支持向量机	0.91 (0.88 - -0.94)	0.62 (0.53 - -0.71)	0.87 (0.85 - -0.88)	0.21 (0.11 - -0.31)
XGBoost	0.97 (0.96 - -0.98)	0.85 (0.79 - -0.91)	0.94 (0.92 - -0.95)	0.76 (0.71 - -0.81)

^一个AUROC:接收机工作特性曲线下的面积。

^bAUPRC:精密度-召回曲线下面积。

^c外国游客1:f值。

图2

自举验证后的XGBoost模型中的接收算子特征曲线(左)和精确召回率曲线(右)。AUROC:接收算子特征曲线下面积，AUPRC:精确召回曲线下面积，XGBoost:极端梯度增强。

为了改进XGBoost的性能，通过使用Python hyperopt库进行更详尽的调优过程来调整最终的模型参数。将迭代次数(max_eval)设置为8000，产生的超参数值如表4。其余的超参数保持默认值。该模型使用了110棵决策树，最大深度为3。

表4

极值梯度提升模型中调优超参数的最终值。

Hyperparameter	价值
梯度增强树的数量	110
最大树深	3.
儿童所需的最小实例权值总和	5
提高学习率	0.094
训练实例的子样本比率	0.928
列的子样本比	0.474

有了这些超参数值，在300次引导迭代之后，再次使用引导验证来获得性能指标的模型结果。通过这一过程，获得的AUROC值为0.97 (95% CI 0.96- 0.98)， AUPRC值为0.86 (95% CI 0.80- 0.91)，准确度值为0.94 (95% CI 0.92-0.95)， F1值为0.77 (95% CI 0.72- 0.83)。由于在超参数搜索过程中进行了更多的处理(8000 vs 1000次迭代)，我们观察到了轻微的改进。此外，使用接收者操作者特征曲线值计算相关的敏感性和特异性值，以确定最大化约登指数的临界值。这些计算得出约登指数的值为0.85 (95% CI 0.80-0.90)，敏感性为0.93 (95% CI 0.89-0.98)，特异性为0.91 (95% CI 0.86-0.96)。

功能的重要性

在将调优的XGBoost模型应用于整个数据集之后，计算与该模型相关的SHAP值。根据这些SHAP值对模型输出的平均影响，可以确定每个特征的整体性能。图3显示了16个最重要特征的SHAP总结图。从平均绝对SHAP值来看，乳酸脱氢酶、c反应蛋白、中性粒细胞(%)、尿素和年龄等5个特征对模型输出的平均影响较大。其中，特征的最高值(红色)通常与较高的SHAP值相关联，进而与更大的“死亡”结果可能性相关联。在其他情况下，例如嗜酸性粒细胞(%)和丙氨酸转氨酶，该特征的最低值(蓝色)与“死亡”结果的更高风险相关。

图3

根据16个最重要的特征的平均绝对值绘制了SHAP总结图。蜂群图(左)，其中每个点对应一个患者，显示了该特征对该患者的模型预测的影响。右图显示了对模型输出的平均影响。ALT:丙氨酸转氨酶，AST:天冬氨酸转氨酶，CRP: c反应蛋白，LDH:乳酸脱氢酶，MCHC:红细胞血红蛋白平均浓度，Shapley添加剂解释。

使用SHAP值开发的图显示在多媒体附录1；这些突出了这些特征与死亡风险之间的关系。每个点代表一个病人。此外, 多媒体附录1包含箱形图，描述康复患者和死亡患者之间相同特征的价值分布。

讨论主要研究结果

COVID-19死亡率与两个事件密切相关。有些患者会出现严重的炎症综合征，导致免疫系统不受控制的激活和促炎细胞因子的大量释放，这导致急性期反应物如c反应蛋白、白细胞介素-6、铁蛋白、细胞破坏标志物如乳酸脱氢酶的增加，以及促炎细胞如中性粒细胞的增加。这种严重的炎症综合征已被描述为大多数SARS-CoV-2感染并发症患者死亡的原因。在这类患者中，乳酸脱氢酶与细胞破坏增加相关，导致淋巴细胞减少、炎症导致肺实质破裂、细胞损伤、细胞重塑和肺纤维化[ 19， 20.]。我们的研究数据与这一趋势一致，乳酸脱氢酶、c反应蛋白和中性粒细胞对这些患者的死亡率影响最大。这些患者的另一个重要并发症是急性肾功能衰竭[ 21];我们的数据显示，与肾功能有关的对死亡率影响最大的实验室参数是尿素，它是肾前水平肾功能的标志，表明肾过滤是否有效。当患者脱水或体液流失过多时，尿素水平会升高[ 3.]。

从临床实验室结果来看，建立一个急性期反应物的生化小组，以促进对急性炎症综合征易感患者的识别是至关重要的。在这种情况下，根据获得的数据，我们建议乳酸脱氢酶和c反应蛋白作为最佳候选，至少应该添加白细胞介素-6铁蛋白。

导致这些患者高死亡率的另一个并发症是凝血功能障碍。COVID-19导致全身性高凝状态，产生肺血栓栓塞、缺血性中风和其他疾病，并且明显大量患者出现严重并发症。该并发症可根据2个实验室参数进行评估:d -二聚体和血小板。作为先前形成的凝块的降解产物，该参数的增加将与先前形成的凝块的数量成正比。在凝血过程的第一步，血小板数量的减少表明血栓正在形成。因此，一个危险因素是d -二聚体水平的增加和血小板计数的减少[ 22]。

约30%的COVID-19并发症患者患有高凝功能障碍;因此，重要的是能够预测这些并发症，以便在确定这种血液疾病的患者中尽早建立预防性抗凝治疗。一些研究将COVID-19引起的高凝状态与出现相同并发症且治疗相同的抗磷脂综合征患者的高凝状态进行了比较[ 23]。值得注意的是，我们在本研究中建立的预测模型中建立了凝血参数与死亡率之间的密切关系。

图4显示了最有趣的参数——从临床的角度来看——以及它们与死亡率的关系。这三个图有一个共同的关系;也就是说，从某个值开始，变量值与死亡率的关系曲线显著增加。在这一点上，医疗干预可能会改变患者的临床病程，因为如图所示，这些测试的数值非常高代表较高的死亡风险，而低水平则与更有利的预后相关。

图4

使用SHAP值绘制的图显示了实验室值(包括LDH、CRP和d -二聚体)与死亡风险之间的关系。每个点代表一个病人。这些特征值越高，表明死亡风险越高，而这些特征值越低，预后越好。CRP: c反应蛋白，LDH:乳酸脱氢酶，Shapley添加剂解释。

在大流行开始时，对患者进行分类的主要风险因素之一是年龄;正如预期的那样，老年人的发病率和死亡率普遍较高。在我们的预测模型中，年龄排在第五位，这很重要，但在那些发展为严重炎症综合征的患者中，死亡率仍然更为突出。因此，如果我们将年龄作为一个独立变量与严重炎症的主要生化标志物联系起来，我们就可以根据患者的年龄和临床实验室值( 图5)。另一方面，图6显示死亡或出院患者不同临床化验值的差异。我们观察到不同的实验室值之间有明显的差异，这取决于每一组。

图5

部分依赖图表示与年龄和其他特征(LDH、CRP和尿素)相关的模型输出。红色区域表示对死亡风险的影响更大。CRP: c反应蛋白，LDH:乳酸脱氢酶。

图6

根据LDH、CRP、尿素和d -二聚体的实验室值，箱形图描述了康复患者和死亡患者之间的值分布。CRP: c反应蛋白，LDH:乳酸脱氢酶。

由于受其他无法量化的变量和环境因素的影响，对COVID-19患者的死亡率制定严格的标准并不容易。这些患者在感染COVID-19之前的合并症在管理这些患者和预测并发症时非常重要[ 24]。患有慢性疾病(如高血压或糖尿病)的患者的并发症数量和死亡率高于没有慢性疾病的患者;然而，根本原因尚不清楚。据推测，这些患者的血管紧张素转换酶2受体的表达水平较高，病毒通过这种受体进入细胞进行复制;这样的病人是更严重的疾病的候选者。此外，Fang等[ 25报道称，编码这种受体的基因的多态性增加了疾病的严重程度。

Carrasco-Sánchez等[ 26]收集了西班牙大约20 000名患者的数据，并报告说，在那些到达急诊科并在住院期间发现高血糖水平的患者中，只要他们不是处于危急状态，死亡率是可以预测的。因此，血糖是患者死亡率最重要的预测指标之一，这与我们的假设是一致的。因此，在患者住院前和住院期间控制血糖对提高其生存率至关重要。

限制

在临床上，本研究存在一系列局限性。首先，这项研究有一个小的患者队列;先前的类似研究包括了一个明显更大的患者队列[ 21， 26]。其次，我们没有记录这些患者的合并症;因此，我们无法评估它们与其他变量的关系以及它们预测患者死亡率的潜力。最后，进行一系列实验室测试非常重要，这有助于用更多参数(如白细胞介素-6和铁蛋白)评估炎症综合征。

结论

本研究旨在建立一种预测COVID-19患者死亡率的模型，该模型可以高度准确地根据实验室值评估死亡率。机器学习技术的使用，在本例中是XGBoost预测方法，在几个性能指标上产生了出色的结果。对结果模型的分析使我们能够识别出一组具有显著高预测潜力的特征，这对于改善护理决策和提高患者存活率非常有用。

多媒体附录1

补充数据。

缩写

AUPRC

精密度-召回曲线下面积

AUROC

接收操作员特性曲线下的面积

世鹏科技电子

沙普利加法解释

XGBoost

极端梯度增强

没有宣布。

Mahase

尽管病死率较低，但冠状病毒covid-19造成的死亡人数超过了SARS和MERS的总和

BMJ 2020 02 18 368 m641

10.1136 / bmj.m641

32071063

兰尼

毫升

Griffeth

杰哈

正义与发展党

严重供应短缺——Covid-19大流行期间对呼吸机和个人防护设备的需求

[英]医学 2020 04 30. 382 18 出价

10.1056 / NEJMp2006141

32212516

严

张

Goncalves

肖

王

米

郭

太阳

唐

京

张

米

黄

肖

曹

程ydF4y2Ba

任

王

肖

黄

年代

唐ydF4y2Ba

黄

焦

程

张

罗

一个

Mombaerts

京ydF4y2Ba

曹

李

年代

徐

元

COVID-19患者可解释的死亡率预测模型

纳特马赫英特尔 2020 05 14 2 5 283 288

10.1038 / s42256 - 020 - 0180 - 7

施瓦布

杜蒙特舒特等人

一个

迪茨

鲍尔

年代

COVID-19临床预测模型:系统研究

J Med Internet Res 2020 10 06 22 10 e21439

10.2196/21439

32976111

v22i10e21439

PMC7541040

Barda

Riesel

Akriv

一个

莱维

芬克尔

尤纳

Greenfeld

Sheiba

年代

海默

Bachmat

Rothblum

沙利特

Netzer

Balicer

达冈

在没有个人数据的情况下，开发COVID-19死亡风险预测模型

Nat Commun 2020 09 07 11 1 4439

10.1038 / s41467 - 020 - 18297 - 9

32895375

10.1038 / s41467 - 020 - 18297 - 9

PMC7477233

弗里德曼

随机梯度增强

计算数据统计 2002 2 38 4 367 378

10.1016 / s0167 - 9473 (01) 00065 - 2

程ydF4y2Ba

Guestrin

XGBoost:一个可扩展的树提升系统

第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集 2016 08

第22届ACM SIGKDD知识发现与数据挖掘国际会议

2016年8月

旧金山，加州

纽约，纽约

计算机协会

785 794

10.1145/2939672.2939785

王

程ydF4y2Ba

一个

京ydF4y2Ba

切

基于XGBoost模型的2型糖尿病风险预测及效果评价

医疗保健(巴塞尔) 2020 07 31 8 3. 247

10.3390 / healthcare8030247

32751894

healthcare8030247

PMC7551910

常

刘

肖

元

徐

张

年代

周

年代

基于医学数据的高血压预后机器学习预测方法

诊断(巴塞尔) 2019 11 07 9 4 178

10.3390 / diagnostics9040178

31703364

diagnostics9040178

PMC6963807

莫

程ydF4y2Ba

李

曾

程ydF4y2Ba

他

张

年代

李

锅

曾

谢

李

黄

米

他

梁

曾

利用机器学习早期准确预测甲氨蝶呤治疗青少年特发性关节炎的临床反应

前药物杂志 2019 10 1155

10.3389 / fphar.2019.01155

31649533

PMC6791251

许

刘

锡箔

郭

林

基于电子健康记录的社区获得性急性肾损伤住院风险预测的机器学习模型:开发和验证研究

J Med Internet Res 2020 08 04 22 8 e16903

10.2196/16903

32749223

v22i8e16903

PMC7435690

Doshi-Velez

金

迈向可解释机器学习的严谨科学

出来了。预印本于2017年2月28日在线发布。

Lundberg

年代

不

程ydF4y2Ba

DeGrave

一个

Prutkin

奈尔

卡茨

Himmelfarb

邦萨尔

李

如果

从局部解释到全球理解与树木可解释的人工智能

纳特马赫英特尔 2020 01 2 1 56 67

10.1038 / s42256 - 019 - 0138 - 9

32607472

PMC7326367

库恩

塔克

亚历山大-伍尔兹

对博弈论的贡献(AM-28)，第二卷 1953

普林斯顿,纽约

普林斯顿大学出版社

Lundberg

年代

不

李

年代

树集成的一致个性化特征归属

出来了。预印本发布于2018年2月12日

Pedregosa

Varoquaux

Gramfort

一个

米歇尔

蒂里翁

Grisel

他们批判

米

Prettenhofer

维斯

Dubourg

Vanderplas

斯帕索斯

一个

Cournapeau

布鲁赫

米

Perrot

米

Duchesnay

爱德华。

Scikit-learn: Python中的机器学习

J Mach Learn Res 2011 12 2825 2830

Bergstra

yamin

考克斯

建立模型搜索的科学:视觉架构的数百维超参数优化

第30届国际机器学习会议论文集-第28卷 2013

第30届国际机器学习国际会议

2013年6月16日至21日

亚特兰大,乔治亚州

i - 115 i - 123

Arlot

年代

Celisse

一个

模型选择交叉验证程序的调查

集权Surv 2010 1 1 4 40 79

10.1214 / 09-ss054

Drent

米

Cobben

亨德森

伍特斯

范Dieijen-Visser

米

乳酸脱氢酶及其同工酶作为肺损伤或炎症指标的有效性

Eur呼吸器 1996 08 9 8 1736 1742

10.1183 / 09031936.96.09081736

8866602

20.

亨利

de Oliveira

肉类

Benoit

年代

Plebani

米

里皮

与2019冠状病毒病(COVID-19)重症和死亡率相关的血液学、生化和免疫生物标志物异常:一项荟萃分析

临床化学实验室医学 2020 06 25 58 7 1021 1028

10.1515 / cclm - 2020 - 0369

32286245

/ j / cclm.ahead-of-print / cclm - 2020 - 0369 / cclm - 2020 - 0369. - xml

Vaid

一个

Somani

年代

Russak

De Freitas

乔杜里

帕兰杰佩

我

约翰逊

千瓦

李

Miotto

里希特

赵

年代

贝克曼

奈克

克钦独立军

一个

Timsina

拉拉

一个

帕兰杰佩

米

金

Danieletto

米

辛格

米

迈耶

O ' reilly

Huckins

Kovatch

芬克尔斯坦

弗里曼

Argulian

Kasarskis

一个

屎

Aberg

晶澳

Bagiella

霍洛维茨

墨菲

是个好

斯凯特

赵

Cordon-Cardo

柱身

恰尼

帝国

戴斯。莱纳姆:

借钱

莱文

妈

Narula

法

咱

只是

交流

恰尼

亚历山大-伍尔兹

还

Glicksberg

废话

机器学习预测纽约市COVID-19患者队列中的死亡率和关键事件:模型开发和验证

J Med Internet Res 2020 11 06 22 11 e24018

10.2196/24018

33027032

v22i11e24018

PMC7652593

Klok

Kruip

米

范德密尔

Arbous

米

Gommers

康德

Kaptein

范Paassen

“斯太尔

米

豪氏威马

米

Endeman

COVID-19重症监护室患者血栓性并发症的发生率

Thromb Res 2020 07 191 145 147

10.1016 / j.thromres.2020.04.013

32291094

s0049 - 3848 (20) 30120 - 1

PMC7146714

张

肖

米

张

年代

夏

曹

姜

程ydF4y2Ba

丁

赵

张

王

赵

太阳

田

吴

妈

程ydF4y2Ba

张

谢

严

周

刘

王

杜

秦

高

秦

徐

张

李

张

赵

李

张

年代

Covid-19患者凝血功能障碍和抗磷脂抗体

[英]医学 2020 04 23 382 17 e38

10.1056 / NEJMc2007575

32268022

PMC7161262

金

哈

月亮

李

崔

莎莉

冠状病毒病急性高血糖危象19例报告

糖尿病 2020 04 44 2 349 353

10.4093 / dmj.2020.0091

32347027

44.349

PMC7188962

方

Karakiulakis

罗斯

米

高血压和糖尿病患者感染COVID-19的风险增加吗?

柳叶刀呼吸医学 2020 04 8 4 e21

10.1016 / s2213 - 2600 (20) 30116 - 8

32171062

s2213 - 2600 (20) 30116 - 8

PMC7118626

Carrasco-Sanchez

Lopez-Carmona

医学博士

Martinez-Marcos

Perez-Belmonte

Hidalgo-Jimenez

一个

Buonaiuto

苏亚雷斯费尔南德斯

Freire卡斯特罗

Luordo

Pesqueira Fontan

点

他基

Magallanes Gamboa

乔

de la Peña Fernández

一个

托雷斯佩纳

费尔南德斯苍井空

Napal Lecumberri

Amoros马丁内斯

Guisado Espartero

我

Jorge开膛手

戈麦斯门德斯

韦森特洛佩兹

罗马伯纳尔

Rojano Rivero

毫克

拉莫斯林康

戈麦斯Huelgas

SEMI-COVID-19网络

入院时高血糖可作为COVID-19住院患者死亡率的预测因子，无论糖尿病状况如何:来自西班牙SEMI-COVID-19登记处的数据

地中海安 2021 12 53 1 103 116

10.1080 / 07853890.2020.1836566

33063540

PMC7651248