卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医学网络杂志

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v23i2e23390

33534722

10.2196/23390

原始论文

建立临床实验室指标分类器以区分COVID-19与社区获得性肺炎:回顾性队列研究

Fagherazzi

的家伙

帕切科

珍妮花

Elbattah

马哈茂德

戴

Wanfa

医学博士 1

https://orcid.org/0000-0002-6074-2650

柯

Pei-Feng

英里每小时 2 3.

https://orcid.org/0000-0001-9414-0458

李

甄蛰

二元同步通信 4

https://orcid.org/0000-0002-9547-1969

壮族

Qi-Zhen

二元同步通信 4

https://orcid.org/0000-0002-5195-0503

黄

魏

医学博士 1

https://orcid.org/0000-0001-7421-5002

王

易

硕士研究生 2 4

https://orcid.org/0000-0002-0811-3742

熊

Yujuan

博士学位 2 3.

https://orcid.org/0000-0001-6668-700X

黄

Xian-Zhang

博士学位 2

检验医学系第二附属医院广州中医药大学

大德路111号

广州,510210

中国 86 020 81887233转35362 huangxz020@gzucm.edu.cn

https://orcid.org/0000-0003-4320-9181

1 呼吸学系恭安县人民医院

荆州

中国 2 检验医学系第二附属医院广州中医药大学

广州

中国 3. 广东省中医药急症研究重点实验室

广州

中国 4 第二临床医学院广州中医药大学

广州

中国

通讯作者:Huang Xian-Zhang huangxz020@gzucm.edu.cn

2 2021

22 2 2021

23 2

e23390

11 8 2020 9 12 2020 29 12 2020 1 2 2021

©戴万发，柯培峰，李珍珍，庄其珍，黄伟，王毅，熊玉娟，黄先章。最初发表在《医疗互联网研究杂志》(//www.mybigtv.com)， 2021年2月22日。

2021

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物链接，以及版权和许可信息。

背景

COVID-19患者的初始症状与社区获得性肺炎(CAP)患者非常相似;根据临床症状和影像学检查很难将COVID-19与CAP区分开来。

客观的

我们的研究目的是构建一个有效的模型，以早期识别COVID-19，并将其与CAP区分开来。

方法

回顾性分析61例新冠肺炎患者和60例CAP患者的临床实验室指标(CLIs)。利用各种CLI的随机组合(即CLI组合)，使用机器学习算法建立COVID-19与CAP的分类器，包括随机森林分类器(RFC)、逻辑回归分类器和梯度增强分类器(GBC)。通过计算受试者工作特征曲线(AUROC)下的面积和使用测试数据集预测COVID-19的召回率来评估分类器的性能。

结果

用43种CLI组合的三种算法构建的分类器在测试数据集的COVID-19预测中表现出了高性能(召回率>0.9和AUROC >0.85)。在高性能分类器中，几个cli显示出较高的使用率;这些指标包括降钙素原(PCT)、平均红细胞血红蛋白浓度(MCHC)、尿酸、白蛋白、白蛋白与球蛋白比(AGR)、中性粒细胞计数、红细胞计数、单核细胞计数、嗜碱性粒细胞计数和白细胞计数。除了嗜碱性粒细胞计数外，它们也具有较高的特征重要性。PCT、AGR、尿酸、白细胞计数、中性粒细胞计数、嗜碱性粒细胞计数、红细胞计数和MCHC的特征组合(FC)是构建分类器的9个FC中具有代表性的一个，在使用RFC或GBC算法时AUROC均为1.0。替换这些fc中的任何CLI都将导致使用它们构建的分类器的性能显著降低。

结论

仅使用少数特异性CLIs构建的分类器可有效区分新冠肺炎和CAP，有助于临床医生对新冠肺炎患者进行早期隔离和集中管理。

新型冠状病毒肺炎临床实验室指标社区获得性肺炎分类器分类算法

简介

2019年12月初发现的新型冠状病毒(SARS-CoV-2)感染引起的COVID-19已成为全球大流行。截至2020年8月3日，COVID-19已在全球215个国家、地区或领土广泛传播;它已造成1 790多万人感染，并导致68.6万人死亡[ 1］．世界卫生组织表示，早期发现、隔离和实施健全的卫生保健体系可阻止COVID-19的传播[ 2， 3.］．然而，已发表的数据表明，COVID-19患者的初始症状与普通感冒或流感患者的症状非常相似。新冠肺炎患者表现出不同的临床症状，有些患者没有任何症状[ 4- 7］．新冠病毒潜伏期长，中位潜伏期为5至7天，是社区感染的主要危险因素[ 6， 8］．社区获得性肺炎(CAP)与COVID-19具有相似的临床和影像学特征，但它们的治疗和传染性非常不同。将COVID-19与CAP区分开来，对于预防COVID-19的传播和提供具体治疗非常重要。

新冠肺炎患者临床实验室指标(CLIs)显示的一些特征谱可作为诊断的辅助线索[ 9］．既往研究表明降钙素原(PCT)升高、淋巴细胞减少和凝血酶激活均可作为COVID-19和预后不良因素的辅助诊断指标[ 9- 11］．然而，它们也与CAP相关[ 12- 15］．因此，根据这些指标的变化，无法将COVID-19与CAP区分。中性粒细胞与淋巴细胞比值、血小板与淋巴细胞比值峰值、乳酸脱氢酶(LDH)、c反应蛋白(CRP)、白细胞介素-6 (IL-6)的变化被认为与COVID-19的进展和预后有关[ 9]，但使用来自CLIs的信息为临床医生提供正确的指导仍然是一个巨大的挑战。

基于各种临床特征、生物标志物和CLIs的机器学习(ML)算法建立的分类器越来越广泛地应用于疾病诊断和风险预测[ 16］．在新冠肺炎大流行期间，ML也被广泛用于预测、分类、评估、跟踪和控制SARS-CoV-2的传播[ 17， 18］．与手工选择的生物标记物相比，ML可以通过选择相关的生物标记物并更一致地捕获它们对预测的相对重要性以及它们彼此之间的相互作用，从而提高诊断性能[ 19］．在本研究中，我们使用CLIs构建具有不同ML算法的分类器，以区分COVID-19患者和CAP患者;我们发现，只有具有许多特定CLIs的特征组合(FCs)，而不是两组间CLIs差异最显著的特征组合(FCs)才能构建高性能分类器(hpc)。

方法收集病人电子病历资料

检索了2019年12月至2020年3月在中国恭安县人民医院住院并诊断为COVID-19或CAP的患者的电子病历。对每位患者的年龄、性别、入院时的临床症状、病史、流行病学史、计算机断层扫描(CT)成像特征和CLIs信息进行整理，进行回顾性分析。只包括入院时的实验室检查结果。规定所有患者的资料必须保密，这些资料只能用于综合分析。论文中没有提到任何患者的个人信息。本研究获得广东省中医院伦理委员会批准(批准号:ZE2020-049-01)，由于研究的回顾性性质，放弃知情同意。

数据描述

对COVID-19进行诊断和临床分型中国新冠肺炎临床诊疗指南(第七版)［ 20.］．根据电子病历的出院诊断，共纳入61例COVID-19患者和60例CAP患者。其中轻度3种，普通型47种，重度6种，危重型5种，将其分为两组进行进一步分析，分别为:covid - com(轻度3种，普通型47种)和covid - sv(重度6种，危重型5种)。他们的年龄和性别相匹配，在病史方面没有显著差异。CAP组与COVID-19组的主要临床症状无明显差异。

主要分析

所有CLIs的描述性分析在组间或子组间进行。组间或子组间的差异用 statsmodelsPython (Python软件基础)模块[ 21］．学生 t当变量的分布符合正态分布时进行检验;否则就是曼-惠特尼 U采用测试法。卡方检验用于检测两组或子组间基线数据的差异。的值 P<．05was considered to be significant.

特征选择与数据预处理

缺失值比大于20%的cli被排除。仅选择两组间有显著差异的CLIs，并使用该方法生成1,807,780个非重复随机fc，包括1到8个CLIs 组合迭代器中的 itertools模块来自Python [ 22］．接下来，从FC列表中逐一选择一个FC，用因变量(即疾病类型)组成一个新的数据表，最终形成1,807,780个新的数据表。对于每个新的数据表，将删除缺少值的行。剩下的行被分成 training_dataset而且 test_dataset使用scikit-learn，版本0.23.1 ( train_test_split函数与 test_size= 0.25, random_state= 0)。训练数据集用于构建分类器，测试数据集用于评估性能。特征值的标准化使用 StandardScaler函数，然后构建逻辑回归(LR)分类器。

基于ML算法的Scikit-Learn模块分类器的构建

Scikit-learn是一个Python模块，集成了广泛的最先进的ML算法，用于中等规模的有监督和无监督问题[ 23］．LR分类器、随机森林分类器(RFC)和梯度增强分类器(GBC)被典型地用于构建疾病风险、进展、预后预测等分类器[ 24］．的LR分类器 sklearn.linear_model也称为logit回归、最大熵分类或对数线性分类器。在该模型中，描述单一试验可能结果的概率使用逻辑函数建模[ 24］．RFC在 sklearn.ensemble模块是集成方法中的一种平均算法，是专门为树设计的扰动组合技术。在随机森林算法中，集合中的每棵树都是从训练数据集中绘制的替换样本中构建的。此外，当在树的构造过程中拆分每个节点时，最好的拆分是从所有输入特征中找到，或从带有参数的大小设置的随机子集中找到 max_features．在实践中，由于在分类器构造中引入随机性而减少的方差通常是显著的，因此产生了一个整体更好的模型[ 25， 26］．GBC算法，使用 sklearn.ensemble函数，是一种boost方法，其中基估计量是按顺序建立的。为了减小组合估计量的偏差，必须将几个弱模型组合在一起产生一个强大的集合。GBC算法以正向的阶段方式构建了一个加性模型，并允许对任意可微损失函数进行优化[ 27， 28］．

在本研究中，使用训练数据集在scikit-learn模块中分别使用LR分类器、RFC和GBC构建分类器。模型参数设置保持默认值，除了 random_state修改为“0”的所有模型和 class_weight对LR分类器和RFC模型修改为“平衡”。通过计算召回率(即灵敏度)、特异性、准确性和受试者工作特征曲线(AUROC)下的面积，利用测试数据集来评估分类器的性能 sklearn_metrics.recall_score， sklearn_metrics.precision_score， sklearn_metrics.accuracy_score, sklearn_metrics.auc函数,分别。基尼系数的重要性计算使用 feature_importance函数来衡量RFC和GBC中每个特性的重要性。基尼重要值越高，特征越重要[ 29］．以上所有分析都是在Python 3.7版本(Python软件基础)中执行的。

结果 CAP组与COVID-19组的基本特征

CAP组与COVID-19组在年龄和性别上无显著差异(见表1）;但CAP组和COVID-19组中男性比例分别为55%(33/60)和66%(40/61)，均高于女性。两组患者的病史无显著差异表1)被观察到。两组患者的主要临床症状如发热、咳嗽、疲劳、肌肉酸痛和食欲不振的比例无明显差异表1)．CAP患者的平均住院天数显著低于COVID-19患者( P<措施)。CAP组部分肺CT患者影像学表现为斑片状高密度影(11/ 60,18%)、磨玻璃影(4/ 60,7%)、纤维化灶(6/ 60,10%)。尽管如此，COVID-19组肺CT的主要影像学特征为斑片状高密度影(25/ 61,41%)和磨玻璃影(9/ 61,15%)，许多患者(7/ 61,11%)同时有斑片状高密度影和磨玻璃影(见表1)．61例患者中，轻症3例(5%)，普通症状47例(77%)，重症6例(10%)，危重症5例(8%)。发热和咳嗽是COVID-19早期的主要症状，分别占病例的70%(43/61)和64% (39/61) 表1)．在纳入分析的CAP患者中，没有在住院期间发现死亡病例;然而，COVID-19组5例重症患者中有3例(60%)在住院期间死亡，年龄分别为36岁、49岁和74岁。死亡的36岁患者在童年时接受了室间隔修补术。

表1

COVID-19患者与社区获得性肺炎(CAP)患者的基线信息比较。

基线特征		CAP患者(n=60)	COVID-19患者(n=61)	P价值
性别(男性)，n (%)		33 (55)	40 (66)	低位
年龄(年)，平均值(SD)		55.72 (18.10)	50.23 (16.95)	.09点
住院天数，中位数(IQR)		9 (7 - 12)	21日(13 26)	<措施
病史，n (%)
	高血压	14 (23)	16 (26)	点
	糖尿病	2 (3)	6 (10)	低位
	肝脏疾病	2 (3)	3 (5)	获得
	心脏病	3 (5)	5 (8)	开市
	接触史	不清楚	54 (89)	N/A^一个
	家族聚集性感染^b	不清楚	22 (36)	N/A
初始症状，n (%)
	发热	36 (60)	43 (70)	点
	咳嗽	44 (73)	39 (64)	.33
	肌痛	4 (7)	7 (11)	53
	食欲不振	5 (8)	11 (18)	只要
	乏力	33 (55)	24 (39)	.10
从出现症状到入院天数，中位数(IQR)		没有记录的	3 (1 - 7)	N/A
成像特征，n (%)
	片状高密度不透明度	11 (18)	25 (41)	.009
	毛玻璃样阴影	4 (7)	9 (15)	。
	纤维化病变	6 (10)	3 (5)	收
	斑片状高密度不透明度和毛玻璃不透明度	0 (0)	7 (11)	. 01
死亡病例，n (%)		0 (0)	3 (5)	N/A

^一个N/A:不适用;组无法进行比较，因为没有CAP组的值。

^b与家庭成员或亲属聚集后感染2例以上。

冠状病毒病和CAP中CLIs的特征

尽管大多数CLIs在CAP和COVID-19中有相似的变化趋势，但变化的程度不同。在超过60个评估的CLIs中，两组间有25个CLIs有显著差异(见表2)．新冠肺炎和CAP患者淋巴细胞、红细胞(RBC)计数、红细胞压积或填充细胞体积(PCV)、血红蛋白浓度和平均红细胞血红蛋白浓度(MCHC)降低，中性粒细胞比率、凝血酶原时间(PT)、微crp (mCRP)和PCT升高。CAP的中性粒细胞比率和PT、mccrp、PCT水平明显高于冠状病毒病。CAP患者的淋巴细胞、红细胞计数、PCV、血红蛋白浓度和MCHC水平明显低于COVID-19患者(见图1)．各种红细胞相关的CLIs-RBC计数、PCV、血红蛋白浓度和mcch在CAP和COVID-19中均显著降低，但CAP患者的降低幅度更大(见图1)．RBC分布宽度标准差(RDW-SD)和RBC平均红细胞体积(MCV)也表明CAP和COVID-19之间有显著差异(见图1)．

表2

社区获得性肺炎(CAP)与COVID-19患者临床实验室指标的差异

CLI	CAP患者(n=60)		COVID-19患者(n=61)		P价值
	n (%)	意思是(SD)	n (%)	意思是(SD)
原降钙素(ng / mL)	43 (72)	0.629 (0.838)	55 (90)	0.134 (0.184)	<措施
单胺氧化酶B (U/L)	35 (58)	4.569 (1.748)	53 (87)	3.538 (1.592)	措施
肌红蛋白(ng / mL)	14 (23)	39.179 (29.421)	23日(38)	65.794 (87.039)	.04点
微c反应蛋白(mg/L)	41 (68)	63.943 (64.530)	13 (21)	22.568 (29.577)	04
凝血酶原时间(秒)	30 (50)	12.780 (0.873)	53 (87)	12.460 (1.107)	.04点
凝血酶时间(秒)	30 (50)	15.123 (1.565)	53 (87)	14.655 (1.422)	.049
白蛋白(g / L)	53 (88)	35.508 (5.929)	54 (89)	37.831 (6.169)	.04点
白蛋白与球蛋白的比例	53 (88)	1.211 (0.295)	54 (89)	1.378 (0.482)	.047
α-L-聚焦酶(U/L)	35 (58)	17.709 (5.167)	50 (82)	22.106 (5.698)	<措施
尿酸(μmol/L)	44 (73)	284.193 (118.608)	54 (89)	325.261 (92.914)	.007
钾(更易/ L)	54 (90)	3.900 (0.462)	55 (90)	4.021 (0.392)	03
白细胞计数细胞(×10⁹/ L)	58 (97)	8.858 (5.576)	56 (92)	5.293 (2.047)	<措施
中性粒细胞(%)	57 (95)	72.958 (15.544)	56 (92)	66.661 (14.013)	.007
淋巴细胞(%)	56 (93)	18.646 (13.416)	56 (92)	24.014 (11.175)	.002
中性粒细胞计数(×10⁹/ L)	56 (93)	6.797 (5.525)	56 (92)	3.649 (1.949)	<措施
单核细胞计数(×10⁹/ L)	55 (92)	0.565 (0.337)	56 (92)	0.404 (0.194)	.009
嗜酸性粒细胞计数(×10⁹/ L)	55 (92)	0.111 (0.213)	56 (92)	0.053 (0.072)	03
嗜碱性粒细胞计数(×10⁹/ L)	55 (92)	0.021 (0.013)	56 (92)	0.015 (0.013)	.002
红细胞计数(×10¹²/ L)	56 (93)	4.028 (0.647)	56 (92)	4.284 (0.570)	.008
血红蛋白浓度(g/L)	55 (92)	120.800 (17.326)	56 (92)	130.143 (16.888)	.005
红细胞压积(L/L)	55 (92)	0.371 (0.052)	56 (92)	0.389 (0.049)	.04点
平均红细胞体积(fL)	55 (92)	93.255 (6.662)	56 (92)	91.241 (6.501)	. 01
平均血细胞血红蛋白浓度(g/L)	55 (92)	325.473 (8.360)	56 (92)	334.482 (13.559)	<措施
红细胞分布宽度-标准差(fL)	55 (92)	41.476 (2.573)	56 (92)	41.141 (4.082)	. 01

图1

新冠肺炎与社区获得性肺炎(CAP)临床实验室指标(CLIs)血浆水平差异的统计学分布统计分布采用盒须图表示。方框内的水平线表示中值。在方框下方和上方延伸的竖线表示5%-95%的百分位值。y轴上的刻度表示CAP组中CLI的第5、25、50、75和95个百分位的值。三角形代表实验室指标正常参考范围的上下限。AFU: α-L-聚焦酶;AGR:白蛋白与球蛋白的比值;铝青铜:白蛋白;BASOC:嗜碱性粒细胞计数; EOC: eosinophil count; HGB: hemoglobin concentration; K: potassium; LYM: lymphocyte; MAO-B: monoaminoxidase B; MCHC: mean corpuscular hemoglobin concentration; mCRP: micro–C-reactive protein; MCV: mean (red blood cell) corpuscular volume; MOC: monocyte count; NEUT: neutrophil ratio; NEUTC: neutrophil count; PCT: procalcitonin; PCV: packed-cell volume (hematocrit); PT: prothrombin time; RBC: red blood cell count; RDW-SD: red blood cell distribution width–standard deviation; TT: thrombin time; UA: uric acid; WBC: white blood cell count.

比较COVID19-COM和COVID19-SV亚组，26个CLIs表现出显著差异(见表3)．与COVID19-COM亚组相比，在COVID19-SV亚组中，LDH、天门冬氨酸转氨酶、纤维蛋白原含量、mCRP和红细胞沉降率急剧增加，而在COVID19-SV亚组中，前白蛋白、二氧化碳结合能力、淋巴细胞和淋巴细胞计数下降(见多媒体附件1)．

在CAP、COVID19-COM和COVID19-SV患者中观察到α-L-聚焦酶(AFU)、肌红蛋白、尿酸和MCHC依次升高，凝血酶时间、单核细胞计数、嗜酸性粒细胞计数、红细胞MCV和RDW-SD依次降低，表明这些CLIs可用于区分CAP和COVID-19，并提示COVID-19严重进展的可能性多媒体附件2)．

表3

COVID-19普通型与重症患者临床实验室指标的差异。

综合领先指标	普通类型COVID-19患者(n=50)		重症COVID-19患者(n=11)		P价值
	n (%)	意思是(SD)	n (%)	意思是(SD)
原降钙素(ng / mL)	44 (88)	0.112 (0.170)	11 (100)	0.224 (0.217)	. 01
n端前b型利钠肽(pg/mL)	29 (58)	366.053 (549.429)	11 (100)	534.782 (398.067)	03
超敏c反应蛋白(mg/L)	41 (82)	23.332 (34.483)	11 (100)	72.458 (60.805)	.002
乳酸脱氢酶(U/L)	26 (52)	214.896 (73.319)	8 (73)	314.750 (118.755)	02
肺动脉栓塞(毫克/升)	42 (84)	0.834 (1.115)	11 (100)	5.133 (10.399)	.005
肌红蛋白(ng / mL)	16 (32)	49.221 (60.505)	7 (64)	103.674 (127.354)	02
心肌肌钙蛋白(ng/mL)	16 (32)	0.011 (0.003)	7 (64)	0.033 (0.041)	02
肌酸激酶(U/L)	27 (54)	81.296 (47.153)	8 (73)	202.125 (195.052)	02
纤维蛋白原含量(mg/dL)	42 (84)	411.905 (104.363)	11 (100)	467.455 (76.500)	03
天冬氨酸氨基转移酶(U/L)	46 (92)	29.413 (15.756)	10 (91)	45.600 (18.969)	04
γ-谷氨酰转肽酶(U/L)	44 (88)	46.046 (41.609)	10 (91)	80.000 (44.229)	.007
白蛋白(g / L)	44 (88)	38.602 (6.267)	10 (91)	34.440 (4.558)	02
白蛋白与球蛋白的比例	44 (88)	1.436 (0.507)	10 (91)	1.120 (0.230)	02
间接胆红素(μmol/L)	44 (88)	9.482 (3.841)	10 (91)	7.960 (4.336)	.048
前白蛋白(毫克/升)	41 (82)	180.171 (83.374)	9 (82)	125.556 (68.182)	03
β2-microglobulin(毫克/升)	41 (82)	1.978 (0.430)	9 (82)	2.528 (1.015)	. 01
二氧化碳结合力(mmol/L)	41 (82)	25.420 (2.537)	9 (82)	22.733 (2.018)	.002
钾(更易/ L)	44 (88)	4.057 (0.414)	11 (100)	3.876 (0.251)	.04点
红细胞沉降率(mm/h)	30 (60)	55.433 (41.639)	7 (64)	87.000 (35.081)	02
中性粒细胞(%)	45 (90)	64.496 (13.286)	11 (100)	75.519 (14.001)	02
淋巴细胞(%)	45 (90)	25.711 (10.932)	11 (100)	17.073 (9.750)	. 01
嗜酸性粒细胞(%)	45 (90)	1.236 (1.388)	11 (100)	0.391 (1.038)	.009
嗜酸性粒细胞计数(×10⁹/ L)	45 (90)	0.062 (0.076)	11 (100)	0.014 (0.039)	.003
淋巴细胞计数(×10⁹/ L)	45 (90)	1.255 (0.558)	11 (100)	0.835 (0.383)	.008
红细胞压积(L/L)	45 (90)	0.395 (0.050)	11 (100)	0.368 (0.036)	03
红细胞分布宽度-变异系数(%)	45 (90)	12.658 (1.171)	11 (100)	12.873 (0.781)	03

由含有7 ~ 8个CLIs的fc构建的分类器可准确区分COVID-19和CAP

分类器的性能随着fc中cli的数量从1个增加到8个而逐渐提高。然而，当fc中的cli数量达到8个时，由这些fc构建的分类器的性能不再有显著提高。使用8个cli组合的fc构造的LR分类器算法的性能甚至略低于使用7个cli组合的fc构造的LR分类器算法。根据召回率，共确定43个fc，包括5个7-CLI组合和38个8-CLI组合。用LR分类器、RFC和GBC算法构造的分类器的auroc大于0.85(参见多媒体附件3表S1)。用RFC、LR和GBC算法构建的分类器的AUROC和精确召回曲线从代表性的7-CLI组合(即PCT、白蛋白与球蛋白比[AGR]、尿酸、中性粒细胞计数、嗜碱性粒细胞计数、红细胞MCV和MCHC)中显示出非常高的预测新冠肺炎的性能和精度;auroc分别为1.0、0.97和0.96 图2， A)，平均精度值分别为1.0,0.97,0.98 ( 图2用RFC、LR分类器和GBC算法从代表性的8-CLI组合(即PCT、白蛋白、尿酸、WBC[白细胞]计数、单核细胞计数、嗜碱性粒细胞计数、红细胞计数和MCHC)构建的分类器auroc分别为1.0、0.90和1.0(见图2用7-CLI组合的三种算法构建的分类器(即agr、afu、淋巴细胞、中性粒细胞计数、嗜酸性粒细胞计数、红细胞mcv和mchc)的auroc分别为0.98、0.91和0.97(见图2， D).特征重要性结果显示，在上述两种有代表性的CLI组合中，嗜碱性粒细胞计数最不重要，AFU在CLI组合中最重要(见图3)．然而，当上述两种CLI组合中的嗜碱性粒细胞计数被AFU取代时，用新的CLI组合构建的分类器的性能下降(见图2， E和F)。PCT和AFU没有被观察到在同一CLI组合中，从中可以构建HPC。上述证据以及仅有43个具有7或8个CLIs的fc可以用来构建hpc的事实表明，只有具有特定CLIs的fc才能构建hpc来区分COVID-19和CAP。

图2

用不同临床实验室指标(CLIs)的不同特征组合(fc)构建的COVID-19 vs社区获得性肺炎(CAP)分类器的受试者工作特征曲线(AUROC)下面积和精确回忆曲线。在每个图像的顶部是CLI组合，用于使用三种不同的分类算法构造分类器。AFU: α-L-聚焦酶;AGR:白蛋白与球蛋白的比值;铝青铜:白蛋白;BASOC:嗜碱性粒细胞计数;EOC:嗜酸性粒细胞计数;LYM:淋巴细胞;MCHC:平均红细胞血红蛋白浓度;MCV:红细胞平均体积; MOC: monocyte count; NEUTC: neutrophil count; PCT: procalcitonin; RBC: red blood cell count; UA: uric acid; WBC: white blood cell count.

不同CLI在分类器中的重要性差别很大，而相同CLI在不同fc构造的分类器中的重要性差别很大(参见图3)．在7-CLI组合构建的hpc中，AFU的平均特征重要性(26.60%)最高，其次是尿酸(25.31%)和PCT (21.06%) 图3然而，在8-CLI组合构建的hpc中，尿酸的平均特征重要性(22.51%)最高，其次是PCT(20.88%)和MCHC(12.36%)(见图3PCT和MCHC对每个分类器都非常重要，因为它们分别包含在100%(38/38)和92%(35/38)的8-CLI组合中(见图3和40%(2/5)和100%(5/5)的7-CLI组合(见图3尿酸也包括在所有8-CLI组合中，但其特征重要性在不同分类器中从11.3%到41.2%不等(见图3, B)。

图3

在高性能COVID-19与社区获得性肺炎(CAP)分类器中，每个临床实验室指标(CLI)的使用率和特征重要性。(A) 7-CLI组合构建的高性能分类器(hpc)中每个CLI的平均特征重要性。(B) 8-CLI组合构建的hpc中每个CLI的平均特征重要性。直方图用均值(SD)表示。带有阴影背景的数字代表CLI特性重要性的最大值和最小值。用三角形符号表示的数字表示CLI在所有分类器中的平均特征重要性。用圆圈表示的数字表示CLI在HPC中的使用率。括号中的数字表示有多少CLI组合能够构建包含CLI的hpc。AFU: α-L-聚焦酶;AGR:白蛋白与球蛋白的比值; ALB: albumin; BASOC: basophil count; EOC: eosinophil count; FC: feature combination; HGB: hemoglobin concentration; K: potassium; LYM: lymphocyte; MCHC: mean corpuscular hemoglobin concentration; MCV: mean (red blood cell) corpuscular volume; MOC: monocyte count; NEUT: neutrophil ratio; NEUTC: neutrophil count; PCT: procalcitonin; PCV: packed-cell volume (hematocrit); RBC: red blood cell count; RDW-SD: red blood cell distribution width–standard deviation; UA: uric acid; WBC: white blood cell count.

讨论主要研究结果

本研究的主要亮点是，仅需要少数常见的CLIs就可以建立准确区分COVID-19和CAP的分类器模型，而hpc只能通过组合多个特定的CLIs来构建。在具有1 ~ 8个CLIs的近200万个fc中，只有43个fc可用于构建召回率大于0.9、AUROC大于0.85的hpc，以区分COVID-19和CAP。

与之前工作的比较

我们已经建立了许多仅由CLIs组成的fc的COVID-19与CAP的hpc，但几乎没有关于区分COVID-19与CAP的类似研究结果报道。然而，许多研究使用CLIs构建ML模型来帮助COVID-19诊断。这些模型的预测性能各不相同:预测COVID-19的准确性在0.8至0.96之间[ 30.- 32］．此外，大多数报道的用于诊断或预测COVID-19的ML模型涉及更多类型的变量，如CT结果、临床症状和CLIs [ 17， 32， 33］．虽然大多数与covid -19相关的ML模型都是用两种以上的ML算法构建的，但并非所有用每种算法构建的模型都表现出高性能。这些研究中使用的特征选择方法包括递归特征消除算法[ 31，因果解释模型[ 17]和最小绝对收缩和选择算子回归[ 32］．这些方法可以提取出与目标表型密切相关的特征，但这些特征组合构建的分类器是否具有最好的性能需要确定。本研究通过从COVID-19和CAP组之间的差异CLIs中随机选择1 ~ 8个CLIs，评估每个FC的召回率和AUROC，并用LR分类器算法使用每个FC构建分类器，筛选出优化的FC。将初步筛选出来的fc分别用RFC和GBC算法构建分类器;最后，只选择能够同时使用LR分类器、RFC和GBC算法构建HPC的fc进行最终的模型构建。

限制

如前所述，许多炎症因子，包括IL-6和白细胞介素-10 (IL-10)，与COVID-19密切相关，具有诊断价值，但本研究患者中均未检测到IL-6和IL-10。门尼等人[ 18]报告说，嗅觉和味觉的丧失是COVID-19的一个强有力的预测因素。患者自述的临床症状可能存在偏差和遗漏。因此，我们在构建分类器时没有考虑到临床症状。与CAP分类器相比，在构建COVID-19分类器时，不排除其他指标更重要的可能性。此外，本研究的样本量相对较小，需要用更大的样本优化分类器，才能在实际中用于区分COVID-19和CAP。

研究结果的合理性

在43个fc中，40个含有PCT和MCHC。PCT在各分类器中的特征重要性非常高，提示PCT可能是一种很好的血液标记物，可以有效地区分COVID-19和CAP。PCT是下呼吸道细菌和其他感染的标记物之一。美国食品和药物管理局批准基于血清PCT水平对疑似下呼吸道感染的抗生素治疗的开始和整个疗程进行监测[ 12］．然而，许多研究也报道了COVID-19患者血清PCT的升高[ 34］．PCT升高是COVID-19患者的显著特征[ 34］．新冠肺炎和CAP患者血清PCT水平均升高，说明不能简单地根据PCT升高来区分新冠肺炎和CAP，与正常参考值相比，大多数CLIs在新冠肺炎和CAP患者血清中同时升高或降低。因此，CLIs的升高或降低很难直接为COVID-19或CAP的诊断提供参考。然而，我们发现由具有许多特定CLIs的fc构建的ML分类器可以有效地区分COVID-19和CAP，这表明ML算法在疾病分类或诊断方面具有优势。

COVID-19与帽最高的分类器性能还涉及PCT、MCHC,尿酸,白蛋白,中性粒细胞计数,单核细胞计数,嗜碱细胞计数、红细胞计数、白细胞计数,提出这些综合领先指标的重要性区分COVID-19帽。很少有研究报道的变化趋势MCHC COVID-19患者或帽,但这项研究的结果表明,MCHC减少两组和帽组显著低于COVID-19组。MCHC下降的原因可能与炎症引起的铁的减少密切相关[ 35］．冠状病毒组和CAP组尿酸IQRs均在正常参考范围内，但IQR明显高于CAP组。尿酸升高是肾损伤或肾功能不全的独立危险因素;尿酸升高的潜在机制非常复杂[ 36］．COVID-19和CAP之间尿酸水平的显著差异可能被解释为:尿酸水平较高的个体可能比尿酸水平较低的个体更容易感染COVID-19。尿酸存在于所有能够构建高性能CLIs的8-CLI组合中，且在分类器中具有较高的特征重要性，提示尿酸是区分COVID-19与CAP的另一个重要标记物。Zhou等报道，在COVID-19危重症患者中，白蛋白明显降低[ 37］．血清白蛋白水平是CAP良好的预后标志。白蛋白水平降低与CAP患者较高的死亡风险密切相关[ 38］．尽管新冠肺炎组和CAP组的白蛋白明显下降，但两组间仍有显著差异;CAP组的下降较COVID-19组更为明显，这可能有助于区分COVID-19与CAP。由于COVID-19与CAP的AFU存在显著差异，AFU在7-CLI组合构建的HPCs中贡献了较高的特征重要性。血清AFU的升高对原发性肝癌有一定的诊断价值[ 39］．因此，COVID-19组的AFU高于CAP组，可能是由于COVID-19组的肝损伤比CAP组更常见，或者AFU水平的多样性决定了对COVID-19的易感性差异。

建议

PCT和AFU在包含PCT或AFU的fc构建的hpc中贡献了较高的特征重要性，但同时包含PCT和AFU的fc构建的分类器的性能显著下降。这一结果表明，某些个体协同变化的CLIs之间存在内在依赖性，可用于构建hpc。clii之间的内在关系非常复杂，难以解构。因此，以下方法可能是有效的:随机选择不同的CLIs构建具有不同分类算法的分类器，然后评估每个分类器的性能，最后发现具有特定CLIs的fc，可用于准确区分COVID-19和CAP。

结论

COVID-19和CAP患者有各自的特异性CLIs，与CAP HPCs相比，一些由7 - 8个特异性CLIs组成的fc可构建COVID-19。CLIs在HPCs中的使用率和特征重要性表明，PCT、MCHC、尿酸、白蛋白、AGR、中性粒细胞计数、红细胞计数、单核细胞计数和白细胞计数是区分新冠肺炎和CAP最重要的指标。

多媒体附件1

COVID-19 - com(轻、普通型患者亚组)与covid - sv(重、危重型患者亚组)临床实验室指标(CLIs)血浆水平差异显著的统计学分布。统计分布采用盒须图表示。方框内的水平线表示中值。在方框下方和上方延伸的竖线表示5%-95%的百分位值。y轴上的刻度代表了COVID19-COM子组中CLI的第5、25、50、75和95个百分位值。三角形代表实验室指标正常参考范围的上下限。y轴也表示covid - sv子组的CLI中位数。AST:天冬氨酸氨基转移酶;CO2CP:二氧化碳结合能力;ESR:红细胞沉降率; γ-GGT: transglutaminase transpeptidase gamma; FIB: fibrinogen content; LDH: lactate dehydrogenase; LYM: lymphocyte; LYMPH: lymphocyte count; mCRP: micro–C-reactive protein; MYO: myoglobin; NEUT: neutrophil ratio; PA: prealbumin.

多媒体附件2

社区获得性肺炎(CAP)、COVID-19 - com (COVID-19轻、普通型亚组)、covid - sv (COVID-19重、危重型亚组)血浆临床实验室指标(CLIs)水平的统计分布。统计分布采用盒须图表示。方框内的水平线表示中值。在方框下方和上方延伸的竖线表示5%-95%的百分位值。y轴上的刻度表示CAP组中CLI的第5、25、50、75和95个百分位值。三角形代表实验室指标正常参考范围的上下限。AFU: α-L-聚焦酶;EOC:嗜酸性粒细胞计数;MCHC:平均红细胞血红蛋白浓度;MCV:红细胞平均体积; MOC: monocyte count; MYO: myoglobin; RDW-SD: red blood cell distribution width–standard deviation; TT: thrombin time; UA: uric acid.

多媒体附件3

临床实验室指标(CLI)组合以及由这些CLI组合构建的不同机器学习算法的分类器超参数。

缩写

AFU

α- l - focusidase

AGR

白蛋白与球蛋白的比例

AUROC

接收器工作特性曲线下的面积

帽

社区获得性肺炎

CLI

临床实验室指标

COVID19-COM

COVID-19患者分为轻症和普通型亚组

COVID19-SV

新冠肺炎重、危重型亚群

c反应蛋白

计算机断层扫描

足球俱乐部

功能组合

GBC

梯度升压分级机

HPC

高性能的分类器

il - 6

白细胞介素- 6

il - 10

白细胞介素- 10”

LDH

乳酸脱氢酶

逻辑回归

MCHC

平均红细胞血红蛋白浓度

mCRP

micro-C-reactive蛋白质

”

平均血细胞体积

毫升

机器学习

PCT

原降钙素

PCV

积层电池体积

凝血酶原时间

加拿大皇家银行

红细胞

RDW-SD

红细胞分布宽度-标准差

RFC

随机森林分类器

白细胞

非常感谢广州医科大学第二附属医院刘本荣副教授在数据分析方面的指导。我们也非常感谢恭安县人民医院的医护人员为防控新冠肺炎疫情付出的辛勤劳动。

XZH (huangxz020@gzucm.edu.cn)和YX (yujuanxiong@gzucm.edu.cn)共同承担本文通讯作者的职责。XZH和YX在研究理念和设计上做出了重要贡献。YX和PFK负责起草手稿。WD和WH负责获得伦理批准，收集数据，并确认数据的准确性。ZZL、QZZ和YW进行数据分析和解释。所有作者都同意将最终版本提交给杂志。

没有宣布。

冠状病毒病(COVID-19)大流行

世界卫生组织 2020

2020-05-06

https://www.who.int/emergencies/diseases/novel-coronavirus-2019

国际病毒分类委员会冠状病毒研究组

与严重急性呼吸综合征相关的冠状病毒:对2019-nCoV进行分类并命名为SARS-CoV-2

Nat Microbiol 2020 04 5 4 536 544

10.1038 / s41564 - 020 - 0695 - z

32123347

10.1038 / s41564 - 020 - 0695 - z

PMC7095448

叶

徐

年代

荣

徐

刘

邓

刘

徐

家族聚集性COVID-19无症状携带者的感染传递

感染疾病 2020 05 94 133 138

10.1016 / j.ijid.2020.03.042

32247826

s1201 - 9712 (20) 30174 - 0

PMC7129961

吴

McGoogan

2019冠状病毒病(COVID-19)在中国暴发的特征和重要教训:中国疾病预防控制中心72 314例报告摘要

《美国医学会杂志》 2020 04 07 323 13 1239 1242

10.1001 / jama.2020.2648

32091533

2762130

张

田

年代

卢

程ydF4y2Ba

来自无症状患者的家庭聚集性COVID-19感染

暴击治疗 2020 03 27 24 1 119

10.1186 / s13054 - 020 - 2817 - 7

32220236

10.1186 / s13054 - 020 - 2817 - 7

PMC7100442

关

倪

胡

梁

欧

他

刘

山

Lei

回族

DSC

杜

李

曾

袁

程ydF4y2Ba

唐

王

程ydF4y2Ba

香

李

年代

王

梁

彭

魏

刘

胡

彭

王

刘

程ydF4y2Ba

李

郑

邱

年代

罗

叶

朱

年代

钟

中国新冠肺炎医疗专家组

2019冠状病毒病的临床特征

N英语J医学 2020 04 30. 382 18 1708 1720

10.1056 / NEJMoa2002032

32109013

PMC7092819

李

问

关

吴

王

周

通

任

梁

KSM

刘

EHY

黄

司法院

兴

香

吴

李

程ydF4y2Ba

问

李

刘

赵

刘

米

你

程ydF4y2Ba

金

杨

王

问

周

年代

王

刘

罗

刘

邵

李

道

杨

邓

刘

妈

张

史

林

TTY

吴

高

女朋友

整流罩

杨

梁

通用汽车

冯

新型冠状病毒感染的肺炎在中国武汉的早期传播动态

N英语J医学 2020 03 26 382 13 1199 1207

10.1056 / NEJMoa2001316

31995857

PMC7121484

林惇

纳米

小林

杨

哈亚希

Akhmetzhanov

基于“增大化现实”技术

荣格

年代

元

木下光男

Nishiura

2019年右截断新型冠状病毒感染的潜伏期和其他流行病学特征:对公开病例数据的统计分析

美国临床医学杂志 2020 02 17 9 2 538

10.3390 / jcm9020538

32079150

jcm9020538

PMC7074197

Terpos

Ntanasis-Stathopoulos

我

Elalamy

我

Kastritis

Sergentanis

Politou

米

Psaltopoulou

Gerotziafas

Dimopoulos

妈

COVID-19血液学检查结果和并发症

Am J Hematol 2020 07 95 7 834 847

10.1002 / ajh.25829

32282949

PMC7262337

霁

张

徐

程ydF4y2Ba

杨

赵

程ydF4y2Ba

程

王

唐ydF4y2Ba

刘

秦

预测COVID-19肺炎患者进展风险:CALL评分

临床感染病 2020 09 12 71 6 1393 1399

10.1093 / cid / ciaa414

32271369

5818317

PMC7184473

王

左

刘

张

米

赵

谢

年代

张

程ydF4y2Ba

刘

冠状病毒病-2019患者住院死亡率的临床和实验室预测因素:中国武汉的一项队列研究

临床感染病 2020 11 19 71 16 2079 2088

10.1093 / cid / ciaa538

32361723

5828281

PMC7197616

令Kamat

是

拉玛钱德朗

Eswaran

古费

育空

降钙素原用于区分病毒性和细菌性肺炎:一项系统综述和荟萃分析

临床感染病 2020 01 16 70 3. 538 542

10.1093 / cid / ciz545

31241140

5523199

Robriquet

Guery

Fourrier

肺凝血功能障碍是急性肺损伤或肺炎治疗研究的新靶点

急救医疗 2006 09 34 9 2510;作者回复2510 2511

10.1097/01. ccm.0000235673.40874.bd

16921333

00003246-200609000-00046

舒尔茨

乔丹

Haitsma

张

Slutsky

作为

肺凝血功能障碍作为急性肺损伤或肺炎治疗研究的新靶点——综述

急救医疗 2006 03 34 3. 871 877

16521285

Ceccato

一个

Panagiotarakou

米

Ranzani

不

Martin-Fernandez

米

Almansa-Mora

Gabarrus

一个

布埃诺

Cilloniz

Liapikou

一个

费雷尔

米

Bermejo-Martin

摩根富林明

托雷斯

一个

淋巴细胞减少作为icu获得性肺炎患者死亡率的预测因子

美国临床医学杂志 2019 06 13 8 6 843

10.3390 / jcm8060843

31200458

jcm8060843

PMC6617552

Handelman

角

香港

钱德拉

房车

哈扎维

啊

李

乔丹

Asadi

eDoctor:机器学习和医学的未来

J实习医生 2018 12 284 6 603 619

10.1111 / joim.12822

30102808

施瓦布

杜蒙特舒特等人

一个

迪茨

鲍尔

年代

COVID-19临床预测模型:系统研究

J医学网络杂志 2020 10 06 22 10 e21439

10.2196/21439

32976111

v22i10e21439

PMC7541040

Menni

巴尔德斯

我

Freidin

Sudre

阮

韩

画了

达

Ganesh

年代

条例

卡多佐

乔丹

El-Sayed穆斯塔法

维斯孔蒂

一个

若

鲍耶

远端控制设备

Mangino

米

Falchi

米

狼

Ourselin

年代

陈

在

史蒂夫

斯佩克特

道明

实时跟踪自我报告的症状，以预测潜在的COVID-19

Nat地中海 2020 07 26 7 1037 1040

10.1038 / s41591 - 020 - 0916 - 2

32393804

10.1038 / s41591 - 020 - 0916 - 2

PMC7751267

Baldassano

Loh

科德

Litt

Issadore

在液体活检中检测疾病特征的机器学习-用户指南

芯片实验室 2018 01 30. 18 3. 395 405

10.1039 / c7lc00955k

29192299

PMC5955608

20.

中国新冠肺炎临床诊疗指南(第七版) 2020 03 04

2020-05-11

中国,北京

中国国家卫生健康委员会

http://kjfy.meetingchina.org/msite/news/show/cn/3337.html

Seabold

年代

Perktold

Statsmodels:使用Python进行计量和统计建模

第九届Python科学会议论文集(SciPy 2010) 2010 07 03

第九届Python科学大会(SciPy 2010)

2010年6月28日至7月3日

奥斯汀,得克萨斯州

92 96

10.25080 /改称- 92 bf1922 - 011

itertools——为高效循环创建迭代器的函数

奥克兰大学计算机科学学院 2020-03-08

https://www.cs.auckland.ac.nz/references/python/3.2.3-docs/library/itertools.html

Pedregosa

Varoquaux

Gramfort

一个

米歇尔

蒂里翁

Grisel

他们批判

米

Prettenhofer

维斯

Dubourg

Vanderplas

斯帕索斯

一个

Cournapeau

Scikit-learn: Python中的机器学习

J马赫学习保留区 2011 12 2825 2830

Logistic回归，scikit-learn 0.24.1

scikit-learn 2020-06-12

https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression

随机树的森林，scikit-learn 0.24.1

scikit-learn 2020-06-12

https://scikit-learn.org/stable/modules/ensemble.html#forests-of-randomized-trees

Breiman

随机森林

马赫学习 2001 10 45 5 32

10.1023 /: 1010933404324

梯度树增强，scikit-learn 0.24.1

scikit-learn 2020-06-12

https://scikit-learn.org/stable/modules/ensemble.html#gradient-boosting

弗里德曼

1999年雷茨讲座。贪婪函数逼近:梯度升压机

安统计 2001 29 5 1189 1232

0.24.1

scikit-learn 2021-02-12

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.feature_importances_

30.

麦当劳

梅德福

巴西

妈

Diercks

考特尼

推导和内部验证多变量预测模型预测急诊患者COVID-19检测结果

新兴医学学院 2020 11 28 1 9

10.1111 / acem.14182

33249683

PMC7753649

姚

张

段

米

谢

锅

彭

黄

张

徐

周

王

使用基于血液和尿液检测的机器学习模型对2019冠状病毒病(COVID-19)患者进行严重程度检测

Front Cell Dev Biol 2020 8 683

10.3389 / fcell.2020.00683

32850809

PMC7411005

龚

欧

邱

杰

程ydF4y2Ba

元

曹

唐ydF4y2Ba

米

徐

郑

史

胡

一种用于早期预测2019年严重冠状病毒病(COVID-19)的工具:一项在中国武汉和广东使用风险nomogram多中心研究

临床感染病 2020 07 28 71 15 833 840

10.1093 / cid / ciaa443

32296824

5820684

PMC7184338

施瓦布

杜蒙特舒特等人

一个

迪茨

鲍尔

年代

COVID-19临床预测模型:系统研究

J医学网络杂志 2020 10 06 22 10 e21439

10.2196/21439

32976111

v22i10e21439

PMC7541040

朱

蔡

风扇

卢

华

黄

高

免疫-炎症参数对评估2019冠状病毒病严重程度的临床价值

感染疾病 2020 06 95 332 339

10.1016 / j.ijid.2020.04.041

32334118

s1201 - 9712 (20) 30257 - 5

PMC7195003

黄

胡

在重症监护病房收治的急性心肌梗死患者中，较低的平均血细胞血红蛋白浓度与较差的预后相关

Ann Transl Med 2016 05 4 10 190

10.21037 / atm.2016.03.42

27294086

atm - 04 - 10 - 190

PMC4885905

曹

吴

程ydF4y2Ba

中国健康检查队列中血清尿酸水平升高与肾功能下降风险增加之间的关系

Int urrol Nephrol 2018 03 50 3. 517 525

10.1007 / s11255 - 017 - 1732 - 6

29094330

10.1007 / s11255 - 017 - 1732 - 6

周

郭

年代

他

左

问

刘

肖

米

风扇

李

COVID-19不同于sars - cov -2阴性社区获得性肺炎

前端细胞感染微生物 2020 10 322

10.3389 / fcimb.2020.00322

32612961

PMC7309449

Viasus

Garcia-Vidal

Simonetti

一个

Manresa

Dorca

Gudiol

Carratala

社区获得性肺炎住院成人血清白蛋白水平的预后价值

J感染 2013 05 66 5 415 423

10.1016 / j.jinf.2012.12.007

23286966

s0163 - 4453 (12) 00388 - x

Deugnier

大卫

Brissot

Mabo

Delamaire

Messner

米

Bourel

米

Legall

司法院

血清α - l聚焦酶:诊断原发性肝癌的新标志物?

肝脏病学 1984 4 5 889 892

10.1002 / hep.1840040516

6207091

S0270913984001385