这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
COVID-19患者的初始症状与社区获得性肺炎(CAP)患者非常相似;根据临床症状和影像学检查很难将COVID-19与CAP区分开来。
我们的研究目的是构建一个有效的模型,以早期识别COVID-19,并将其与CAP区分开来。
回顾性分析61例新冠肺炎患者和60例CAP患者的临床实验室指标(CLIs)。利用各种CLI的随机组合(即CLI组合),使用机器学习算法建立COVID-19与CAP的分类器,包括随机森林分类器(RFC)、逻辑回归分类器和梯度增强分类器(GBC)。通过计算受试者工作特征曲线(AUROC)下的面积和使用测试数据集预测COVID-19的召回率来评估分类器的性能。
用43种CLI组合的三种算法构建的分类器在测试数据集的COVID-19预测中表现出了高性能(召回率>0.9和AUROC >0.85)。在高性能分类器中,几个cli显示出较高的使用率;这些指标包括降钙素原(PCT)、平均红细胞血红蛋白浓度(MCHC)、尿酸、白蛋白、白蛋白与球蛋白比(AGR)、中性粒细胞计数、红细胞计数、单核细胞计数、嗜碱性粒细胞计数和白细胞计数。除了嗜碱性粒细胞计数外,它们也具有较高的特征重要性。PCT、AGR、尿酸、白细胞计数、中性粒细胞计数、嗜碱性粒细胞计数、红细胞计数和MCHC的特征组合(FC)是构建分类器的9个FC中具有代表性的一个,在使用RFC或GBC算法时AUROC均为1.0。替换这些fc中的任何CLI都将导致使用它们构建的分类器的性能显著降低。
仅使用少数特异性CLIs构建的分类器可有效区分新冠肺炎和CAP,有助于临床医生对新冠肺炎患者进行早期隔离和集中管理。
2019年12月初发现的新型冠状病毒(SARS-CoV-2)感染引起的COVID-19已成为全球大流行。截至2020年8月3日,COVID-19已在全球215个国家、地区或领土广泛传播;它已造成1 790多万人感染,并导致68.6万人死亡[
新冠肺炎患者临床实验室指标(CLIs)显示的一些特征谱可作为诊断的辅助线索[
基于各种临床特征、生物标志物和CLIs的机器学习(ML)算法建立的分类器越来越广泛地应用于疾病诊断和风险预测[
检索了2019年12月至2020年3月在中国恭安县人民医院住院并诊断为COVID-19或CAP的患者的电子病历。对每位患者的年龄、性别、入院时的临床症状、病史、流行病学史、计算机断层扫描(CT)成像特征和CLIs信息进行整理,进行回顾性分析。只包括入院时的实验室检查结果。规定所有患者的资料必须保密,这些资料只能用于综合分析。论文中没有提到任何患者的个人信息。本研究获得广东省中医院伦理委员会批准(批准号:ZE2020-049-01),由于研究的回顾性性质,放弃知情同意。
对COVID-19进行诊断和临床分型
所有CLIs的描述性分析在组间或子组间进行。组间或子组间的差异用
缺失值比大于20%的cli被排除。仅选择两组间有显著差异的CLIs,并使用该方法生成1,807,780个非重复随机fc,包括1到8个CLIs
Scikit-learn是一个Python模块,集成了广泛的最先进的ML算法,用于中等规模的有监督和无监督问题[
在本研究中,使用训练数据集在scikit-learn模块中分别使用LR分类器、RFC和GBC构建分类器。模型参数设置保持默认值,除了
CAP组与COVID-19组在年龄和性别上无显著差异(见
COVID-19患者与社区获得性肺炎(CAP)患者的基线信息比较。
基线特征 | CAP患者(n=60) | COVID-19患者(n=61) |
|
|
性别(男性),n (%) | 33 (55) | 40 (66) | 低位 | |
年龄(年),平均值(SD) | 55.72 (18.10) | 50.23 (16.95) | .09点 | |
住院天数,中位数(IQR) | 9 (7 - 12) | 21日(13 26) | <措施 | |
|
|
|
|
|
|
高血压 | 14 (23) | 16 (26) | 点 |
|
糖尿病 | 2 (3) | 6 (10) | 低位 |
|
肝脏疾病 | 2 (3) | 3 (5) | 获得 |
|
心脏病 | 3 (5) | 5 (8) | 开市 |
|
接触史 | 不清楚 | 54 (89) | N/A一个 |
|
家族聚集性感染b | 不清楚 | 22 (36) | N/A |
|
|
|
|
|
|
发热 | 36 (60) | 43 (70) | 点 |
|
咳嗽 | 44 (73) | 39 (64) | .33 |
|
肌痛 | 4 (7) | 7 (11) | 53 |
|
食欲不振 | 5 (8) | 11 (18) | 只要 |
|
乏力 | 33 (55) | 24 (39) | .10 |
从出现症状到入院天数,中位数(IQR) | 没有记录的 | 3 (1 - 7) | N/A | |
|
|
|
|
|
|
片状高密度不透明度 | 11 (18) | 25 (41) | .009 |
|
毛玻璃样阴影 | 4 (7) | 9 (15) | 。 |
|
纤维化病变 | 6 (10) | 3 (5) | 收 |
|
斑片状高密度不透明度和毛玻璃不透明度 | 0 (0) | 7 (11) | . 01 |
死亡病例,n (%) | 0 (0) | 3 (5) | N/A |
一个N/A:不适用;组无法进行比较,因为没有CAP组的值。
b与家庭成员或亲属聚集后感染2例以上。
尽管大多数CLIs在CAP和COVID-19中有相似的变化趋势,但变化的程度不同。在超过60个评估的CLIs中,两组间有25个CLIs有显著差异(见
社区获得性肺炎(CAP)与COVID-19患者临床实验室指标的差异
CLI | CAP患者(n=60) | COVID-19患者(n=61) |
|
||
|
n (%) | 意思是(SD) | n (%) | 意思是(SD) |
|
原降钙素(ng / mL) | 43 (72) | 0.629 (0.838) | 55 (90) | 0.134 (0.184) | <措施 |
单胺氧化酶B (U/L) | 35 (58) | 4.569 (1.748) | 53 (87) | 3.538 (1.592) | 措施 |
肌红蛋白(ng / mL) | 14 (23) | 39.179 (29.421) | 23日(38) | 65.794 (87.039) | .04点 |
微c反应蛋白(mg/L) | 41 (68) | 63.943 (64.530) | 13 (21) | 22.568 (29.577) | 04 |
凝血酶原时间(秒) | 30 (50) | 12.780 (0.873) | 53 (87) | 12.460 (1.107) | .04点 |
凝血酶时间(秒) | 30 (50) | 15.123 (1.565) | 53 (87) | 14.655 (1.422) | .049 |
白蛋白(g / L) | 53 (88) | 35.508 (5.929) | 54 (89) | 37.831 (6.169) | .04点 |
白蛋白与球蛋白的比例 | 53 (88) | 1.211 (0.295) | 54 (89) | 1.378 (0.482) | .047 |
α-L-聚焦酶(U/L) | 35 (58) | 17.709 (5.167) | 50 (82) | 22.106 (5.698) | <措施 |
尿酸(μmol/L) | 44 (73) | 284.193 (118.608) | 54 (89) | 325.261 (92.914) | .007 |
钾(更易/ L) | 54 (90) | 3.900 (0.462) | 55 (90) | 4.021 (0.392) | 03 |
白细胞计数细胞(×109/ L) | 58 (97) | 8.858 (5.576) | 56 (92) | 5.293 (2.047) | <措施 |
中性粒细胞(%) | 57 (95) | 72.958 (15.544) | 56 (92) | 66.661 (14.013) | .007 |
淋巴细胞(%) | 56 (93) | 18.646 (13.416) | 56 (92) | 24.014 (11.175) | .002 |
中性粒细胞计数(×109/ L) | 56 (93) | 6.797 (5.525) | 56 (92) | 3.649 (1.949) | <措施 |
单核细胞计数(×109/ L) | 55 (92) | 0.565 (0.337) | 56 (92) | 0.404 (0.194) | .009 |
嗜酸性粒细胞计数(×109/ L) | 55 (92) | 0.111 (0.213) | 56 (92) | 0.053 (0.072) | 03 |
嗜碱性粒细胞计数(×109/ L) | 55 (92) | 0.021 (0.013) | 56 (92) | 0.015 (0.013) | .002 |
红细胞计数(×1012/ L) | 56 (93) | 4.028 (0.647) | 56 (92) | 4.284 (0.570) | .008 |
血红蛋白浓度(g/L) | 55 (92) | 120.800 (17.326) | 56 (92) | 130.143 (16.888) | .005 |
红细胞压积(L/L) | 55 (92) | 0.371 (0.052) | 56 (92) | 0.389 (0.049) | .04点 |
平均红细胞体积(fL) | 55 (92) | 93.255 (6.662) | 56 (92) | 91.241 (6.501) | . 01 |
平均血细胞血红蛋白浓度(g/L) | 55 (92) | 325.473 (8.360) | 56 (92) | 334.482 (13.559) | <措施 |
红细胞分布宽度-标准差(fL) | 55 (92) | 41.476 (2.573) | 56 (92) | 41.141 (4.082) | . 01 |
新冠肺炎与社区获得性肺炎(CAP)临床实验室指标(CLIs)血浆水平差异的统计学分布统计分布采用盒须图表示。方框内的水平线表示中值。在方框下方和上方延伸的竖线表示5%-95%的百分位值。y轴上的刻度表示CAP组中CLI的第5、25、50、75和95个百分位的值。三角形代表实验室指标正常参考范围的上下限。AFU: α-L-聚焦酶;AGR:白蛋白与球蛋白的比值;铝青铜:白蛋白;BASOC:嗜碱性粒细胞计数; EOC: eosinophil count; HGB: hemoglobin concentration; K: potassium; LYM: lymphocyte; MAO-B: monoaminoxidase B; MCHC: mean corpuscular hemoglobin concentration; mCRP: micro–C-reactive protein; MCV: mean (red blood cell) corpuscular volume; MOC: monocyte count; NEUT: neutrophil ratio; NEUTC: neutrophil count; PCT: procalcitonin; PCV: packed-cell volume (hematocrit); PT: prothrombin time; RBC: red blood cell count; RDW-SD: red blood cell distribution width–standard deviation; TT: thrombin time; UA: uric acid; WBC: white blood cell count.
比较COVID19-COM和COVID19-SV亚组,26个CLIs表现出显著差异(见
在CAP、COVID19-COM和COVID19-SV患者中观察到α-L-聚焦酶(AFU)、肌红蛋白、尿酸和MCHC依次升高,凝血酶时间、单核细胞计数、嗜酸性粒细胞计数、红细胞MCV和RDW-SD依次降低,表明这些CLIs可用于区分CAP和COVID-19,并提示COVID-19严重进展的可能性
COVID-19普通型与重症患者临床实验室指标的差异。
综合领先指标 | 普通类型COVID-19患者(n=50) | 重症COVID-19患者(n=11) |
|
||
|
n (%) | 意思是(SD) | n (%) | 意思是(SD) |
|
原降钙素(ng / mL) | 44 (88) | 0.112 (0.170) | 11 (100) | 0.224 (0.217) | . 01 |
n端前b型利钠肽(pg/mL) | 29 (58) | 366.053 (549.429) | 11 (100) | 534.782 (398.067) | 03 |
超敏c反应蛋白(mg/L) | 41 (82) | 23.332 (34.483) | 11 (100) | 72.458 (60.805) | .002 |
乳酸脱氢酶(U/L) | 26 (52) | 214.896 (73.319) | 8 (73) | 314.750 (118.755) | 02 |
肺动脉栓塞(毫克/升) | 42 (84) | 0.834 (1.115) | 11 (100) | 5.133 (10.399) | .005 |
肌红蛋白(ng / mL) | 16 (32) | 49.221 (60.505) | 7 (64) | 103.674 (127.354) | 02 |
心肌肌钙蛋白(ng/mL) | 16 (32) | 0.011 (0.003) | 7 (64) | 0.033 (0.041) | 02 |
肌酸激酶(U/L) | 27 (54) | 81.296 (47.153) | 8 (73) | 202.125 (195.052) | 02 |
纤维蛋白原含量(mg/dL) | 42 (84) | 411.905 (104.363) | 11 (100) | 467.455 (76.500) | 03 |
天冬氨酸氨基转移酶(U/L) | 46 (92) | 29.413 (15.756) | 10 (91) | 45.600 (18.969) | 04 |
γ-谷氨酰转肽酶(U/L) | 44 (88) | 46.046 (41.609) | 10 (91) | 80.000 (44.229) | .007 |
白蛋白(g / L) | 44 (88) | 38.602 (6.267) | 10 (91) | 34.440 (4.558) | 02 |
白蛋白与球蛋白的比例 | 44 (88) | 1.436 (0.507) | 10 (91) | 1.120 (0.230) | 02 |
间接胆红素(μmol/L) | 44 (88) | 9.482 (3.841) | 10 (91) | 7.960 (4.336) | .048 |
前白蛋白(毫克/升) | 41 (82) | 180.171 (83.374) | 9 (82) | 125.556 (68.182) | 03 |
β2-microglobulin(毫克/升) | 41 (82) | 1.978 (0.430) | 9 (82) | 2.528 (1.015) | . 01 |
二氧化碳结合力(mmol/L) | 41 (82) | 25.420 (2.537) | 9 (82) | 22.733 (2.018) | .002 |
钾(更易/ L) | 44 (88) | 4.057 (0.414) | 11 (100) | 3.876 (0.251) | .04点 |
红细胞沉降率(mm/h) | 30 (60) | 55.433 (41.639) | 7 (64) | 87.000 (35.081) | 02 |
中性粒细胞(%) | 45 (90) | 64.496 (13.286) | 11 (100) | 75.519 (14.001) | 02 |
淋巴细胞(%) | 45 (90) | 25.711 (10.932) | 11 (100) | 17.073 (9.750) | . 01 |
嗜酸性粒细胞(%) | 45 (90) | 1.236 (1.388) | 11 (100) | 0.391 (1.038) | .009 |
嗜酸性粒细胞计数(×109/ L) | 45 (90) | 0.062 (0.076) | 11 (100) | 0.014 (0.039) | .003 |
淋巴细胞计数(×109/ L) | 45 (90) | 1.255 (0.558) | 11 (100) | 0.835 (0.383) | .008 |
红细胞压积(L/L) | 45 (90) | 0.395 (0.050) | 11 (100) | 0.368 (0.036) | 03 |
红细胞分布宽度-变异系数(%) | 45 (90) | 12.658 (1.171) | 11 (100) | 12.873 (0.781) | 03 |
分类器的性能随着fc中cli的数量从1个增加到8个而逐渐提高。然而,当fc中的cli数量达到8个时,由这些fc构建的分类器的性能不再有显著提高。使用8个cli组合的fc构造的LR分类器算法的性能甚至略低于使用7个cli组合的fc构造的LR分类器算法。根据召回率,共确定43个fc,包括5个7-CLI组合和38个8-CLI组合。用LR分类器、RFC和GBC算法构造的分类器的auroc大于0.85(参见
用不同临床实验室指标(CLIs)的不同特征组合(fc)构建的COVID-19 vs社区获得性肺炎(CAP)分类器的受试者工作特征曲线(AUROC)下面积和精确回忆曲线。在每个图像的顶部是CLI组合,用于使用三种不同的分类算法构造分类器。AFU: α-L-聚焦酶;AGR:白蛋白与球蛋白的比值;铝青铜:白蛋白;BASOC:嗜碱性粒细胞计数;EOC:嗜酸性粒细胞计数;LYM:淋巴细胞;MCHC:平均红细胞血红蛋白浓度;MCV:红细胞平均体积; MOC: monocyte count; NEUTC: neutrophil count; PCT: procalcitonin; RBC: red blood cell count; UA: uric acid; WBC: white blood cell count.
不同CLI在分类器中的重要性差别很大,而相同CLI在不同fc构造的分类器中的重要性差别很大(参见
在高性能COVID-19与社区获得性肺炎(CAP)分类器中,每个临床实验室指标(CLI)的使用率和特征重要性。(A) 7-CLI组合构建的高性能分类器(hpc)中每个CLI的平均特征重要性。(B) 8-CLI组合构建的hpc中每个CLI的平均特征重要性。直方图用均值(SD)表示。带有阴影背景的数字代表CLI特性重要性的最大值和最小值。用三角形符号表示的数字表示CLI在所有分类器中的平均特征重要性。用圆圈表示的数字表示CLI在HPC中的使用率。括号中的数字表示有多少CLI组合能够构建包含CLI的hpc。AFU: α-L-聚焦酶;AGR:白蛋白与球蛋白的比值; ALB: albumin; BASOC: basophil count; EOC: eosinophil count; FC: feature combination; HGB: hemoglobin concentration; K: potassium; LYM: lymphocyte; MCHC: mean corpuscular hemoglobin concentration; MCV: mean (red blood cell) corpuscular volume; MOC: monocyte count; NEUT: neutrophil ratio; NEUTC: neutrophil count; PCT: procalcitonin; PCV: packed-cell volume (hematocrit); RBC: red blood cell count; RDW-SD: red blood cell distribution width–standard deviation; UA: uric acid; WBC: white blood cell count.
本研究的主要亮点是,仅需要少数常见的CLIs就可以建立准确区分COVID-19和CAP的分类器模型,而hpc只能通过组合多个特定的CLIs来构建。在具有1 ~ 8个CLIs的近200万个fc中,只有43个fc可用于构建召回率大于0.9、AUROC大于0.85的hpc,以区分COVID-19和CAP。
我们已经建立了许多仅由CLIs组成的fc的COVID-19与CAP的hpc,但几乎没有关于区分COVID-19与CAP的类似研究结果报道。然而,许多研究使用CLIs构建ML模型来帮助COVID-19诊断。这些模型的预测性能各不相同:预测COVID-19的准确性在0.8至0.96之间[
如前所述,许多炎症因子,包括IL-6和白细胞介素-10 (IL-10),与COVID-19密切相关,具有诊断价值,但本研究患者中均未检测到IL-6和IL-10。门尼等人[
在43个fc中,40个含有PCT和MCHC。PCT在各分类器中的特征重要性非常高,提示PCT可能是一种很好的血液标记物,可以有效地区分COVID-19和CAP。PCT是下呼吸道细菌和其他感染的标记物之一。美国食品和药物管理局批准基于血清PCT水平对疑似下呼吸道感染的抗生素治疗的开始和整个疗程进行监测[
COVID-19与帽最高的分类器性能还涉及PCT、MCHC,尿酸,白蛋白,中性粒细胞计数,单核细胞计数,嗜碱细胞计数、红细胞计数、白细胞计数,提出这些综合领先指标的重要性区分COVID-19帽。很少有研究报道的变化趋势MCHC COVID-19患者或帽,但这项研究的结果表明,MCHC减少两组和帽组显著低于COVID-19组。MCHC下降的原因可能与炎症引起的铁的减少密切相关[
PCT和AFU在包含PCT或AFU的fc构建的hpc中贡献了较高的特征重要性,但同时包含PCT和AFU的fc构建的分类器的性能显著下降。这一结果表明,某些个体协同变化的CLIs之间存在内在依赖性,可用于构建hpc。clii之间的内在关系非常复杂,难以解构。因此,以下方法可能是有效的:随机选择不同的CLIs构建具有不同分类算法的分类器,然后评估每个分类器的性能,最后发现具有特定CLIs的fc,可用于准确区分COVID-19和CAP。
COVID-19和CAP患者有各自的特异性CLIs,与CAP HPCs相比,一些由7 - 8个特异性CLIs组成的fc可构建COVID-19。CLIs在HPCs中的使用率和特征重要性表明,PCT、MCHC、尿酸、白蛋白、AGR、中性粒细胞计数、红细胞计数、单核细胞计数和白细胞计数是区分新冠肺炎和CAP最重要的指标。
COVID-19 - com(轻、普通型患者亚组)与covid - sv(重、危重型患者亚组)临床实验室指标(CLIs)血浆水平差异显著的统计学分布。统计分布采用盒须图表示。方框内的水平线表示中值。在方框下方和上方延伸的竖线表示5%-95%的百分位值。y轴上的刻度代表了COVID19-COM子组中CLI的第5、25、50、75和95个百分位值。三角形代表实验室指标正常参考范围的上下限。y轴也表示covid - sv子组的CLI中位数。AST:天冬氨酸氨基转移酶;CO2CP:二氧化碳结合能力;ESR:红细胞沉降率; γ-GGT: transglutaminase transpeptidase gamma; FIB: fibrinogen content; LDH: lactate dehydrogenase; LYM: lymphocyte; LYMPH: lymphocyte count; mCRP: micro–C-reactive protein; MYO: myoglobin; NEUT: neutrophil ratio; PA: prealbumin.
社区获得性肺炎(CAP)、COVID-19 - com (COVID-19轻、普通型亚组)、covid - sv (COVID-19重、危重型亚组)血浆临床实验室指标(CLIs)水平的统计分布。统计分布采用盒须图表示。方框内的水平线表示中值。在方框下方和上方延伸的竖线表示5%-95%的百分位值。y轴上的刻度表示CAP组中CLI的第5、25、50、75和95个百分位值。三角形代表实验室指标正常参考范围的上下限。AFU: α-L-聚焦酶;EOC:嗜酸性粒细胞计数;MCHC:平均红细胞血红蛋白浓度;MCV:红细胞平均体积; MOC: monocyte count; MYO: myoglobin; RDW-SD: red blood cell distribution width–standard deviation; TT: thrombin time; UA: uric acid.
临床实验室指标(CLI)组合以及由这些CLI组合构建的不同机器学习算法的分类器超参数。
α- l - focusidase
白蛋白与球蛋白的比例
接收器工作特性曲线下的面积
社区获得性肺炎
临床实验室指标
COVID-19患者分为轻症和普通型亚组
新冠肺炎重、危重型亚群
c反应蛋白
计算机断层扫描
功能组合
梯度升压分级机
高性能的分类器
白细胞介素- 6
白细胞介素- 10”
乳酸脱氢酶
逻辑回归
平均红细胞血红蛋白浓度
micro-C-reactive蛋白质
平均血细胞体积
机器学习
原降钙素
积层电池体积
凝血酶原时间
红细胞
红细胞分布宽度-标准差
随机森林分类器
白细胞
非常感谢广州医科大学第二附属医院刘本荣副教授在数据分析方面的指导。我们也非常感谢恭安县人民医院的医护人员为防控新冠肺炎疫情付出的辛勤劳动。
XZH (huangxz020@gzucm.edu.cn)和YX (yujuanxiong@gzucm.edu.cn)共同承担本文通讯作者的职责。XZH和YX在研究理念和设计上做出了重要贡献。YX和PFK负责起草手稿。WD和WH负责获得伦理批准,收集数据,并确认数据的准确性。ZZL、QZZ和YW进行数据分析和解释。所有作者都同意将最终版本提交给杂志。
没有宣布。