这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,但必须适当引用首次发表在《JMIR公共卫生与监测》上的原文。必须包括完整的书目信息,https://publichealth.www.mybigtv.com上的原始出版物链接,以及版权和许可信息。gydF4y2Ba
COVID-19大流行给医疗机构和研究人员带来了前所未有的全球卫生保健挑战。识别不同的COVID-19亚表型——根据临床特征将患者人群划分为更有意义的亚组——及其严重性特征可能有助于临床医生在临床过程、疫苗接种过程、研究工作、监测系统和有限资源分配方面的工作。gydF4y2Ba
我们的目的是基于入院前容易获得的表型数据,如先前存在的共病、生活方式习惯和人口统计学特征,发现年龄-性别无偏见的COVID-19患者亚表型,通过描述其严重程度模式(包括预后、重症监护病房(ICU)和致病结局),研究发现的亚组的潜在早期严重程度分层能力。gydF4y2Ba
我们使用了墨西哥政府的COVID-19开放数据,包括截至2020年9月的778,692例基于SARS-CoV-2人群的患者水平数据。我们应用了一种元聚类技术,它包括一种结合维数降维(即主成分分析和多重对应分析)的两阶段聚类方法和使用带有欧几里得平方距离的沃德最小方差方法的分层聚类。gydF4y2Ba
在独立的年龄-性别聚类分析中,56个聚类支持11个临床可区分元聚类(MCs)。MCs 1-3显示了较高的恢复率(90.27%-95.22%),包括所有年龄的健康患者、有共病的儿童和优先接受医疗资源(即更高的住院率、插管率和ICU住院率),与其他有类似情况的成人亚组和年轻肥胖吸烟者相比。MCs 4-5恢复率中等(81.30% ~ 82.81%),包括所有年龄的高血压或糖尿病患者和合并肺炎、高血压、糖尿病的肥胖患者。MCs 6-11的治愈率较低(53.96% ~ 66.94%),包括共病率高的免疫抑制患者、生存时间和恢复概率较差的慢性肾脏疾病患者、伴有慢性阻塞性肺疾病的老年吸烟者、伴有重度糖尿病和高血压的老年吸烟者、伴有慢性阻塞性肺疾病和轻度心血管疾病的老年肥胖吸烟者。小组的结果与最近专门针对年龄-性别分组的文献一致。墨西哥各州和几种类型的临床机构在严重程度方面表现出相关的异质性,这可能与社会经济或健康不平等有关。gydF4y2Ba
提出的两阶段聚类分析方法产生了样本的鉴别特征和年龄和性别的可解释性。这些结果可能有助于了解临床患者及其分层,以便在获得进一步检测和实验室结果之前,甚至在无法获得额外检测的地区进行自动化早期分诊,或帮助决定弱势亚群体之间的资源分配,例如优先接种疫苗或治疗。gydF4y2Ba
2020年1月中旬,墨西哥报告了首批COVID-19病例。2020年3月初,世界卫生组织(世卫组织)宣布由SARS-CoV-2引起的疾病为大流行[gydF4y2Ba
COVID-19大流行给医疗机构和研究人员带来了前所未有的全球卫生保健挑战。他们一直在努力描述具体的COVID-19风险因素相关性和严重程度结果,而针对COVID-19患者的个性化治疗方案仍在研究中[gydF4y2Ba
几项研究表明可能的COVID-19亚表型,主要是在特定的共病中,如肺部疾病或糖尿病[gydF4y2Ba
无监督ML以其在查找数据模式方面的有用性而闻名[gydF4y2Ba
通过使用超过70万例患者级病例的基于人群的队列,这可能是迄今为止关于冠状病毒患者级病例的最大聚类分析。其他研究提出了聚集人口数据的无监督ML方法[gydF4y2Ba
在入院时进行准确的分诊,特别是在门诊环境中,通常是具有挑战性的,这在很大程度上取决于医生可获得的患者信息。因此,这项工作旨在描述年龄-性别无偏见的COVID-19亚表型,这可能为分诊系统建立目标群体,以帮助临床医生有效分配有限的资源,并优先在大流行期间感染时更脆弱的亚群体中接种疫苗。由于这些亚表型基于容易获得的数据,如先前的疾病和生活方式习惯,而不是COVID-19相关症状(如发烧和恶心)、生命体征或生物标志物,这些症状在COVID-19感染的最初几天通常无法获得,或由于资源有限而难以获得,因此我们的工作可以支持在进一步检测和实验室结果之前进行早期分诊,甚至在无法获得此类检测的领域提供指导。gydF4y2Ba
我们使用了墨西哥卫生部流行病学总局收集的数据集,这是一个开源数据集,包括来自COVID-19疑似病例(在全国各地的公立和私立医院)的每日更新数据,其中阳性病例经SARS-CoV-2实验室检测确认[gydF4y2Ba
我们进行了一系列数据质量评估,如检测缺失数据和异常值、日期间不一致、错误数据和不可信数据,我们还使用时间可变性统计方法评估了潜在的时间偏差[gydF4y2Ba
2020年1月13日- 2020年9月30日墨西哥数据集预处理流程图gydF4y2Ba
我们得出了6个与潜在患者的严重程度相关的结果变量。第一个是从死亡记录之日起的患者结局(死亡与否)。第二个是从症状出现到入院的天数。第三,我们将描述症状出现后15天和30天总生存率的2个变量进行了分类。最后,我们对两个变量进行了分类,这两个变量也描述了症状出现后15天和30天的总生存率,但仅适用于死亡患者。gydF4y2Ba
研究案例数据集中包含的变量列表;它们最初是用西班牙语编写的,由作者翻译成英语。第4条gydF4y2Ba
变量gydF4y2Ba | 描述gydF4y2Ba | 类型(值/格式)gydF4y2Ba |
性gydF4y2Ba | 人的性别(在墨西哥政府公布的元数据中定义)gydF4y2Ba | 离散(男性,女性)gydF4y2Ba |
年龄gydF4y2Ba | 年龄以入院时的年数计算gydF4y2Ba | 数值的整数gydF4y2Ba |
怀孕了gydF4y2Ba | 是否怀孕gydF4y2Ba | 离散(是,否)gydF4y2Ba |
肥胖gydF4y2Ba | 肥胖的存在gydF4y2Ba | 离散(是,否)gydF4y2Ba |
烟gydF4y2Ba | 有吸烟习惯gydF4y2Ba | 离散(是,否)gydF4y2Ba |
肺炎gydF4y2Ba | 有无肺炎gydF4y2Ba | 离散(是,否)gydF4y2Ba |
糖尿病gydF4y2Ba | 是否患有糖尿病gydF4y2Ba | 离散(是,否)gydF4y2Ba |
慢性阻塞性肺病gydF4y2Ba一个gydF4y2Ba | 存在慢性阻塞性肺疾病gydF4y2Ba | 离散(是,否)gydF4y2Ba |
哮喘gydF4y2Ba | 存在哮喘gydF4y2Ba | 离散(是,否)gydF4y2Ba |
INMUSUPRgydF4y2BabgydF4y2Ba | 存在免疫抑制gydF4y2Ba | 离散(是,否)gydF4y2Ba |
高血压gydF4y2Ba | 存在高血压gydF4y2Ba | 离散(是,否)gydF4y2Ba |
慢性肾病gydF4y2BacgydF4y2Ba | 存在慢性肾脏疾病gydF4y2Ba | 离散(是,否)gydF4y2Ba |
心血管gydF4y2Ba | 存在心血管疾病gydF4y2Ba | 离散(是,否)gydF4y2Ba |
其他疾病gydF4y2Ba | 存在其他疾病gydF4y2Ba | 离散(是,否)gydF4y2Ba |
住院gydF4y2Ba | 病人是在医院还是在救护车gydF4y2Ba | 离散(是,否)gydF4y2Ba |
气管插管gydF4y2Ba | 病人是否插管gydF4y2Ba | 离散(是,否)gydF4y2Ba |
加护病房gydF4y2BadgydF4y2Ba | 病人是否曾住过重症监护室gydF4y2Ba | 离散(是,否)gydF4y2Ba |
其他病例接触者gydF4y2Ba | 是否检测到患者与其他冠状病毒病例有接触gydF4y2Ba | 离散(是,否)gydF4y2Ba |
Result_labgydF4y2Ba | 冠状病毒检测结果gydF4y2Ba | 离散(SARS-CoV-2阳性、非阳性、待处理、结果不充分、未应用)gydF4y2Ba |
Admission_dategydF4y2Ba | 病人进入护理单元的日期(不一定住院)gydF4y2Ba | 日期(dd / mm / yyyy)gydF4y2Ba |
Symptoms_dategydF4y2Ba | 症状出现的日期gydF4y2Ba | 日期(dd / mm / yyyy)gydF4y2Ba |
Death_dategydF4y2Ba | 死亡日期gydF4y2Ba | 日期(dd / mm / yyyy)gydF4y2Ba |
Entity_umgydF4y2Ba | 病人接受医疗单位治疗的状态gydF4y2Ba | 离散gydF4y2Ba |
TCIgydF4y2BaegydF4y2Ba | 国家卫生系统中提供医疗服务的机构类型gydF4y2Ba | 离散gydF4y2BafgydF4y2Ba |
结果gydF4y2BaggydF4y2Ba | 患者死亡结果(我们用它来计算死亡率和恢复率)gydF4y2Ba | 离散(已故、非已故)gydF4y2Ba |
生存> 15天gydF4y2BaggydF4y2Ba | 患者从出现症状后是否存活超过15天gydF4y2Ba | 离散(是,否)gydF4y2Ba |
生存> 30天gydF4y2BaggydF4y2Ba | 患者在出现症状后是否存活30天以上gydF4y2Ba | 离散(是,否)gydF4y2Ba |
生存> 15 days_deceasedgydF4y2BaggydF4y2Ba | 死亡患者从症状出现后是否存活超过15天gydF4y2Ba | 离散(是,否)gydF4y2Ba |
生存> 30 days_deceasedgydF4y2BaggydF4y2Ba | 死亡患者在出现症状后是否存活30天以上gydF4y2Ba | 离散(是,否)gydF4y2Ba |
从症状到住院的日子gydF4y2BaggydF4y2Ba | 从出现症状到住院的天数gydF4y2Ba | 数值的整数gydF4y2Ba |
一个gydF4y2Ba慢性阻塞性肺病:慢性阻塞性肺病。gydF4y2Ba
bgydF4y2BaINMUSUPR,免疫抑制。gydF4y2Ba
cgydF4y2BaCKD:慢性肾脏疾病。gydF4y2Ba
dgydF4y2BaICU,重症监护室。gydF4y2Ba
egydF4y2BaTCI:临床机构类型。gydF4y2Ba
fgydF4y2BaIMSS(墨西哥社会保障学院)、SSA(卫生秘书处)、ISSSTE(国家工作人员社会保障和服务学院)、PRIVATE、PEMEX(墨西哥石油学院)、State、SEMAR(海军秘书处)、SEDENA(国防秘书处)、IMSS- bienestar、UNIVERSITARY、市政、红十字会、DIF(国家综合家庭发展系统)。gydF4y2Ba
ggydF4y2Ba通过合并或转换原始数据集中的其他变量而创建的变量。gydF4y2Ba
我们采用了两阶段子群发现方法(gydF4y2Ba
研究方法流程图。黄土:局部估计散点图平滑;MCA:多重对应分析;主成分分析:主成分分析。gydF4y2Ba
在第一阶段,我们使用了整个数据集778,692名患者——因为无监督ML不需要将数据分割为训练和测试数据[gydF4y2Ba
在第二阶段,在提供更广泛视角的人群描述中,我们再次通过年龄-性别聚类结果获得的PCA得分进行分层聚类,并将其共病和习惯比率作为输入。然后,我们通过表格对合成元簇(MCs)的特征进行了量化,并将这些量化的特征总结为一个定性表格,以帮助解释合成元簇的主要特征。gydF4y2Ba
对于每个子组分析,我们从2到12个聚类进行聚类分析。采用剪影系数[gydF4y2Ba
最后,我们进行了源可变性评估[gydF4y2Ba
使用RStudio(3.6版)和Python(3.8版)进行数据处理和分析。使用ehrtemporalvariation [gydF4y2Ba
在对分层聚类结果进行评估后,我们为每个特定年龄-性别组选择以下聚类数量(k): <18-男性:k=5;< 18-Female: k = 4;18-49-Male: k = 7;18-49-Female: k = 7;50 - 64男:k = 9;50 - 64女:k = 8;> 64 -男:k = 8;> 64 -女:k = 8。这导致56个年龄-性别集群。第8条gydF4y2Ba
主成分分析揭示了在两性中代表不同年龄的聚类中明显的模式和特征。年轻人容易患哮喘和习惯性吸烟,而老年人则容易患许多合并症,如高血压、糖尿病、肥胖、慢性阻塞性肺病、肺炎和慢性肾病。研究结果还表明,肥胖和习惯性吸烟——两者都是正相关的——与免疫抑制和其他疾病是明显分离的,而免疫抑制和其他疾病都是正相关的。gydF4y2Ba
黄土模型显示,儿童在出现症状和住院之间的天数更短,重症监护病房(ICU)住院、插管和住院的比率高于具有类似条件的成人(gydF4y2Ba
检验PCA和黄土模型之间的关系显示CKD与死亡患者较短的生存时间和插管率的增加显著相关(gydF4y2Ba
56个年龄-性别群的主成分分析(PCA)、元聚类结果和7个严重程度范围的局部估计散点平滑(黄土)划分:(A) 56个年龄-性别分层群的主成分分析;(B) 56个聚类中定义的11个元聚类(MCs)的散点图;(C)死亡率黄土散点图;(D)重症监护病房(ICU)入院黄土散点图;(E)插管用黄土散点图;(F)死亡患者15天生存的黄土散点图;(G)住院黄土散点图;(H)从症状出现到住院天数的黄土散点图。所有的散点图共享坐标。每个子组用以下缩写表示:[AgeGroup][Sex][ClusterID]。gydF4y2Ba
热图显示了2020年1月13日至2020年9月30日在墨西哥收集的11个元聚类(MCs)中56个年龄性别特定聚类的量化特征。每个簇的大小(n)被分为6个范围。CKD:慢性肾脏疾病;COPD:慢性阻塞性肺疾病;ICU:重症监护室;RR:恢复速率。gydF4y2Ba
MC1在每个年龄性别组中包含2个最健康的聚类,RR非常高(90%)。MC1合并肺炎的大多数死亡患者为老年患者(gydF4y2Ba
年龄、特征和共病的分布,以及人口统计学特征、治疗和流行病学特征的定量描述,基于算术平均值,假设每个年龄-性别聚类都代表其人口;因此,忽略了每个年龄-性别聚类的大小(n)。gydF4y2Ba
特征gydF4y2Ba | 哪gydF4y2Ba | MC2gydF4y2Ba | MC3gydF4y2Ba | MC4gydF4y2Ba | MC5gydF4y2Ba | MC6gydF4y2Ba | MC7gydF4y2Ba | MC8gydF4y2Ba | MC9gydF4y2Ba | MC10gydF4y2Ba | MC11gydF4y2Ba | |
年龄-性别分组(总n=56), ngydF4y2Ba | 8gydF4y2Ba | 6gydF4y2Ba | 8gydF4y2Ba | 8gydF4y2Ba | 3.gydF4y2Ba | 7gydF4y2Ba | 4gydF4y2Ba | 3.gydF4y2Ba | 5gydF4y2Ba | 3.gydF4y2Ba | 1gydF4y2Ba | |
MC患者(总n=778,892), ngydF4y2Ba | 407005年gydF4y2Ba | 13826年gydF4y2Ba | 11日,3537年gydF4y2Ba | 11日,1950年gydF4y2Ba | 42280gydF4y2Ba | 21642gydF4y2Ba | 9239gydF4y2Ba | 9687gydF4y2Ba | 40557gydF4y2Ba | 7777gydF4y2Ba | 1192gydF4y2Ba | |
|
||||||||||||
|
年龄(年),意思是gydF4y2Ba | 43.4gydF4y2Ba | 18gydF4y2Ba | 39.8gydF4y2Ba | 44.8gydF4y2Ba | 46.4gydF4y2Ba | 56.3gydF4y2Ba | 65.3gydF4y2Ba | 68.7gydF4y2Ba | 66.8gydF4y2Ba | 68.2gydF4y2Ba | 76.4gydF4y2Ba |
|
女性,%gydF4y2Ba | 50gydF4y2Ba | 50gydF4y2Ba | 50gydF4y2Ba | 50gydF4y2Ba | 33.33gydF4y2Ba | 42.86gydF4y2Ba | 50gydF4y2Ba | 33.33gydF4y2Ba | 60gydF4y2Ba | 66.67gydF4y2Ba | 0gydF4y2Ba |
|
||||||||||||
|
<18gydF4y2Ba | 25gydF4y2Ba | 66.67gydF4y2Ba | 12.5gydF4y2Ba | 25gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba |
|
18 - 49岁gydF4y2Ba | 25gydF4y2Ba | 33.33gydF4y2Ba | 50gydF4y2Ba | 25gydF4y2Ba | 66.67gydF4y2Ba | 28.57gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba |
|
50 - 64gydF4y2Ba | 25gydF4y2Ba | 0gydF4y2Ba | 37.5gydF4y2Ba | 25gydF4y2Ba | 33.33gydF4y2Ba | 42.86gydF4y2Ba | 50gydF4y2Ba | 33.33gydF4y2Ba | 40gydF4y2Ba | 33.33gydF4y2Ba | 0gydF4y2Ba |
|
> 64gydF4y2Ba | 25gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba | 25gydF4y2Ba | 0gydF4y2Ba | 28.57gydF4y2Ba | 50gydF4y2Ba | 66.67gydF4y2Ba | 60gydF4y2Ba | 66.67gydF4y2Ba | One hundred.gydF4y2Ba |
怀孕(是的),%gydF4y2Ba | 0.49gydF4y2Ba | 1.28gydF4y2Ba | 0.3gydF4y2Ba | 0.8gydF4y2Ba | 0.33gydF4y2Ba | 0.26gydF4y2Ba | 0.01gydF4y2Ba | 0gydF4y2Ba | 0.01gydF4y2Ba | 0gydF4y2Ba | 0gydF4y2Ba | |
|
||||||||||||
|
肥胖gydF4y2Ba | 0.44gydF4y2Ba | 11.78gydF4y2Ba | 59.88gydF4y2Ba | 12.01gydF4y2Ba | 75.54gydF4y2Ba | 18.89gydF4y2Ba | 20.15gydF4y2Ba | 19.05gydF4y2Ba | 25.94gydF4y2Ba | 50.51gydF4y2Ba | 23.99gydF4y2Ba |
|
吸烟者gydF4y2Ba | 0gydF4y2Ba | 9.67gydF4y2Ba | 34.09gydF4y2Ba | 0.8gydF4y2Ba | 10.77gydF4y2Ba | 8.1gydF4y2Ba | 4.38gydF4y2Ba | 38.03gydF4y2Ba | 0.22gydF4y2Ba | 42.02gydF4y2Ba | 76.85gydF4y2Ba |
|
||||||||||||
|
糖尿病gydF4y2Ba | 0gydF4y2Ba | 4.42gydF4y2Ba | 4.5gydF4y2Ba | 39.06gydF4y2Ba | 57.14gydF4y2Ba | 35.62gydF4y2Ba | 76.44gydF4y2Ba | 20.45gydF4y2Ba | 95gydF4y2Ba | 61.23gydF4y2Ba | 31.96gydF4y2Ba |
|
慢性阻塞性肺病gydF4y2Ba一个gydF4y2Ba | 0gydF4y2Ba | 4.51gydF4y2Ba | 0gydF4y2Ba | 0.73gydF4y2Ba | 0gydF4y2Ba | 5.1gydF4y2Ba | 2.03gydF4y2Ba | 43.91gydF4y2Ba | 2.36gydF4y2Ba | 37.46gydF4y2Ba | 91.86gydF4y2Ba |
|
哮喘gydF4y2Ba | 0.37gydF4y2Ba | 3.2gydF4y2Ba | 18.17gydF4y2Ba | 1.15gydF4y2Ba | 2.03gydF4y2Ba | 2.69gydF4y2Ba | 0.49gydF4y2Ba | 25.72gydF4y2Ba | 0.08gydF4y2Ba | 19.79gydF4y2Ba | 19.63gydF4y2Ba |
|
INMUSUPRgydF4y2BabgydF4y2Ba | 0gydF4y2Ba | 13.03gydF4y2Ba | 0.1gydF4y2Ba | 1.4gydF4y2Ba | 0gydF4y2Ba | 40.38gydF4y2Ba | 0gydF4y2Ba | 0.91gydF4y2Ba | 0gydF4y2Ba | 0.03gydF4y2Ba | 0gydF4y2Ba |
|
高血压gydF4y2Ba | 0gydF4y2Ba | 9.13gydF4y2Ba | 7.59gydF4y2Ba | 41.15gydF4y2Ba | 68.79gydF4y2Ba | 46.79gydF4y2Ba | 83.71gydF4y2Ba | 34.38gydF4y2Ba | 96.33gydF4y2Ba | 77.86gydF4y2Ba | 52.94gydF4y2Ba |
|
其他疾病gydF4y2Ba | 0gydF4y2Ba | 38.32gydF4y2Ba | 0.3gydF4y2Ba | 1.22gydF4y2Ba | 0gydF4y2Ba | 48.63gydF4y2Ba | 1.85gydF4y2Ba | 1.73gydF4y2Ba | 0gydF4y2Ba | 0.82gydF4y2Ba | 0gydF4y2Ba |
|
心血管gydF4y2Ba | 0gydF4y2Ba | 17.52gydF4y2Ba | 0.1gydF4y2Ba | 2.46gydF4y2Ba | 2.17gydF4y2Ba | 14.25gydF4y2Ba | 21.64gydF4y2Ba | 4.73gydF4y2Ba | 5.52gydF4y2Ba | 26.51gydF4y2Ba | 27.77gydF4y2Ba |
|
慢性肾病gydF4y2BacgydF4y2Ba | 0gydF4y2Ba | 4.27gydF4y2Ba | 0gydF4y2Ba | 3.87gydF4y2Ba | 0.22gydF4y2Ba | 31.84gydF4y2Ba | 81.67gydF4y2Ba | 1.04gydF4y2Ba | 1.92gydF4y2Ba | 1.28gydF4y2Ba | 1.01gydF4y2Ba |
|
||||||||||||
|
住院gydF4y2Ba | 19.87gydF4y2Ba | 46.08gydF4y2Ba | 14.15gydF4y2Ba | 42.22gydF4y2Ba | 44.91gydF4y2Ba | 58.56gydF4y2Ba | 70.72gydF4y2Ba | 57.17gydF4y2Ba | 60.8gydF4y2Ba | 60.11gydF4y2Ba | 70.47gydF4y2Ba |
|
加护病房gydF4y2BadgydF4y2Ba | 1.59gydF4y2Ba | 9.82gydF4y2Ba | 1.23gydF4y2Ba | 4.48gydF4y2Ba | 5.06gydF4y2Ba | 4.01gydF4y2Ba | 4.87gydF4y2Ba | 4.81gydF4y2Ba | 5.56gydF4y2Ba | 5.24gydF4y2Ba | 5.62gydF4y2Ba |
|
气管插管gydF4y2Ba | 3.44gydF4y2Ba | 9.03gydF4y2Ba | 2.18gydF4y2Ba | 7.9gydF4y2Ba | 8.46gydF4y2Ba | 12.12gydF4y2Ba | 13.38gydF4y2Ba | 11.5gydF4y2Ba | 12.13gydF4y2Ba | 12.42gydF4y2Ba | 12.84gydF4y2Ba |
肺炎,%gydF4y2Ba | 12.36gydF4y2Ba | 37gydF4y2Ba | 9.08gydF4y2Ba | 37.18gydF4y2Ba | 41.52gydF4y2Ba | 42.44gydF4y2Ba | 52.14gydF4y2Ba | 43.55gydF4y2Ba | 48.1gydF4y2Ba | 46.8gydF4y2Ba | 53.61gydF4y2Ba | |
复苏,%gydF4y2Ba | 90.27gydF4y2Ba | 91.37gydF4y2Ba | 95.22gydF4y2Ba | 82.81gydF4y2Ba | 81.3gydF4y2Ba | 66.94gydF4y2Ba | 53.96gydF4y2Ba | 66.43gydF4y2Ba | 64.95gydF4y2Ba | 64.42gydF4y2Ba | 55.96gydF4y2Ba | |
存活>15天,%gydF4y2Ba | 93.46gydF4y2Ba | 93.73gydF4y2Ba | 97.01gydF4y2Ba | 88.39gydF4y2Ba | 87.27gydF4y2Ba | 76.34gydF4y2Ba | 65.37gydF4y2Ba | 77.1gydF4y2Ba | 75.26gydF4y2Ba | 75.34gydF4y2Ba | 67.28gydF4y2Ba | |
存活>30天,%gydF4y2Ba | 90.74gydF4y2Ba | 91.8gydF4y2Ba | 95.5gydF4y2Ba | 83.74gydF4y2Ba | 82.14gydF4y2Ba | 68.26gydF4y2Ba | 55.71gydF4y2Ba | 68.2gydF4y2Ba | 66.33gydF4y2Ba | 65.88gydF4y2Ba | 56.96gydF4y2Ba | |
存活>15天(死亡),%gydF4y2Ba | 30.76gydF4y2Ba | 28.64gydF4y2Ba | 36.21gydF4y2Ba | 31.09gydF4y2Ba | 31.59gydF4y2Ba | 28.46gydF4y2Ba | 24.8gydF4y2Ba | 31.7gydF4y2Ba | 29.73gydF4y2Ba | 31.01gydF4y2Ba | 25.71gydF4y2Ba | |
存活>30天(死亡),%gydF4y2Ba | 6.61gydF4y2Ba | 4.64gydF4y2Ba | 5.93gydF4y2Ba | 5.79gydF4y2Ba | 4.52gydF4y2Ba | 4.2gydF4y2Ba | 3.82gydF4y2Ba | 5.26gydF4y2Ba | 4.04gydF4y2Ba | 4.24gydF4y2Ba | 2.29gydF4y2Ba | |
从出现症状到住院的时间(天),平均值gydF4y2Ba | 3.78gydF4y2Ba | 3.2gydF4y2Ba | 4.87gydF4y2Ba | 4.37gydF4y2Ba | 5.21gydF4y2Ba | 4.48gydF4y2Ba | 4.3gydF4y2Ba | 4.85gydF4y2Ba | 4.92gydF4y2Ba | 4.94gydF4y2Ba | 4.82gydF4y2Ba | |
其他病例接触,%gydF4y2Ba | 45.84gydF4y2Ba | 40.23gydF4y2Ba | 51.18gydF4y2Ba | 36.6gydF4y2Ba | 36.04gydF4y2Ba | 27.39gydF4y2Ba | 20.9gydF4y2Ba | 27.88gydF4y2Ba | 27.56gydF4y2Ba | 28gydF4y2Ba | 20.89gydF4y2Ba |
一个gydF4y2Ba慢性阻塞性肺病:慢性阻塞性肺病。gydF4y2Ba
bgydF4y2BaINMUSUPR:免疫抑制。gydF4y2Ba
cgydF4y2BaCKD:慢性肾脏疾病。gydF4y2Ba
dgydF4y2BaICU:重症监护病房。gydF4y2Ba
除了不同严重程度结果的阈值和输入变量类别外,11个结果元集群的主要特征(按恢复程度排序);基于2020年1月13日至2020年9月30日在墨西哥收集的数据。COPD:慢性阻塞性肺疾病;ICU:重症监护室;INMUSUPR:免疫抑制。gydF4y2Ba
MC4包括所有年龄、有健康习惯的个体,但与MC1不同的是,MC4中的大多数患者有高血压(41%)或糖尿病(39%),但并不是同时患有这两种疾病。MC5包括患有肥胖症(75%)、糖尿病(57%)或高血压(69%)的年轻成年人。尽管存在这种差异,MC4和MC5仍然有相似的高rr,约为80%。从MC4开始,所有MCs都有40% - 50%的肺炎发病率,如病例报告所述,这并不排除一些患者在几天后出现肺炎的可能性。值得注意的是,在MC4 ~ MC11中,超过70%的死亡患者被诊断为肺炎。gydF4y2Ba
MC6和MC8-MC10的RRs相似(64% ~ 67%)。MC6包括不肥胖也不吸烟但有糖尿病、高血压、免疫抑制或其他疾病高流行率的老年人。MC8包括习惯性吸烟的老年人,以及高血压(34%)或慢性阻塞性肺病(44%),这两种疾病都与吸烟有关。类似地,MC10包括肥胖(50%)或习惯性吸烟(42%)的老年人,他们也患有慢性阻塞性肺病(37%),但糖尿病(61%)和高血压(78%)的发病率要高得多。MC9包括患有糖尿病(95%)和高血压(96%)的老年人。gydF4y2Ba
MC7和MC11的rr最低(分别为54%和56%)。MC7包括患有常见疾病(糖尿病、高血压和心血管疾病)和CKD的老年人(81%)。CKD作为具有低rr的相似MCs(如MC6或MC9)之间的差异因素而突出。MC11与MC8和MC10相似;主要差异是吸烟(78%,是前者的两倍)和慢性阻塞性肺病(几乎所有患者,91%)的患病率较高,平均年龄大8岁(76岁对68岁)。此外,包括习惯性吸烟的老年肥胖患者(MC8、MC10和MC11)在内的MCs有显著较高的慢性阻塞性肺病和心血管疾病发病率,而与年轻吸烟者(MC3)没有关联。gydF4y2Ba
关于各州的变异性,在每个年龄-性别组中,一半的墨西哥州倾向于较高概率的健康集群,具有较好的rr、较低的住院率、较低的ICU率和较低的插管率(gydF4y2Ba
关于tci的可变性(gydF4y2Ba
使用2020年1月13日至2020年9月30日期间在墨西哥收集的数据,为患者接受治疗或医疗照顾的每个墨西哥州(A) 56个年龄性别特定群集(B) 11个元群集(mc)的概率分布热图。行表示集群,列表示状态,并根据其值的层次集群进行排列。我们比较了每个年龄范围内的集群分布,以避免与共病和习惯的任何相关或联系。gydF4y2Ba
使用2020年1月13日至2020年9月30日在墨西哥收集的数据,绘制每种类型临床机构(TCI)的(A) 56个年龄-性别特异性集群和(B) 11个MCs的概率分布热图。行表示集群,列表示tci,并根据其值的分层集群进行排列。我们比较了每个年龄范围内的集群分布,以避免与共病和习惯的任何相关或联系。国家整体家庭发展系统;墨西哥社会保障研究所;国家工作人员社会保障和服务研究所;PEMEX:墨西哥石油机构;塞德纳:国防秘书处;SEMAR:海军秘书处;卫生秘书处。gydF4y2Ba
先前的文献报道了孤立的危险因素及其与几种疾病严重进展的关系。然而,使用这些信息来改善临床决策是有潜在局限性的。在这项研究中,没有一个单一的临床变量或生活方式习惯足以表征COVID-19的亚表型,这是数据集有许多分类变量时的典型现象。这反映了临床实践的现实:患者通常不会被归为“全好”或“全坏”的亚组,也不可能由单一变量得出这两种患者的结果。然而,当把变量放在一起考虑时,我们的研究在56个合理的年龄-性别集群中发现了11个临床可区分的MCs;这些mc定义的亚表型和年龄-性别分层可能代表不同的疾病机制和结局。gydF4y2Ba
11个MCs中的每一个都显示出临床一致性:根据迄今发表的文献,他们的组结果可以从提出的输入变量中潜在地预测。从结果的角度来看,在1-5组和6-11组之间可以清楚地划出一条分界线。尽管前者的rr较高,后者的rr较低。有几个因素可以解释这些发现,主要是年龄、习惯和共病。由于在输入年龄-性别集群中,所有的mc都是30%-60%的女性,因此仅根据mc很难看出性别和死亡率之间的关联。然而,年龄-性别聚类分析显示,尽管女性患者的病情与男性患者相似,但其预后明显更好。因此,考虑年龄-性别集群和MCs对于更好地揭示COVID-19亚表型的相关详细信息的定性至关重要。gydF4y2Ba
接下来,我们将根据MCs和年龄-性别分簇讨论我们的结果,并将它们与支持文献联系起来,通过相关的危险因素(包括年龄、习惯和共病)以及分簇来源讨论这些分簇的临床一致性。最后,我们根据本研究提出建议,并讨论可能的局限性。gydF4y2Ba
RRs非常高的两组是MC2和MC3,包括儿童和年轻人。年龄可能对这种疾病起到保护作用,原因有二。首先,MC3与所有单年龄组(MCs 6-11)相比,年轻健康组肺炎发病率较低;因此,良好的RR可能归因于SARS-CoV-2引起的轻微疾病。其次,正如MC2(重症儿童)的良好rr所显示的那样,对治疗的反应可能在较年轻时也更好。gydF4y2Ba
此外,在墨西哥,与有类似临床症状的成人相比,儿童(MC2)优先得到医疗照顾。在与墨西哥临床医生讨论后,一种解释似乎是,在早期,由肺部疾病引起的失代偿或恶化在儿童中比在成人中更快,死亡风险更高。在成人中,在插管或进入ICU之前,通常有一些时间来评估患者病情的发展,但对儿童则不是这样。此外,如果除了肺炎之外,这些群体还被定义为慢性肾病和心血管疾病等疾病,那么已经患有这些疾病的儿童可能被认为比老年人有更高的风险或更脆弱。这些结果得到了近期文献的支持;例如,一项来自马德里的小群体研究[gydF4y2Ba
关于年龄和预后之间的关系,MCs 6-11只由预后不良的老年人组成。然而,总生存率不能仅用年龄来解释,还可以用合并症和生活习惯的存在来解释:虽然MC11的死亡率和平均年龄最高,但MC7的RR相似,平均年龄约小10岁,与RR较好的组相似。此外,正如文献中广泛描述的[gydF4y2Ba
值得注意的是,年龄为>64岁的个体年龄-性别组的聚类显示,百岁老人(100岁以上的个体)反复落在结果更好的年龄-性别聚类中。这一事实与经过充分研究的良好健康和低虚弱得分相一致[gydF4y2Ba
肥胖和吸烟作为严重疾病的危险因素的作用是复杂的,因为它们都与许多疾病的发展有关(例如,慢性阻塞性肺病[gydF4y2Ba
这些发现表明,习惯的作用不能单独考虑,而总是与年龄、共病和不健康习惯的持续时间有关。我们的研究结果发现,吸烟是严重COPD和心血管疾病的一个危险因素,主要是在老年患者(MC8、MC10和MC11)中。因此,吸烟者的时间越长,严重疾病的发病率就越高,这是合理的。然而,在年轻患者中,吸烟的负面影响的证据并不那么直接。一些评论认为,与以前吸烟相比,现在吸烟是一种保护因素,而与从不吸烟相比,现在吸烟显然是一种风险因素[gydF4y2Ba
关于肥胖,它的影响在老年群体中不那么明显,因为所有人都有高比例的某些共病。然而,在无共病的年轻肥胖患者(18-49M5和18-49F2)中,肥胖似乎与死亡率无关。gydF4y2Ba
在记录的共病中,糖尿病和高血压的患病率最高。它们的流行似乎解释了从MC1和MC3到MC4和MC5的RRs下降,这些都是年轻的成年人群体。在老年MCs(6-11)中,由于这两种疾病几乎出现在每个组中,结果很难独立评估,除了MC9(同时患有两种疾病且RR较低的老年患者),没有具体描述任何集群。这些发现与目前的文献一致,即糖尿病和高血压都是严重疾病的独立危险因素[gydF4y2Ba
免疫抑制的患者大多属于MC6(有糖尿病、高血压、免疫抑制和其他疾病的老年人)。值得注意的是,免疫抑制患者并不在最低rr的集群中。这与一些报道一致,即免疫抑制尚未被证实为疾病严重程度的相关因素,但癌症患者除外[gydF4y2Ba
MC7的特征是CKD和其他疾病的高患病率。在这个组中,RR大约比其他严重亚组低10%。我们发现CKD与死亡率和较短的生存期高度相关。这与一份报告一致,该报告揭示CKD是解释死亡率的最佳因素[gydF4y2Ba
MC8与MC10和MC11在某种程度上相似,因为它们都有COPD患者。大多数慢性阻塞性肺病患者年龄较大,有预后不良的共病,这与几篇综述一致,这些综述报道了慢性阻塞性肺病患者在发展为COVID-19时发生严重肺炎和预后不良的风险增加[gydF4y2Ba
心血管疾病在组间均匀分布,尤其是MC7、MC10和MC11组。如今,心血管疾病可能是一个双刃剑因素,因为它已被证明是COVID-19严重程度的一个风险因素,但使用的一些治疗方法,如ACE抑制剂,也已被证明对SARS-CoV-2的严重感染具有保护作用[gydF4y2Ba
可靠的亚表型表征反映了确定亚表型的地理和卫生保健环境是至关重要的[gydF4y2Ba
我们发现,跨州和TCI的差异性可能受到许多因素的影响,如人口数量和类型(城市/农村)、社会文化背景、卫生保健政策、医疗机构数量、资源可用性和病毒传播水平。有些州的工业化程度更高,拥有更多的经济资源(如墨西哥城、哈利斯科、墨西哥州),而其他州(如瓦哈卡、恰帕斯、格雷罗州)。由于墨西哥城和墨西哥州在人口类型和医疗资源的可获得性方面接近和相似,很难解释它们在健康群体分布方面的差异。gydF4y2Ba
对于社会保障机构(IMSS和ISSSTE)和当地公立医院(SSA)之间的严重程度差异,一个可能的解释是,SSA是由当地各州管理的,各州之间的资源经常不同。这种现象可能会影响这些机构的质量和为其人口提供的资源。另一种支持的解释是,当社会保障机构接收重症患者而医疗资源不足时,这些患者可以被转移到IMSS的COVID-19设施。因此,这可能会使IMSS饱和,并耗尽有限的资源,因为患者数量的增加,使资源分配更加困难。这些结果与以往的研究一致,表明IMSS和ISSSTE的普通患者的死亡风险是全国平均水平的两倍,是私人临床机构的3倍[gydF4y2Ba
尽管年轻的年龄使患者更易患轻微疾病,但我们认为,解释所有年龄中“高”、“中等”和“低”rr分界线的一个关键因素是将年龄与习惯和共病结合起来使用。此外,病人的年龄和不健康习惯持续时间之间的关系可能有助于建立更有用的预后和相关性。gydF4y2Ba
关于与风险增加相关的共病,我们的研究结果表明,糖尿病和高血压是严重疾病的独立风险,并与较低的rr相关。CKD患者在死亡率和生存期方面可能更脆弱,而且容易出现免疫抑制。慢性阻塞性肺病患者发生严重肺炎和预后不良的风险更有可能增加。gydF4y2Ba
严重程度与患者来源(州或tci)之间的复杂关联意味着重要的社会经济和卫生保健资源水平不平等。因此,我们建议未来的研究应该将状态和TCI与MCs和年龄-性别亚组结合起来考虑(例如,使用拟议的元聚类方法),从而获得更好的亚表型表征。gydF4y2Ba
作为监测系统的一部分,这些发现可以帮助预测可能出现较差结果的患者,并帮助关于疫苗接种优先次序或资源分配的决策。与主要基于年龄、职业或社会地位(如在西班牙或美国)的某些疫苗接种建议或政策相比,利用额外的患者信息(习惯、共病、来源)和年龄可能很重要。gydF4y2Ba
作为可能的限制,我们排除了在31天之前出现症状的患者(即在9月30日之后确诊的患者),以避免可能对生存结果的分析产生影响,这妨碍了我们使用可能改变流行病学特征的最新数据。此外,分析的数据集是公开和开源的,由墨西哥政府公布,但没有明确说明每个公共和私营卫生机构报告和数据系统捕获的一些信息的来源。病情较重的患者可能获得更完整或更准确的数据,这一事实可能导致差异错误分类,加强了某些病例中严重程度较高的因素的聚类。此外,要求患者有实验室确认的感染可能导致更严重的疾病或已知的共病-或其他严重后果的危险因素-纳入研究;然而,这让我们能够专注于确定这个更严重人群中的亚表型。此外,该数据集不包括出院、再入院或接种疫苗的患者的额外相关信息,也不包括共病和不健康习惯的持续时间。非常需要进一步的以人群为基础的研究数据,在接受院后监测或再入院的出院患者和接种疫苗的人群中进行亚表型表征。gydF4y2Ba
通过提出的两阶段聚类分析对COVID-19亚表型进行分析,仅对年龄和性别进行了区分性描述和解释。结果得到的11个MCs为深入了解COVID-19患者的流行病学和亚表型特征提供了基础,这些特征基于已有的共患病、习惯、人口统计学特征、患者来源和tci,并确定了这些特征与每个患者特异性资料可能的临床结果之间的相关性。这些无偏的亚表型可能有助于建立自动化分层或分诊系统的目标群体,以支持临床医生在进一步检测和实验室结果之前进行早期分诊,特别是在那些无法进行此类检测的地区;在一般人群中优先接种疫苗;并为计划个性化疗法或治疗提供基础。gydF4y2Ba
提出的年龄性别分层和元聚类技术有可能帮助设计一个新的数据驱动的COVID-19患者分层模型。此外,结果阐明了关于亚表型表现和临床结果之间的关联和因果关系的可靠结论。未来的研究可以探索治疗和接种疫苗的影响,为临床分诊和定制治疗提供指导,并结合拟议的2阶段聚类分析开发临床可靠的亚表型分类方法。随着对有效分诊和个性化治疗的关注增加,我们通过提供我们的实验代码,促进了研究的进一步可复制性,并推广到其他国家的数据。gydF4y2Ba
补充材料。gydF4y2Ba
慢性肾脏疾病gydF4y2Ba
慢性阻塞性肺疾病gydF4y2Ba
全国家庭整体发展系统gydF4y2Ba
加护病房gydF4y2Ba
墨西哥社会保障研究所gydF4y2Ba
国家工作人员社会保障和服务研究所gydF4y2Ba
局部估计散点图平滑gydF4y2Ba
meta-clustergydF4y2Ba
多重对应分析gydF4y2Ba
机器学习gydF4y2Ba
主成分分析gydF4y2Ba
治愈率gydF4y2Ba
国防秘书处gydF4y2Ba
海军秘书处gydF4y2Ba
卫生秘书处gydF4y2Ba
临床机构类型gydF4y2Ba
世界卫生组织gydF4y2Ba
我们真诚地感谢不同类型的临床机构和墨西哥政府,他们做出了巨大努力,使这些数据公开。我们也感谢纳亚里特医疗服务中心的临床医生和流行病学家就住院患者医疗照顾的具体方面和报告与COVID-19相关的流行病学数据过程进行的有益讨论。此外,我们还要感谢Francisco Tomás García Ruiz在数据可视化设计方面的宝贵帮助。gydF4y2Ba
这项工作得到了Universitat Politècnica de València合同号的支持。UPV-SUB。2-13.02一个nd FONDO SUPERA COVID-19 by CRUE-Santander Bank grant: “Severity Subgroup Discovery and Classification on COVID-19 Real World Data through Machine Learning and Data Quality assessment (SUBCOVERWD-19).”
作者感谢位于Politècnica de València大学的信息与通信技术研究所(ITACA)对本文发表的支持。gydF4y2Ba
LZ、CS、JMGG和JAC设计了本研究。LZ、NR、CS、JMGG、JAC和JMM进行了研究。LZ和CS对数据进行处理和分析,并进行统计分析。所有作者评估了聚类分析的临床一致性。LZ, NR和CS起草了手稿。所有作者都对稿件进行了严格的修改,并通过了定稿。gydF4y2Ba
没有宣布。gydF4y2Ba