发表在24卷10号(2022): 10月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/35860,首次出版
通过异质患者数据描述与COVID-19相关的血栓并发症危险因素:回顾性观察研究

通过异质患者数据描述与COVID-19相关的血栓并发症危险因素:回顾性观察研究

通过异质患者数据描述与COVID-19相关的血栓并发症危险因素:回顾性观察研究

原始论文

1IBM, Round Rock, TX,美国

2生物医学控制论实验室,布里格姆妇女医院,波士顿,马萨诸塞州,美国

3.IBM,阿克伦,OH,美国

4IBM,帕洛阿尔托,加州,美国

5IBM,波士顿,马萨诸塞州,美国

*这些作者贡献相同

通讯作者:

Gil Alterovitz博士

生物医学控制论实验室

布莱根妇女医院

弗朗西斯街75号

波士顿,马萨诸塞州,02115

美国

电话:1 617 329 1445

电子邮件:ga@alum.mit.edu


背景:据观察,COVID-19与静脉和动脉血栓形成有关。炎症性疾病延长了住院时间,先前存在的合并症可加重COVID-19患者的血栓负担。然而,静脉血栓栓塞、动脉血栓形成和其他血管并发症可能在重症监护环境中被忽视。在COVID-19患者群体中,早期风险分层对于主动监测血栓并发症至关重要。

摘要目的:这项探索性研究的目的是利用电子健康记录(EHR)和保险索赔数据库中的信息,描述与COVID-19相关的血栓并发症风险因素。目标是开发一种分析方法,使用现实世界的数据证据,可以推广用于描述血栓并发症和其他临床环境中的其他情况,如COVID-19患者或重症监护病房中的肺炎或急性呼吸窘迫综合征。

方法:我们从保险理赔数据库IBM MarketScan中提取了未识别的患者数据,并使用逻辑回归方法,根据患者人口统计学和临床因素,制定了关于COVID-19患者血栓并发症的假设。然后,通过分析来自研究患者数据注册(RPDR)布里格姆麻省总医院(MGB)患者EHR数据库的未识别患者数据来验证这些假设。根据优势比、95% ci和P值。

结果:分析确定了重要的预测因素(P在IBM MarketScan和MGB RPDR的数百万份记录中,184,831名COVID-19患者的血栓并发症<.001)。在年龄组方面,60岁及以上的患者比60岁以下的患者有更高的血栓并发症几率(MarketScan为4.866,RPDR为6.357)。在性别方面,男性比女性更容易发生血栓并发症(MarketScan的优势比为1.245,RPDR的优势比为1.693)。在已存在的合并症中,心脏病、脑血管疾病、高血压和有血栓病史的患者发生血栓性并发症的几率均显著较高。癌症和肥胖也与患病几率有关。RPDR的结果验证了IBM MarketScan的发现,因为它们在很大程度上是一致的,并且可以相互丰富。

结论:本研究中采用的分析方法可以跨来自不同组织的异构数据库工作,从而促进协作。通过对数百万患者记录的搜索,分析有助于确定影响表型的因素。在COVID-19患者中使用血栓并发症只是一个案例研究;然而,通过从可用数据库中提取相应的特定疾病患者数据,同样的设计可以用于其他疾病领域。

中国医学工程学报,2018;24(10):e35860

doi: 10.2196/35860

关键字



世界卫生组织报告称,截至2021年12月14日,全球新冠肺炎阳性病例超过2.7亿例,死亡病例超过530万例[1].由于受感染的患者表现出截然不同的结果,尽早确定在大量患者队列中控制疾病进程的关键患者特征至关重要,以帮助分配正确的资源并改善患者的结果[2].已使用逻辑回归和机器学习算法来预测哪些COVID-19患者需要住院和重症监护,以确保资源优先用于风险最高的个人[3.-7].许多算法都利用了常规收集的临床数据。

虽然COVID-19与呼吸系统并发症有关已得到证实,但也观察到该病可引起静脉和动脉血栓形成[8].高炎症反应与COVID-19血栓形成风险增加有关[9].炎症性疾病过程、长时间的住院治疗和先前存在的合并症都可能导致血栓形成患者的侵袭性血栓负担[10-13].在两所荷兰大学医院和一所荷兰教学医院进行的一项研究表明,COVID-19重症监护病房(ICU)患者的血栓并发症发生率为31% [14].同样,中国武汉协和医院ICU患者静脉血栓栓塞(VTE)的发生率为25% [15].一般而言,静脉血栓栓塞已被发现影响高达46%的COVID-19住院患者[16],一项荟萃分析表明,有血栓并发症的COVID-19患者的死亡风险比没有血栓并发症的患者高2.1倍[17].然而,静脉血栓栓塞和其他相关血管并发症在危重护理中可能不被注意[1819].因此,早期风险分层对COVID-19患者群体的临床至关重要[20.].

关于可能与血栓性并发症相关或负责的机制有几种潜在的假设。例如,有一些初步证据表明,自身免疫反应可能发挥作用[21].此外,药物相互作用是COVID-19可用治疗剂带来的治疗挑战[22].随着COVID-19康复患者的数量稳步增长,对COVID-19急性后期后遗症进行系统研究对于收集临床和科学证据以确定对这些患者的最佳护理非常重要。此外,据报道,血栓栓塞并发症是COVID-19急性后综合征的一部分[23-25].因此,本研究的目的是使用真实世界的数据证据,为开发一个软件系统奠定基础,系统地识别影响COVID-19患者静脉血栓栓塞的因素。

电子健康记录(EHRs)正广泛应用于医疗保健系统,不同组织之间的记录共享能力不断增强[22];然而,在使用这些数据方面仍然存在限制,在获得不受限制的访问方面也存在挑战。保险理赔数据收集所有医生和医疗服务提供者的信息,而电子病历数据仅收集医生使用电子病历提供的部分医疗服务。然而,保险索赔数据也有局限性,例如这些数据仅涵盖已投保的患者。我们的目标是弥合电子病历和索赔数据之间的差距,并容纳这两个数据源,以利用更广泛的数据。该设计特别有助于综合IBM和布里格姆麻省总医院(MGB;波士顿,马萨诸塞州)的数据使用IBM的MarketScan索赔数据集,该数据集与MGB的ehr衍生数据库进行了交叉验证。因此,该分析提供了一种有用的方法来弥合与电子病历数据集的差距,而不需要医疗保险可携带和责任法案级别的个人患者信息,从而避免了访问的多步骤过程。

在全球COVID-19大流行期间,各组织之间的合作加快了对SARS-CoV-2病毒及其引起的COVID-19疾病的了解。虽然电子病历数据广泛用于COVID-19回顾性研究[622-26],一些组织使用专有数据库。我们一直致力于设计一种方法,可以处理不同类型的医疗保健数据存储,包括标准化的EHR数据库以及任何其他专有数据源,如本研究中使用的保险索赔数据库。为了尊重患者隐私问题,我们在查询数据库时只使用未识别的患者数据。选择这些措施是为了使这项工作更容易用于应对COVID-19大流行和其他病例的全球合作。本研究利用来自EHR和保险理赔数据库的信息,描述了与COVID-19相关的血栓并发症风险因素。综合治疗指南和综述可在以前的文献中找到[2728].


数据收集

这项回顾性观察性研究利用了IBM的MarketScan商业索赔数据库中的未识别数据。这些数据与MGB EHR的数据进行了比较和验证。在2020年2月1日至2020年9月30日期间被诊断为COVID-19的成年患者纳入了这项研究。患者人口统计包括年龄、性别、种族(仅EHR数据库)和地理位置。我们关注以下共病:高血压、糖尿病、癌症、呼吸系统疾病(哮喘、急性呼吸窘迫综合征、慢性支气管炎、肺气肿、支气管扩张和慢性阻塞性肺病)、心脏病(冠状动脉疾病、心力衰竭、心肌病、心房颤动和缺血性心脏病)、脑血管疾病(中风和脑血管疾病)、肝病、肾脏疾病、血栓形成史、艾滋病毒、怀孕、睡眠呼吸暂停、吸烟,和肥胖。干预措施包括静脉-静脉体外膜氧合(ECMO)、机械通气、体外氧使用和药物治疗。血栓性并发症以ST段抬高型心肌梗死(STEMI)和非STEMI型心肌梗死、肺栓塞、脑梗死、动脉栓塞和血栓形成、其他静脉栓塞和血栓形成、短暂性缺血发作及相关综合征、其他急性缺血性心脏病、其他脑血管疾病为主。

诊断代码映射

本研究纳入了2020年2月1日至2020年9月30日期间确诊为COVID-19诊断(国际疾病分类,第十版[1CD-10]诊断代码U071, B342, Z8616, J1282, B9729)的患者。研究结果为2020年2月1日至2020年9月30日期间的血栓诊断(ICD-10诊断代码I21、I24、I26、I63、I74、I82、Z8671、M622和G45)。

从索赔数据库查询数据

我们对2020年2月1日至2020年9月30日的IBM MarketScan商业数据库和医疗保险补充数据库进行了回顾性分析,以确定患者。这表示在IBM MarketScan Treatment Pathways(一个覆盖在MarketScan Research数据库上的基于云的分析接口)中进行分析时最新可用的数据。MarketScan是美国最大的未识别纵向患者健康数据库之一,其中包括超过3900万个人的信息,包括在职员工及其家属、提前退休人员和综合预算协调法案(COBRA)的延续者,由代表所有50个州的约40个雇主赞助的健康计划投保。在2020年2月1日至2020年9月30日期间,共有259,470名患者在某个时间点接受了COVID-19诊断。其中,153,137名患者在确诊COVID-19之前连续入组2年,并被纳入研究。

作为一个保险索赔数据库,MarketScan包含了来自患者旅程中多个供应商的信息,覆盖范围更广。保险理赔数据提供处方是否被配药的信息,而EHR数据只说明是否被配药。MarketScan可以有效地补充电子病历数据,通过提供患者在整个医疗保健系统中相互作用的极其广泛的视图,并提供对大型和多样化样本的访问。

应该注意的是,由于健康保险覆盖范围的变化,少数个人可能会出现在MarketScan数据集中或出现在数据集中。因此,在使用MarketScan(或任何其他索赔数据集)进行这些分析时,样本仅限于在观察期间连续入组的患者。

从EHR数据库查询数据

我们从MGB患者记录数据库研究患者数据注册中心(RPDR)收集了患者数据,RPDR是一个集中的临床数据注册中心。数据仓库包括650万名患者和22亿行临床数据,作为来自各个医院系统的住院和门诊患者的中央临床数据注册中心,以支持临床研究。

RPDR查询工具允许使用给定的特征集搜索医院的患者数量。我们搜索了2020年2月1日至2020年9月30日期间该医院的患者。使用ICD-10医疗代码对患者进行特征描述,并结合代码来识别COVID-19患者的血栓形成和潜在的相关共病。从2020年2月1日到2020年9月30日,共有31364名患者被诊断为COVID-19,并被纳入研究。

使用逻辑回归绘制和验证假设

描述性统计被总结为分类数据的频率和百分比。使用一个简单的(或未调整的)逻辑回归模型来评估人口统计学和临床因素与表型之间的关联强度。人口学和临床因素包括人口学、共病和干预措施。在本研究中,表型被定义为一个二分变量,我们关注血栓性并发症的诊断(即伴有或不伴有血栓性并发症)。

结果由比值比(OR),对应的95% CI和P价值。所有测试均为双侧,显著性水平设置为P=措施。所有统计分析均采用现代应用统计学with S (MASS)统计软件库7.3.54版本[29] in R, version 4.1.0 [30.].

索赔和EHR数据集中患者的年龄和性别分布

在研究期间,索赔数据中有153,137名COVID-19患者,其中44.8%为男性。EHR数据中有31364名COVID-19患者,其中43.9%为男性。年龄分布如图所示图1

图1。来自保险索赔和电子健康记录(EHR)数据集的患者年龄分布。x轴是年龄y轴是病人数量。
查看此图

来自索赔和EHR数据集中患者的共病分布

COVID-19患者共病分布显示在图2

图2。来自保险索赔和电子健康记录(EHR)数据集的患者共病分布。x轴是合并症y轴是患者数量。
查看此图

丢失数据的处理

我们遇到了两种类型的缺失数据。第一种情况是数据集中至少缺少一个变量。鉴于这种漏失率较低(任何个别变量均<2.5%),认为没有必要进行归因[2831].另一种是在一个数据集中丢失了一类数据。有三个这样的案例:种族和实验室数据在EHR数据集中,但不在索赔数据集中,而地区数据在索赔数据集中,但不在EHR数据集中(EHR数据集中包括大多数来自美国东北部地区的患者)。我们对三种情况下的一个数据集进行了分析,并理解它们不会相互验证。

伦理批准

这项研究得到了MGB机构审查委员会的批准(IRB协议#2021P001133)。

数据分析

我们进行了一项分析,以确定与COVID-19诊断患者的血栓并发症相关的临床和人口统计学因素。从IBM MarketScan查询的数据存储为CSV文件。分析从CSV文件中读取,并基于预定义的假设P值阈值(<.001),然后使用从RPDR数据库查询的数据进行验证。


年龄和血栓并发症

为了比较年轻和老年人群之间的血栓并发症,我们将COVID-19患者分为两个年龄组:60岁以下的患者和60岁及以上的患者。表1列出了伴有和不伴有血栓性并发症的COVID-19患者的频率(即计数)P值、OR和索赔数据库中的95% CI。中列出了来自ehr兼容数据库的相应数据表2.如所示,年龄和血栓并发症显著相关。此外,60岁及以上的患者发生血栓并发症的几率要高得多。尽管两组数据中的患者来自不同的地理区域和背景,但两组数据的结果是一致的。这为研究结果提供了更多的信心,并显示了两组数据如何相互丰富。

图3我们还观察到血栓性并发症的OR随着年龄的增长而持续增加(除了80-89岁年龄组和90岁及以上年龄组的几率相似),与P<措施。

表1。年龄和血栓并发症以及基于索赔数据的相关性强度。
年龄段 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
< 60年 130293年 3314 参考 N/A一个
≥60年 17379年 2151 4.866 (4.599 - -5.149) <措施

一个N/A:不适用。

表2。基于电子健康记录数据的年龄和血栓并发症及其关联强度
年龄段 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
< 60年 20338年 487 参考 N/A一个
≥60年 8796 1339 6.357 (5.714 - -7.073) <措施

一个N/A:不适用。

图3。血栓并发症与年龄的比值比(P<措施)。x轴是年龄y轴是优势比。
查看此图

性别和血栓并发症

在两组数据中,男性与女性相比,血栓并发症的几率更高(表3而且4).与年龄相似,结果表明两组数据具有一致性,相互丰富。这一结果与之前的文献一致[32].

表3。性别和血栓性并发症及其基于索赔数据的关联强度。
性别 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
男人 65926年 2738 1.245 (1.180 - -1.314) <措施
女性 81188年 2727 参考 N/A一个

一个N/A:不适用。

表4。基于电子健康记录数据的性别和血栓并发症及其关联强度
性别 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
男人 12708年 1064 1.693 (1.542 - -1.859) <措施
女性 16763年 829 参考 N/A一个

一个N/A:不适用。

合并症和血栓并发症

我们检查了血栓并发症与先前存在的疾病(如高血压、糖尿病、癌症、呼吸系统疾病、心脏病、脑血管疾病、肝病、怀孕、艾滋病毒、血栓形成史、睡眠呼吸暂停、吸烟和肥胖)之间的关系。在两组数据中,所有共患病均与血栓形成显著相关(表5而且6).虽然两个数据集的相对or不同,但结果是一致的。在这两个数据集中,脑血管疾病患者有血栓性并发症的几率第二高,心脏病患者有血栓性并发症的几率非常相似。此外,在两组数据中,艾滋病患者、癌症患者和肥胖患者血栓形成的几率相对较低。一个主要的区别是,血栓形成的个人历史在索赔数据集中的几率最高,但在EHR数据集中排名第五。这种差异可能是由于EHR数据集中有血栓病史的患者数量较少(n=250)。

表5所示。共病和血栓性并发症以及基于索赔数据的相关性强度。
伴随疾病 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
高血压 41513年 3890 6.316 (6.950 - -6.704) <措施
糖尿病 16688年 1959 4.386 (4.140 - -4.646) <措施
癌症 35684年 2092 1.947 (1.841 - -2.058) <措施
呼吸道疾病 23156年 1847 2.745 (2.591 - -2.908) <措施
心脏病 8743 2401 12.452 (11.755 - -13.191) <措施
脑血管疾病 2542 1406 19.776 (18.399 - -21.258) <措施
肝脏疾病 4044 450 3.187 (2.880 - -3.527) <措施
肾脏疾病 3316 989 9.619 (8.906 - -10.389) <措施
艾滋病毒 712 51 1.944 (1.462 - -2.587) <措施
血栓病史 189 473 73.938 (62.318 - -87.727) <措施
睡眠呼吸暂停 12970年 1178 2.854 (2.669 - -3.051) <措施
吸烟使用 13141年 1177 2.810 (2.628 - -3.005) <措施
肥胖 30288年 2293 2.802 (2.651 - -2.961) <措施
表6所示。基于电子健康记录数据的共病和血栓并发症及其关联强度
伴随疾病 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
高血压 3079 1172 13.675 (12.373 - -15.113) <措施
糖尿病 1894 671 7.853 (7.070 - -8.723) <措施
癌症 890 261 5.048 (4.359 - -5.845) <措施
呼吸道疾病 17858年 1717 5.891 (5.045 - -6.879) <措施
心脏病 2768 1118 13.661 (12.366 - -15.093) <措施
脑血管疾病 294 253 15.053 (12.632 - -17.937) <措施
肝脏疾病 416 160 6.340 (5.25 - -7.656) <措施
肾脏疾病 2144 718 7.648 (6.902 - -8.476) <措施
艾滋病毒 60 17 4.368 (2.544 - -7.499) <措施
血栓病史 159 91 9.154 (7.044 - -11.896) <措施
睡眠呼吸暂停 395 155 6.454 (5.327 - -7.820) <措施
吸烟使用 159 223 24.206 (19.633 - -29.842) <措施
肥胖 1073 237 3.722 (3.207 - -4.321) <措施

外部干预和血栓并发症

我们研究了三种外部干预(静脉-静脉ECMO、机械通气和体外吸氧)及其与血栓并发症的关系。ORs和P这些值总结在表7而且表8,分别查阅索偿和电子病历兼容的数据集。在两组数据中,静脉-静脉ECMO和体外氧干预与血栓并发症密切相关。在索赔数据集中,机械通气与血栓并发症显著相关;然而,电子病历兼容数据集中的病例数量太少,无法进行适当的分析。

表7所示。外部干预和血栓并发症及其基于索赔数据的关联强度。
外部干预 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
透析滤医学界一个 34 36 28.794 (18.005 - -46.047) <措施
机械通风 372 324 24.955 (21.447 - -29.037) <措施
外来氧气消耗 423 231 15.364 (13.057 - -18.078) <措施

一个ECMO:体外膜氧化。

表8所示。基于电子健康记录数据的外部干预和血栓并发症及其关联强度
外部干预 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
透析滤医学界一个 28 25 13.839 (8.054 - -23.779) <措施
机械通风 3. 3. 15.332 (3.092 - -76.016) <措施
外来氧气消耗 137 56 6.418 (4.687 - -8.790) <措施

一个ECMO:体外膜氧化。

药物干预与血栓并发症

我们使用EHR数据检查了六种药物干预(洛匹那韦/利托那韦、地塞米松、瑞德西韦、单克隆抗体、托珠单抗和抗疟药)及其与血栓并发症的关系。ORs和P这些值总结在表9查阅电子病历数据集。大约1.74%的COVID-19患者服用了地塞米松,这一比例在该组中最高。此前的一份报告显示,地塞米松与晚期COVID-19患者的死亡率降低有关[33].我们的分析表明,这些患者有血栓并发症的可能性增加了5倍。大约1.26%的COVID-19患者服用了瑞德西韦,这一比例在该组中排名第二。认为瑞德西韦有助于缩短COVID-19住院患者的康复时间[34].我们的分析表明,这些患者也有3倍的可能性有血栓并发症。

对于索赔数据集,可以获得上述三种药物的信息,分析结果显示在表10.大约2.71%的COVID-19患者(该组中比例最高)服用了地塞米松,他们发生血栓性并发症的可能性增加了3倍。

表9所示。基于电子健康记录数据的药物治疗和血栓并发症及其相关性
药物干预 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
Lopinavir /例如 10 3. 4.599 (1.265 - -16.723) 02
地塞米松 405 134 5.375 (4.396 - -6.573) <措施
瑞德西韦 325 66 3.185 (2.434 - -4.168) <措施
单克隆抗体 18 15 12.852 (6.467 - -25.541) <措施
托珠单抗 119 37 4.835 (3.333 - -7.013) <措施
抗疟药 3. 3. 15.332 (3.093 - -76.016) 措施
表10。药物治疗和血栓并发症以及基于索赔数据的它们的关联强度。
药物干预 无血栓性并发症 血栓并发症,名词 优势比(95% CI) P价值
Lopinavir /例如 5 3. 16.221 (3.876 - -67.893) <措施
地塞米松 3706 442 3.418 (2.083 - -3.788) <措施
抗疟药 2346 177 2.074 (1.775 - -2.422) <措施

实验室结果和血栓并发症

我们检查了从EHR数据集中记录为异常的6个实验室结果。分析结果总结在表11.索赔数据集没有相应的实验室信息。

表11所示。基于电子健康记录数据的实验室结果与血栓并发症之间的相关性强度
实验室结果 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
肺动脉栓塞的水平 5354 1418 13.174 (11.824 - -14.677) <措施
血小板计数 14279年 1807 21.634 (17.404 - -26.891) <措施
凝血酶原时间 5635 1528 17.344 (15.416 - -19.513) <措施
纤维蛋白降解产物 5544 1208 7.455 (6.758 - -8.224) <措施
纤维蛋白原 4183 1117 8.533 (7.742 - -9.405) <措施
c反应蛋白 12439年 1688 10.95 (9.455 - -12.682) <措施

种族和血栓并发症

我们使用EHR数据集(表12).索赔数据集没有与种族相关的信息。

表12。基于电子健康记录数据的种族和血栓并发症之间的关联强度
种族 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
亚洲 1007 53 0.800 (0.575 - -1.012) 06
黑色的 3293 285 1.357 (1.181 - -1.558) <措施
拉美裔 1770 76 0.606 (0.478 - -0.768) <措施
白色 17527年 1193 参考 N/A一个

一个N/A:不适用。

区域和血栓并发症

保险索赔数据集包括来自所有地区的患者。与P<措施,the Northcentral region had the highest OR and the West had the lowest OR for thrombotic complications (表13).EHR数据集主要包括MGB所在的东北部的患者,因此没有相应的分析。

区域划分如图所示多媒体附件1.我们的分析表明,美国中北部地区的COVID-19患者发生血栓并发症的OR为1.562,而西部地区的患者发生血栓并发症的OR为0.701。这一发现与各地区的面积剥夺指数(ADI)有很好的相关性[35].我们将爱荷华州(中北部)和加利福尼亚州(西部)的ADI值包括在内图4为了强调这一点。

表13。基于保险索赔数据的区域和血栓并发症之间的联系强度。
地区 无血栓并发症 血栓并发症,名词 优势比(95% CI) P价值
东北 27742年 1007 参考 N/A一个
中北部 25912年 1631 1.562 (1.439 - -1.695) <措施
78557年 2588 0.908 (0.843 - -0.977) <措施
西 14964年 381 0.701 (0.622 - -0.791) <措施

一个N/A:不适用。

图4。爱荷华州(左)和加利福尼亚州(右)的面积剥夺指数。深红色表示最不利的区域,深蓝色表示最不不利的区域。爱荷华州属于中北部地区,在那里,COVID-19患者发生血栓并发症的优势比为1.562。加州属于西部地区,在那里,COVID-19患者发生血栓并发症的优势比为0.701。
查看此图

主要研究结果

我们发现了与COVID-19患者的人口统计学、合并症、治疗干预和实验室相关的因素,这些因素与发生血栓并发症的风险密切相关。本研究中采用的分析方法可以通过使用未识别的患者计数数据,用于跨来自不同医疗保健和研究组织的异构患者数据库。本研究使用索赔和EHR数据集作为案例研究,但该方法也可以推广到处理多个数据源。

使用所研究表型的ICD-10诊断代码查询计数。这有助于在解决困难的地方和全球卫生问题方面开展合作。在本案例研究中,我们使用保险索赔和EHR数据库分析了COVID-19患者中与人口统计学和临床因素相关的血栓并发症。在我们的合作中,我们发现这种设计非常有效,我们使用索赔数据来绘制假设,并使用EHR数据进行验证。除了ehr衍生数据中样本量非常小的情况外,这两个数据集大多是一致的,彼此丰富。

索赔和EHR数据库具有不同的存储格式、查询语法和安全问题。我们的设计是使用通用的ICD-10代码在每个数据库上运行查询,并将查询结果存储在CSV文件中,这样我们就可以使用相同的R代码读取CSV文件并进行统计分析。这也最小化了两个地理上分散的团队之间的数据交换。

在选择与血栓并发症相关的因素时,我们主要关注四个类别:人口统计学、合并症、干预措施和实验室结果。我们遇到的一个问题是,一个数据集中可能缺少某些类别的数据;例如,索赔数据库不具有EHR数据集中所找到的所有相同处方药的信息。当我们认为感兴趣的因素可能很重要时,我们只使用一个数据集进行分析。我们对EHR数据集的分析显示,最常用的三种药物是地塞米松、瑞德西韦和托珠单抗。这些药物与血栓性并发症相关,ORs分别为5.375、3.185和4.835。这些也是之前为预测COVID-19患者ICU和VTE需求而开发的模型中考虑的药物[28].患者实验室数据,包括d -二聚体水平、血小板计数、凝血酶原时间、纤维蛋白降解产物和纤维蛋白原,仅在EHR数据集中可用。我们认为这些因素在临床上与血栓性并发症相关,我们的分析结果支持了这一观点。d -二聚体水平是实验室结果类别中排名前三的因素之一,血栓性并发症的OR为13,在之前的研究中,d -二聚体水平也被用于预测COVID-19患者静脉血栓栓塞的发展[28].d -二聚体水平、血小板计数和凝血酶原时间这三大发现之前也被用于机器学习模型,以预测有创机械通气的需求和COVID-19患者的死亡率[36].这进一步验证了模型在应用于大型和多样化数据集时的强度。

所有病人都有表5而且6在两组数据中都比其他患者有更高的血栓并发症的几率。值得注意的是,对于患有基础脑血管疾病的患者,保险理赔数据中血栓性并发症的几率高出19倍,ehr衍生数据中的几率高出15倍,在COVID-19患者的合并症中排名第二。值得注意的是,对于心脏病患者,两组数据中血栓性并发症的几率大约高出13倍,并且在合并症列表中排名第三。这进一步突出了两个数据集的一致性。

对于接受静脉-静脉ECMO和体外吸氧外部干预的COVID-19患者,两组数据中每种干预都有更高的血栓并发症几率。

MarketScan声称,通过纵向监测这些病例,记录患者的短期和长期结果,数据可能对了解COVID-19的影响非常有用。

与之前工作的比较

我们发现,年龄在60岁及以上的COVID-19患者发生血栓并发症的可能性是60岁以下患者的约5倍。尽管有充分证据表明老年患者更容易出现血栓性并发症[37],这项研究为COVID-19患者的真实程度提供了定量测量。

在性别方面,与女性相比,在索赔数据中男性有血栓并发症的可能性是女性的1.25倍(在ehr衍生数据中是1.69倍)。尽管两组数据的or值略有不同,但两者都显示男性在统计学上比女性更容易出现血栓性并发症。这一发现与先前的研究一致,表明男性更有可能患有血栓性并发症[32].

优势与局限

这项研究使用了两个不同的数据集,涉及184,831名COVID-19患者,以及非常全面的人口统计学和临床信息。这使我们能够从不同方面研究血栓并发症。我们设计了一种适用于两组数据的方法,并发现了与血栓并发症密切相关的因素。这种方法便于使用不同数据格式的团队进行协作。此外,我们的发现与现有文献一致。

这项研究的重点是在2020年2月1日至2020年9月30日期间在美国接受COVID-19诊断的患者,来自ehr的数据主要包括该国东北部地区的患者。因此,这一数据来源并没有涵盖美国国内或全球的全部情况。尽管我们使用了超过18.4万名COVID-19患者的数据和非常小的数据P阈值(P<.001)绘制和验证关于临床因素是否影响血栓并发症的假设,与全球患者计数相比,使用的总患者计数相对较少。

我们单独检查了各个因素,但有些因素可能是相关的。这是研究的第一阶段,主要目标是验证两个数据集的一致性,证明所有因素都与血栓性并发症相关。本研究的第二阶段将侧重于多变量分析,如下所述。此外,本研究没有调查干预措施与血栓并发症之间的时间关系。

未来的发展方向

为了确定每个因素如何导致患者的血栓并发症,我们将探索可解释的机器学习模型[38-40用我们在这项研究中确定的所有因素来训练模型。这些数据库可以提供未识别的患者个人数据,这些数据可用于训练可解释的机器学习模型。这些模型不仅可以预测COVID-19患者血栓并发症的风险,还可以确定每个因素的贡献。

结论

在这项工作中,我们检查了异质患者数据库,并进行了不依赖于单个患者级别数据的分析。事实证明,这是一种有价值的方法,用于医疗保健和研究组织之间的合作,这些组织的数据来自不同的来源、不同的存储格式和不同的患者隐私约束。通过对具有异构数据源的研究合作者进行分析,我们发现了与COVID-19患者血栓性并发症相关的重要人口统计学和临床因素。我们的研究提供了一种协作和早期风险分层方法,这是帮助确保为COVID-19患者群体有效分配资源和获得更好结果的关键一步。

作者的贡献

所有作者都参与了研究设计、数据收集、统计分析和结果解释。AZ起草了最初的手稿,所有作者提供了关键的意见,修改,并批准了最终形式的手稿提交。

利益冲突

BR是IBM员工。

多媒体附件1

美国地区划分。

DOCX文件,12 KB

  1. 世卫组织冠状病毒(COVID-19)仪表盘。世界卫生组织,2021年。URL:https://covid19.who.int[2022-09-02]访问
  2. Vaid A, Somani S, Russak AJ, De Freitas JK, Chaudhry FF, Paranjpe I,等。机器学习预测纽约市COVID-19患者队列中的死亡率和关键事件:模型开发和验证。J Med Internet Res 2020年11月06日;22(11):e24018 [免费全文][CrossRef][Medline
  3. Schwab P, DuMont Schütte A, Dietz B, Bauer S. COVID-19临床预测模型:系统研究。J Med Internet Res 2020 10月06日;22(10):e21439 [免费全文][CrossRef][Medline
  4. Makridis CA, Strebel T, Marconi V, Alterovitz G.设计COVID-19死亡率预测以促进临床结果:来自退伍军人事务部的证据。BMJ Health Care Inform 2021年6月09日;28(1):e100312 [免费全文][CrossRef][Medline
  5. 郝B, Sotudian S,王涛,徐涛,胡勇,Gaitanidis A,等。COVID-19患者护理水平需求的早期预测。Elife 2020 10月12日;9:e60519。[CrossRef][Medline
  6. Wollenstein-Betech S, Cassandras C, Paschalidis I.使用基本前提条件(住院、死亡率和需要ICU或呼吸机)对有症状的COVID-19患者进行个性化预测模型。medRxiv。2020年5月8日。URL:https://www.medrxiv.org/content/10.1101/2020.05.03.20089813v1[2022-09-02]访问
  7. Kasturi SN, Park J, Wild D, Khan B, Haggstrom DA, Grannis S.预测全州患者人群中与covid -19相关的卫生保健资源利用:模型开发研究。J Med Internet Res 2021 11月15日;23(11):e31337 [免费全文][CrossRef][Medline
  8. Pizzolo F, Rigoni AM, De Marchi S,美素佳儿S, Tinazzi E, Sartori G,等。标准护理单元内受SARS-CoV-2肺炎影响的患者的深静脉血栓形成:探索冰山的淹没部分。Thromb Res 2020 Oct;194:216-219 [免费全文][CrossRef][Medline
  9. Avila J, Long B, Holladay D, Gottlieb M. COVID-19血栓性并发症。Am J急诊医学2021年1月;39:213-218 [免费全文][CrossRef][Medline
  10. Khan IH, Savarimuthu S, Leung MST, Harky A.管理COVID-19患者血栓栓塞风险的必要性。血管血管外科杂志2020 Sep;72(3):799-804 [免费全文][CrossRef][Medline
  11. 龙德罗斯·波特罗DM,奥马尔·AMS,孙HK, Mantri N, Fortuzi K, Choi Y,等。健康患者人群中的COVID-19:人口统计学和临床表型特征以及住院结果的预测因素。动脉粥样硬化血栓血管生物学2020 Nov;40(11):2764-2775 [免费全文][CrossRef][Medline
  12. Arnardottir H, Pawelzik SC, sarajevo lic P, Quaranta A, Kolmert J, Religa D,等。静脉注射-3脂肪酸治疗因COVID-19住院的老年受试者的免疫调节:一项单盲随机对照试验MedRxiv。URL:https://www.medrxiv.org/content/10.1101/2021.12.27.21268264v1[2022-09-02]访问
  13. Bikdeli B, Madhavan MV, Jimenez D, Chuich T, Dreyfus I, Driggin E,全球COVID-19血栓形成协作小组,由ISTH、NATF、ESVM、IUA认可,ESC肺循环右室功能工作组支持。COVID-19和血栓性或血栓栓塞性疾病:预防、抗血栓治疗和随访的意义:JACC最新进展综述J Am Coll Cardiol 2020年6月16日;75(23):2950-2973 [免费全文][CrossRef][Medline
  14. Klok F, Kruip M, van der Meer N, Arbous M, Gommers D, Kant K,等。COVID-19重症监护病房患者血栓并发症发生率分析。血栓研究2020年7月;191:145-147 [免费全文][CrossRef][Medline
  15. 崔松,陈松,李霞,刘松,王峰。新型冠状病毒肺炎重症患者静脉血栓栓塞的流行病学分析。《血栓血肿杂志》2020年6月06日;18(6):1421-1424。[CrossRef][Medline
  16. 裴利科,王志明,王志强,王志强,等。COVID-19及其心血管影响:患病率研究的系统综述。Cochrane Database Syst Rev 2021 3月11日;3:CD013879 [免费全文][CrossRef][Medline
  17. Kollias A, Kyriakoulis KG, Lagou S, Kontopantelis E, Stergiou GS, Syrigos K. COVID-19静脉血栓栓塞:系统综述和荟萃分析。Vasc Med 2021 Aug;26(4):415-425 [免费全文][CrossRef][Medline
  18. Minet C, Potton L, Bonadona A, hamidfa - roy R, Somohano CA, Lugosi M,等。ICU静脉血栓栓塞的主要特征、诊断及血栓预防。重症监护2015年8月18日;19(1):287 [免费全文][CrossRef][Medline
  19. 马丽娟,李志强,李志强,等。重症患者深静脉血栓形成的影响:主要临床结果的荟萃分析输血2015 Oct;13(4):559-568。[CrossRef][Medline
  20. Labenz C, Kremer WM, Schattenberg JM, Wörns MA, Toenges G, Weinmann A,等。用于SARS-CoV-2感染患者风险分层的临床虚弱量表。《医学调查杂志》2020年8月07日;68(6):1199-1202 [免费全文][CrossRef][Medline
  21. Zöller B, Li X, Sundquist J, Sundquist K.自身免疫性疾病与静脉血栓栓塞:文献综述。中华心血管病杂志2012;2(3):171-183 [免费全文][Medline
  22. 依娜。电子病历在卫生保健中的应用。2010年发表于:2010第二届多媒体与信息技术国际会议;2010年4月24-25日;华盛顿特区。[CrossRef
  23. Nalbandian A, Sehgal K, Gupta A, Madhavan MV, McGroder C, Stevens JS,等。COVID-19急性后综合征。医学杂志2021年4月;27(4):601-615 [免费全文][CrossRef][Medline
  24. 张志刚,张志刚,张志刚,张志刚,张志刚。纽约市卫生系统中COVID-19住院患者的血栓形成JAMA 2020 Aug 25;324(8):799-801 [免费全文][CrossRef][Medline
  25. Izquierdo JL, Ancochea J, Savana COVID-19研究小组,Soriano JB。COVID-19患者重症监护病房入院的临床特征和预后因素:使用机器学习和自然语言处理的回顾性研究J Med Internet Res 2020年10月28日;22(10):e21801 [免费全文][CrossRef][Medline
  26. 沃尔默·达尔克D, K费尔,雅洪,CE博杜安,J普尔辛斯基,欧瑞MG。应用程序寻求理论:在癌症幸存者移动应用程序中使用健康行为改变理论的研究结果。JMIR Mhealth Uhealth 2015年3月27日;3(1):e31 [免费全文][CrossRef][Medline
  27. 研究者,Sadeghipour P, Talasaz AH, Rashidi F, Sharif-Kashani B, Beigmohammadi MT,等。中剂量与标准剂量预防性抗凝对重症监护室COVID-19患者血栓事件、体外膜氧合治疗或死亡率的影响:inspire随机临床试验JAMA 2021 april 27;325(16):1620-1630 [免费全文][CrossRef][Medline
  28. 沙沙S, Switzer S, Shippee ND, Wogensen P, Kosednar K, Jones E,等。通过大型学术卫生系统的临床决策支持系统实施COVID-19抗凝实践指南及其评估:观察性研究JMIR Med Inform 2021年11月18日;9(11):e30743 [免费全文][CrossRef][Medline
  29. 维纳布尔斯WN,雷普利BD.现代应用统计学。第四版。纽约州纽约:施普林格;2002.
  30. R核心团队。R:用于统计计算的语言和环境。R统计计算基金会,维也纳,奥地利,2020。URL:http://www.R-project.org[2022-09-06]访问
  31. Jakobsen JC, Gluud C, Wetterslev J, Winkel P.何时以及如何使用多重imputation来处理随机临床试验中的缺失数据-一个带有流程图的实用指南。BMC Med Res Methodol 2017 Dec 06;17(1):162 [免费全文][CrossRef][Medline
  32. Bauersachs RM, Riess H, Hach-Wunderle V, Gerlach H, Carnarius H, Eberle S,等。性别对深静脉血栓的临床表现和诊断的影响。中华血栓病杂志2010年4月23日,第3期。[CrossRef][Medline
  33. Jensen议员,George M, Gilroy D, Sofat R.在地塞米松之外,新兴的COVID-19免疫血栓疗法。中国临床药物杂志2021年3月14日;87(3):845-857。[CrossRef][Medline
  34. Beigel JH, Tomashek KM, Dodd LE, Mehta AK, Zingman BS, Kalil AC, ACTT-1研究小组成员。瑞德西韦治疗Covid-19 -最终报告N Engl J Med 2020年11月05日;383(19):1813-1826 [免费全文][CrossRef][Medline
  35. 金杰,詹克思,刘志强,王志强,等。社区社会经济劣势与30天再住院:一项回顾性队列研究Ann实习医学2014年12月02日;161(11):765-774 [免费全文][CrossRef][Medline
  36. 桑卡拉那拉亚南,巴兰,沃尔什,吴勇,明尼奇,Piazza A,等。基于深度学习的大型多状态电子健康记录和实验室信息系统数据集COVID-19死亡率预测:算法开发和验证J medical Internet Res 2021 9月28日;23(9):e30157 [免费全文][CrossRef][Medline
  37. enbers MJ, van Hylckama Vlieg A, Rosendaal FR.老年人静脉血栓形成:发生率,危险因素和危险人群。中华血栓血液学杂志2010 10月;8(10):2105-2112。[CrossRef][Medline
  38. Ploug T, Sundby A, Moeslund TB, Holm S.医疗保健中人工智能的性能和可解释性的人口偏好:基于选择的联合调查。J Med Internet Res 2021 12月13日;23(12):e26611 [免费全文][CrossRef][Medline
  39. 阿玛尔N, Shaban-Nejad A.可解释的人工智能推荐系统,利用不良童年经历的语义:概念证明原型开发。JMIR Med Inform 2020 11月04日;8(11):e18752 [免费全文][CrossRef][Medline
  40. 张安,滕林,陈志伟。结核分枝杆菌耐吡嗪酰胺抗性预测和遗传特征鉴定的机器学习平台。J Am Med Inform association 2021年3月01日;28(3):533-540 [免费全文][CrossRef][Medline


阿迪:面积剥夺指数
眼镜蛇:综合预算协调法案
ECMO:体外膜氧合
电子健康档案:电子健康记录
诊断结果:《国际疾病分类》第十版
加护病房:重症监护室
质量:现代应用统计学与S
MGB:布里格姆将军
或者:优势比
RPDR:研究病人资料登记册
STEMI:ST段抬高型心肌梗死
静脉血栓栓塞:静脉血栓栓塞


编辑:T Leung;提交21.12.21;P sarajevo lic, K Fultz Hollis, Y Cao的同行评议;对作者17.02.22的评论;修订版本收到06.05.22;接受17.05.22;发表21.10.22

版权

©Bedda Rosario, Andrew Zhang, Mehool Patel, Amol Rajmane, Ning Xie, Dilhan Weeraratne, Gil Alterovitz。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 21.10.2022。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map