这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
据观察,COVID-19与静脉和动脉血栓形成有关。炎症性疾病延长了住院时间,先前存在的合并症可加重COVID-19患者的血栓负担。然而,静脉血栓栓塞、动脉血栓形成和其他血管并发症可能在重症监护环境中被忽视。在COVID-19患者群体中,早期风险分层对于主动监测血栓并发症至关重要。
这项探索性研究的目的是利用电子健康记录(EHR)和保险索赔数据库中的信息,描述与COVID-19相关的血栓并发症风险因素。目标是开发一种分析方法,使用现实世界的数据证据,可以推广用于描述血栓并发症和其他临床环境中的其他情况,如COVID-19患者或重症监护病房中的肺炎或急性呼吸窘迫综合征。
我们从保险理赔数据库IBM MarketScan中提取了未识别的患者数据,并使用逻辑回归方法,根据患者人口统计学和临床因素,制定了关于COVID-19患者血栓并发症的假设。然后,通过分析来自研究患者数据注册(RPDR)布里格姆麻省总医院(MGB)患者EHR数据库的未识别患者数据来验证这些假设。根据优势比、95% ci和
分析确定了重要的预测因素(
本研究中采用的分析方法可以跨来自不同组织的异构数据库工作,从而促进协作。通过对数百万患者记录的搜索,分析有助于确定影响表型的因素。在COVID-19患者中使用血栓并发症只是一个案例研究;然而,通过从可用数据库中提取相应的特定疾病患者数据,同样的设计可以用于其他疾病领域。
世界卫生组织报告称,截至2021年12月14日,全球新冠肺炎阳性病例超过2.7亿例,死亡病例超过530万例[
虽然COVID-19与呼吸系统并发症有关已得到证实,但也观察到该病可引起静脉和动脉血栓形成[
关于可能与血栓性并发症相关或负责的机制有几种潜在的假设。例如,有一些初步证据表明,自身免疫反应可能发挥作用[
电子健康记录(EHRs)正广泛应用于医疗保健系统,不同组织之间的记录共享能力不断增强[
在全球COVID-19大流行期间,各组织之间的合作加快了对SARS-CoV-2病毒及其引起的COVID-19疾病的了解。虽然电子病历数据广泛用于COVID-19回顾性研究[
这项回顾性观察性研究利用了IBM的MarketScan商业索赔数据库中的未识别数据。这些数据与MGB EHR的数据进行了比较和验证。在2020年2月1日至2020年9月30日期间被诊断为COVID-19的成年患者纳入了这项研究。患者人口统计包括年龄、性别、种族(仅EHR数据库)和地理位置。我们关注以下共病:高血压、糖尿病、癌症、呼吸系统疾病(哮喘、急性呼吸窘迫综合征、慢性支气管炎、肺气肿、支气管扩张和慢性阻塞性肺病)、心脏病(冠状动脉疾病、心力衰竭、心肌病、心房颤动和缺血性心脏病)、脑血管疾病(中风和脑血管疾病)、肝病、肾脏疾病、血栓形成史、艾滋病毒、怀孕、睡眠呼吸暂停、吸烟,和肥胖。干预措施包括静脉-静脉体外膜氧合(ECMO)、机械通气、体外氧使用和药物治疗。血栓性并发症以ST段抬高型心肌梗死(STEMI)和非STEMI型心肌梗死、肺栓塞、脑梗死、动脉栓塞和血栓形成、其他静脉栓塞和血栓形成、短暂性缺血发作及相关综合征、其他急性缺血性心脏病、其他脑血管疾病为主。
本研究纳入了2020年2月1日至2020年9月30日期间确诊为COVID-19诊断(国际疾病分类,第十版[1CD-10]诊断代码U071, B342, Z8616, J1282, B9729)的患者。研究结果为2020年2月1日至2020年9月30日期间的血栓诊断(ICD-10诊断代码I21、I24、I26、I63、I74、I82、Z8671、M622和G45)。
我们对2020年2月1日至2020年9月30日的IBM MarketScan商业数据库和医疗保险补充数据库进行了回顾性分析,以确定患者。这表示在IBM MarketScan Treatment Pathways(一个覆盖在MarketScan Research数据库上的基于云的分析接口)中进行分析时最新可用的数据。MarketScan是美国最大的未识别纵向患者健康数据库之一,其中包括超过3900万个人的信息,包括在职员工及其家属、提前退休人员和综合预算协调法案(COBRA)的延续者,由代表所有50个州的约40个雇主赞助的健康计划投保。在2020年2月1日至2020年9月30日期间,共有259,470名患者在某个时间点接受了COVID-19诊断。其中,153,137名患者在确诊COVID-19之前连续入组2年,并被纳入研究。
作为一个保险索赔数据库,MarketScan包含了来自患者旅程中多个供应商的信息,覆盖范围更广。保险理赔数据提供处方是否被配药的信息,而EHR数据只说明是否被配药。MarketScan可以有效地补充电子病历数据,通过提供患者在整个医疗保健系统中相互作用的极其广泛的视图,并提供对大型和多样化样本的访问。
应该注意的是,由于健康保险覆盖范围的变化,少数个人可能会出现在MarketScan数据集中或出现在数据集中。因此,在使用MarketScan(或任何其他索赔数据集)进行这些分析时,样本仅限于在观察期间连续入组的患者。
我们从MGB患者记录数据库研究患者数据注册中心(RPDR)收集了患者数据,RPDR是一个集中的临床数据注册中心。数据仓库包括650万名患者和22亿行临床数据,作为来自各个医院系统的住院和门诊患者的中央临床数据注册中心,以支持临床研究。
RPDR查询工具允许使用给定的特征集搜索医院的患者数量。我们搜索了2020年2月1日至2020年9月30日期间该医院的患者。使用ICD-10医疗代码对患者进行特征描述,并结合代码来识别COVID-19患者的血栓形成和潜在的相关共病。从2020年2月1日到2020年9月30日,共有31364名患者被诊断为COVID-19,并被纳入研究。
描述性统计被总结为分类数据的频率和百分比。使用一个简单的(或未调整的)逻辑回归模型来评估人口统计学和临床因素与表型之间的关联强度。人口学和临床因素包括人口学、共病和干预措施。在本研究中,表型被定义为一个二分变量,我们关注血栓性并发症的诊断(即伴有或不伴有血栓性并发症)。
结果由比值比(OR),对应的95% CI和
在研究期间,索赔数据中有153,137名COVID-19患者,其中44.8%为男性。EHR数据中有31364名COVID-19患者,其中43.9%为男性。年龄分布如图所示
来自保险索赔和电子健康记录(EHR)数据集的患者年龄分布。x轴是年龄y轴是病人数量。
COVID-19患者共病分布显示在
来自保险索赔和电子健康记录(EHR)数据集的患者共病分布。x轴是合并症y轴是患者数量。
我们遇到了两种类型的缺失数据。第一种情况是数据集中至少缺少一个变量。鉴于这种漏失率较低(任何个别变量均<2.5%),认为没有必要进行归因[
这项研究得到了MGB机构审查委员会的批准(IRB协议#2021P001133)。
我们进行了一项分析,以确定与COVID-19诊断患者的血栓并发症相关的临床和人口统计学因素。从IBM MarketScan查询的数据存储为CSV文件。分析从CSV文件中读取,并基于预定义的假设
为了比较年轻和老年人群之间的血栓并发症,我们将COVID-19患者分为两个年龄组:60岁以下的患者和60岁及以上的患者。
如
年龄和血栓并发症以及基于索赔数据的相关性强度。
年龄段 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
< 60年 | 130293年 | 3314 | 参考 | N/A一个 |
≥60年 | 17379年 | 2151 | 4.866 (4.599 - -5.149) | <措施 |
一个N/A:不适用。
基于电子健康记录数据的年龄和血栓并发症及其关联强度
年龄段 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
< 60年 | 20338年 | 487 | 参考 | N/A一个 |
≥60年 | 8796 | 1339 | 6.357 (5.714 - -7.073) | <措施 |
一个N/A:不适用。
血栓并发症与年龄的比值比(
在两组数据中,男性与女性相比,血栓并发症的几率更高(
性别和血栓性并发症及其基于索赔数据的关联强度。
性别 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
男人 | 65926年 | 2738 | 1.245 (1.180 - -1.314) | <措施 |
女性 | 81188年 | 2727 | 参考 | N/A一个 |
一个N/A:不适用。
基于电子健康记录数据的性别和血栓并发症及其关联强度
性别 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
男人 | 12708年 | 1064 | 1.693 (1.542 - -1.859) | <措施 |
女性 | 16763年 | 829 | 参考 | N/A一个 |
一个N/A:不适用。
我们检查了血栓并发症与先前存在的疾病(如高血压、糖尿病、癌症、呼吸系统疾病、心脏病、脑血管疾病、肝病、怀孕、艾滋病毒、血栓形成史、睡眠呼吸暂停、吸烟和肥胖)之间的关系。在两组数据中,所有共患病均与血栓形成显著相关(
共病和血栓性并发症以及基于索赔数据的相关性强度。
伴随疾病 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
高血压 | 41513年 | 3890 | 6.316 (6.950 - -6.704) | <措施 |
糖尿病 | 16688年 | 1959 | 4.386 (4.140 - -4.646) | <措施 |
癌症 | 35684年 | 2092 | 1.947 (1.841 - -2.058) | <措施 |
呼吸道疾病 | 23156年 | 1847 | 2.745 (2.591 - -2.908) | <措施 |
心脏病 | 8743 | 2401 | 12.452 (11.755 - -13.191) | <措施 |
脑血管疾病 | 2542 | 1406 | 19.776 (18.399 - -21.258) | <措施 |
肝脏疾病 | 4044 | 450 | 3.187 (2.880 - -3.527) | <措施 |
肾脏疾病 | 3316 | 989 | 9.619 (8.906 - -10.389) | <措施 |
艾滋病毒 | 712 | 51 | 1.944 (1.462 - -2.587) | <措施 |
血栓病史 | 189 | 473 | 73.938 (62.318 - -87.727) | <措施 |
睡眠呼吸暂停 | 12970年 | 1178 | 2.854 (2.669 - -3.051) | <措施 |
吸烟使用 | 13141年 | 1177 | 2.810 (2.628 - -3.005) | <措施 |
肥胖 | 30288年 | 2293 | 2.802 (2.651 - -2.961) | <措施 |
基于电子健康记录数据的共病和血栓并发症及其关联强度
伴随疾病 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
高血压 | 3079 | 1172 | 13.675 (12.373 - -15.113) | <措施 |
糖尿病 | 1894 | 671 | 7.853 (7.070 - -8.723) | <措施 |
癌症 | 890 | 261 | 5.048 (4.359 - -5.845) | <措施 |
呼吸道疾病 | 17858年 | 1717 | 5.891 (5.045 - -6.879) | <措施 |
心脏病 | 2768 | 1118 | 13.661 (12.366 - -15.093) | <措施 |
脑血管疾病 | 294 | 253 | 15.053 (12.632 - -17.937) | <措施 |
肝脏疾病 | 416 | 160 | 6.340 (5.25 - -7.656) | <措施 |
肾脏疾病 | 2144 | 718 | 7.648 (6.902 - -8.476) | <措施 |
艾滋病毒 | 60 | 17 | 4.368 (2.544 - -7.499) | <措施 |
血栓病史 | 159 | 91 | 9.154 (7.044 - -11.896) | <措施 |
睡眠呼吸暂停 | 395 | 155 | 6.454 (5.327 - -7.820) | <措施 |
吸烟使用 | 159 | 223 | 24.206 (19.633 - -29.842) | <措施 |
肥胖 | 1073 | 237 | 3.722 (3.207 - -4.321) | <措施 |
我们研究了三种外部干预(静脉-静脉ECMO、机械通气和体外吸氧)及其与血栓并发症的关系。ORs和
外部干预和血栓并发症及其基于索赔数据的关联强度。
外部干预 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
透析滤医学界一个 | 34 | 36 | 28.794 (18.005 - -46.047) | <措施 |
机械通风 | 372 | 324 | 24.955 (21.447 - -29.037) | <措施 |
外来氧气消耗 | 423 | 231 | 15.364 (13.057 - -18.078) | <措施 |
一个ECMO:体外膜氧化。
基于电子健康记录数据的外部干预和血栓并发症及其关联强度
外部干预 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
透析滤医学界一个 | 28 | 25 | 13.839 (8.054 - -23.779) | <措施 |
机械通风 | 3. | 3. | 15.332 (3.092 - -76.016) | <措施 |
外来氧气消耗 | 137 | 56 | 6.418 (4.687 - -8.790) | <措施 |
一个ECMO:体外膜氧化。
我们使用EHR数据检查了六种药物干预(洛匹那韦/利托那韦、地塞米松、瑞德西韦、单克隆抗体、托珠单抗和抗疟药)及其与血栓并发症的关系。ORs和
对于索赔数据集,可以获得上述三种药物的信息,分析结果显示在
基于电子健康记录数据的药物治疗和血栓并发症及其相关性
药物干预 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
Lopinavir /例如 | 10 | 3. | 4.599 (1.265 - -16.723) | 02 |
地塞米松 | 405 | 134 | 5.375 (4.396 - -6.573) | <措施 |
瑞德西韦 | 325 | 66 | 3.185 (2.434 - -4.168) | <措施 |
单克隆抗体 | 18 | 15 | 12.852 (6.467 - -25.541) | <措施 |
托珠单抗 | 119 | 37 | 4.835 (3.333 - -7.013) | <措施 |
抗疟药 | 3. | 3. | 15.332 (3.093 - -76.016) | 措施 |
药物治疗和血栓并发症以及基于索赔数据的它们的关联强度。
药物干预 | 无血栓性并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
Lopinavir /例如 | 5 | 3. | 16.221 (3.876 - -67.893) | <措施 |
地塞米松 | 3706 | 442 | 3.418 (2.083 - -3.788) | <措施 |
抗疟药 | 2346 | 177 | 2.074 (1.775 - -2.422) | <措施 |
我们检查了从EHR数据集中记录为异常的6个实验室结果。分析结果总结在
基于电子健康记录数据的实验室结果与血栓并发症之间的相关性强度
实验室结果 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
肺动脉栓塞的水平 | 5354 | 1418 | 13.174 (11.824 - -14.677) | <措施 |
血小板计数 | 14279年 | 1807 | 21.634 (17.404 - -26.891) | <措施 |
凝血酶原时间 | 5635 | 1528 | 17.344 (15.416 - -19.513) | <措施 |
纤维蛋白降解产物 | 5544 | 1208 | 7.455 (6.758 - -8.224) | <措施 |
纤维蛋白原 | 4183 | 1117 | 8.533 (7.742 - -9.405) | <措施 |
c反应蛋白 | 12439年 | 1688 | 10.95 (9.455 - -12.682) | <措施 |
我们使用EHR数据集(
基于电子健康记录数据的种族和血栓并发症之间的关联强度
种族 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
亚洲 | 1007 | 53 | 0.800 (0.575 - -1.012) | 06 |
黑色的 | 3293 | 285 | 1.357 (1.181 - -1.558) | <措施 |
拉美裔 | 1770 | 76 | 0.606 (0.478 - -0.768) | <措施 |
白色 | 17527年 | 1193 | 参考 | N/A一个 |
一个N/A:不适用。
保险索赔数据集包括来自所有地区的患者。与
区域划分如图所示
基于保险索赔数据的区域和血栓并发症之间的联系强度。
地区 | 无血栓并发症 | 血栓并发症,名词 | 优势比(95% CI) |
|
东北 | 27742年 | 1007 | 参考 | N/A一个 |
中北部 | 25912年 | 1631 | 1.562 (1.439 - -1.695) | <措施 |
南 | 78557年 | 2588 | 0.908 (0.843 - -0.977) | <措施 |
西 | 14964年 | 381 | 0.701 (0.622 - -0.791) | <措施 |
一个N/A:不适用。
爱荷华州(左)和加利福尼亚州(右)的面积剥夺指数。深红色表示最不利的区域,深蓝色表示最不不利的区域。爱荷华州属于中北部地区,在那里,COVID-19患者发生血栓并发症的优势比为1.562。加州属于西部地区,在那里,COVID-19患者发生血栓并发症的优势比为0.701。
我们发现了与COVID-19患者的人口统计学、合并症、治疗干预和实验室相关的因素,这些因素与发生血栓并发症的风险密切相关。本研究中采用的分析方法可以通过使用未识别的患者计数数据,用于跨来自不同医疗保健和研究组织的异构患者数据库。本研究使用索赔和EHR数据集作为案例研究,但该方法也可以推广到处理多个数据源。
使用所研究表型的ICD-10诊断代码查询计数。这有助于在解决困难的地方和全球卫生问题方面开展合作。在本案例研究中,我们使用保险索赔和EHR数据库分析了COVID-19患者中与人口统计学和临床因素相关的血栓并发症。在我们的合作中,我们发现这种设计非常有效,我们使用索赔数据来绘制假设,并使用EHR数据进行验证。除了ehr衍生数据中样本量非常小的情况外,这两个数据集大多是一致的,彼此丰富。
索赔和EHR数据库具有不同的存储格式、查询语法和安全问题。我们的设计是使用通用的ICD-10代码在每个数据库上运行查询,并将查询结果存储在CSV文件中,这样我们就可以使用相同的R代码读取CSV文件并进行统计分析。这也最小化了两个地理上分散的团队之间的数据交换。
在选择与血栓并发症相关的因素时,我们主要关注四个类别:人口统计学、合并症、干预措施和实验室结果。我们遇到的一个问题是,一个数据集中可能缺少某些类别的数据;例如,索赔数据库不具有EHR数据集中所找到的所有相同处方药的信息。当我们认为感兴趣的因素可能很重要时,我们只使用一个数据集进行分析。我们对EHR数据集的分析显示,最常用的三种药物是地塞米松、瑞德西韦和托珠单抗。这些药物与血栓性并发症相关,ORs分别为5.375、3.185和4.835。这些也是之前为预测COVID-19患者ICU和VTE需求而开发的模型中考虑的药物[
所有病人都有
对于接受静脉-静脉ECMO和体外吸氧外部干预的COVID-19患者,两组数据中每种干预都有更高的血栓并发症几率。
MarketScan声称,通过纵向监测这些病例,记录患者的短期和长期结果,数据可能对了解COVID-19的影响非常有用。
我们发现,年龄在60岁及以上的COVID-19患者发生血栓并发症的可能性是60岁以下患者的约5倍。尽管有充分证据表明老年患者更容易出现血栓性并发症[
在性别方面,与女性相比,在索赔数据中男性有血栓并发症的可能性是女性的1.25倍(在ehr衍生数据中是1.69倍)。尽管两组数据的or值略有不同,但两者都显示男性在统计学上比女性更容易出现血栓性并发症。这一发现与先前的研究一致,表明男性更有可能患有血栓性并发症[
这项研究使用了两个不同的数据集,涉及184,831名COVID-19患者,以及非常全面的人口统计学和临床信息。这使我们能够从不同方面研究血栓并发症。我们设计了一种适用于两组数据的方法,并发现了与血栓并发症密切相关的因素。这种方法便于使用不同数据格式的团队进行协作。此外,我们的发现与现有文献一致。
这项研究的重点是在2020年2月1日至2020年9月30日期间在美国接受COVID-19诊断的患者,来自ehr的数据主要包括该国东北部地区的患者。因此,这一数据来源并没有涵盖美国国内或全球的全部情况。尽管我们使用了超过18.4万名COVID-19患者的数据和非常小的数据
我们单独检查了各个因素,但有些因素可能是相关的。这是研究的第一阶段,主要目标是验证两个数据集的一致性,证明所有因素都与血栓性并发症相关。本研究的第二阶段将侧重于多变量分析,如下所述。此外,本研究没有调查干预措施与血栓并发症之间的时间关系。
为了确定每个因素如何导致患者的血栓并发症,我们将探索可解释的机器学习模型[
在这项工作中,我们检查了异质患者数据库,并进行了不依赖于单个患者级别数据的分析。事实证明,这是一种有价值的方法,用于医疗保健和研究组织之间的合作,这些组织的数据来自不同的来源、不同的存储格式和不同的患者隐私约束。通过对具有异构数据源的研究合作者进行分析,我们发现了与COVID-19患者血栓性并发症相关的重要人口统计学和临床因素。我们的研究提供了一种协作和早期风险分层方法,这是帮助确保为COVID-19患者群体有效分配资源和获得更好结果的关键一步。
美国地区划分。
面积剥夺指数
综合预算协调法案
体外膜氧合
电子健康记录
《国际疾病分类》第十版
重症监护室
现代应用统计学与S
布里格姆将军
优势比
研究病人资料登记册
ST段抬高型心肌梗死
静脉血栓栓塞
所有作者都参与了研究设计、数据收集、统计分析和结果解释。AZ起草了最初的手稿,所有作者提供了关键的意见,修改,并批准了最终形式的手稿提交。
BR是IBM员工。