发表在9卷第四名(2021): 4月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/21547,首次出版

原始论文

1杨森研究与开发,Titusville,新泽西州,美国

2亚洲大学医学研究生院生物医学学系,水原,大韩民国

3.荷兰鹿特丹伊拉斯谟斯大学医学中心医学信息系

4古里纳Jordi Gol大学基金会,巴塞罗那,西班牙

5美国纽约哥伦比亚大学生物医学信息系

6澳大利亚悉尼新南威尔士大学公共卫生和社区医学学院

7塔夫茨临床研究和卫生政策研究所,波士顿,马萨诸塞州,美国

8美国犹他州盐湖城犹他大学退伍军人事务部

9真实世界解决方案,IQVIA,剑桥,马萨诸塞州,美国

10澳大利亚维多利亚州墨尔本大学墨尔本公共卫生学院

11北京协和医学院公共卫生学院,中国北京

12真实世界证据部,试纸支持,巴塞罗那,西班牙

13荷兰鹿特丹伊拉斯谟大学医学中心公共卫生部

14荷兰莱顿大学医学中心生物医学数据科学系

15瑞典哥德堡大学Sahlgrenska学院医学研究所公共卫生和社区医学学院

16丹麦罗斯基勒西兰大学医院临床药理学部

17丹麦哥本哈根大学NNF蛋白质研究中心

18大韩民国水原亚洲大学医学院传染病系

19联合王国邓迪大学人口健康和基因组学处

20.巴西圣保罗圣保罗大学医学院

21英国牛津大学纳菲尔德临床神经科学系

22美国田纳西州纳什维尔范德堡大学退伍军人事务部

23亚洲大学医学院生物医学信息系,水原,韩国

24美国加州大学洛杉矶分校菲尔丁公共卫生学院生物统计系

25英国牛津大学纳菲尔德骨科、风湿病和肌肉骨骼科学系医学统计中心

通讯作者:

珍娜M代表,理学士,理学硕士,博士

杨森研发

特伦顿哈波顿道1125号

泰特斯维尔新泽西

美国

电话:1 732 715 6300

电子邮件:jreps@its.jnj.com


背景:SARS-CoV-2正在给全球卫生保健系统带来压力。通过实施预测模型,可以区分需要住院的患者和不需要住院的患者,从而减轻大流行期间医院的负担。COVID-19易感度(C-19)指数是一种预测哪些患者将入院接受肺炎或肺炎替代治疗的模型,已被开发并提出作为大流行期间决策的宝贵工具。然而,根据“预测模型偏倚风险评估”标准,该模型存在较高的偏倚风险,且尚未经过外部验证。

摘要目的:本研究的目的是在一系列卫生保健环境中对C-19指数进行外部验证,以确定它在多大程度上预测COVID-19病例中因肺炎住院的情况。

方法:我们遵循观察健康数据科学和信息学(OHDSI)框架进行外部验证,以评估C-19指数的可靠性。我们在两个不同的目标人群(41,381名在门诊或急诊就诊时出现SARS-CoV-2的患者和9,429,285名在门诊或急诊就诊时出现流感或相关症状的患者)上评估了该模型,以预测他们在接下来的0-30天内因肺炎住院的风险。总的来说,我们通过横跨美国、欧洲、澳大利亚和亚洲的14个数据库网络验证了该模型。

结果:C-19指标的内部验证性能的C统计量为0.73,作者未报道校准。当我们通过将其传输到SARS-CoV-2数据进行外部验证时,该模型在西班牙、美国和韩国数据集上分别获得了0.36、0.53(0.473-0.584)和0.56(0.488-0.636)的C统计量。校正效果差,模型低估了风险。当通过OHDSI网络对12个包含流感患者的数据集进行验证时,C统计量在0.40到0.68之间。

结论:我们的研究结果表明,C-19指数模型对流感队列的鉴别性能较低,在美国、西班牙和韩国的COVID-19患者中甚至更差。这些结果表明,在COVID-19大流行期间,不应使用C-19来辅助决策。我们的研究结果强调了在一系列设置中执行外部验证的重要性,特别是当预测模型被外推到不同的人群时。在预测领域,需要广泛的验证来在模型中创建适当的信任。

JMIR Med Inform 2021;9(4):e21547

doi: 10.2196/21547

关键字



背景

导致COVID-19的新型冠状病毒SARS-CoV-2正在全球迅速传播,给全球卫生保健系统造成负担[1].正在开发并向公众发布许多预测模型,以帮助大流行期间的决策[2].其中许多模型旨在告知人们因COVID-19而发生严重后果的风险[3.-5].最近的一项系统综述发现,所有当时发表的模型都存在较高的偏倚风险,并存在一个或多个局限性,包括用于开发模型的数据集较小以及缺乏外部验证[2].

COVID-19脆弱性(C-19)指数[5]是为确定COVID-19感染期间易受严重后果影响的人群而开发的预后模型的一个例子。该模型具有潜在价值,因为它旨在预测普通人群的住院风险[2].在进行这项研究时,有一篇关于该模型的论文作为预印本提供[5],而模型本身可在一个网站上公开获得[6].C-19指数旨在预测3个月内哪些患者因肺炎(或肺炎代用品)需要住院治疗。该模型是使用回顾性收集的医疗保险数据(65岁或以上的患者)开发的,不包括COVID-19患者。

目标

在本文中,我们旨在展示外部验证的重要性,并证明在紧急情况下,为此目的使用协作网络的可行性。我们选择用C-19指数来证明这一点,因为在同行评议之前,它作为一种可以预测COVID-19严重程度的模型,可以作为商业产品向公众提供,但尚未经过任何外部验证。目前尚不清楚该模型是否用于医疗决策,但它已被宣传为决策工具。然而,本文阐述的过程和汲取的经验教训适用于任何COVID-19预测模型。此外,C-19指数模型是使用非COVID-19数据开发的,不能保证在没有COVID-19的医疗保险患者身上训练的模型在COVID-19患者身上表现类似,甚至表现良好。研究表明,缺乏外部验证的模型存在很高的偏差风险[7].此外,建议在临床使用前评估模型的再现性和可移植性的知识[8].模型必须是可靠的,因为糟糕的预测可能不利于决策。2].

观察性健康数据科学与信息学(OHDSI)合作是一组研究人员,他们正在合作开发分析观察性医疗数据的最佳实践[9].OHDSI开发了一个框架,能够在全球大量数据集上及时验证预测模型[10].OHDSI网络目前包含来自美国、欧洲和亚洲的大量COVID-19队列。在这项研究中,我们旨在证明在预测可信之前对模型进行外部验证的重要性。作为案例研究,我们选择调查C-19指数应用于世界各地数据库的COVID-19数据时的预测性能。本研究提供了关于在COVID-19大流行期间使用C-19指数模型辅助决策的适用性的信息。


现有的C-19指数模型

在C-19索引论文中开发了三个模型[5].最简单的模型是具有有限数量预测因子的逻辑回归:年龄、性别、医院使用情况、11种共病以及它们的年龄相互作用。另外两个模型则是拥有超过500个变量的梯度提升机器。这些梯度增压机模型中只有一种被报道过。保留模型会导致不符合TRIPOD(个体预后或诊断的多变量预测模型的透明报告)声明[11并使外部验证成为不可能。在本文中,我们选择评估简单逻辑回归模型,认识到全球迫切需要COVID-19预测模型,并且精简模型更容易在卫生保健环境中实施。

数据源

来自初级保健和二级保健系统的电子医疗记录(EMRs)和行政索赔数据库,其中包含来自澳大利亚、日本、荷兰、西班牙、韩国和美国的患者,在分布式网络中进行了分析多媒体附件1,表S1。在这些数据集中,5个包含COVID-19病例,9个没有。本文中使用的所有数据集均被映射到OHDSI观察性医疗结果伙伴关系通用数据模型(omp - cdm) [12].开发omp - cdm是为了向研究人员提供具有标准数据库结构的不同数据集。这使得分析代码和软件能够在研究人员之间共享,从而促进了预测模型的外部验证。从临床实践中常规收集的记录中获得鉴别或假名数据。使用以下数据库进行分析:澳大利亚基于实践的电子研究网络(AU-ePBRN)(澳大利亚初级和二级保健数据库的链接);日本医疗数据中心(日本索赔);综合初级保健信息(IPCI)(荷兰初级保健EMR);初级保健研究信息系统(SIDIAP)(西班牙初级保健EMR);亚洲大学医学院(AUSOM)和健康保险审查和评估(HIRA) (EMR和索赔数据库,分别来自韩国);商业索赔和遭遇(CCAE)、ClinFormatics、医疗保险(MDCR)、医疗补助(MDCD)(美国索赔数据库)、Optum EHR、退伍军人事务部(VA)、哥伦比亚大学欧文医学中心(CUIMC)和塔夫茨医学中心研究数据仓库(TRDW)(美国EMRs)。 All analyses were conducted locally in a distributed network in which the analysis code was sent to participating sites and only aggregate summary statistics were returned, with no sharing of patient-level data between organizations.

发表同意书

每个站点都获得了机构审查委员会的研究批准或使用了未识别的数据;因此,该研究被确定为非人体课题研究。在任何地点都不需要知情同意。

参与者

C-19指数的目的是确定哪些COVID-19患者更有可能因严重并发症而需要住院治疗。C-19指数模型使用非covid -19数据开发;因此,我们在(1)COVID-19队列中对其进行了外部验证,以查看该模型在广告中所宣传的患者中传输的效果如何,以及(2)非COVID-19队列中,查看该模型在与用于开发该模型的患者相似的患者中传输的效果如何。

我们选择调查模型应用于有初始症状的门诊或急诊科(ED)患者时的表现。我们选择了这种方法,因为它模拟了患者因出现COVID-19症状或COVID-19(或流感)检测呈阳性而首次寻求治疗或医疗建议的情况。

对于使用COVID-19数据的外部验证,满足以下标准的患者被纳入目标人群:

  • 在门诊或急诊科就诊时出现COVID-19(通过2020年1月1日之后记录的SARS-COV-2诊断代码或SARS-COV-2阳性检测确定COVID-19)
  • 门诊或急诊科就诊时年龄≥18岁
  • 门诊或急诊科就诊前资料中观察时间≥365天
  • 在过去60天内未诊断出流感、流感样症状或肺炎(以确保指标日期为COVID-19最近症状的日期)

指标日期定义为有效门诊或急诊科就诊的日期。

对于使用非covid -19数据(流感数据)的外部验证,满足以下标准的患者被纳入目标人群:

  • 在门诊或急诊科就诊时出现流感或流感样症状(如发烧和咳嗽、呼吸短促、肌痛、不适或疲劳)
  • 门诊或急诊科就诊时年龄≥18岁
  • 门诊/急诊科就诊前资料中观察时间≥365天
  • 在过去60天内未诊断出流感、流感样症状或肺炎(以确保指标日期为最近流感症状的日期)

指标日期定义为有效门诊或急诊科就诊的日期。

结果

结果为在指标日(有效的门诊或急诊科就诊)和指标后30天内因肺炎住院。

多媒体附件2包含本研究中使用的肺炎、流感、流感样症状和COVID-19的定义。参与者队列的完整细节和用于验证的结果可在研究包中找到[13].

预测

C-19指数logistic回归版本的预测因子为年龄(年)、男性性别、前12个月住院次数以及各种临床分类软件精炼(CCSR)类别的指标变量。表中给出了C-19预测因子和系数多媒体.所使用的CCSR分类为除结核病引起的肺炎以外的肺炎、其他未明确定义的心脏病、心力衰竭、急性风湿性心脏病、冠状动脉粥样硬化和其他心脏病、肺心病、慢性风湿性心脏病、糖尿病合并并发症、无并发症的糖尿病、慢性阻塞性肺病和支气管扩张,以及其他特定和未明确的下呼吸道疾病。年龄与每个CCSR变量的相互作用也被作为预测因素。每个CCSR类别对应于属于该类别的国际疾病分类第十版(ICD-10)代码的集合。

在发育数据中,如果患者的ICD-10代码在指数之前的特定时间段内属于CCSR“除结核引起的肺炎外的肺炎”分组,那么他们的预测因子“除结核引起的肺炎外的肺炎”的值为1;否则,它就是0。对每个CCSR预测者重复此分配。omp - cdm中的数据不使用ICD-10代码,而是使用医学系统化命名法(SNOMED)代码。因此,为了复制omp - cdm数据中的预测因子,我们需要找到对应于每个CCSR预测因子的SNOMED编码集。我们通过在CCSR类别中找到每个ICD-10代码的SNOMED等效物来实现这一点。

C-19的OHDSI实现所使用的每个CCSR类别的SNOMED分组在多媒体

样本大小

我们在2020年确定了41381名因COVID-19而去门诊或急诊科就诊的患者:1985名患者来自韩国,37950名患者来自西班牙,1446名患者来自美国。我们还从6个国家的数据库中确定了9,429,285名因流感或流感样症状而门诊或急诊科就诊的患者。每个数据库流感或流感样症状的访问次数在2793至3,146,801之间。

缺失的数据

预测模型采用队列设计,包括任何满足纳入标准的患者。我们没有排除在有效门诊或急诊科就诊后30天内失去随访的患者。

统计分析方法

使用标准判别指标评估模型性能:受试者工作特征(AUROC)曲线下面积(相当于C统计量)和精度召回曲线下面积(AUPRC)。后者在评估罕见结果时是AUROC的有用补充[14].AUROC为1对应于这样一个模型:与未经历该结局的患者相比,将经历该结局的患者总能赋予更高的风险。AUROC为0.5对应于随机猜测患者风险的模型。精确度的定义是真阳性的数量除以真阳性的数量加上假阳性的数量。召回率定义为真阳性的数量除以真阳性的数量加上假阴性的数量。精度-召回曲线显示了不同阈值下的精度和召回之间的权衡。AUPRC的性能与结果的稀有性有关。AUPRC大于具有结果的人口百分比,表明模型具有判别能力,该值越大(越接近1),判别能力越好。AUPRC给出了假阳性率的一些见解;AUPRC值较低,表明模型将导致许多假阳性。 The calibration was determined by creating deciles based on the predicted risk and plotting the mean predicted risk versus the observed risk in each decile. If a model is well calibrated, the mean predicted risk will be approximately equal to the observed risk for each decile.

我们遵循TRIPOD声明准则[11]用于报告本文的模型验证。为了透明度,GitHub上有一个开源包,用于在任何omp - cdm数据上实现模型[13].

开发与验证

C-19指数模型开发设置和验证设置之间的差异包括不同的目标人群和不同的数据集。我们选择的验证设计设置是为了模拟临床医生需要决定是否收治COVID-19患者的情况。重要的是,我们在COVID-19患者身上验证了C-19指数模型。

C-19指数采用队列设计,于2016年9月30日将成年患者纳入队列,并预测他们是否会在接下来的3个月内因肺炎或替代疾病(流感、急性支气管炎或其他特定的上呼吸道感染)住院。要求患者拥有6个月或6个月以上的数据,在索引后3个月内离开数据库且未记录死亡的患者被排除在外。在我们的外部验证中,我们采用了队列设计,但将因流感(或COVID-19)首次门诊/急诊科就诊的成年患者纳入队列,而不是固定日期;此外,我们预测肺炎住院时间为30天,而不是3个月。我们排除了指数前60天内患有流感或肺炎的患者,以将数据限制在首次就诊。这模拟了COVID-19大流行期间的情况,临床医生需要决定是否将最初出现COVID-19的患者住院。我们需要12个月的前期观察,并且不排除索引后3个月内离开数据库的患者。

C-19指数是利用大流行前MDCR数据库中的一部分患者编制的。这是一个包含65岁以上患者的美国索赔数据库。在这项研究中,我们能够从外部评估COVID-19数据的C-19指数模型,包括来自韩国、西班牙和美国的65岁以下成年患者。


基于网络的结果

我们的完整分析结果可在交互式应用程序[15].

MDCR数据(与发展数据相同数据源,但不同患者子集)以及HIRA、SIDIAP和VA数据(COVID-19患者)的特征显示在表1.本研究中使用的所有数据集的特征可在多媒体附件4

表1。MDCR(与发展数据相似的数据库)和包含COVID-19数据的数据集中的基线患者特征。
预测 目标人群住院后30天内指标按数据集
医疗保险的补充 希拉一个 SIDIAPb 弗吉尼亚州c
要求 没有一个 要求 没有一个 要求 没有一个 要求 没有一个
平均年龄(年) 80.92 76.41 65.53 45.09 63.28 49.61 69.64 58.07
过去365天的平均住院次数 0.58 0.35 1.38 0.68 - - - - - -d - - - - - - 0.32 0.22
男性(%) 52 45 56 46 59 43 95 80
有各种疾病病史的患者比例(不含指标)
急性风湿性心脏病 0 0 0 0 - - - - - - - - - - - - - - - - - - - - - - - -
慢性阻塞性肺病和支气管扩张 0.43 0.25 0.38 0.21 0.06 0.03 0.27 0.21
慢性风湿性心脏病 0.03 0.02 0 0 - - - - - - - - - - - - - - - - - - - - - - - -
冠状动脉粥样硬化等心脏疾病 0.19 0.15 0.21 0.09 0.02 0.01 0.17 0.13
糖尿病合并并发症 0.24 0.18 0.31 0.13 0.03 0.01 0.38 0.24
无并发症的糖尿病 0.38 0.32 0.43 0.20 0.13 0.05 0.50 0.32
心脏衰竭 0.37 0.20 0.20 0.07 0.02 0.01 0.23 0.12
其他未明确定义的心脏病 0.25 0.15 0.02 0.01 0.01 0.01 0.11 0.06
其他特定和未指明的下呼吸道疾病 0.73 0.59 0.92 0.88 0.43 0.38 0.58 0.45
肺炎(由肺结核引起的除外) 0.39 0.20 0.31 0.15 0.06 0.06 0.20 0.14
肺心病 0.09 0.04 0.00 0.00 - - - - - - - - - - - - - - - - - - - - - - - -

一个健康保险审查和评估。

b初级保健研究信息系统。

c退伍军人事务部。

d-:由于单元数低,数据不包括在内。

模型的性能

当C-19被运送给COVID-19患者时,其auroc在0.36至0.56之间;详情见表2.AUROC和校准图显示在图1.C-19指数的内部鉴别性能AUROC为0.73。当我们在MDCR数据库中的患者(年龄≥65岁且有补充医疗保险覆盖的患者)上验证该模型时,但由于我们的目标人群由有症状的流感患者组成,性能为0.65,与0.73的发展性能相比有大幅下降。在其他包含流感患者的数据库中进行外部验证时,AUROC表现在0.40到0.68之间。完整结果显示在表3, AUROC和校准图见多媒体.作为敏感性分析,我们还在2020年患有COVID-19或有疾病症状的患者组成的目标人群中验证了C-19指数;结果相似,见表S2多媒体附件1

表2。基于COVID-19数据的COVID-19脆弱性指数模型的外部验证。目标队列为2020年有covid -19阳性记录的门诊或急诊患者,在过去60天内没有症状。
数据库 目标尺寸,n 结果大小,n (%) AUROC一个(95%置信区间)b AUPRCc
希拉d 1985 89 (4.48) 0.56 (0.488 - -0.636) 0.07
SIDIAPe 37950 1223 (3.22) 0.363 0.03
弗吉尼亚州f 1446 149 (10.30) 0.529 (0.473 - -0.584) 0.14

一个AUROC:受试者工作特征曲线下的面积。

b当结局计数<1000时,报告95% CI。

cAUPRC:精度召回曲线下面积。

d健康保险审查和评估。

e初级保健研究信息系统。

f退伍军人事务部。

图1。COVID-19数据充足合适的三个数据集的接受者工作特征和COVID-19脆弱性指数模型的校准图。健康保险审查和评估;初级保健研究信息系统;VA-OMOP:退伍军人事务部-观察性医疗结果伙伴关系。
查看此图
表3。基于流感患者数据(非COVID-19数据)的COVID-19易损性指数模型的外部验证。
数据库 目标种群大小,n 结果大小,n (%) AUROC一个(95%置信区间)b AUPRCc
医疗补助计划 536806年 32987 (6.15) 0.68 0.16
日本医疗数据中心 1276478年 728 (0.06) 0.58 (0.55 - -0.60) 0.004
医疗保险的补充 248989年 31059 (12.47) 0.65 0.21
商业索赔与纠纷 3146801年 33824 (1.07) 0.58 0.04
EHR为联合健康集团d 1654157年 34229 (2.07) 0.62 0.07
ClinFormatics 2082277年 105030 (5.04) 0.67 0.17
亚洲大学医学院 3105 49 (1.58) 0.52 (0.41 - -0.63) 0.04
塔夫茨医学中心研究数据仓库 6272 147 (2.34) 0.63 (0.58 - -0.69) 0.06
澳大利亚电子实践研究网络 2793 29 (1.04) 0.59 (0.45 - -0.72) 0.03
哥伦比亚大学欧文医学中心 27356年 1121 (5.10) 0.64 0.10
综合初级保健资讯 29132年 22日(0.08) 0.40 (0.26 - -0.54) 0.00
SIDIAPe 415119年 512 (0.12) 0.49 (0.45 - -0.52) 0.00

一个AUROC:受试者工作特征曲线下的面积。

b当结局计数<1000时,报告95% CI。

cAUPRC:精度召回曲线下面积。

dEHR:电子健康记录。

e初级保健研究信息系统。


C-19指数可在网上获得,作为预测COVID-19患者严重程度的工具;然而,它缺乏对这一人群的验证。我们在三个具有充足COVID-19数据的数据集上进行验证,结果显示鉴别性能较差(auroc <0.6)和校准。当该模型在12个流感患者数据集上进行验证时,我们观察到同样糟糕的表现,最佳auroc <0.70。

解释

这项研究的关键发现是C-19指数模型在移植给COVID-19患者时的表现。整个COVID-19数据集的模型性能较差(auroc 0.36-0.56)。SIDIAP数据中的表现比随机猜测更差,这与该模型应用于欧洲流感患者时所看到的糟糕表现是一致的。校准图显示,C-19指数一直低估了COVID-19患者的风险。

用于执行验证的数据集具有非常不同的患者群体。MDCR的患者年龄最大,该数据集中的许多患者有合并症。与MDCR相比,CCAE和JMDC数据集显示目标人群中更健康、更年轻的患者(平均年龄约40岁)。虽然MDCD数据集包含较年轻的患者,但这些患者通常有合并症(即,20%的患者患有慢性阻塞性肺疾病,11%有心力衰竭,17%有肺炎史)。各数据集的住院率差异很大,值在0.1% (JMDC)和12.4% (MDCR)之间。用于开发C-19指数的数据集中的结果率为0.23%,远低于本研究中用于验证模型的MDCR数据集中的结果率。这是因为我们的研究仅限于因流感或COVID-19而门诊或急诊科就诊的患者。虽然有5个数据集包含COVID-19患者,但只有4个数据集(VA、HIRA、SIDIAP和CUIMC)包含足够的数据进行外部验证。C-19指数模型应用于CUIMC中COVID-19患者的结果较差,AUROC <0.5;然而,该数据集主要由住院患者组成,因此似乎不适合验证预测住院的模型。

我们选择了有症状患者的目标人群,因为这类似于COVID-19预测模型在大流行期间可能在临床实施的情况:临床医生不太可能接收无症状患者。这表明,由于在模型开发数据中包含了许多健康患者,因此在一般人群中而不是在有症状的人群中评估的内部C-19 AUROC估计值与在现实环境中的使用相比可能是乐观的。当应用于预测美国数据中的流感患者住院时,判别性能在0.58至0.68之间在CCAE数据集中,年轻患者的表现更差,可能是因为年龄是模型中的一个关键预测因素。当C-19指数在非美国数据集上传输时,澳大利亚和亚洲数据的区分差到合理(0.52-0.64),欧洲数据的区分差到合理(0.4-0.49)。欧洲数据提取自一般实践设置,但C-19指数模型是使用美国索赔数据开发的。考虑到临床环境的差异,表现差并不奇怪。这一发现强调,模型通常不会被运送到不同的医疗机构。SIDIAP验证C-19指标模型时AUROC为0.36,劣于随机猜测,反演预测风险AUROC为0.64。这可能是C-19包含年龄相互作用项的结果,导致年龄系数为负。表1显示在SIDIAP中,该模型的年龄相互作用共病的记录不像在其他数据库中那样频繁。因此,在SIDIAP中,年轻患者可能比老年患者被分配了更高的风险。

将C-19应用于COVID-19数据时,校准效果很差。这并不意外,因为众所周知,COVID-19患者比一般无COVID-19人群因肺炎住院的风险更高。通过使用COVID-19患者的数据样本进行重新校准,可能会改进校准。

影响

这些结果为logistic回归C-19指数用于COVID-19数据时的表现提供了广泛的见解。外部验证发现,logistic回归C-19指数模型在预测COVID-19患者住院风险时不可靠。鉴于这一结果,我们不建议在COVID-19大流行期间使用逻辑回归C-19指数来帮助决策。该模型似乎没有传播给COVID-19患者,这突出了外部验证模型的重要性,特别是目标人群与发展人群不同的模型。

logistic回归C-19指数模型不能预测被调查的COVID-19患者因肺炎住院的潜在原因有很多。第一个原因可能是该模型是在65岁或以上的患者身上开发的,但适用于18岁或以上的患者。年龄在模型中有一个负系数,这可能导致模型应用于年轻患者时出现问题。第二个原因可能是由于预测因子的表型不正确。我们将SNOMED代码与CCSR提供的ICD-10代码进行了匹配;然而,由于数据集和卫生保健设置之间的编码差异,预测因子可能需要数据库特定的表型。这可能解释了欧洲数据集表现不佳的原因,这些数据集是从数据库中获得的,其记录条目可能与美国的不同。第三个原因是研究设计。C-19指数用于预测2016年某一特定日期的住院情况;然而,我们在有症状的门诊或急诊科患者的目标队列中验证了它,因为这更符合模型的临床用例。 Therefore, we were likely to have a sicker population, in which discrimination may have been more difficult. A fourth potential reason is that the C-19 index model was developed using data prior to 2017 but was validated on data from 2020: temporal changes and concept drift may have negatively impacted the performance. Although we do not know the reason for the unreliability of the C-19 index model on patients with COVID-19, we were able to quantify it by large-scale external validation across a network of data sets. In future work, it would be beneficial to develop techniques that can identify reasons for poor external validation performance, as this may inform new best practices for model development.

这项研究强调了在不同环境下进行广泛外部验证的重要性。在不确定时期,如大流行,面临做出重要决定的压力的医务人员可以从实施经过审查的预测模型中受益。然而,在使用模型之前,对模型在众多患者群体中的性能进行无偏倚和可靠的评估是很重要的。内部验证通常是有偏见的(例如,用于开发模型的总体与预期的目标总体不匹配),并且可以提供乐观的性能估计(例如,一个糟糕的设计或小的数据集可能导致高估的鉴别性能)。OHDSI协作使用的方法可以跨多个数据集对模型进行有效的外部验证,当需要紧急情况时,这是一种宝贵的资源。

限制

在使用观察性医疗保健数据时,特别是在跨数据库网络时,一个常见的问题是难以开发在所有数据集上都有效的表型。在这项研究中,我们使用了开发模型的研究人员给出的预测器定义。然而,这些定义可能无法跨所有数据集传输,并可能导致性能下降。我们也仅限于验证不太复杂的C-19指数模型,因为对于更复杂的模型来说,变量太多且缺乏透明度。

本文中用于证明外部验证重要性的C-19指数模型对医疗决策的使用可能有限。其他COVID-19模型,如包括生理测量在内的模型,可能会产生更大的临床影响。然而,我们之所以选择C-19指数模型,是因为它在大流行早期就可用,并作为一种有用的工具向公众宣传,同时以预印本论文进行报告,没有经过正式的同行评审。

结论

我们已经证明了在多个数据集中实施外部验证以确定预测模型可靠性的重要性。我们选择了一个新开发的模型,即C-19指数,旨在预测哪些COVID-19患者有因SARS-CoV-2而出现严重并发症的风险。该模型报告的内部AUC为0.73,但被认为具有很高的潜在偏差风险[2].C-19指数解决了一个重要问题,可以在COVID-19大流行期间极大地帮助决策;然而,它在COVID-19患者中的表现尚不清楚。我们的研究结果表明,当应用于亚洲、欧洲和美国新诊断的COVID-19患者时,C-19指数表现不佳。总的来说,我们建议该模型目前仅用于预测美国老年患者因肺炎而住院的情况。本研究的结果表明,内部验证性能应被视为乐观估计,预测模型需要在将使用的目标人群(或接近的代理)的多个数据集上进行验证,然后才应被信任。

致谢

我们要感谢感染或死于这种毁灭性疾病的患者,以及他们的家人和护理人员。我们还要感谢在这一充满挑战的时期参与COVID-19管理的卫生保健专业人员,从初级护理到重症监护病房。作者感谢韩国致力于治疗COVID-19患者的医疗保健专业人员以及韩国卫生福利部和健康保险审查评估院迅速分享宝贵的国民健康保险索赔数据。该项目得到了欧洲卫生数据和证据网络(EHDEN)项目的支持。EHDEN根据第806968号赠款协议获得了创新药物倡议2联合企业(JU)的资助。JU获得了欧盟地平线2020研究和创新计划和EFPIA的支持。这项工作还得到了韩国贸易、工业和能源部资助的生物产业战略技术发展计划(20001234,20003883)的支持,以及韩国卫生和福利部资助的韩国卫生产业发展研究院(KHIDI)的韩国卫生技术研发项目的资助[资助号:HI16C0992]。该项目由加泰罗尼亚共和国卫生部资助,由Direcció Recerca将军和Innovació en Salut组织的SARS-CoV-2和COVID-19疾病研究项目提供赠款。牛津大学获得了来自比尔和梅林达·盖茨基金会(投资ID INV-016201)的与这项工作相关的拨款,以及来自英国国家卫生研究所(NIHR)牛津生物医学研究中心的部分支持。DPA由NIHR高级研究奖学金(批准号SRF-2018-11-ST2-004)资助。 The views expressed in this publication are those of the author(s) and not necessarily those of the National Health Service, the National Institute for Health Research, the Department of Health, the Department of Veterans Affairs, or the United States Government. BSKH is funded through Innovation Fund Denmark (5153-00002B) and the Novo Nordisk Foundation (NNF14CC0001). This project is part funded by the University of New South Wales Research Infrastructure Scheme grant. SLD and MEM report funding from NIH NHBLI R-01, NIH NIDDK R-01 grant, and VA HSR&D. This work was supported using resources and facilities of the Department of Veterans Affairs (VA) Informatics and Computing Infrastructure (VINCI), VA HSR RES 13-457.

利益冲突

DPA报告了来自AMGEN的赠款和其他资金,来自UCB Biopharma的赠款、非财务支持和其他资金,以及来自Les Laboratoires Servier提交的工作之外的赠款;此外,Janssen还代表imi资助的EHDEN和EMIF财团和Synapse Management Partners,支持由DPA部门组织并向外部参与者开放的培训项目。在研究期间,PRR报告了创新药物计划和杨森研发的资助。CGR和KK报告他们是IQVIA的员工。JMR, PBR, AS和GR是Janssen Research & Development, JNJ的有偿员工。MAS报告说,在研究进行期间,他们获得了美国国立卫生研究院的资助,IQVIA的资助,杨森研发的个人费用,私人健康管理的个人费用。DM得到了威康信托临床研究发展奖学金(赠款214588/Z/18/Z)的支持,并报告了来自首席科学家办公室、英国健康数据研究中心和NIHR在提交工作之外的资助。GH报告说,在进行研究期间,获得了美国国立卫生研究院国家医学图书馆的资助,并在提交的工作之外获得了杨森研究所的资助。BSKH报告称,在提交的工作之外,还获得了丹麦创新基金和诺和诺德基金会的资助。SLD报告了来自Anolinx LLC、Astellas Pharma Inc、AstraZeneca Pharmaceuticals LP、Boehringer Ingelheim International GmbH、Celgene Corporation、Eli Lilly and Company、Genentech Inc、Genomic Health Inc、Gilead Sciences Inc、GlaxoSmithKline PLC、Innocrin Pharmaceuticals Inc、Janssen Pharmaceuticals Inc、Kantar Health、Myriad genetics Laboratories Inc、Novartis International AG、 Parexel International Corporation through the University of Utah or Western Institute for Veteran Research outside the submitted work.

多媒体附件1

描述本研究中使用的数据库和敏感性结果的补充表。

DOCX文件,18kb

多媒体附件2

用于定义每个条件的代码集。

XLSX文件(Microsoft Excel文件),173 KB

多媒体

COVID-19易损性指数模型及医学表型编码的系统化命名。

DOCX文件,19kb

多媒体附件4

每个非covid -19病例数据库的描述性表。

XLSX文件(Microsoft Excel文件),17kb

多媒体

非covid -19病例数据库的接收器工作特征和校准图。

DOCX文件,1291 KB

  1. Remuzzi A, Remuzzi G. COVID-19和意大利:下一步是什么?《柳叶刀》2020年4月;395(10231):1225-1228。[CrossRef
  2. Wynants L, Van Calster B, Collins GS, Riley RD, Heinze G, Schuit E,等。covid-19感染的诊断和预后预测模型:系统综述和关键评价。BMJ 2020 Apr 07;369:m1328 [免费全文] [CrossRef] [Medline
  3. 张宏,王旭,付震,罗明,张震,张凯,等。预测COVID-19患者病情严重程度的潜在因素medRxiv。预印本于2020年3月23日在线发布。[CrossRef
  4. 陆杰,胡松,范锐,刘震,殷霞,王强,等。ACP风险等级:中国武汉市暴发早期确诊或疑似严重急性呼吸综合征冠状病毒病(COVID-19)患者的简单死亡率指数。SSRN日报》。预印本于2020年2月28日在线发布。[CrossRef
  5. DeCaprio D, Gartner J, McCall CJ, Burgess T, Garcia K, Kothari S,等。建立COVID-19脆弱性指数。出来了。预印本于2020年3月16日在线发布[免费全文
  6. C-19指数。URL:http://c19survey.closedloop.ai/[2021-03-05]访问
  7. 沃尔夫RF,穆恩斯KG,赖利RD,怀廷PF,韦斯特伍德M,柯林斯GS,等。PROBAST:评估偏倚风险和预测模型研究适用性的工具。安实习医学2019年1月1日;170(1):51。[CrossRef
  8. Van Calster B, Wynants L, Timmerman D, Steyerberg EW, Collins GS。医疗保健中的预测分析:我们如何知道它有效?J Am Med Inform association 2019年12月01日;26(12):1651-1654 [免费全文] [CrossRef] [Medline
  9. 赫瑞pcsak G, Duke J, Shah N, Reich CG, Huser V, Schuemie MJ,等。观察健康数据科学和信息学(OHDSI):观察研究人员的机会。种马健康技术信息2015;216:574-578 [免费全文] [Medline
  10. 代表J, Williams RD, You SC, Falconer T, Minty E, Callahan A,等。在国际数据网络中患者水平预测的大规模外部验证方法的可行性和评估:新诊断为房颤的女性患者中风预测模型的验证研究广场。预印本于2020年5月6日在线发布。[CrossRef
  11. 张晓明,张晓明,张晓明。基于多变量预测模型的个体预后或诊断的透明报告:TRIPOD声明。中华外科杂志2015年2月07日;102(3):148-158。[CrossRef] [Medline
  12. Voss EA, Makadia R, Matcho A, Ma Q, Knoll C, Schuemie M,等。公共数据模型应用于多个不同的观察性健康数据库的可行性和实用性。美国医学信息学会2015年5月;22(3):553-564 [免费全文] [CrossRef] [Medline
  13. ohdsi-studies: Covid19预测研究。GitHub。URL:https://github.com/ohdsi-studies/Covid19PredictionStudies/tree/master/CovidVulnerabilityIndex[2021-03-05]访问
  14. Saito T, Rehmsmeier M.在不平衡数据集上评估二元分类器时,精度-召回图比ROC图更有信息。PLoS One 2015 3月4日;10(3):e0118432 [免费全文] [CrossRef] [Medline
  15. 我们能相信预测模型吗?通过在国际观察性医疗数据集网络中调查COVID-19脆弱性指数,证明外部验证的重要性。C-19验证。URL:http://evidence.ohdsi.org/C19validation[2021-03-05]访问


AU-ePBRN:澳大利亚电子实践研究网络
AUPRC:精度召回曲线下面积
AUROC:接收机工作特性曲线下面积
AUSOM:亚洲大学医学院
C-19:COVID-19脆弱性
CCAE:商业索赔与纠纷
CCSR:临床分类软件改进
CUIMC:哥伦比亚大学欧文医学中心
艾德:急诊科
EHDEN:欧洲健康数据和证据网
EMR:电子病历
希拉:健康保险审查和评估
诊断结果:《国际疾病分类》第十版
IPCI:综合初级保健资讯
居:合营企业
MDCD:医疗补助计划
MDCR:医疗保险
NIHR:国家健康研究所
OHDSI:观察性健康数据科学与信息学
OMOP-CDM:观察性医疗结果伙伴关系通用数据模型
SIDIAP:初级保健研究信息系统“,
snom):系统化的医学命名法
TRDW:塔夫茨医学中心研究数据仓库
三脚架:个体预后或诊断的多变量预测模型的透明报告
弗吉尼亚州:退伍军人事务部


C·洛维斯编辑;提交17.06.20;同行评议:D Maslove, J Wang, A Austin;对作者28.10.20的评论;订正版本收到12.11.20;接受27.02.21;发表05.04.21

版权

©Jenna M Reps, Chungsoo Kim, Ross D Williams, Aniek F Markus, Cynthia Yang, Talita Duarte-Salles, Thomas Falconer, Jitendra Jonnagaddala, Andrew Williams, Sergio Fernández-Bertolín, Scott L DuVall, Kristin Kostka, Gowtham Rao, Azza Shoaibi, Anna Ostropolets, Matthew E Spotnitz, Lin Zhang, Paula Casajust, Ewout W Steyerberg, Fredrik Nyberg, Benjamin Skov Kaas-Hansen, Young Hwa Choi, Daniel Morales, Siaw-Teng Liaw, Maria Tereza Fernandes Abrahão, Carlos Areia, Michael E Matheny, Kristine E Lynch,María Aragón, Rae Woong Park, George Hripcsak, Christian G Reich, Marc A Suchard, Seng Chan You, Patrick B Ryan, Daniel Prieto-Alhambra, Peter R Rijnbeek。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com), 05.04.2021。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,http://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map