发表在23卷,第10位(2021): 10月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/30697,首次出版
国家COVID队列协作:原始和计算衍生电子健康记录数据的分析

国家COVID队列协作:原始和计算衍生电子健康记录数据的分析

国家COVID队列协作:原始和计算衍生电子健康记录数据的分析

原始论文

1美国密苏里州圣路易斯市圣路易斯华盛顿大学医学院普通医学学部

2美国密苏里州圣路易斯市华盛顿大学医学院信息学研究所

3.华盛顿大学医学院生物医学和医学教育系,华盛顿州西雅图,美国

4MDClone有限公司,比尔谢瓦,以色列

5看到Acknowlegments

通讯作者:

Randi Foraker,硕士,博士

普通医学学部

医学院

圣路易斯的华盛顿大学

泰勒大道600号102室

校园信箱8102

密苏里州圣路易斯,63110

美国

电话:1 314 273 2211

传真:1 314 273 1390

电子邮件:randi.foraker@wustl.edu


背景:计算派生(“合成”)数据可以创建和分析临床、实验室和诊断数据,就像它们是原始电子健康记录数据一样。合成数据可以支持数据共享,以回答应对COVID-19大流行的关键研究问题。

摘要目的:我们的目的是比较合成数据的分析结果与原始数据的分析结果,并评估利用计算衍生数据进行研究的优势和局限性。

方法:我们使用了国家COVID队列协作的MDClone实例,这是一个具有数据综合能力的大数据平台(MDClone Ltd)。我们下载了来自34个国家COVID队列协作机构合作伙伴的电子健康记录数据,并测试了三个用例,包括:(1)探索COVID-19阳性队列的关键特征分布;(2)培训和测试用于评估这些患者入院风险的预测模型;(3)确定与疫情相关的时空措施和成果,构建疫情曲线。我们使用传统统计学、机器学习方法以及数据的时空表示,将合成数据的结果与原始数据的结果进行了比较。

结果:对于每个用例,合成数据分析的结果成功地模拟了原始数据的结果,这样数据的分布是相似的,预测模型展示了可比较的性能。尽管合成数据和原始数据总体上产生了几乎相同的结果,但也有例外,包括多变量分析中零值两侧的优势比(0.97 vs 1.01),以及为人口数量较少的邮政编码构建的流行病曲线的幅度存在差异。

结论:本文介绍了每个用例的结果,并概述了使用合成数据的关键考虑因素,检查了它们在协作研究中的作用,以获得更快的见解。

[J] .中国医学信息学报,2011;23(10):963 - 967

doi: 10.2196/30697

关键字



COVID-19给数据和知识共享带来挑战[1]。个别机构存在临床数据;然而,这些数据很少与外部实体共享。来自多个机构的大数据允许进行更全面的分析,特别是对罕见结果的特征分析[23.]。为了应对这一需求,成立了开放的科学社区——国家COVID队列协作组织(N3C),以获取和协调来自美国各地机构的COVID-19数据[4]。N3C寻求一种解决方案,以保障这些临床数据的私隐及机密性,同时使其得以广泛传播[5-7]并与MDClone(以色列比尔舍瓦)合作,通过计算得出“合成”N3C数据,支持人口健康见解的快速发展[8]。

由于数据的合成衍生物可以实现保护隐私的数据下载并加速发现,因此这些数据资产可能对N3C和更广泛的信息学社区具有很大的实用价值。我们的合成数据验证工作流程的建立是为了帮助N3C社区更好地理解合成数据用于研究目的的效用。我们之前的工作证明了原始数据集和从MDClone本地实例计算得出的数据集之间的统计等效性[9]。我们还专门使用合成数据集来应用机器学习来预测心力衰竭的失代偿[10]。其他人已经证明,从MDClone中反复生成的合成数据集产生了与原始数据相似的稳定结果[11]。

然而,mdclone的性能——原始数据与合成数据的比较——尚未使用包括多个来源的数据(例如来自卫生系统的数据)进行验证。为此,我们测试了三个用例,包括:(1)探索covid -19阳性队列的关键特征分布;(2)培训和测试用于评估这些患者入院风险的预测模型;(3)确定与疫情相关的时空措施和成果,构建疫情曲线。我们使用原始数据和合成数据分析了每个用例的数据。我们使用传统统计学、机器学习方法以及数据的时空表示进行了分析。在这里,我们提出了这些分析的结果,并描述了使用合成数据进行研究的优势和局限性。


概述

临床和转化科学奖励计划开发了N3C,以响应整合、协调和民主化个人层面COVID-19数据的需求[4]。N3C建立了一个安全的数据飞地来存储数据并进行协作分析。随后的分析来自一个综合数据试点,旨在评估N3C社区计算衍生数据的效用。合成数据生成是一种新兴技术,可以支持大规模的人口健康研究。

在其他地方有更详细的描述[9], MDClone使用计算派生方法。简而言之,在遵循原始源数据的统计属性的多维空间中生成的新数据,其特征是针对每个不同的用例独立查询的。MDClone通过在计算导出的数据集中删除值并用单词“deleted”替换它来审查对少数患者唯一的分类值。极端数值也不会出现在合成数据集中。总之,这些方法确保原始数据集中的异常值不会在合成数据导数中被识别出来。

所有分析均分别使用原始数据和计算导出数据进行,这使我们能够比较分析结果,并评估利用合成数据了解COVID-19的优势和局限性。所有原始和合成数据集的统计分析都是在Palantir Foundry分析平台(Palantir Technologies)上的MDClone之外完成的。

使用Python (3.6.10l Python Software Foundation)进行分析。我们获得了机构审查委员会对这些分析的批准,并完成了与美国国立卫生研究院(National Institutes of Health)推进转化科学国家中心(National Center for Advancing Translational Sciences)的数据使用协议和请求。

用例1:探索新冠病毒阳性人群关键特征分布

本用例的目的是评估与原始数据相比,合成数据在covid -19阳性队列中是否具有相似的人口统计学和临床特征分布。从MDClone中提取covid -19阳性队列的关键特征(n=15),比较合成数据与原始数据的分布。这15个特征包括年龄、性别、种族、患者居住状态、机构、家庭收入中位数、BMI、检测呈阳性到住院(如果住院)之间的天数、糖尿病诊断、呼吸困难、慢性肾脏疾病(CKD)、发烧、咳嗽和住院死亡率。我们计算了连续变量的平均值和标准差,以及分类变量的计数和比例。

用例2:培训和测试用于评估covid -19阳性患者入院风险的预测模型

这个用例的目标是评估在合成数据上训练和测试预测机器学习模型时,与在原始数据上训练和测试模型相比,合成数据的表现是否相似。我们纳入了23万703名COVID-19检测呈阳性的患者。预测模型的特征包括11个变量:年龄、性别、种族、家庭收入中位数、BMI、最低血氧饱和度、糖尿病、呼吸困难、慢性肾病、发烧和咳嗽。选择这些变量是因为初步数据表明它们对COVID-19结局有重大影响。

我们分别使用合成数据和原始数据,通过单变量logistic回归(LR)和多变量logistic回归(LR)计算了COVID-19诊断后14天内入院的优势比(ORs)和95% ci。然后,我们开发了两种广泛使用的机器学习模型,随机森林(RF)和LR,以根据11个特征预测COVID-19诊断后14天内的入院情况。我们将队列随机分为训练数据(80%)和测试数据(20%)。模型在80%的数据子集上进行训练,然后在剩下的20%上进行测试。我们使用了各种指标,包括准确度、精密度、召回率、f1评分、受试者工作特征(ROC)曲线下面积和精确召回率曲线来评估模型的性能。每个模型都在合成数据集上进行训练和评估,然后将其结果与在原始数据上训练和评估的模型进行比较。

用例3:确定与covid -19相关的地理空间和时间措施和结果,并构建其流行病学曲线

该分析的目的是评估合成数据和原始数据之间的地理空间和时间关系的一致性,使数据根据地理和时间具有可操作性和可解释性。我们的数据集(原始:n=1,854,968个测试;合成:n=1,854,950例测试)基于事件,每行代表患者的首次COVID-19测试结果。数据集包括以下变量:患者所属的源伴侣;实验室检测结果(阴性/阳性);实验室测试日期和时间(数据生成的参考时间点);确认化验结果时的年龄;入院日期(如在covid -19检测结果阳性±7天内入院,从参考日期起算);入境逗留时间(以天计);入院期间死亡(是/空); patient’s state of residence; patient’s 5-digit zip code; and median household income, percent of residents under the poverty line, percent without health insurance, and total population by zip code.

在合成数据集和原始数据集上,我们计算了阳性检测每天的总计数、7天中点移动平均值和7天斜率(计数-计数前6天)。然后,我们绘制了阳性检测的流行曲线(Plotly版本4.14.1,Plotly Technologies Inc),将合成数据和原始数据叠加在同一图中。为检验合成流行曲线与原始数据流行曲线之间的显著差异或等效性,采用双侧配对t测试(scipy版本1.5.3,stats.ttest_rel)和双侧Wilcoxon有符号秩测试(scipy版本1.5.3,stats.wilcoxon)对每个指标(计数,7天移动平均线和7天斜率)运行,将单个日期的计数作为成对处理。

接下来,我们计算了原始数据集中邮政编码级健康社会决定因素(SDOH)变量的平均值、标准差、中位数、IQR和缺失量的差异。然后,我们比较了原始数据中经过审查的与未经审查的原始数据中唯一邮政编码的原始数据SDOH值。我们将审查的邮政编码定义为原始数据集中存在的那些无法在合成数据集中匹配(n=11,222)的邮政编码,原因是不存在或被标记为审查在合成数据集中。我们将未经审查的邮政编码定义为同时存在于合成数据和原始数据中(n=5819)。

道德

这项研究是由圣路易斯华盛顿大学和华盛顿大学的机构审查委员会审查和批准的。


用例1:探索新冠病毒阳性人群关键特征分布

MDClone合成数据过程生成了230,650名参与者,而原始数据中只有230,703名参与者。比较合成数据集和原始数据集的人口学和临床变量显示在表1。两个数据源的平均年龄相同(平均41.6岁,SD 20.4岁;表1)。在两个数据来源中,大约47%的患者为男性,53%为白人。原始数据和合成数据之间的所有平均值和SDs(或计数和百分比)的值相同或非常相似。表1表明原始人群和合成人群的人口学和临床变量分布相似。

表1。现有人口统计学和临床变量的患者特征比较:原始数据与合成数据。

原始数据(n=230,703) 合成数据(n=230,650)
年龄(岁),平均(SD) 41.6 (20.4) 41.6 (20.4)
性别(男),n (%) 108194 (46.9) 107892 (46.8)
种族,n (%)

白色 121706 (52.8) 121564 (52.7)

黑色的 40930 (17.7) 40824 (17.7)

亚洲 5203 (2.3) 5117 (2.2)

其他/未知 62864 (27.2) 62733 (27.2)
最流行的5个州,n (%)

1 29875 (12.9) 28617 (12.4)

2 21191 (9.2) 20671 (9.0)

3. 21045 (9.1) 20319 (9.0)

4 18006 (7.8) 16998 (7.4)

5 14391 (6.2) 13840 (6.0)
最受欢迎的5所大学,n (%)

1 33413 (14.5) 32743 (14.2)

2 24533 (10.6) 23986 (10.4)

3. 15578 (6.8) 15065 (6.5)

4 11870 (5.1) 11255 (4.9)

5 11354 (4.9) 10850 (4.7)
家庭收入(美元),中位数(IQR) 56,738 (45,214, 71,250) 56,662 (45,223, 71,029)
BMI,平均值(SD) 30.3 (8.4) 30.3 (8.2)
开始入院日期(从参考日期算起),平均值(SD) 2.1 (3.3) 2.0 (3.2)
最低血氧饱和度平均值(SD) 90.9 (10.1) 91.0 (9.7)
糖尿病,n (%) 31942 (13.8) 31929 (13.8)
呼吸困难,n (%) 20867 (9.0) 20826 (9.0)
慢性肾脏疾病,n (%) 11225 (4.9) 11194 (4.9)
发烧,n (%) 30210 (13.1) 30200 (13.1)
咳嗽,n (%) 39703 (17.2) 39689 (17.2)
死亡,n (%) 1133 (0.5) 1008 (0.4)

用例2:培训和测试用于评估covid -19阳性患者入院风险的预测模型

用于预测的特征(n=11)包括年龄、性别、种族、家庭收入中位数、BMI、最低血氧饱和度、糖尿病诊断、呼吸困难、慢性肾病、发烧和咳嗽。表2分别显示了由原始数据源和合成数据源产生的单变量LR的录取OR和11个变量中的每个变量的OR。原始数据源和合成数据源的or值比较表明,所有11个特征的值相同或相似。例如,原始数据中按年龄入院的OR为1.04 (95% CI 1.04-1.04),与合成数据中获得的OR相同。

表2。入院的逻辑回归:原始数据与合成数据。

单变量LR一个,或b(95%置信区间) 多变量LR, OR (95% CI)

原始数据 合成数据 原始数据 合成数据
年龄 1.04 (1.04 - -1.04) 1.04 (1.04 - -1.04) 1.00 (1.00 - -1.00) 1.00 (1.00 - -1.00)
男性的性别 1.20 (1.16 - -1.24) 1.14 (1.10 - -1.17) 1.11 (0.99 - -1.23) 1.03 (0.93 - -1.15)
黑人种族 2.15 (2.07 - -2.22) 2.09 (2.02 - -2.17) 0.99 (0.87 - -1.12) 0.93 (0.82 - -1.06)
家庭收入中位数 1.00 (1.00 - -1.00) 1.00 (1.00 - -1.00) 1.00 (1.00 - -1.00) 1.00 (1.00 - -1.00)
身体质量指数 1.02 (1.01 - -1.02) 1.02 (1.01 - -1.02) 0.97 (0.97 - -0.98) 1.01 (1.00 - -1.02)
最低氧饱和度 0.97 (0.96 - -0.97) 0.97 (0.96 - -0.97) 0.97 (0.97 - -0.98) 0.97 (0.97 - -0.98)
糖尿病 6.14 (5.94 - -6.34) 6.15 (5.95 - -6.36) 1.45 (1.29 - -1.62) 1.46 (1.30 - -1.63)
呼吸困难 4.79 (4.62 - -4.97) 4.79 (4.61 - -4.97) 1.23 (1.09 - -1.38) 1.25 (1.11 - -1.41)
慢性肾病 7.20 (6.89 - -7.52) 7.17 (6.87 - -7.49) 1.23 (1.07 - -1.42) 1.26 (1.09 - -1.45)
发热 2.62 (2.52 - -2.71) 2.62 (2.53 - -2.72) 1.44 (1.29 - -1.61) 1.45 (1.30 - -1.62)
咳嗽 1.38 (1.33 - -1.43) 1.38 (1.32 - -1.43) 1.50 (1.32 - -1.70) 1.45 (1.28 - -1.65)

一个LR:逻辑回归。

bOR:优势比。

原始数据源和合成数据源之间的or比较表明,多变量LR产生相同或相似的结果。例如,原始数据中黑人入学的OR为0.99 (95% CI 0.87-1.12),与合成数据的OR相似(OR 0.93, 95% CI 0.82-1.06)。值得注意的是,与BMI增加一个单位相对应的or位于零值的两侧(0.97 vs 1.01)。

机器学习模型在原始数据上进行了训练和测试,然后在合成数据上进行了训练和测试,使用了相同的11个特征。图1给出了分别使用原始数据和合成数据对模型预测性能的比较。我们发现RF模型在原始数据下的ROC曲线为0.814 (LR为0.816),在合成数据下的ROC曲线为0.812 (LR为0.815)。图1同时,RF模型在原始数据下的平均精度为0.298 (LR为0.286),在综合数据下的平均精度为0.308 (LR为0.278)。图1B和D)。

图2显示用于评估模型性能的附加度量。在对原始数据训练和测试的模型与合成数据训练和测试的模型进行比较时,我们观察到相同或相似的准确性、特异性、精密度、灵敏度和f1评分模式。

图3表示特征重要性,根据RF (图3A)和LR模型(图3B)使用原始(洋红色)和合成(蓝色)数据。RF和LR模型都表明,年龄、收入和最低血氧饱和度等特征是高级信息特征。

图1所示。利用原始数据和合成数据,利用接收者工作特征曲线(A、C)和精确召回率曲线(B、D)对两种模型进行预测。RF模型的结果在第一行(A, B);第二行(C, D)是LR。AUC:曲线下面积;LR:逻辑回归;随机森林。
查看此图
图2。从原始(绿色)和合成(金色)数据中通过准确性、特异性、精密度、灵敏度和f1评分建立模型的性能指标:RF模型(A)和LR模型(B)。LR:逻辑回归;随机森林。
查看此图
图3。RF (a)和LR (b)模型中11个变量的特征重要性:原始数据与合成数据。CKD:慢性肾脏疾病;LR:逻辑回归;随机森林。
查看此图

用例3:确定covid -19相关结果的邮政编码级分布并计算其流行病学曲线

合成数据和原始数据之间总体阳性检测(病例)的流行曲线的图形比较见图4。流行病曲线指标的两两统计见表3;在所有指标上,合成数据和原始数据流行曲线之间没有发现显著差异(Wilcoxon符号秩检验)P取值范围:0.50 - 0.90;学生配对t测试P取值范围。996-。998)。

与经过审查的邮政编码相比,未经审查的邮政编码具有更高的家庭收入中位数,更低的贫困线以下居民百分比,更低的无医疗保险患者百分比,更高的总人口,以及更少的四个SDOH缺失值。总人口和数据缺失是未经审查和审查的邮政编码之间最大的两个差异。未经审查的邮政编码的总人口中位数比审查的邮政编码高74%,而缺失的SDOH值约比审查的邮政编码少70% (表4)。

图4。原始数据(浅蓝色)和合成数据(浅红色)及其重叠部分(紫色)。
查看此图
表3。流行曲线汇总病例配对统计检验,比较原始数据和合成数据。
度规 日期范围 Wilcoxon结果 WilcoxonP价值 t统计 t测试P价值
计数 335 26288年 50 -0.002 >。
7日移动平均线 329 26005年 尾数就 -0.006 >。
7天的斜率 329 25788年。5 .90 -0.002 >。
表4。未审查的邮政编码(n=5819)与审查的邮政编码(n=11,222)的SDOH值。
SDOH一个以及审查状态 的意思是 SD 中位数 位差 %失踪
家庭收入中位数(美元)

未经审查的 63536年 26755年 57352年 28692年 3.28

审查 60544年 26549年 54358年 27067年 10.98

差异(%) + 2992 (4.9) + 206 (0.8) + 2994 (5.5) + 1625 (6.0) -7.70 (70.1)
贫困线以下百分比

未经审查的 12.89 8.74 10.80 10.40 2.92

审查 13.87 10.15 11.60 11.50 9.12

差异(%) -0.98 (7.1) -1.41 (13.9) -0.80 (6.9) -1.10 (9.6) -6.20 (68.0)
没有医疗保险的百分比

未经审查的 8.52 5.09 7.50 6.50 2.84

审查 9.65 7.09 8.10 8.00 9.00

差异(%) -1.13 (11.7) -2.00 (28.2) -0.60 (7.4) -1.50 (18.8) -6.16 (68.4)
总人口

未经审查的 17363年 16128年 12263年 23172年 2.73

审查 14540年 17317年 7048 21436年 8.69

差异(%) + 2823 (19.4) -1189 (6.9) + 5215 (74.0) + 1736 (8.1) -5.96 (68.6)

一个SDOH:健康的社会决定因素。


主要研究结果

我们的主要发现表明,计算得出的数据与原始数据集具有相同或相似的统计输出,但需要注意的是,人口较少的邮政编码比人口较多的邮政编码更容易因隐私原因而抑制/审查数据。在每个用例中,分析的结果在用于评估相似性的各种方法(平均值,中位数,P>.0.05,重叠CI等)得出相同的结论,除了在多变量分析中null的两侧各有一个OR (0.97 vs 1.01)。在一些情况下,结果是完全相同的,数据集之间很少有统计学上的显著差异。

小样本量、缺失值和高维都会对数据合成过程以及原始数据的精度和可解释性产生不利影响。我们的地理空间分析表明,为保护患者隐私而进行审查的邮政编码人口较少,这可能会使使用这些计算得出的数据来研究农村人口更具挑战性。此外,与未审查的邮政编码相比,审查邮政编码中发现的较低的原始数据质量(在更大的SDOH缺失中可见)可能表明农村邮政编码数据中存在更广泛的数据质量问题。这些问题可能对数据综合构成进一步的挑战。

这是第一次使用N3C数据验证计算得出的数据。我们的研究以以下方式增加了合成数据验证的文献。首先,我们的研究是对N3C综合数据效用的首次评估,并且是在N3C综合数据广泛传播之前进行的。因此,我们的研究为N3C合成数据的有效性提供了洞察力,然后将其传播给更广泛的N3C社区使用。其次,我们从用例3得到的结果支持这些计算派生数据的时间有效性,当必须保护隐私但保持时间性时,作为日期转移的替代方案。

对于这些描述性和定量分析,除了高度缺失的情况外,合成数据似乎产生了与原始数据相似的模式和结果。我们承认,这些用例可能并不代表N3C社区使用合成数据的所有可能方式,因此应继续进行验证。除了针对不同的用例和分析方法不断验证这些数据外,我们还试图探索N3C社区中其他商业系统的性能及其合成数据生成方法和每种方法的隐私保护方面。

我们还建议,研究人员可以使用合成数据进行假设生成,然后在原始数据上进行验证。另一个可能对N3C社区有价值的潜在用例(我们在这里没有明确测试)是将合成数据用于软件工程项目的潜力,这些项目旨在开发对抗COVID-19大流行的数字健康工具。忠实于原始数据的计算得出的数据可用于开发和测试此类工具。

限制

对于这些分析,我们对数据进行了统计比较,并没有对合成数据进行隐私评估,这将是未来调查的重点。我们使用了P值阈值为0.05,以保持从多个用例中呈现结果的简单性。我们承认,这些阈值将(也应该)因用例而异,特别是根据研究问题的背景,研究人员愿意容忍的错误量而异。我们也承认,等效性检验等其他统计检验可能适合于评估计算得出的数据与原始数据的等效性。然而,等价的阈值将再次依赖于用例。

我们的地理空间和时间分析范围有限。我们的工作正在进行中,未来的分析将更详细地评估其他措施(如测试、录取、死亡或积极性)随着时间的推移的有效性——无论是在总量上还是在邮政编码水平上。

结论

我们的结论是,利用合成数据在N3C开展COVID-19研究的潜力是巨大的。我们预计,合成数据的使用将加速整个社区数据驱动型研究的开展,因为它将使N3C能够克服数据共享障碍,并快速创建COVID-19分析见解[4]。这项工作的未来方向包括开发和验证更多的临床风险预测模型,使用更多的分析方法,在邮政编码水平上进行更详细的地理空间和时间分析,以及评估用于研究的计算导出数据的其他优势和局限性[1]。

临床相关性声明

MDClone等数据综合平台有望增强N3C社区使用临床数据的能力,以更快地了解COVID-19,并减少多个利益相关者访问数据的障碍。

致谢

本出版物中描述的分析使用的数据或工具是通过国家促进转化科学中心(NCATS)国家COVID队列协作(N3C)数据Enclave [12],并得到NCATS U24 TR002306的支持。这项研究之所以成为可能,是因为参与组织的数据中包含了患者的信息[13]以及组织和科学家[14]为社区资源的持续发展作出贡献的人[4]。

N3C数据传输到NCATS是根据约翰霍普金斯大学信赖协议IRB00249128或与美国国立卫生研究院(NIH)的个别站点协议进行的。N3C数据飞地在NIH的授权下进行管理;有关资料可于[15]。

我们感谢以下N3C核心团队(领导以*标注)的贡献:

-主要研究人员:Melissa A Haendel*, Christopher G Chute*, Kenneth R Gersing和Anita Walden

-工作流程、小组和行政领导:Melissa A Haendel*、Tellen D Bennett、Christopher G Chute、David A Eichmann、Justin Guinney、Warren A Kibbe、刘洪芳、Philip RO Payne、Emily R Pfaff、Peter N Robinson、Joel H Saltz、Heidi Spratt、Justin Starren、Christine Suver、Adam B Wilcox、Andrew E Williams和Chunlei Wu

-数据合作伙伴站点的关键联络员

-数据合作伙伴站点的监管人员

-在现场负责创建数据集并向N3C提交数据的个人

-数据摄取和协调团队:Christopher G Chute*、Emily R Pfaff*、davila Gabriel、Stephanie S Hong、Kristin Kostka、Harold P Lehmann、Richard A Moffitt、Michele Morris、Matvey B Palchuk、Xiaohan Tanner Zhang和Richard L Zhu

-表型团队(根据COVID-19和长COVID定义创建网站用于提交数据的脚本的个人):Emily R Pfaff*, Benjamin Amor, Mark M Bissell, Marshall Clark, Andrew T Girvin, Stephanie S Hong, Kristin Kostka, Adam M Lee, Robert T Miller, Michele Morris, Matvey B Palchuk和Kellie M Walters

-项目管理和运营团队:Anita Walden*、Yooree Chae、Connor Cook、Alexandra Dest、Racquel R Dietz、Thomas Dillon、Patricia A Francis、Rafael Fuentes、Alexis Graves、Julie A McMurry、Andrew J Neumann、Shawn T O 'Neil、Usman Sheikh、andr M Volz和Elizabeth Zampino

-来自美国国立卫生研究院和其他联邦机构的合作伙伴:Christopher P Austin*、Kenneth R Gersing*、Samuel Bozzette、Mariam Deacy、Nicole Garbarini、Michael G Kurilla、Sam G Michael、Joni L Rutter和Meredith Temple-O 'Connor

-分析团队(构建Enclave基础设施、帮助创建代码集、变量以及帮助领域团队和项目团队处理数据集的个人):Benjamin Amor*、Mark M Bissell、Katie Rebecca Bradwell、Andrew T Girvin、Amin Manna和Nabeel Qureshi

-出版委员会管理团队:Mary Morrison Saltz*、Christine Suver*、Christopher G Chute、Melissa A Haendel、Julie A McMurry、andrsama M Volz和Anita Walden

-出版委员会审查小组:Carolyn Bramante, Jeremy Richard Harper, wendy Hernandez, Farrukh M Koraishy, Federico Mariona, Saidulu Mattapally, Amit Saha和Satyanarayana Vedula

-合成数据领域团队:Yujuan Fu, Nisha Mathews和Ofer Mendelevitch

数据来自以下机构:Stony Brook University (U24TR002306);俄克拉何马大学健康科学中心(U54GM104938:俄克拉何马州临床和转化科学研究所);西弗吉尼亚大学(U54GM104942:西弗吉尼亚临床与转化科学研究所);密西西比大学医学中心(U54GM115428:密西西比临床和转化研究中心);内布拉斯加大学医学中心(U54GM115458: Great Plains idea -临床与转化研究);缅因州医学中心(U54GM115516:新英格兰北部临床与转化研究网络);维克森林大学健康科学(UL1TR001420:维克森林临床与转化科学研究所);西北大学芝加哥分校(UL1TR001422:西北大学临床与转化科学研究所);辛辛那提大学(UL1TR001425:临床和转化科学与培训中心);德克萨斯大学加尔维斯顿医学分部(UL1TR001439:转化科学研究所); Medical University of South Carolina (UL1TR001450: South Carolina Clinical & Translational Research Institute); University of Massachusetts Medical School Worcester (UL1TR001453: The UMass Center for Clinical and Translational Science); University of Southern California (UL1TR001855: The Southern California Clinical and Translational Science Institute); Columbia University Irving Medical Center (UL1TR001873: Irving Institute for Clinical and Translational Research); George Washington Children’s Research Institute (UL1TR001876: Clinical and Translational Science Institute at Children’s National); University of Kentucky (UL1TR001998: UK Center for Clinical and Translational Science); University of Rochester (UL1TR002001: UR Clinical & Translational Science Institute); University of Illinois at Chicago (UL1TR002003: UIC Center for Clinical and Translational Science); Penn State Health Milton S. Hershey Medical Center (UL1TR002014: Penn State Clinical and Translational Science Institute); The University of Michigan at Ann Arbor (UL1TR002240: Michigan Institute for Clinical and Health Research); Vanderbilt University Medical Center (UL1TR002243: Vanderbilt Institute for Clinical and Translational Research); University of Washington (UL1TR002319: Institute of Translational Health Sciences); Washington University in St. Louis (UL1TR002345: Institute of Clinical and Translational Sciences); Oregon Health & Science University (UL1TR002369: Oregon Clinical and Translational Research Institute); University of Wisconsin-Madison (UL1TR002373: UW Institute for Clinical and Translational Research); Rush University Medical Center (UL1TR002389: The Institute for Translational Medicine [ITM]); The University of Chicago (UL1TR002389: ITM); University of North Carolina at Chapel Hill (UL1TR002489: North Carolina Translational and Clinical Science Institute); University of Minnesota (UL1TR002494: Clinical and Translational Science Institute); Children’s Hospital Colorado (UL1TR002535: Colorado Clinical and Translational Sciences Institute); The University of Iowa (UL1TR002537: Institute for Clinical and Translational Science); The University of Utah (UL1TR002538: Uhealth Center for Clinical and Translational Science); Tufts Medical Center (UL1TR002544: Tufts Clinical and Translational Science Institute); Duke University (UL1TR002553: Duke Clinical and Translational Science Institute); Virginia Commonwealth University (UL1TR002649: C. Kenneth and Dianne Wright Center for Clinical and Translational Research); The Ohio State University (UL1TR002733: Center for Clinical and Translational Science); The University of Miami Leonard M. Miller School of Medicine (UL1TR002736: University of Miami Clinical and Translational Science Institute); University of Virginia (UL1TR003015: iTHRIVL Integrated Translational Health Research Institute of Virginia, Carilion Clinic (UL1TR003015: iTHRIVL Integrated Translational Health Research Institute of Virginia); University of Alabama at Birmingham (UL1TR003096: Center for Clinical and Translational Science); Johns Hopkins University (UL1TR003098: Johns Hopkins Institute for Clinical and Translational Research); University of Arkansas for Medical Sciences (UL1TR003107: UAMS Translational Research Institute); Nemours (U54GM104941: Delaware CTR ACCEL Program); University Medical Center New Orleans (U54GM104940: Louisiana Clinical and Translational Science Center); University of Colorado Denver, Anschutz Medical Campus (UL1TR002535: Colorado Clinical and Translational Sciences Institute); Mayo Clinic Rochester (UL1TR002377: Mayo Clinic Center for Clinical and Translational Science); Tulane University (UL1TR003096: Center for Clinical and Translational Science); Loyola University Medical Center (UL1TR002389: ITM); Advocate Health Care Network (UL1TR002389: ITM); and OCHIN (INV-018455: Bill and Melinda Gates Foundation grant to Sage Bionetworks).

以下是已签署数据传输协议并等待数据发布的其他数据合作伙伴:洛克菲勒大学(UL1TR001866:临床和转化科学中心);斯克里普斯研究所(UL1TR002550:斯克里普斯研究转化研究所);德克萨斯大学圣安东尼奥健康科学中心(UL1TR002645:医学与科学整合研究所);德克萨斯大学休斯顿健康科学中心(UL1TR003167:临床和转化科学中心);北岸大学健康系统(UL1TR002389: ITM);耶鲁大学纽黑文医院(UL1TR001863:耶鲁大学临床研究中心);埃默里大学(UL1TR002378:格鲁吉亚临床和转化科学联盟);康奈尔大学威尔医学院(UL1TR002384:威尔康奈尔医学临床与转化科学中心);Montefiore医学中心(UL1TR002556:爱因斯坦和Montefiore临床和转化研究所);威斯康星医学院(UL1TR001436:威斯康星东南部临床与转化科学研究所); University of New Mexico Health Sciences Center (UL1TR001449: University of New Mexico Clinical and Translational Science Center); George Washington University (UL1TR001876: Clinical and Translational Science Institute at Children’s National); Stanford University (UL1TR003142: Spectrum: The Stanford Center for Clinical and Translational Research and Education); Regenstrief Institute (UL1TR002529: Indiana Clinical and Translational Science Institute); Cincinnati Children’s Hospital Medical Center (UL1TR001425: Center for Clinical and Translational Science and Training); Boston University Medical Campus (UL1TR001430: Boston University Clinical and Translational Science Institute); The State University of New York at Buffalo (UL1TR001412: Clinical and Translational Science Institute); Aurora Health Care (UL1TR002373: Wisconsin Network For Health Research); Brown University (U54GM115677: Advance Clinical Translational Research); Rutgers, The State University of New Jersey (UL1TR003017: New Jersey Alliance for Clinical and Translational Science); Loyola University Chicago (UL1TR002389: ITM); New York University (UL1TR001445: Langone Health’s Clinical and Translational Science Institute); Children’s Hospital of Philadelphia (UL1TR001878: Institute for Translational Medicine and Therapeutics); University of Kansas Medical Center (UL1TR002366: Frontiers: University of Kansas Clinical and Translational Science Institute); Massachusetts General Brigham (UL1TR002541: Harvard Catalyst); Icahn School of Medicine at Mount Sinai (UL1TR001433: ConduITS Institute for Translational Sciences); Ochsner Medical Center (U54GM104940: Louisiana Clinical and Translational Science Center); HonorHealth (None, voluntary); University of California, Irvine (UL1TR001414: The UC Irvine Institute for Clinical and Translational Science); University of California, San Diego (UL1TR001442: Altman Clinical and Translational Research Institute); University of California, Davis (UL1TR001860: UCDavis Health Clinical and Translational Science Center); University of California, San Francisco (UL1TR001872: UCSF Clinical and Translational Science Institute); University of California, Los Angeles (UL1TR001881: UCLA Clinical Translational Science Institute); University of Vermont (U54GM115516: Northern New England Clinical & Translational Research Network); and Arkansas Children’s Hospital (UL1TR003107: UAMS Translational Research Institute).

作者的贡献

RF、JT和AW参与了研究的构思和设计;射频有助于数据的生成;AG和JT负责数据分析;作者RF, JT, AW, PROP和NZ对论文的撰写和编辑做出了贡献。

利益冲突

NZ受雇于MDClone Ltd。所有其他作者声明没有竞争利益。

  1. Foraker RE, Lai AM, Kannampallil TG, Woeltje KF, Trolard AM, Payne PRO。传播动态:新冠肺炎时代的数据共享。学习健康系统2020 6月28日:e10235。[CrossRef] [Medline]
  2. Foraker R, Mann DL, Payne PRO。合成数据衍生品是转化医学的未来吗?中文信息学报,2018,30 (5):716-718 [j]免费全文] [CrossRef] [Medline]
  3. Nair S, Hsu D, Celi LA。电子病历数据二次分析的挑战与机遇。电子健康记录的二次分析。可汗:施普林格;2016:17-26。
  4. Haendel MA, Chute CG, Bennett TD, Eichmann DA, Guinney J, Kibbe WA, N3C Consortium。国家COVID队列协作(N3C):基本原理、设计、基础设施和部署。中华医学杂志,2013;28(3):427-443 [J]免费全文] [CrossRef] [Medline]
  5. 保护人类受试者的联邦政策(“共同规则”)。美国卫生与公众服务部。URL:https://www.hhs.gov/ohrp/regulations-and-policy/regulations/common-rule/index.html[2019-03-11]访问
  6. HIPAA隐私规则。美国卫生与公众服务部。URL:https://tinyurl.com/rnhxnbf5[2019-03-11]访问
  7. 米勒AR,塔克C.隐私保护与技术扩散:电子病历的案例。科学管理;2009;55(7):1077-1093。[CrossRef]
  8. Crawford R, Bishop M, Bhumiratana B, Clark L, Levitt K.消毒模型及其局限性。见:2006年新安全范式研讨会论文集。2006年出席:NSPW '06;2006年9月19日至22日;德国。[CrossRef]
  9. Foraker RE, Yu SC, Gupta A, Michelson AP, Pineda Soto JA, Colvin R,等。找出区别:比较真实患者数据和合成衍生物的分析结果。jama开放2020年12月;3(4):557-566 [j]免费全文] [CrossRef] [Medline]
  10. 郭亚平,郭建平,郭建平,马建平,马建平。基于电子病历数据和深度学习的高危心力衰竭手术干预时间预测。前沿数字健康2020年12月7日;2:576945。[CrossRef]
  11. 赖纳·贝纳姆A, Almog R, Gorelik Y, Hochberg I, Nassar L, Mashiach T,等。基于合成数据的医学研究结果分析及其与真实数据结果的关系:来自五项观察性研究的系统比较。中华医学杂志,2010;8(2):562 - 562 [j]免费全文] [CrossRef] [Medline]
  12. 飞地的必需品。N3C。URL:https://covid.cd2h.org/enclave[2021-06-24]访问
  13. 数据传输协议签署方。国家促进转化科学中心。URL:https://covid.cd2h.org/dtas[2021-06-24]访问
  14. DUA签署国。N3C。URL:https://covid.cd2h.org/duas[2021-06-24]访问
  15. 国家COVID队列协作表和资源。国家促进转化科学中心。URL:https://ncats.nih.gov/n3c/resources[2021-06-24]访问


CKD:慢性肾病
ITM:转化医学研究所
LR:逻辑回归
NCATS:国家促进转化科学中心
国家卫生研究院:美国国立卫生研究院
N3C:全国COVID队列协作
或者:优势比
射频:随机森林
中华民国:接收机工作特性
SDOH:健康的社会决定因素


C . Basch编辑;提交03.06.21;Salimi, S Molani的同行评审;对作者03.08.21的评论;收到订正版24.08.21;接受12.09.21;发表04.10.21

版权

©Randi Foraker, Aixia Guo, Jason Thomas, Noa Zamstein, Philip RO Payne, Adam Wilcox, N3C Collaborative。原载于医学互联网研究杂志(//www.mybigtv.com), 2021年10月4日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map