这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba
尽管数据重用提供了许多机会,但它的实现存在许多困难,原始数据不能直接重用。信息并不总是在源数据库中直接可用,需要在定义算法时使用原始数据进行计算。gydF4y2Ba
本文的主要目的是在进行回顾性观察研究时,对特征提取过程中所需的步骤和转换进行标准化描述。第二个目标是确定如何在数据仓库的模式中存储特性。gydF4y2Ba
本研究主要包括以下3个步骤:(1)收集与特征提取相关的相关研究案例,并基于数据的自动二次利用;(2)研究案例中常见的原始数据、步骤和转换的标准化描述;(3)确定一个合适的表来存储观察医疗结果伙伴关系(OMOP)公共数据模型(CDM)中的特征。gydF4y2Ba
我们采访了来自3所法国大学医院和一个国家机构的10名研究人员,他们参与了8项回顾性和观察性研究。基于这些研究,出现了2种状态(航迹和特征)和2种转换(航迹定义和航迹聚合)。“跟踪”是一个依赖时间的信号或兴趣周期,由一个统计单位、一个值和两个里程碑(开始事件和结束事件)定义。“特征”是与时间无关的高级信息,其维度与研究的统计单位相同,由标签和值定义。时间维度已经隐含在变量的值或名称中。我们提出了“TRACK”和“FEATURE”两个表来存储特征提取中获得的变量,并扩展了OMOP CDM。gydF4y2Ba
我们提出了特征提取过程的标准化描述。该过程结合了航迹定义和航迹聚合两个步骤。通过将特征提取分为这两个步骤,解决了轨迹定义过程中的困难。轨道标准化需要大量数据方面的专业知识,但允许应用无数复杂的转换。相反,轨迹聚合是一种非常简单的操作,具有有限数量的可能性。对这些步骤的完整描述可以提高回顾性研究的可重复性。gydF4y2Ba
过去几十年,电子健康纪录的应用日益普及,大量临床资料以电子形式提供[gydF4y2Ba
在进行研究时,传统的方法包括前瞻性的,通常是手动收集简单而具体的数据,根据研究方案所解决的问题,使用临床报告表格[gydF4y2Ba
相比之下,数据重用建立在已经可用的低成本数据源上,并提供大量数据[gydF4y2Ba
最后,本地数据模型和词汇表的异构性使数据池和算法、工具和结果的共享变得复杂。gydF4y2Ba
除了临床数据表,它适用于存储单个低水平记录(即,procedure_occurrence, condition_occurrence和measurement), OMOP CDM扩展了5个表来存储派生元素[gydF4y2Ba
特征提取方法在应用于从回溯数据库中计算辅助信息时描述得很差。它们还缺乏在数据仓库中以持久方式存储特性的方法。这篇文章的目的是提出一个标准化的步骤和转换的描述,可以帮助研究人员实现和记录特征提取,并提高回顾性研究的可重复性。它还包括确定如何在使用OMOP CDM实现的数据仓库的模式中存储特性。gydF4y2Ba
本研究主要包括以下3个步骤:(1)收集应用特征提取并基于数据自动二次利用的相关研究案例;(2)特征提取过程的标准化描述,包括研究案例中常见的概念、特征和方法;(3)在OMOP CDM中存储特征的方便表的建议。gydF4y2Ba
这项研究不需要伦理批准,因为没有收集个人数据,也没有实施干预措施。gydF4y2Ba
我们正在寻找回顾性观察研究的例子,其中特征提取操作必须实施。这些研究不需要针对特定的研究领域,在确定的时间段内进行,也不需要使用特定的数据模型。前提条件是将原始数据转换为可用的信息,并能够描述该过程。我们专注于对结构化数据进行的研究,而没有研究从非结构化数据(如文本、图像、视频或声音)中提取特征。我们联系了在2021年9月1日至2021年12月31日期间在法国参与数据重用的7个团队的研究人员。gydF4y2Ba
我们进行了个别采访,并获得了手写的笔记。研究人员被要求描述(1)研究的目标,(2)他们使用的数据库(即,索赔或临床数据库),(3)数据的性质和术语,(4)他们从原始数据中提取信息时遇到的困难,(5)他们必须提取以实现研究目标的特征,(6)他们在研究中使用的特征(即,纳入标准,解释变量或响应变量),(7)构成特征提取的步骤和表征特征的参数。gydF4y2Ba
纳入标准定义了受试者必须纳入研究的特征。它们通常包括年龄、疾病的类型和阶段,以及手术程序。响应变量是研究或实验中问题的目标。通常是生存率、住院时间、康复或疾病的并发症。解释变量是其变化可能影响响应变量的变量。它可能是暴露于一个事件或一种治疗。gydF4y2Ba
研究采用了索赔数据库和医院临床数据库两类数据库。这两个源是表格式的关系数据库。每个表只包含1个实体(例如,患者、停留时间和诊断),每一行对应1条记录。这些表通过外键机制链接在一起,允许识别患者或住院的所有数据,无论哪种类别。大多数列是结构化数据(即每个单元格有一个类型和一个值)。这些数据库通常使用SQL语言进行查询。然后,可以使用编程语言(如R和Python)对它们进行处理,以重新计算新的基本信息或调整数据结构,以便能够更容易地分析它们。gydF4y2Ba
索赔数据库为法国国家医院出院数据库,简称gydF4y2Ba
临床数据库是当地医院的数据仓库,收集有关实验室结果、医疗程序、诊断、医疗单位类型和它们之间的转移的所有信息。两个数据库包括麻醉过程的细节(如手术步骤、给药、手术室设备记录的信号,如平均动脉压、心率、潮气量等)[gydF4y2Ba
在第二步中,我们执行了任务(HAT)的层次分析[gydF4y2Ba
为了做到这一点,我们要求他们描述他们一开始拥有的原始数据,以及他们必须通过哪些不同的转换来获得特征。在每一步中,我们都描述了复杂度和时间依赖性。我们已经说明了每个案例研究的子任务的顺序,与参与研究的研究人员合作。从获得的任务描述和插图中,我们根据输入和输出数据的类型对任务进行分组。最后,我们根据研究案例的共同点,提出了对这些不同状态和转换的描述。gydF4y2Ba
在最后一部分中,我们研究了OMOP CDM中允许存储特征而不丢失信息的现有表,即具有足够的字段。在相反的情况下,我们将提出新的表以符合OMOP标准。我们还将定义必须尊重OMOP标准的属性,并跟踪特征是如何计算的,以确保研究的可重复性。gydF4y2Ba
在我们联系的15人中,3人没有回答,2人报告没有进行特征提取。基于半结构化访谈,我们收集了来自3所法国大学医院(亚眠、里尔和鲁昂)和法国高级卫生当局的8项回顾性和观察性研究。其中两项研究是多点研究,4项使用索赔数据库,5项使用临床数据库。gydF4y2Ba
所确定的特征代表了用于进行回顾性分析的不同类型的变量:包括标准、解释变量和响应变量。一般特征包括:(1)以诊断发生率、医疗程序和年龄为纳入标准;(二)医疗程序发生、用药发生、生命体征转化为解释变量的情况;(3)医院死亡率、重症监护死亡率、住院时间、重症监护中转率作为响应变量。研究案例和研究人员报告的更复杂的特征描述在gydF4y2Ba
这些不同的研究案例基于复杂的(即异构的、多维的、不平衡的和随时间变化的)原始数据。这些原始数据的异质性来自于提取次要计算特征所涉及的变量的多样性。前5个研究病例(SC1-5)使用测量和转换生命体征(动脉压和心率)或呼吸信号(氧分压和潮气量),SC6和SC7使用给药,SC7使用实验室结果。除了它们的异质性之外,数据库是多维的,这意味着组成它们的表具有不同的维度(即统计单位)。因此,每个病人在其他表中有不同数量的记录(程序、诊断、测量、药物等),这取决于住院时间、接受的护理和随访时间。然而,从一个患者到另一个患者的不同记录的数量应该减少到研究的每个统计单位一行。其次,变量的模态数量众多且不平衡,即每个术语都有数千个编码,其中一些被广泛使用,而另一些则几乎不需要。因此,在特征提取的时候,这数千个代码生成同样多的列,例如,特征报告代码的缺席/存在或数量,或者报告它被记录的次数。最后,原始数据是随时间变化的变量,即在研究过程中不一定是恒定的变量。gydF4y2Ba
回顾性观察性研究中涉及特征提取的研究案例描述。gydF4y2Ba
研究案例gydF4y2Ba | 研究目的gydF4y2Ba | 实现研究目标所需的特征gydF4y2Ba |
SC1:机械通气患者高氧血症的检测gydF4y2Ba | 目的探讨高氧血症对ICU的影响gydF4y2Ba一个gydF4y2Ba根据脓毒症-3标准,机械通气感染性休克患者ICU住院前24小时内的死亡率[gydF4y2Ba |
解释变量:PaO的加权平均值gydF4y2Ba2gydF4y2BabgydF4y2Ba根据脓毒症-3标准进行机械通气的感染性休克患者。测量是不定期记录的。信号被重构为每秒一次测量。gydF4y2Ba |
SC2:大手术中低血压持续时间gydF4y2Ba | 评价重型手术早期血压控制对住院死亡率和住院时间的影响gydF4y2Ba | 解释变量:在手术过程中动脉压从平均值下降10%的持续时间。gydF4y2Ba |
SC3:腰麻剖宫产术中低血压持续时间gydF4y2Ba | 目的探讨腰麻剖宫产术中低血压对胎儿疼痛的影响gydF4y2Ba | 解释变量:腰麻剖宫产术诱导至分娩期间,收缩压从参考值下降20%的持续时间。参考值是到达手术室到诱导之间的收缩压的平均值。gydF4y2Ba |
SC4:心率和阿托品给药情况gydF4y2Ba | 评估阿托品(一种治疗心动过缓的药物)用药前后心率的变化。gydF4y2Ba | 解释变量:计算心率的中位数、最小值和最大值,以阿托品给药为中心,每10分钟计算2个周期。gydF4y2Ba |
SC5:符合通气指南gydF4y2Ba | 评估有关手术室通风的建议是否已落实[gydF4y2Ba |
解释变量:术中潮末容积<8 mL/kg理想体重。gydF4y2Ba |
SC6:可能不适当的药物gydF4y2Ba | 衡量综合护理路径中包含的治疗优化干预对PIM的影响gydF4y2BacgydF4y2Ba虚弱老年人的患病率和再入院率gydF4y2Ba | 解释变量:来自法国Laroche清单的药物管理次数[gydF4y2Ba |
SC7:药物-药物相互作用gydF4y2Ba | 估算INR发生的概率gydF4y2BadgydF4y2Ba更改每个DDIgydF4y2BaegydF4y2BaVKA规则gydF4y2BafgydF4y2Ba[gydF4y2Ba |
解释变量:VKA与DDI规则中定义的另一种药物同时使用。生ATCgydF4y2BaggydF4y2Ba通过考虑活性物质和给药途径,将代码映射到更广泛的类别。兴趣期从两种药物同时使用的第二天开始,在两种药物中的第一种停止使用后4天结束。gydF4y2Ba |
SC8:符合COPD指南gydF4y2BahgydF4y2Ba病人gydF4y2Ba | 目的:评估疑似COPD患者进行功能呼吸探查诊断的比例gydF4y2Ba | 解释变量:疑似COPD患者定义为年龄超过40岁的患者,接受以下几种治疗之一:支气管扩张剂、3种用于呼吸道感染的抗生素治疗或尼古丁替代品。gydF4y2Ba |
一个gydF4y2BaICU:重症监护室。gydF4y2Ba
bgydF4y2BaPaOgydF4y2Ba2gydF4y2Ba:氧气分压。gydF4y2Ba
cgydF4y2BaPIM:可能不恰当的用药。gydF4y2Ba
dgydF4y2BaINR:国际标准化比率。gydF4y2Ba
egydF4y2BaDDI:药物-药物相互作用。gydF4y2Ba
fgydF4y2BaVKA:维生素K拮抗剂。gydF4y2Ba
ggydF4y2BaATC:解剖治疗化学。gydF4y2Ba
hgydF4y2BaCOPD:慢性阻塞性肺病。gydF4y2Ba
研究案例的标准化描述gydF4y2Ba
输入数据、转换和输出数据,用于研究案例6(可能不适当的药物)的特征提取中涉及的每个步骤。gydF4y2Ba
一步gydF4y2Ba | 输入数据gydF4y2Ba | 转换gydF4y2Ba | 输出数据gydF4y2Ba |
1gydF4y2Ba | 原始数据:住院时间gydF4y2Ba | 选择“入院日期”和“出院日期”字段gydF4y2Ba | 追踪:住院时间gydF4y2Ba |
2gydF4y2Ba | 追踪:住院时间gydF4y2Ba | 计算前90天gydF4y2Ba | 追踪:住院前90天gydF4y2Ba |
3.gydF4y2Ba | 原始数据:药物管理gydF4y2Ba | 选择列入拉罗彻清单的药物gydF4y2Ba | Track:药物AgydF4y2Ba |
4gydF4y2Ba | 原始数据:药物管理gydF4y2Ba | 选择列入拉罗彻清单的药物gydF4y2Ba | 专场:药物BgydF4y2Ba |
5gydF4y2Ba | 追踪:住院前90天+追踪:A药gydF4y2Ba | 两条轨道相交gydF4y2Ba | 追踪:A药(拉罗彻)/住院前90天gydF4y2Ba |
6gydF4y2Ba | 追踪:住院前90天+追踪:B药gydF4y2Ba | 两条轨道相交gydF4y2Ba | 追踪:B药(拉罗彻)/住院前90天gydF4y2Ba |
7gydF4y2Ba | 轨迹:药物A (Laroche)/住院前90天+轨迹:药物B (Laroche)/住院前90天gydF4y2Ba | 两个轨道的并轨gydF4y2Ba | 追踪:药物Laroche清单/住院前90天gydF4y2Ba |
8gydF4y2Ba | 追踪:拉罗彻名单/住院前90天gydF4y2Ba | 计数明显(药物Laroche清单/住院前90天)gydF4y2Ba | 特点:住院前90天内使用的Laroche清单药物数量gydF4y2Ba |
基于研究案例和HAT,我们确定数据经历了2个状态(轨迹和特征),并受益于2个转换(轨迹定义和轨迹聚合)。gydF4y2Ba
步骤gydF4y2Ba
步骤gydF4y2Ba
的gydF4y2Ba
在这个过程的最后,gydF4y2Ba
特征提取中涉及的状态和转换的定义和比较。gydF4y2Ba
状态和转换gydF4y2Ba | 描述gydF4y2Ba | 例子gydF4y2Ba | 时间维度gydF4y2Ba | 复杂性gydF4y2Ba |
原始数据(状态)gydF4y2Ba | 异构的、多维的和时间依赖的低水平临床数据:人口统计数据、患者流量、实验室结果、药物管理、程序、诊断和测量。gydF4y2Ba |
平均动脉压的原始测量gydF4y2Ba | 是的gydF4y2Ba | 是的gydF4y2Ba |
轨迹定义(转换)gydF4y2Ba | 通过具有高专家知识的无限可能的操作,将初始维数减少到统计单位,并使数据表示标准化。gydF4y2Ba |
信号的重新采样gydF4y2Ba | 是的gydF4y2Ba | 减少gydF4y2Ba |
跟踪(状态)gydF4y2Ba | 均匀且随时间变化的信号,由一个均匀的统计单元、一种轨道类型和一组时间戳值定义。gydF4y2Ba |
每秒测量一次的重采样信号gydF4y2Ba | 是的gydF4y2Ba | 没有gydF4y2Ba |
轨迹聚合(转换)gydF4y2Ba | 时间维度的缩减:一个感兴趣的时间段、一个轨迹和一个基于完成的操作数量(最小、最大、中值、和、计数等)的提取方法。gydF4y2Ba |
麻醉过程开始和结束之间记录的测量值的聚集(最小值和平均值)gydF4y2Ba | 减少gydF4y2Ba | 没有gydF4y2Ba |
特性(状态)gydF4y2Ba | 与时间无关的高级信息,维度与研究的统计单位相同,由标签和值定义。gydF4y2Ba |
麻醉过程中平均动脉压的最小值和平均值gydF4y2Ba | 隐式的gydF4y2Ba | 没有gydF4y2Ba |
特征提取将原始数据转化为特征的过程。gydF4y2Ba
研究案例中使用的轨迹定义。gydF4y2Ba
研究案例和统计单位gydF4y2Ba | 跟踪gydF4y2Ba | 值(年代)gydF4y2Ba | ||
|
|
|||
|
加护病房gydF4y2Ba一个gydF4y2Ba保持gydF4y2Ba | 感染性休克机械通气患者ICU住院前24小时gydF4y2Ba | ICU停留= 1gydF4y2Ba | |
|
ICU停留gydF4y2Ba | 重新取样PaOgydF4y2Ba2gydF4y2BabgydF4y2Ba | PaOgydF4y2Ba2gydF4y2Ba重复测量gydF4y2Ba | |
|
|
|||
|
沉重的手术gydF4y2Ba | 全身麻醉程序gydF4y2Ba | 全身麻醉手术=1gydF4y2Ba | |
|
沉重的手术gydF4y2Ba | 平均动脉压的平均值gydF4y2Ba | 平均值gydF4y2Ba | |
|
沉重的手术gydF4y2Ba | 发作时平均动脉压低于平均值的90%gydF4y2Ba | 集= 1gydF4y2Ba | |
|
|
|||
|
腰麻剖宫产术gydF4y2Ba | 进入手术室进行诱导麻醉gydF4y2Ba | 参考时间= 1gydF4y2Ba | |
|
腰麻剖宫产术gydF4y2Ba | 分娩时的麻醉引产gydF4y2Ba | 脊髓麻醉= 1gydF4y2Ba | |
|
腰麻剖宫产术gydF4y2Ba | 从进入手术室到麻醉诱导的收缩压平均值gydF4y2Ba | 平均值gydF4y2Ba | |
|
腰麻剖宫产术gydF4y2Ba | 发作时收缩压低于平均值的80%gydF4y2Ba | 集= 1gydF4y2Ba | |
|
|
|||
|
阿托品的使用gydF4y2Ba | 给阿托品前gydF4y2Ba | 之前= 1gydF4y2Ba | |
|
阿托品的使用gydF4y2Ba | 给阿托品后gydF4y2Ba | 后= 1gydF4y2Ba | |
|
|
|||
|
机械通气麻醉程序gydF4y2Ba | 手术gydF4y2Ba | 手术= 1gydF4y2Ba | |
|
|
|||
|
住院gydF4y2Ba | 住院前gydF4y2Ba | 住院前=1gydF4y2Ba | |
|
住院gydF4y2Ba | 住院后gydF4y2Ba | 住院后=1gydF4y2Ba | |
|
住院gydF4y2Ba | 使用拉罗彻清单上的X药物gydF4y2Ba | 药物X = 1gydF4y2Ba | |
|
|
|||
|
病人gydF4y2Ba | X药物管理(原始代码)gydF4y2Ba | 药物X = 1gydF4y2Ba | |
|
病人gydF4y2Ba | 毒品家族管理(ATCgydF4y2BacgydF4y2Ba类别)gydF4y2Ba | ATC类别= 1gydF4y2Ba | |
|
病人gydF4y2Ba | 同时施行VKAgydF4y2BadgydF4y2Ba使用DDI中定义的药物gydF4y2BaegydF4y2Ba规则gydF4y2Ba | 伴随政府= 1gydF4y2Ba | |
|
病人gydF4y2Ba | 印度卢比gydF4y2BafgydF4y2Ba≥5gydF4y2Ba | INR≥5gydF4y2Ba | |
|
病人gydF4y2Ba | INR≤1.5gydF4y2Ba | 发作INR≤1.5gydF4y2Ba | |
|
病人gydF4y2Ba | 同时服用VKA和DDI规则规定的药物且INR≥5gydF4y2Ba | VKA势差现象= 1gydF4y2Ba | |
|
病人gydF4y2Ba | VKA与DDI规则中定义的药物同时使用且INR≤1.5gydF4y2Ba | VKA抑制= 1gydF4y2Ba | |
|
|
|||
|
病人gydF4y2Ba | 在支气管扩张剂或尼古丁替代品中使用几种药物之一(ATC代码)gydF4y2Ba | 药物X≥1gydF4y2Ba | |
|
病人gydF4y2Ba | 3种抗生素治疗呼吸道感染(ATC代码)的应用gydF4y2Ba | 药物X≥3gydF4y2Ba | |
|
病人gydF4y2Ba | 暴露于至少一种疑似COPD的特定药物gydF4y2BaggydF4y2Ba | 暴露于copd特异性药物=1gydF4y2Ba | |
|
病人gydF4y2Ba | 肺活量测定或功能性呼吸探查的诱导gydF4y2Ba | 集= 1gydF4y2Ba |
一个gydF4y2BaICU:重症监护室。gydF4y2Ba
bgydF4y2BaPaOgydF4y2Ba2gydF4y2Ba:氧气分压。gydF4y2Ba
cgydF4y2BaATC:解剖治疗化学。gydF4y2Ba
dgydF4y2BaVKA:维生素K拮抗剂。gydF4y2Ba
egydF4y2BaDDI:药物-药物相互作用。gydF4y2Ba
fgydF4y2BaINR:国际标准化比率。gydF4y2Ba
ggydF4y2BaCOPD:慢性阻塞性肺病。gydF4y2Ba
研究案例中每个特征的特征定义。gydF4y2Ba
研究案例gydF4y2Ba | 统计单位gydF4y2Ba | 期gydF4y2Ba | 跟踪gydF4y2Ba | 提取方法gydF4y2Ba |
SC1:机械通气患者高氧血症gydF4y2Ba | 加护病房gydF4y2Ba一个gydF4y2Ba保持gydF4y2Ba | 感染性休克机械通气患者ICU住院前24小时gydF4y2Ba | 重新取样PaOgydF4y2Ba2gydF4y2BabgydF4y2Ba | 加权平均gydF4y2Ba |
SC2:麻醉期间低血压gydF4y2Ba | 全身麻醉程序gydF4y2Ba | 麻醉期间gydF4y2Ba | 平均动脉压gydF4y2Ba | 平均动脉压从参考值下降10%的持续时间总和gydF4y2Ba |
SC3:腰麻剖宫产术中低血压持续时间gydF4y2Ba | 腰麻剖宫产术gydF4y2Ba | 麻醉期间gydF4y2Ba | 收缩压gydF4y2Ba | 收缩压低于参考值80%的总持续时间gydF4y2Ba |
SC4:心率和阿托品给药情况gydF4y2Ba | 阿托品的使用gydF4y2Ba | 给阿托品前后各10分钟gydF4y2Ba | 心率gydF4y2Ba | 心率的中值、最小值和最大值gydF4y2Ba |
SC5:符合通气指南gydF4y2Ba | 机械通气麻醉程序gydF4y2Ba | 手术期间gydF4y2Ba | End-tidal体积gydF4y2Ba | 平均潮末/理想体重>8gydF4y2Ba |
SC6:可能不适当的药物gydF4y2Ba | 医院访问gydF4y2Ba | 住院前;住院后gydF4y2Ba | 药物管理gydF4y2Ba | 根据法国拉罗彻药典表不当用药计数。gydF4y2Ba |
SC7:药物-药物相互作用gydF4y2Ba | 病人gydF4y2Ba | 在两种药物同时使用后的第二天,直到两种药物中的第一种停止使用后的4天。gydF4y2Ba | 同时施行VKAgydF4y2BacgydF4y2Ba使用DDI中定义的药物gydF4y2BadgydF4y2Ba规则与国际标准gydF4y2BaegydF4y2Ba≥5。gydF4y2Ba |
VKA增强计数。gydF4y2Ba |
SC8:符合COPD指南gydF4y2BafgydF4y2Ba病人gydF4y2Ba | 病人gydF4y2Ba | 暴露于COPD特定药物后一年gydF4y2Ba | 药物管理gydF4y2Ba | COPD特定药物的管理计数gydF4y2Ba |
一个gydF4y2BaICU:重症监护室。gydF4y2Ba
bgydF4y2BaPaOgydF4y2Ba2gydF4y2Ba:氧气分压。gydF4y2Ba
cgydF4y2BaVKA:维生素K拮抗剂。gydF4y2Ba
dgydF4y2BaDDI:药物-药物相互作用。gydF4y2Ba
egydF4y2BaINR:国际标准化比率。gydF4y2Ba
fgydF4y2BaCOPD:慢性阻塞性肺病。gydF4y2Ba
ggydF4y2BaFRE:功能呼吸探查。gydF4y2Ba
OMOP CDM中已经存在5个表(DRUG_ERA、DOSE_ERA、CONDITION_ERA、EPISODE和EPISODE_EVENT),用于存储从原始数据派生的元素[gydF4y2Ba
然而,其他类型的数据也需要重新转换,以获得用于统计分析的可用信息(特别是程序、测量、生物学结果或患者护理中的任何类型的步骤)。此时,有2个备选方案允许存储其他类型的派生元素。第一种方法涉及为每个可以转换为时代的原始信息(即测量时代、程序时代、生物学时代等)添加一个时代表。第二种方法是提出一个涵盖所有类型原始数据的通用年代表。使用这两种方法,最终的特征仍然缺乏存储空间,因为它们不具有与时代或事件相同的结构,因为它们只是一个价值和标签的关联,与时间无关。gydF4y2Ba
因此,一方面,表TRACK可以补充模型并存储中间数据(即所有类型的航迹和年代),这些数据最终将用于计算特征;另一方面,表FEATURE可以扩展OMOP CDM,用于存储来自测量、程序、观测和停留的次要计算数据,这些数据将用于分析,并且需要长期存储。gydF4y2Ba
这两个新的概念表在gydF4y2Ba
用于在关系数据库中存储周期和特征的数据模型,符合观察医疗结果伙伴关系(OMOP)公共数据模型。FK:外键;PK:主键。gydF4y2Ba
在本文中,我们提出了特征提取过程的标准化描述,该过程在将异构、多维和随时间变化的原始数据转换为有价值的信息以进行观察性回顾性研究时实现。该过程包含两个步骤(赛道定义和赛道聚合)。航迹定义旨在将原始数据转换为表示感兴趣周期的多条航迹或重构信号。航迹聚合计算来自最终航迹的可用信息,以便在感兴趣的时间段内应用提取方法。由此产生的特征是将包含在统计分析中的1维和时间无关变量。gydF4y2Ba
通过将特征提取分为这两个步骤,解决了轨迹定义过程中的困难。第一步的目标是建立跟踪,使用一个适用于研究统计单位的共同单位和一个均匀的时间尺度。然后,轨迹允许应用无数复杂的转换,例如用于检测药物-药物相互作用的概念映射(SC7)。这些转换需要大量关于数据的专业知识,并且主要是在自定义基础上实现的。相反,轨迹聚合是一个非常简单的操作,具有有限数量的可能性。gydF4y2Ba
转换的定义基于不同的案例,并且它们是在来自多个中心的不同数据库上执行的。特征提取是专家知识的算法翻译。我们的工作表明,这个过程需要对几个转换进行排序,包括,对于航迹定义,选择(1)一个时变信号或一个已经可用的航迹,(2)一个统计单位,(3)一种航迹类型,以及(4)一个或一组值,航迹聚合是基于(5)一个航迹的最终转换,该转换在(6)一个感兴趣的时间段内执行,涉及(7)一种提取方法。这7个项目的形式化和文档化应该通过消除计算内容的模糊性来提高研究的可重复性和合作者之间的特征共享。gydF4y2Ba
在本研究中,我们专注于基于专家规则的特征提取,没有考虑基于深度学习技术的特征提取[gydF4y2Ba
虽然一些特征,如停留时间,是通用的和常用的,但大多数仍然取决于研究背景。兴趣期和提取方法是临床医生或研究人员所期望的指标,需要手动评估该特征以确保其有效性[gydF4y2Ba
即使SNOMED CT(医学系统命名-临床术语)和ICD10提出了集合概念,如“手术后低血压”(SNOMED CT代码16055431000119108),“平均动脉压下降”(SNOMED CT代码31013001),或“低血压”(ICD10代码I95),这些概念只是一个特征标签的一部分,它们没有记录如何计算特征或提及周期(即手术,麻醉,重症监护病房住院,或者住院第一天)。在这些术语中还没有定义完全记录特性的标准化概念。gydF4y2Ba
目前,我们还不能判断我们的建议的泛化程度。然而,这项研究首次提出了从结构化数据库中提取特征的标准化描述。该方法仍需与其他研究案例,特别是其他国家的研究案例进行比较,以评估。gydF4y2Ba
这个项目的下一步是实现一个R包,该包具有专门用于定义和聚集音轨的功能。这个包将依赖于OMOP CDM,并允许特征提取的再现性。需要注意这两个表的物理实现,特别是轨道的存储,它可能非常庞大,并且会影响查询和响应时间方面的性能。最后,实现一个以列排列的特征的数据集市(当它们仍然存储在特征表中的行中时)是相关的,以便在构建表以构建队列时获得时间。gydF4y2Ba
我们已经阐明了在进行回顾性观察研究时实施的特征提取过程。我们确定了两种转换(航迹定义和航迹聚合),将复杂的原始数据转换为航迹和特征。航迹定义需要较高的专业知识,但降低了数据的复杂性,简化了航迹聚合过程中时间维数的降低。gydF4y2Ba
研究案例的描述。gydF4y2Ba
为每个研究案例实现的跟踪和特性的标准化描述。gydF4y2Ba
解剖治疗化学gydF4y2Ba
公共数据模型gydF4y2Ba
任务的层次分析gydF4y2Ba
《国际疾病和有关健康问题统计分类》,第十版gydF4y2Ba
观察性健康数据科学与信息学gydF4y2Ba
观察性医疗结果伙伴关系gydF4y2Ba
Système National des Données de Santé(法国国家索赔数据库)gydF4y2Ba
医学系统命名-临床术语gydF4y2Ba
AL、MF、EC为研究构思和设计做出了贡献,并起草了手稿。所有作者提供了他们的研究案例并批准了手稿。gydF4y2Ba
没有宣布。gydF4y2Ba