发表在10卷10号(2022): 10月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/38557,首次出版
提升医院电子病历数据宝藏:挑战与机遇

提升医院电子病历数据宝藏:挑战与机遇

提升医院电子病历数据宝藏:挑战与机遇

的观点

1医学信息学研究部,RISC软件有限公司,哈根堡,奥地利

2JKU LIT SAL eSPML实验室,信号处理研究所,约翰内斯开普勒大学,林茨,奥地利

3.奥地利林茨约翰内斯开普勒大学开普勒大学附属医院麻醉科和重症监护医学系

4埃利斯林茨单元,LIT AI实验室,机器学习研究所,约翰内斯开普勒大学,林茨,奥地利

通讯作者:

Alexander Maletzky博士

医学信息学

RISC软件有限公司

Softwarepark 32个

Hagenberg 4232

奥地利

电话:43 7236 93028406

电子邮件:alexander.maletzky@risc-software.at


电子健康记录(EHRs)已成功应用于数据科学和机器学习项目。然而,这些数据大多用于临床使用,而不是用于回顾性分析。这意味着研究人员在试图访问和准备二次使用的数据时通常会面临许多不同的问题。我们的目标是调查如何在回顾性数据科学项目中以一种有纪律、有效和高效的方式访问和准备原始电子病历。我们报告了我们从一个大型数据科学项目中获得的经验和发现,该项目分析了来自奥地利林茨开普勒大学医院的常规回顾性数据。该项目涉及在10年内收集超过15万名患者的数据。它包括多种数据形式,如静态人口统计数据、不定期获取的实验室检测结果、定期采样的生命体征和高频生理波形信号。原始医疗数据可能以许多意想不到的方式损坏,需要彻底的人工检查和高度个性化的数据清理解决方案。我们提出了一个一般的数据准备工作流程,这是在我们的项目过程中形成的,包括以下7个步骤:获得可用EHR数据的粗略概述,为监督学习定义有临床意义的标签,从医院的数据仓库中提取相关数据,匹配从不同来源提取的数据,识别它们,通过仔细的探索性分析检测其中的错误和不一致,并在实际代码中实现合适的数据处理管道。 Only few of the data preparation issues encountered in our project were addressed by generic medical data preprocessing tools that have been proposed recently. Instead, highly individualized solutions for the specific data used in one’s own research seem inevitable. We believe that the proposed workflow can serve as a guidance for practitioners, helping them to identify and address potential problems early and avoid some common pitfalls.

JMIR Med Inform 2022;10(10):e38557

doi: 10.2196/38557

关键字



电子健康记录(EHRs)包含关于个人健康状况的大量信息,包括人口统计、诊断、药物处方、实验室检测结果、高频生理波形信号等。许多先前的研究已经证明了如何将数据科学和机器学习(ML)应用于大型电子病历数据库,以成功训练模型来预测许多不同的与患者相关的结果,包括死亡风险[1-4]、住院或加护病房(ICU)的时间[1-3.],心血管失代偿[3.56]、术后并发症[7],以及近期新冠肺炎的诊断和发病机制[8-12].虽然准备资料需要相当的时间和精力[1314],很少在研究成果中得到体现。一种可能的解释是,它被认为是一种“标准”任务,总是或多或少地进行相同的工作,并且在很大程度上可以自动化,这要感谢易于应用的通用软件工具[15-17].在本文中,我们通过一个大型研究项目的具体例子说明,情况并非如此。由于几个原因,从医院的数据仓库中对原始电子病历进行二次(基于ml的)分析在许多方面都具有挑战性。最重要的是,最初收集的数据除了临床应用之外没有任何特定的用例,相关信息通常分布在多个不同的数据库中,这些数据库往往缺乏可理解的文档。如果临床概念(变量、分类值、测量单位等)在不同的来源中以不同的方式表示,或者如果临床概念的编码随着时间的推移而变化,那么数据协调就会成为一个真正的问题。此外,不完整或无效的数据,虽然在原则上是一个众所周知的问题,但可能以许多(意想不到的)形式出现,并且只有在仔细的人工检查后才能注意到。图1总结了我们在工作中遇到的电子病历数据的主要挑战,这些挑战在回顾性医疗数据分析中普遍存在[18].

图1。回顾性医疗数据分析的主要挑战(改编自Johnson等[18],根据创作共用属性4.0国际许可CC-BY 4.0发布[19])。
查看此图

与许多其他关于医学背景下数据准备的论文不同,这项工作并没有提出一种新的通用数据处理工具。相反,我们报告了我们在最近的一个大型数据科学项目中面临的挑战和吸取的教训。我们展示了混乱和损坏的原始数据的具体示例,以使人们意识到(医疗)数据准备是一项不平凡的、劳动密集型的工作,尽管通用工具的集合不断增长。最后,我们提出了类似研究项目的一般数据准备工作流程,以帮助从业者避免最常见的陷阱。

关于大规模二级(基于ml)分析的医疗数据准备的文献很少。大多数研究都集中在模型开发和开发模型的最终预测性能上,只提到了数据准备管道的几个基本方面。Rajkomar等人的工作尤其如此[1,但有一个很好的理由:深度神经网络被用来以端到端的方式学习数据的“良好”表示,依赖于网络自动正确处理混乱数据的能力。管道基于快速医疗保健互操作性资源[20.],这意味着这种格式的所有数据都可以很容易地处理,而不需要进一步的特征选择、协调或清理。尽管乍一看很吸引人,但正如作者指出的那样,所提出的方法有一些局限性。最重要的是,深度神经网络通常需要大量的数据和计算资源来学习良好的表示。其次,缺乏数据协调可能会损害研究地点之间的可转移性;例如,用于验证。此外,为了以监督的方式训练模型,必须提供标签,并且根据用例,这些标签可能难以提取,这重新引入了数据准备的需求。也不清楚上述研究中开发的模型是否[1如果这些数据经过更彻底的人工检查和管理,它们的表现会更好。

其他研究提出了通用数据处理管道,可用于知名ICU基准数据库,如重症医疗信息集市(MIMIC) [21-23]和远程医疗ICU合作研究数据库(eICU-CRD) [24].最突出的例子是MIMIC-Extract [15],小提琴[16],清除和组织电子病历计算和分析任务的管道[17],以及千里眼[25].FIDDLE和Clairvoyance的作者声称,他们的系统具有足够的通用性,不仅可以容纳从MIMIC-III和eICU-CRD中提取的数据,还可以容纳以特定形式可用的任何EHR数据。这在很大程度上可能是正确的,但我们的经验是,清理杂乱的原始数据并将其转化为所需的标准化形式至少与FIDDLE和Clairvoyance所涵盖的后续“通用”预处理步骤一样是劳动密集型的(就实现工作而言)。斯卡利等人[14称之为这种现象粘合代码反模式.一般来说,MIMIC和eICU-CRD可能是优秀的基准数据库,但我们发现,直接从医院的IT基础设施导出的“真实世界”数据带来了许多这些数据库中没有的挑战。

史等[26]提出了一个医疗数据清理管道,明确解决了我们在研究中也遇到的一些问题。他们考虑了实验室测试和类似的测量,并提出了人工策划的数值变量验证规则,以及通过模糊搜索和变量相关转换规则来协调(拼写错误)测量单位的自动策略。Shi等人的研究重点[26]是为了提高数据的质量[27-29],而王等[15],唐等[16],以及Mandyam等[17]主要关注将数据转换为适合ML的形式。Shi等人对用于EHR计算和分析任务的FIDDLE、MIMIC-Extract、清洗和组织管道以及处理数据的方法进行了更详细的评估[26]可以在多媒体附件115-1726].

Johnson等人的广泛调查文章[18]总结了与本工作类似的医学数据分析的主要问题。作者还建立了这些问题的高级分类划分腐败,复杂性图1),并认为重症监护背景下的数据采集和准备特别困难,因为数据是为不同的目的收集的。

桑达克等[30.]得出了类似的结论,并特别指出,由于冗余数据验证和规范化,为一个站点开发的解决方案不能很好地扩展到多个站点。作者提供了在其他医院部署模型筛查慢性肾脏疾病患者的预期成本的估计。我们避免从我们的发现中推断出这样的估计,但同意将其他站点的数据预处理成适合现有预测模型的形式的成本可能会很大。


数据准备

存储在医院数据仓库中的原始电子病历不能轻易用于开发临床预测模型,但必须首先提取、分析并进行一系列预处理步骤。这些步骤在数据形式和数据源之间可能有所不同,但通常包括某种类型的验证(确保数据准确反映现实),协调(建立等价概念的统一表示),以及转换(将数据转换成适合模型开发的形式,例如,提取有用的信息)。此外,必须首先确保有足够数量的数据点可用,并且在监督学习的情况下可以从中提取有临床意义的目标标签。我们通过参考一个特定的数据科学项目来演示如何以一种有纪律的、有效的和高效的方式来完成这一点。

基础数据科学项目

本文中提出的所有结果都来自一个大型数据科学项目,用于开发数据驱动的临床预测模型。具体来说,考虑了以下5个用例:(1)优化ICU患者的吞吐量,(2)提高急诊医学治疗优先级的准确性,(3)改进血液制品的选择,(4)预测ICU患者病情恶化,以便进行预防性干预,以及(5)使用常规获得的实验室检测预测COVID-19感染[11].所有用例都基于从奥地利林茨的一家大型大学医院开普勒大学医院(Kepler University Hospital)定期收集的回顾性数据。使用了各种各样的数据模式,包括患者人口统计、实验室测试、诊断、生命体征,甚至高频生理波形信号。自然语言文本所代表的信息大多被忽略(简短的自由文本诊断除外),并且完全排除了成像方式。

5个用例中的数据量是不同的;例如,用例1和用例4自然局限于入住ICU的患者,而对于用例2,只考虑到急诊室(ED)的患者。数据涵盖的时间段也取决于用例。表1列出5个用例中每个用例的特定时间段和患者总数。总的来说,处理的数据项数量的数量级为109(不包括高频波形数据),其中生命体征和实验室检测占绝大多数。

这5个用例的具体结果并不是本文的主要关注点。相反,在本文的其余部分中,用例仅作为说明性示例。

表1。研究项目中考虑的用例一个
用例 简短的描述 病人,n
1 优化加护病房b病人的吞吐量 2010 - 2020 14236年
2 提高急诊科治疗优先次序的准确性c 2015 - 2020 77972年
3. 改进血液制品的选择 2016 - 2020 5855
4 预测ICU患者病情恶化 2018 - 2020 3069
5 预测COVID-19感染[11 2019 - 2020 79884年

一个注意患者队列部分重叠。

bICU:重症监护室。

c急诊室。

数据源

上述5个用例的相关数据包含在医院IT基础设施中的3个中央数据管理系统中医院信息系统(他的),病人资料管理系统(PDMS),Bedmaster系统.HIS是一个医院范围内的数据仓库,其中包含医院收治的所有患者的信息。其中包括人口统计数据(出生日期、性别等)、关于住院转院、诊断、实验室检测结果和院内死亡率的详细信息。PDMS部署在医院与重症监护相关的5个icu中。因此,它只包含住院期间入住ICU的患者的信息,但通过自动记录的生命体征测量(心率、血压、体温等)补充了HIS中的基本信息;每个生命体征每小时可测量30次),有关药物治疗的精确信息,以及手动记录的评分(如格拉斯哥昏迷量表)。床主系统[31可以连接到床边监测设备,并自动存储由这些设备产生的生命体征、生理波形和警报。采集数据的时间分辨率远远超过PDMS的分辨率,每2秒记录一次生命体征,波形以60至240 Hz的频率采样。该系统仅部署在5个icu中的2个,并于2018年3月安装。因此,与HIS和PDMS相比,它所覆盖的患者数量明显较少。

此外,从奥地利联邦统计局获得了病人出院后的体外死亡率的信息(用例1),从当地血库获得了在医院输血的血液制品的信息(用例3)。图2总结了5例病例中使用的所有数据来源和模式。

图2。用例1至5中的数据源和导出模式。HIS、PDMS和Bedmaster是部署在医院的数据管理系统,而关于院外死亡率和血液制品的信息必须从外部来源获得。HIS:医院信息系统;PDMS:患者数据管理系统;ICU:重症监护室。
查看此图

伦理批准

对于本工作中提到的每个用例,都获得了奥地利林茨约翰内斯开普勒大学医学院伦理委员会的批准。相应的研究编号为1015/2021、1233/2020、1232/2020、1014/2021和1104/2020。


数据概述

在开始从医院内部存储导出原始数据之前,必须了解可用数据的类型和数量。这可能听起来很明显,但实际上比看起来要复杂得多。例如,一个人处理的病人或病例的数量并不总是表明适当数据的数量。具体来说,在监督学习的常见设置中,只有可以分配有临床意义的目标标签的数据点是有用的。例如,在输血用例3中,我们可以考虑的输血相关并发症的类型受到足够的输血前和输血后实验室测量的可用性的限制,以确定各自的并发症。最终,足够的标记训练样本只能用于预测急性肾损伤和急性呼吸衰竭。其他器官系统,虽然在原则上很有趣,但必须排除在分析之外。急性呼吸衰竭也必须最终排除,因为发现阶级不平衡太强烈。

鉴于电子病历中存储的信息的丰富性,通常有足够的数据可以转换为临床预测模型可能关注的特征。然而,人们必须意识到,随着时间的推移,信息会不断积累,这意味着患者在医院或ICU住院结束时的数据比开始时的数据要多。对我们来说,这在用例2中尤其相关,在用例2中,就诊急诊科患者的治疗优先级和30天死亡率必须仅根据急诊科通常记录的少量信息进行预测。

为监督学习定义标签

常规收集的回顾性EHR数据并不总是包含关于预期结果的信息。除死亡率或住院时间外,典型的结局参数通常是由几个必须从替代变量中推断出来的参数组成的。例如,一些作者将低血压作为心脏不稳定的一个指标[56],我们在用例4中采用了一种方法来预测患者病情恶化。同样,器官系统衰竭也有被广泛接受的标准;例如,肾脏疾病:改善全球结果[32]以及急性呼吸窘迫综合征的柏林定义[33].两者都在用例3中使用。

在试图预测干预措施的效果时,还会出现进一步的问题。首先,将观察到的结果与特定的干预措施联系起来并不总是可能的,特别是如果在短时间内进行多次干预。在输血用例3中,在许多情况下,同时转移了两种或两种以上的血液制品,因此无法确定是哪一种输血导致了输血后并发症。在这种情况下,将预测任务框定为多实例学习问题34可能是唯一的补救办法。其次,如果目标是评估或改进现有的临床决策政策,那么就会面临这样的问题:“如果病人得到不同的治疗,他/她会发生什么?”当然,这些问题很难基于干预和治疗固定的回顾性数据来回答,并且无法探索反事实的轨迹,尽管存在通过统计分析和ML估计反事实治疗结果的文献[35].在用例1中,主要目标是预测ICU患者出院回病房的最佳时间,我们求助于回答转院患者是否应该在ICU呆更长时间的代理问题。我们通过确定ICU出院后不久死亡或意外返回的患者来确定这一点。

访问和提取数据

医院IT基础设施的设计通常旨在方便地访问个别患者的数据,以提供最佳的护理。不幸的是,这并不意味着来自不同患者的批量数据可以轻松访问,更不用说提取了。特别是,如果导出数据所需的人工交互量太高,单独的回顾性研究可能是可行的,但在实时数据上自动实时部署预测模型可能不可行。当只有一个数据源时,数据访问可能具有挑战性,但如果必须合并多个不同的数据源,则更具有挑战性。在我们的项目中,我们必须访问3个不同的数据库:HIS、PDMS和Bedmaster (图2).HIS是一个基于sap的系统,可以将表导出为CSV或Microsoft Excel文件,而PDMS是一个PostgreSQL关系数据库,允许以所需的任何表格式导出查询结果。相反,从Bedmaster系统导出数据非常麻烦,因为默认情况下只支持XML和JSON导出。用这两种冗长格式表示大量的波形和生命体征数据会导致无法有效处理的巨大文件;因此,在第一步中,我们必须从JSON文件中提取相关数值,并以更有效的HDF5格式存储它们。这个过程比预期的要复杂得多,因为在导出的数据表示中有不一致的地方多媒体附件236-39].

匹配不同来源的数据

从不同来源导出的数据必须进行匹配,以获得所考虑的患者或病例的一致记录。在正常情况下,这很简单,因为有通用标识符。然而,根据我们的经验,这样的标识符并不总是需要存在或随着时间的推移而改变。具体来说,从Bedmaster系统导出的数据缺乏标识符,例如患者或病例id。我们只知道它们来自哪个ICU病床,以及每个单独记录值的精确时间戳,因此必须根据哪个病人在哪个时间占用哪个ICU病床的信息手动分配相应的id。这种方法有效,但很麻烦,增加了额外的复杂性,是另一个潜在的错误来源。与简单地连接公共ID列上的表相比,自动化也更加困难。

标识符和它们所引用的实体之间的映射可能会随着时间的推移而改变,正如我们在药品代码项目中所经历的那样。每种药物都有一个独特的代码,用于在处方表中引用它,但由于未知的原因,编码在某些时间点会发生变化。发生这种情况时的精确信息存储在另一个表中,因此药物名称可以从处方提供的代码和时间戳中恢复。然而,整个过程并不像我们希望的那样简单。

Deidentification

存储在电子病历中的合理个人信息只能以不识别的形式共享。没有普遍的规则如何数据需要去识别,只要识别个体患者之后变得几乎不可能。在我们的项目中,去标识化相当于删除患者姓名,用项目内部标识符替换医院标识符(如患者id或病例id),这些标识符可用于在不同表中匹配相应的数据项。此外,所有的时间戳在未来都会被每个患者随机偏移,以避免由于知道患者确切的入院或出院时间而重新识别患者。时间戳在匹配来自不同来源的数据后被移动,因为一些匹配策略依赖于精确的时间信息,如前所述。时间戳进行了更改,保留了每天的时间和每周的天数,因为它们都构成了下游数据分析任务的潜在有价值的信息。季节性也是如此,也大致保存了下来。此去识别策略类似于用于MIMIC-III的策略[21].我们注意到,它不如最近发布阿姆斯特丹umcdb的政策那样彻底。40]:在那里,理论概念如k匿名性和l-在先进的威胁模型下,假设“流氓研究人员”和“流氓保险公司”能够访问数据,多样性被认为使重新识别单个患者几乎不可能。在我们的案例中,所有数据(即使是以去识别的形式)都是保密的,只能由项目成员访问,因此我们认为没有必要采用这种彻底的去识别策略。

去识别删除或替换了原本可以用来检测数据中不一致的信息,例如相同的患者ID被意外地分配给具有不同名字的多个患者。因此,在必要的信息仍然可用的情况下,确保在识别数据之前或识别数据时检测并纠正此类问题是至关重要的。具体来说,我们实现了广泛的完整性检查,例如,确保病例和患者ID处于1:n的关系(每个病例ID对应于唯一的患者ID,但患者ID可以有多个与之关联的病例ID)。所有违反此原则的实例都将立即报告给人工操作员,允许他或她覆盖其中一个标识符或完全丢弃实例。此外,只要可能,丢失的患者id将自动从已知病例id中重建。患者id的可用性非常重要,因为用于识别时间戳的随机时间偏移量与患者id而不是病例id相关。最后,由于医院分配的病例id遵循一个明确定义的模式,可以将它们与患者id区分开来,因此意外交换的病例id和患者id在去识别之前会自动交换。

去识别应该保留的信息类型在很大程度上取决于人们想要处理的预测任务。例如,在我们的方法中,数据的时间顺序仅在患者内部保留,而不是在所有患者中保留。特别是,在某个时间点ICU的患者总数,这是用例1的潜在相关输入,在去识别后不能再确定。出于同样的原因,它是不可能被发现的域的变化在未识别的数据中,这是数据随时间分布的系统变化(域转移可能由许多不同的因素引起,如新的测量设备、实验室测试程序或患者人群中疾病流行率的变化)。因此,所有在去识别后无法计算的相关时间特征都必须在去识别前提取并添加到数据中。

检验与探索性分析

除了与缺失值或无效测量相关的众所周知的问题之外,现实世界的数据可能会以许多不可预见的方式损坏或表现不良,因此彻底的检查和探索性分析是不可避免的。事实上,根据我们的经验,这是整个数据准备管道中最劳动密集型的任务之一。由于问题的性质,很难对应该注意的问题制定出一般的规则。相反,我们报告了在工作中遇到的一个特别微妙的问题。它可能是我们医院特有的,但它是作为一个说明性的例子,说明在使用电子病历时可能会发生什么意外。更多的例子可以在多媒体附件2

在用例4中,我们大量使用心电图、动脉压、氧饱和度等生理波形信号来预测ICU患者在未来15分钟内病情是否会恶化。波形信号由Bedmaster系统记录,并可导出为数值数组。应该清楚的是,由于测量这些数据的方式不同,信号中可能存在多种类型的测量工件;也就是说,由滑动传感器或患者运动引起的高度不寻常的波形形态。必须预料到这一点,并通过自动检测无效波形数据的周期来明确解决[36]或隐式地依靠后续ML算法学习如何区分正常和异常信号的能力。中描述了一个完全意想不到的问题图3:有时,信号在短时间内保持恒定的低值。测量误差的自然猜测(例如,由滑动传感器引起的)可能是错误的,因为简单地去掉恒定的低值周期会在所有被检查的情况下得到平滑的曲线。因此,这种情况可能表明来源未知的数据伪影,必须去除以获得相干信号,但奇怪的是,它们并不总是同时出现在所有同时记录的波形中。因此,我们选择避免切割原始信号的片段,以避免不同波形可能的时间错位。

图3。波形信号中短周期的恒定低值可能必须被剔除。左:原始信号,0.5秒周期的恒定低值。右:切出低值后的信号;可以看到,信号的两端完全吻合。
查看此图

实现

最终,提取和预处理所有相关EHR数据的管道必须在实际代码中实现。这在很多方面都具有挑战性。首先,广泛使用旨在快速原型的技术(例如Jupyter笔记本)来快速试验数据,并以特定的硬编码方式对特定用例进行预处理是很有吸引力的。这在短期内可能很有效;然而,从长远来看,允许交换单个组件和调整(以及日志记录!)配置设置的结构化模块化代码库是更好的方法。特别是,配置设置的日志记录对于确切地了解如何预处理数据以及如何生成模型,从而获得可重复的结果至关重要。

其次,为处理特定用例的特定数据模态而实现的管道应该在依赖于相同数据模态的其他用例中可重用,至少在一定程度上是这样。即使这两个用例在预处理后所需的数据输出格式不同,管道中几乎肯定有一些步骤适用于这两个用例。重用现有功能而不是重新实现它,可以跨用例对数据进行一致的处理,作为副作用,甚至可以帮助从一个用例的特性中抽象出来,并以更通用的方式实现预处理功能。例如,我们在5个用例中使用实验室测试结果作为特征或分配标签(或两者兼有)。在用例4中,相对于给定时间点,一组固定实验室参数的最后3个测量值被用作特征,而在用例3中,输血前某个参数的最后测量值与输血后的测量值进行比较,以确定是否引起了并发症。两者都是找到最后或最先的一般原则的特殊情况n在给定时间点之前或之后测量的值,因此可以在一个公共函数中实现。

最后,在数据准备管道中包含通用的第三方工具显然有其好处,也有潜在的缺点。一方面,其中实现的功能不需要从头开始重新实现(也不需要从头开始测试),但另一方面,斯卡利等人[14]指出,它可能会导致许多粘合代码和管道丛林,以将数据转化为正确的形状。在我们的项目中,我们限制自己使用Python生态系统中完善的库,包括NumPy [41]、大熊猫[42],和scikit-learn [43],并刻意避免使用诸如FIDDLE的工具[16].前三个是有用的类和函数库,可以很容易地集成到自己的管道中。后者本身实现了一个完整的医疗数据准备管道,尽管原则上是通用的和可定制的,但没有提供我们需要的灵活性来容纳我们的数据。

更准确地说,我们的数据准备管道包括3个主要步骤:协调、验证和转换。协调,即确保一致地表示等效概念,是非常特定于每种数据模式的,通常相当于为等效变量分配唯一的名称,并将测量值转换为公共度量单位。记录值的验证是根据手动指定的基于阈值的规则进行的。类似Harutyunyan等人[3.],我们区分无效数值和极端异常值。每个验证规则有2个范围r1⊆r2里面的一切r1外面的一切都是可以接受的吗r2被认为是一个极端的异常值。极端的异常值xr2被完全删除,而值xr2r1设置为中最接近的可接受值r1.最后,转换也取决于正在考虑的特定数据模式,但通常涉及将基于事件的实体-属性-值格式的EHR表重新采样为更ml友好的宽表格式。这是通过在给定的时间窗口内根据一组固定的规则聚合所有观测值,例如取所有测量值的平均值、总和或时间上的最后值。如果一个变量在一个时间窗口内根本没有被测量,那么“缺失”的记录将被估算。正如其他作者所指出的[44],临床测量不会随机丢失;因此,明确missingness面具指示一个值是否已被估算,并作为额外的特征添加。一般来说,在估算所有观测值的平均值或中位数时也必须小心,因为这可能会引入偏差。例如,如果仅在患者患有某种疾病时测量某个变量,则测量值不能代表整个人群。


主要研究结果

前面的部分说明了为二次分析准备电子病历和开发预测模型是一项具有挑战性的工作。除了众所周知的普遍存在的数据问题(例如,缺失值的估算)之外,我们还在原始数据中发现了许多必须单独解决的问题。更糟糕的是,在第一次快速扫描数据时,这些问题都没有出现,而是在彻底的探索性分析后才被发现。不同类型的患者标识符被意外交换当然是人们根本不会想到的事情,但我们在数据中发现了一些这样的案例。对同一个临床概念使用多个代码或名称也不是容易发现的,特别是如果它仅仅是临床实践中没有出现的内部数据表示的人工制品。如果代码和概念之间的映射随着时间的推移而变化,那么数据协调就会成为一个真正的挑战。在数据验证方面,盲目地丢弃一个所谓的数值变量的所有非数值值无法考虑经过审查的值,例如“>120.0”(多媒体附件2),它们确实提供了有用的信息。最后,上述波形数据的微妙问题不仅需要对时间戳和测量值进行彻底的系统分析,而且也很难解决。总之,这些观察结果支持了我们的观点,即尽管诸如FIDDLE [16]和千里眼[25]无疑有它们的优点,但人们必须小心,不要低估特定于模态和特定于源的数据分析和准备的额外工作。总的来说,我们认为,与成熟的端到端管道相比,无论它们是如何通用和可配置的,广泛的、记录良好的、通用的、实现清晰的功能库更有价值,这些功能集中于医疗数据准备的特性(协调和验证生理变量,将基于事件的实体-属性-值表重新采样为宽表等)。

从回顾性数据中提取表明感兴趣结果的标签可能比人们预期的要复杂得多。通常,这些结果(患者病情恶化、器官系统衰竭、最佳治疗策略等)在电子病历中没有明确记录,因此必须近似记录。这种近似的质量可能不仅影响生成的预测模型的性能,而且影响它们对临床实践的适用性。此外,如果某些标签的定义依赖于几乎没有记录的变量,则可能只剩下少数标记样本。在这种情况下,方法基于自我监督和半监督学习45-47可能是唯一的补救办法。

电子病历包含高度敏感的患者信息,出于充分的理由,在与研究项目中的科学合作伙伴共享这些信息之前,必须对其进行识别。如何以及在何种程度上需要进行这种工作,通常没有明确的定义,特别是在处理时间信息方面。根据具体的用例,时态数据可能包含高度相关的信息。一方面,如果手头的预测任务必须考虑到临床常规,那么了解特定事件发生的时间和星期几是必要的;另一方面,了解不同患者之间事件的(粗略)顺序可以检测基础数据分布中的域转移。最后,如果对任何给定时间点的特定资源的使用感兴趣,则必须在取消时间戳标识之前提取该信息,或者必须完全避免取消时间戳标识。根据我们的经验,最好先确定特定用例所需的信息类型,然后设计去识别策略,在遵守法律法规和医院内部限制的同时,尽可能多地保留先前确定的信息。

最后,如果开发预测模型的最终目标是将其应用于临床实践,那么数据访问就成为必须考虑的因素。将医院IT基础设施中的数据导出为所需格式所涉及的手动步骤越多,实时部署就越困难。在我们的用例4中,在每个用例之后自动导出当前所有ICU患者的必要数据n分钟,然后及时处理它们是具有挑战性的,目前正在进行中。这主要是由于开普勒大学医院的整个数据仓库系统是为临床使用而设计的,而不是实时分析。然而,还有其他选择;McPadden等人在一项研究中提出了一种用于数据科学项目的有效存储和访问医疗数据的复杂解决方案[48].

工作流

我们在项目中所遵循的数据准备工作流程总结在图4,并粗略估计各个步骤所花费的相对时间和精力。我们认为它可以推广到其他具有回顾性EHR数据的数据科学项目,并希望它可以指导其他研究人员尽早发现和解决潜在的问题,避免一些常见的陷阱。

中(线性)工作流的表示图4被简化了,因为在现实中,有很多反馈循环。例如,检查数据可能会发现只有从系统中提取额外信息才能纠正的问题,而一些问题可能只在开发第一个预测模型之后才会出现。

值得注意的是,本文给出的结果仅涉及后续模型开发的数据准备,而不涉及实际预测模型的开发和验证。我们认为这些是数据科学和机器学习中的“标准”任务,而不是特定于医疗数据。然而,我们确实承认,为给定的任务选择适当的预测模型类别,优化超参数,并以正确的方式训练模型绝不是微不足道的,需要大量的时间和精力。在临床实践中部署模型也是如此,其中的主题如处理域转移检测非分布数据,以病人能理解的方式解释模型决策必须解决。如果现有模型要部署到其他医院,事情就会变得更加困难,因为上述工作流程中的大多数步骤都必须重复。只有标签的定义和(可能的)去标识可以跳过,并且现有管道实现的某些部分可能可以重用。根据我们的粗略估计,在开发预测模型的初始数据准备中投入的大约75%的工作必须为部署这些模型的每家医院重新投资。正如森达克等人的一项研究所指出的[30.],这会增加大量的额外费用。

图4。回顾性电子病历数据分析的数据准备工作流程。EHR:电子健康记录。
查看此图

结论

从生产环境中准备原始医疗数据进行回顾性分析和ML仍然具有挑战性和耗时。我们的研究结果表明,现实世界的EHR数据可能会以许多微妙的方式混乱和损坏,因此对手头的数据进行彻底的探索性分析和量身定制的预处理功能是不可避免的。我们希望引起人们对这一事实的认识,并希望勾画的数据准备工作流程能够成为未来涉及常规获取医疗数据的大规模数据科学项目的有价值的指导。

致谢

本研究由医学认知计算中心(MC3.),并得到上奥地利省“创新OÖ 2020”战略经济研究计划的支持。该项目由上奥地利州政府的研究补贴共同资助,并由硅奥地利实验室(SAL)的大学SAL实验室倡议及其奥地利合作大学支持,用于基于电子系统的应用基础研究。RISC软件有限公司是上奥地利研究创新网络的成员。作者感谢Philipp Moser仔细校对了手稿的草稿版本。

利益冲突

没有宣布。

多媒体附件1

四种电子病历数据准备工具的简要评价和比较。

DOCX文件,18kb

多媒体附件2

概述在我们的研究中使用的数据模式和处理它们时遇到的具体问题。

DOCX文件,137 KB

  1. 陈凯,陈国强,李志强,等。可扩展和精确的深度学习与电子健康记录。NPJ数字医学2018年5月8日;1:18 [免费全文] [CrossRef] [Medline
  2. 刘艳,陈晓明,陈晓明,刘宇。基于深度学习模型的大型医疗数据集的基准测试。J Biomed Inform 2018 7月;83:112-134 [免费全文] [CrossRef] [Medline
  3. 张晓明,张晓明,张晓明,张晓明。基于时间序列数据的多任务学习方法研究。科学数据2019 6月17日;6(1):96 [免费全文] [CrossRef] [Medline
  4. caiceado - torres W, Gutierrez J. ISeeU: ICU内死亡率预测的视觉可解释深度学习。J Biomed Inform 2019 10月;98:103269 [免费全文] [CrossRef] [Medline
  5. 李志刚,李志刚,李志刚,李志刚,等。基于高保真动脉压波形分析的机器学习算法预测低血压。麻醉学2018 10月;129(4):663-674 [免费全文] [CrossRef] [Medline
  6. Hyland SL, Faltys M, Hüser M, Lyu X, Gumbsch T, Esteban C,等。利用机器学习对重症监护室循环衰竭进行早期预测。医学2020年3月26日(3):364-373。[CrossRef] [Medline
  7. Corey KM, Kashyap S, Lorenzi E, lagou - deenadayalan SA, Heller K, Whalen K,等。开发和验证机器学习模型,以识别使用自动策划的电子健康记录数据(Pythia)的高风险手术患者:一项回顾性,单点研究。PLoS Med 2018 11月27日;15(11):e1002701 [免费全文] [CrossRef] [Medline
  8. Bottino F, Tagliente E, Pasquini L, Napoli AD, Lucignani M, Figà-Talamanca L,等。用机器学习方法预测COVID死亡率:系统回顾和批判性评估。J Pers Med 2021 9月07日;11(9):893 [免费全文] [CrossRef] [Medline
  9. Tschoellitsch T, Dünser M, Böck C, Schwarzbauer K, Meier J.基于常规血检的SARS-CoV-2聚合酶链反应结果的机器学习预测。实验室医学2021年3月15日;52(2):146-149 [免费全文] [CrossRef] [Medline
  10. Yang D, Martinez C, Visuña L, Khandhar H, Bhatt C, Carretero J.利用深度学习技术在医学图像中检测和分析COVID-19。科学报告2021 Oct 04;11(1):19638 [免费全文] [CrossRef] [Medline
  11. Roland T, Böck C, Tschoellitsch T, Maletzky A, Hochreiter S, Meier J,等。基于血液检测的Covid-19机器学习诊断领域的变化。J Med Syst 2022年3月29日;46(5):23 [免费全文] [CrossRef] [Medline
  12. 葛丽丽,阿默德,阿勒曼,斯里尼瓦苏。印度各州COVID-19感染治愈和死亡率早期预测分类器的实证研究医疗保健(巴塞尔)2022年1月2日;10(1):85 [免费全文] [CrossRef] [Medline
  13. 2016年数据科学报告。CrowdFlower合作。2016.URL:https://visit.figure-eight.com/rs/416-ZBE-142/images/CrowdFlower_DataScienceReport_2016.pdf;[2022-09-23]访问
  14. 斯卡利D,霍尔特G,戈洛文D,达维多夫E,菲利普斯T,埃伯纳D,等。机器学习系统中隐藏的技术债务。在:神经信息处理系统的2015年进展。2015年发表在:NeurIPS '15;2015年12月7-12日;加拿大蒙特利尔,第2503-2511页。
  15. Wang S, McDermott MB, Chauhan G, Ghassemi M, Hughes MC, Naumann T. MIMIC-Extract: MIMIC-III的数据提取、预处理和表示管道。载于:ACM健康、推理和学习会议论文集,2020年4月发表于:CHIL '20;2020年4月2-4日;加拿大多伦多,第222-235页。[CrossRef
  16. 唐珊珊,宋勇,陈志伟,陈志伟,陈志伟。基于数据驱动的EHR数据处理方法研究。美国医学通报协会2020年12月09日;27(12):1921-1934 [免费全文] [CrossRef] [Medline
  17. 马德安,刘志强,刘志强,刘志强。COP-E-CAT:用于EHR计算和分析任务的清理和组织管道。见:第12届ACM生物信息学、计算生物学和健康信息学会议论文集。2021年8月发表于:BCB '21;2021年8月1日至4日;盖恩斯维尔,佛罗里达州,美国,第1-9页。[CrossRef
  18. Johnson AE, Ghassemi MM, Nemati S, Niehaus KE, Clifton DA, Clifford GD。重症监护中的机器学习和决策支持。电子工程学报2016年2月;104(2):444-466 [免费全文] [CrossRef] [Medline
  19. 属性4.0国际(CC BY 4.0)。知识共享。URL:https://creativecommons.org/licenses/by/4.0/[2022-10-05]访问
  20. 曼德尔JC,克瑞达DA,曼德尔KD,科哈内IS,拉莫尼RB。FHIR上的SMART:一个基于标准的、可互操作的电子健康记录应用程序平台。美国医学信息协会2016年9月23日(5):899-908 [免费全文] [CrossRef] [Medline
  21. 张志强,陈志强,陈志强,陈志强,等。这是一个免费访问的重症监护数据库。科学数据2016年5月24日;3:160035 [免费全文] [CrossRef] [Medline
  22. Johnson AE, Stone DJ, Celi LA, Pollard TJ。MIMIC代码存储库:在重症监护研究中实现可重复性。J Am Med Inform association 2018年1月01日;25(1):32-39 [免费全文] [CrossRef] [Medline
  23. Johnson A, Bulgarelli L, Pollard T, hongng S, Celi LA, Mark R. MIMIC-IV(2.0版)。2022年生理网。[CrossRef
  24. Pollard TJ, Johnson AE, Raffa JD, Celi LA, Mark RG, Badawi O. eICU合作研究数据库,一个免费的重症监护研究多中心数据库。科学数据2018年9月11日;5:19 08 [免费全文] [CrossRef] [Medline
  25. 李文杰,尹俊杰,陈志强,陈志强,陈志强。基于超视距的医疗时间序列分析方法。见:第八届学习表征国际会议论文集,2020年发表于:ICLR '20;2020年4月26-30日;埃塞俄比亚亚的斯亚贝巴,第1-16页。
  26. Shi X, Prins C, Van Pottelbergh G, Mamouris P, Vaes B, De Moor B.基于临床知识的电子健康记录数据自动清理方法。BMC Med Inform Decis Mak 2021年9月17日;21(1):267 [免费全文] [CrossRef] [Medline
  27. 吴伟科普,王晓明,王晓明,王晓明。基于数据质量评估的电子病历数据复用方法。EGEMS(华盛顿特区)2017九月04;5(1):14 [免费全文] [CrossRef] [Medline
  28. 马苏菲,阿亚图拉希,霍拉萨尼-扎瓦雷。急诊医疗服务数据质量评估综述。Open Med Inform J 2018年5月31日;12:19-32 [免费全文] [CrossRef] [Medline
  29. Terry AL, Stewart M, Cejic S, Marshall JN, de Lusignan S, Chesworth BM,等。初级卫生保健电子病历数据质量评估的基本模型。BMC Med Inform Decis Mak 2019年2月12日;19(1):30 [免费全文] [CrossRef] [Medline
  30. 桑达克议员,巴鲁S,舒尔曼KA。在电子病历数据分析中实现规模经济的障碍。一个警世故事。app clinin Inform 2017 Aug 09;8(3):826-831 [免费全文] [CrossRef] [Medline
  31. BedMasterEx。数据采集和无限存储医疗设备数据。安蒂奇医疗系统。URL:https://www.bedmaster.net/en/products/bedmasterex;[2022-09-23]访问
  32. Ostermann M, Bellomo R, Burdmann EA, Doi K, Endre ZH, Goldstein SL,会议参与者。急性肾损伤的争议:肾脏疾病:改善全球结果(KDIGO)会议的结论。肾脏移植2020 Aug;98(2):294-309 [免费全文] [CrossRef] [Medline
  33. ARDS定义工作组,Ranieri VM, Rubenfeld GD, Thompson BT, Ferguson ND, Caldwell E,等。急性呼吸窘迫综合征:柏林定义。中国医学杂志2012 6月20日;307(23):2526-2533。[CrossRef] [Medline
  34. Cheplygina V, Tax DM, Loog M.多实例学习与包的差异。模式识别2015年1月;48(1):264-275。[CrossRef
  35. Bica I, Alaa AM, Jordon J, van der Schaar M.通过对抗平衡表征估计反事实治疗结果随时间的变化。见:第八届学习表征国际会议论文集,2020年发表于:ICLR '20;2020年4月26-30日;埃塞俄比亚亚的斯亚贝巴,第1-26页。[CrossRef
  36. 李志强,李志强,李志强。基于自编码器的时间序列数据变点检测方法。IEEE传输信号处理2021;69:3513-3524。[CrossRef
  37. Phan HT, Borca F, Cable D, Batchelor J, Davies JH, Ennis S.纵向电子健康记录中儿科人体测量数据的自动化数据清理:方案和在大型患者队列中的应用。科学通报2020年6月23日;10(1):10164 [免费全文] [CrossRef] [Medline
  38. 《国际疾病和有关健康问题统计分类》,第十版。世界卫生组织,2019年。URL:https://icd.who.int/browse10/2019/en;[2022-09-23]访问
  39. 张志刚,张志刚。长短期记忆。神经计算1997 11月15日;9(8):1735-1780。[CrossRef] [Medline
  40. Thoral PJ, Peppink JM, Driessen RH, Sijbrands EJ, Kompanje EJ, Kaplan L,阿姆斯特丹大学医学中心数据库(Amsterdam umcdb)合作者和SCCM/ESICM联合数据科学工作组。在重症监护医学学会/欧洲重症监护医学学会联合数据科学合作下负责任地共享ICU患者数据:阿姆斯特丹大学医疗中心数据库(Amsterdam umcdb)示例。重症监护医疗2021年6月01日;49(6):e563-e577 [免费全文] [CrossRef] [Medline
  41. 李志强,李志强,李志强,等。使用NumPy进行数组编程。自然2020年9月;585(7825):357-362 [免费全文] [CrossRef] [Medline
  42. Python中用于统计计算的数据结构。见:第九届Python科学大会论文集。2010年发表于:SciPy '10;2010年6月28日至7月3日;德克萨斯州奥斯汀,美国,第56-61页。[CrossRef
  43. Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O,等。Scikit-learn: Python中的机器学习。J Mach Learn Res 2011;12(2011):2825-2830。
  44. 李娟,闫xs, Chaudhary D, Avula V, Mudiganti S, Husby H,等。电子健康档案实验室数据缺失值的归属。NPJ数字医学2021年10月11日;4(1):147 [免费全文] [CrossRef] [Medline
  45. Vincent P, Larochelle H, Bengio Y, Manzagol PA。利用去噪自编码器提取和合成鲁棒特征。第25届机器学习国际会议论文集,2008,ICML '08;2008年7月5日至9日;芬兰赫尔辛基,第1096-1103页。[CrossRef
  46. 刘俊杰,张勇,张勇,范德夏尔。VIME:自监督和半监督学习的成功扩展到表格领域。见:神经信息处理系统2020年进展。2020年发表于:NeurIPS '20;2020年12月6日至12日;虚拟p. 11033-11043。
  47. 表格网:专注可解释的表格学习。Proc AAAI Conf Artif Intell 2021 5月18日;35(8):6679-6687。[CrossRef
  48. McPadden J, Durant TJ, Bunch DR, Coppi A, Price N, Rodgerson K,等。医疗保健和精准医疗研究:可扩展数据科学平台的分析。J Med Internet Res 2019 Apr 09;21(4):e13043 [免费全文] [CrossRef] [Medline


艾德:急诊科
电子健康档案:电子健康记录
eICU-CRD:远程医疗ICU合作研究数据库
他:医院信息系统
加护病房:重症监护室
模拟:重症监护医疗信息集市
ML:机器学习
PDMS:病人资料管理系统


C·洛维斯编辑;提交07.04.22;L Celi, FM Calisto, M Sendak同行评审;作者评论09.07.22;修订版本收到02.08.22;接受07.09.22;发表21.10.22

版权

©Alexander Maletzky, Carl Böck, Thomas Tschoellitsch, Theresa Roland, Helga Ludwig, Stefan Thumfart, Michael Giretzlehner, Sepp Hochreiter, Jens Meier。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 21.10.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map