发表在24卷第六名(2022): 6月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/34295,首次出版
基于机器学习的不同医院不同临床风险预测模型:现场绩效评估

基于机器学习的不同医院不同临床风险预测模型:现场绩效评估

基于机器学习的不同医院不同临床风险预测模型:现场绩效评估

原始论文

通讯作者:

孙宏博士

迪达勒斯医疗

Roderveldlaan 2

2600年安特卫普

比利时

电话:32 3444 8108

电子邮件:hong.sun@dedalus.com


背景:机器学习算法目前被广泛应用于临床领域,以生成可以预测临床风险事件的模型。大多数模型是用回顾性数据开发和评估的,很少有模型是在临床工作流程中评估的,更少的是报告不同医院的表现。在这项研究中,我们为三家不同医院的三种不同用例提供了临床风险预测模型在现场临床工作流程中的详细评估。

摘要目的:本研究的主要目的是评估真实临床工作流程中的临床风险预测模型,并将其在这些环境中的表现与使用回顾性数据时的表现进行比较。我们还通过将我们的调查应用于三家不同医院的三个不同用例来概括结果。

方法:我们用回顾性数据训练了三家不同医院的三种用例(即谵妄、败血症和急性肾损伤)的临床风险预测模型。我们使用机器学习,特别是深度学习来训练基于Transformer模型的模型。使用所有医院和用例通用的校准工具对模型进行了训练。这些模型有一个共同的设计,但使用每个医院的特定数据进行校准。该模型已在这三家医院部署,并用于日常临床实践。由这些模型做出的预测被记录下来,并与出院时的诊断相关联。我们将他们的表现与回顾性数据的评估进行了比较,并进行了跨医院评估。

结果:使用实时临床工作流程数据的预测模型的性能与使用回顾性数据的性能相似。受试者工作特征曲线下面积(AUROC)的平均值略有下降0.6个百分点(从出院时的94.8%下降到94.2%)。跨医院评估表现出严重的性能下降:平均AUROC下降了8个百分点(从出院时的94.2%下降到86.3%),这表明使用部署医院的数据进行模型校准的重要性。

结论:使用来自不同部署医院的数据校准预测模型,可在现场环境中获得良好的性能。跨医院评价中的性能下降表明了为不同医院开发通用模型的局限性。为模型开发设计一个通用流程,为每个医院生成专门的预测模型,可以保证模型在不同医院的性能。

中国医学杂志,2018;24(6):e34295

doi: 10.2196/34295

关键字



用于临床风险预测的机器学习算法广泛应用于医疗保健研究和应用[1-5].虽然在开发不同的临床风险预测模型方面已经做了大量工作,但预测模型的可扩展性却很少被探索(即,不同医院多种疾病风险预测模型的可扩展性)[6].

Rajkomar等[6]根据FHIR(快速医疗保健互操作性资源)标准设计了单一数据结构[7],并利用这种通用的数据结构在两家医院开发了不同的临床场景。这是第一个报告不同医院多用例预测模型性能的研究。丘尔佩克等[8]收集了来自五家医院的电子健康记录(EHR),以训练一个单一模型来预测心脏骤停、重症监护病房(ICU)转移或病房死亡。该模型的性能优于现有的修正预警评分。局限性在于这两项研究[68]通过回顾性数据进行了验证,但尚未在现场临床工作流程中使用。

在我们以前的刊物中[9],讨论了临床风险预测模型开发中的可扩展性问题;我们还提出了一种可扩展的预测模型开发方法,适用于四家不同医院的谵妄、败血症和急性肾损伤(AKI)。然而,这些预测模型仅基于回顾性数据进行评估。

在现场临床环境中评估预测模型是至关重要的,因为不同平台之间的互操作性或不同流行度等因素会影响人工智能(AI)算法的性能[1011].然而,很少有预测模型在现场临床工作流程中进行了评估。例如,近年来报道的几种谵妄预测模型[91213都是根据回顾性数据进行评估的。朱克等[14]声称他们的发现是唯一一个在现场临床工作流程中评估过的谵妄预测模型。在他们的研究中,分析了5530个预测,并将119个预测与临床专家在7个月内的评分进行了比较。Jauk等的局限性[14他们的模型只在一家医院进行了评估。当一个预测模型在不同医院进行评估时,由于训练数据与目标医院的EHRs和工作流程的差异,预测模型的性能可能会下降。黄等[15]报告说,当败血症预测模型应用于另一家医院时,败血症预测的性能大幅下降。

吴等[16]认为有必要在不同的现场临床环境中评估基于人工智能的医疗设备,以解决缺点,如对训练数据的过拟合和对代表性不足的亚群体的偏见等。他们调查了130个美国食品和药物管理局批准的人工智能设备:126个评估作为回顾性研究进行,93个设备没有多个站点评估。

在本文中,我们评估了德国三家不同医院现场临床工作流程中的临床风险预测模型(即谵妄、败血症和AKI)。我们将模型的表现与我们以前工作中回顾性数据的表现进行了比较。通过在生产EHR系统中记录预测请求,我们在不同目标医院的实时临床工作流程中模拟预测模型的性能,进行跨医院评估。通过在日常实践中使用预测服务,领域专家对预测的临床稳健性和有用性进行了初步评估。

据我们所知,我们是第一个在生产EHR系统设置中报告基于机器学习的临床风险预测模型的评估,该模型侧重于同时评估不同医院的几种疾病。此外,在跨医院评价中,我们模拟了一个预测模型在不同目标医院的现场临床工作流程中的表现。


概述

我们使用了一种可扩展的方法,在校准工具中实现,基于回顾性EHR数据,为三家不同的德国医院的不同用例生成临床风险预测模型:斯图加特Marienhospital(2004年至2020年)、Nordrhein-Westfalen Bad Oeynhausen Herz- und糖尿病中心(2009年至2020年)和Medius Klinik Nürtingen(2009年至2020年)。2021年上半年在现场系统中进行了评估;评估期的详情载于多媒体附件1.训练集的特征如表S2所示多媒体附件1中,评估样本在实时系统中的特征如表S3所示多媒体附件1.我们将这三家医院分别称为M医院、H医院和N医院。生成预测模型的校准过程在我们之前的工作中有描述[9].使用校准工具,对每个医院的数据进行独立训练,并将模型部署在同一家医院的预测服务中。由联邦人事管理局的电子人事记录系统发出预测请求[7“风险评估”格式,并被发送到预测服务。预测服务将每个预测请求解析为一个观察结果,该观察结果用于生成预测。预测结果被返回并显示在EHR系统中。观测值与预测模型产生的相应风险评分一起存储,用于进一步评估模型性能。

模型开发和部署

图1用回顾性数据展示了模型开发和评价的过程。设计预测模型、准备数据和训练模型的过程是在开发数据集上进行实验后定义的。由此产生的专用流程和预测模型设计在自动化管道中实现,称为校准工具。校准工具提供了一种用户友好的方法,用于在特定于客户的系统上安装、配置和运行数据准备、模型培训和评估过程。命令行界面使服务工程师能够安装所需的软件、文件和预训练的自然语言处理(NLP)模型,并执行医院特定预测模型的训练和评估。

图2显示了校准工具的组件和相互作用。下面的窗格定义了要执行的固定任务序列,以便使用来自目标医院的数据校准受支持用例的模型。上面的窗格包含一组执行这些任务的组件。

然后,我们在每家医院独立运行校准工具,为每家医院生成临床风险预测模型。这些模型是基于作为每个目标医院临床工作流程的一部分而生成的回顾性数据进行训练的。因此,我们确保该模型适合该模型将被部署的医院的临床实践。数据检查过程确保源数据以预期的格式表示。数据准备过程对训练和测试数据进行了准备。每个用例的标签是由标签器组件根据出院时分配给每个住院患者的诊断代码分配的。不同的用例准备并使用了一组公共特征,其中包括结构化数据,如实验室结果和诊断史,以及从自由文本临床记录中提取的临床实体。文本搜索和BERT(来自变压器的双向编码器表示)[17]命名实体识别模型用于NLP特征的制备。在数据准备过程中采用了以下纳入标准:年龄和性别必须已知,患者必须年满18岁,只能纳入住院患者,住院时间必须限制在90天以内。

预测模型使用一种常见的模型训练策略进行训练:我们使用Transformer模型[18]来训练一个用于临床风险预测的二元分类模型。我们将特征连接起来作为输入,并使用标签作为模型训练过程的目标。模型使用出院时收集的患者数据进行训练,并去除泄漏特征。为了应对在可获得信息较少的情况下需要模型进行预测的情况,我们在训练样本制备中应用了数据增强:我们将部分记录与完整记录结合生成,以增强临床风险预测模型的稳健性。详情可参阅我们以前的工作[9].生成的模型首先通过模型检查过程进行检查,其中将一组最低需求作为单元测试进行评估。通过检查的模型使用常用指标进一步评估其性能,如受试者工作特征曲线下的面积(AUROC)、灵敏度和特异性等。在模型评估过程中检查了验收标准。验收标准因用例而异,并为每个部门进行了检查。符合标准的模型可以在相应的部门中激活,从而在生产EHR系统中触发警报。接受标准是复杂的,详细说明在表S4中多媒体附件1

本文评估的风险预测模型是由我们的校准工具在上述三家德国医院中生成的。特征工程和模型训练的细节已在以前的出版物[9];的表S5提供了模型输入特征的例子多媒体附件1.根据我们之前研究的回顾性数据进行初步的跨医院评估,观察到性能下降[9].

图1。模型开发和回顾性数据评估。
查看此图
图2。校准工具。
查看此图

用临床工作流程中的实时数据进行模型评估

图3展示了模型评估的过程与现场数据从临床工作流程。在EHR系统中的临床事件之后触发预测服务(例如,当患者的新实验室结果添加到系统中时)。EHR系统将相关的患者记录发送到预测服务,在预测服务中,医院部署了针对三种不同用例的专门预测模型,并对医院数据进行了训练。对于每个用例,预测模型预测罹患相关疾病的风险,并返回相应的风险评分。根据定义的阈值,在EHR系统中为那些被预测为高风险的人创建警报。对于预测服务做出的每个预测,相应的请求和响应由日志服务存储。通过比较预测服务做出的预测和相应的真实标签,我们评估了模型在实时临床工作流程中的性能。此外,日志服务存储的预测请求可用于使用不同的模型生成预测,以模拟其在实时临床工作流程中的性能。这个替代模型可以是在同一家医院以不同的训练策略训练的模型,也可以是在不同医院的数据上训练的模型。例如,在图3,存储在医院A(即在实时EHR系统中进行风险预测的医院)的日志信息可用于使用在医院B(即,训练不同风险预测模型的不同医院)训练的模型生成预测。通过将这些预测结果与真实标签进行比较,可以估计出B医院模型在A医院现场临床工作流程中的表现。

为了支持本文中提出的评估,JSON文件日志驱动程序(即默认的Docker日志服务)[19]用于将预测服务的请求和响应记录到单独的JSON日志文件中。每个预测请求日志条目都包含预测的日期和时间以及输入特征。每个预测响应日志条目都包含用于预测的输入特征和风险评分。附上了预测请求日志示例的摘录(表S5)多媒体附件1).在生产的EHR系统中,预测服务可以处理患者的记录,并立即做出相应的预测或解释。在三家医院安装了谵妄、败血症和AKI的预测模型。预测请求和响应被记录在这三家医院中,作为评估的输入。评估并提供了预测的响应时间(图S1)多媒体附件1).

图3。用临床工作流程中的实时数据进行模型评估。A医院是指在实时电子病历系统中进行风险预测的医院。B医院指的是另一家医院,训练的是不同的风险预测模型。
查看此图

道德的考虑

我们评估模型性能的研究涉及对无法识别的患者的分析,并且数据的使用是由试点医院(H医院、M医院和n医院)在经过适当的审查后授予我们的。因此,不需要机构审查委员会的伦理批准。H医院的队列研究得到了Ruhr-Universität波鸿医学院伦理委员会的批准(文件编号:;az.2021 - 861)。


实时电子病历系统中模型性能的评估

这些模型利用实时数据在患者住院期间的不同阶段进行预测;然而,在实时临床工作流程中,临床风险预测模型的性能在入院当天结束时以及出院当天进行了评估。我们在这两个阶段检查预测模型性能的原因是为了评估它们在数据有限时的性能,以及在数据充足时的性能。泄漏信息,如强有力的诊断数据或对要预测的疾病的文本引用,被排除在外,遵循我们在以前的研究中根据回顾性数据评估模型性能时应用的设置[9].采用这些相同的策略可以公平地比较在实时数据上获得的性能与在回顾性数据上获得的性能。采用AUROC对模型性能进行评价。我们选择使用AUROC进行评估,因为敏感性、特异性和精度依赖于阈值(即,由受试者工作特征曲线上选择的点定义)。该阈值由医院用于触发警报,不同医院之间可能存在差异,因为有些医院更倾向于敏感性而不是特异性,反之亦然。使用AUROC使我们能够独立于这一阈值,比较三家不同医院的三个用例的结果。灵敏度、特异性和精密度被用来决定阈值,并提供了模型接受标准的解释(表S4)多媒体附件1).

图4评估AUROC在实时数据和回顾性数据上评估的模型性能(表S6)多媒体附件1).表中的每一行表示进行评估的医院。每一列表示用例和模型评估的时间点(即,在入院日结束时或在出院时)。正值(即绿色阴影)表明,与回顾数据相比,各自的模型在实时数据上评估时表现更好,而负值(即红色阴影)表明,模型在实时数据上评估时表现更差。例如,在N医院入院当天结束时评估的谵妄模型AUROC,与回顾性数据(AUROC=85.26%)相比,在现场数据上进行模型时(AUROC=80.9%)降低了4.36个百分点。平均而言,与回顾性数据相比,我们的谵妄预测模型在实时数据上的AUROC较低。相比之下,我们的败血症预测模型在实时数据上比回顾性数据表现得更好,而AKI预测模型在两者上表现得同样好。在医院层面,对实时数据的评估导致N医院的模型性能提高(+0.1个百分点),而M和H医院的模型性能降低(分别为-1.8和-0.7个百分点)。当对所有三个用例和所有三家医院进行平均时,与回顾性数据(入院时AUROC值为83.0%,出院时AUROC值为94.8%,平均为89.4%)相比,在实时数据上评估时,我们预测模型的性能略有下降(入院时AUROC值为83.1%,出院时AUROC值为94.2%,平均为88.6%)。

图4。模型性能:实时数据vs回顾性数据。该表格是根据实时和回顾性数据的AUROC值生成的(多媒体附录1中的表S6)。AKI:急性肾损伤;AVG:平均;AUROC:受试者工作特征曲线下面积;说:放电;H:北莱茵-威斯特法伦赫茨糖尿病中心;M:斯图加特马里恩医院;N: Medius Klinik Nürtingen。
查看此图

cross hospital评价

跨医院评估是通过从一家医院的预测请求中提取观察结果,并使用使用来自另一家医院的数据训练的模型生成预测来进行的。基于存储在预测服务中的日志信息,我们在实时临床工作流程中评估了我们的模型。根据患者在住院期间不同阶段提出的预测请求,由其他医院的预测模型生成相应的预测。通过使用其他医院的预测模型,我们在实时临床工作流程中模拟了这些模型的性能,而无需在现场安装模型。

图5显示了一个模拟模型性能的例子,该模型是用M和N医院的数据训练的,但应用于样本患者在h医院住院的实时数据。红色垂直线表示患者手术的时间点。三条彩色线反映了患者在H医院住院期间的模拟模型预测,使用分别对来自H、M和N医院的数据进行训练的模型。

在本病例中,术后谵妄经独立评估-ICU混淆评估法(CAM-ICU)确认[20.在术后第一天。CAM-ICU评估不包括在我们的培训模型中。在这三个模型中,在H医院接受训练的模型预测了手术前谵妄的风险,并确定了手术后风险的增加。手术后的风险随着实验室结果和临床实体的增加而逐渐增加。在其他医院训练的模型都能在手术前预测谵妄的风险,但都未能正确识别手术后风险的严重程度。

从实时临床工作流程中提取的预测请求的跨医院评估的详细结果载于表S7多媒体附件1.通过比较出院时不同模型的auroc来评估三种不同疾病(即谵妄、败血症和AKI)的预测模型。图6描述模型在某一医院训练并部署到另一医院时的性能下降情况。对于每个用例,将一行中的AUROC值与同一行中的白细胞进行比较,后者表示医院内的性能。例如,将H医院数据训练的谵妄模型部署到M医院(91.2%,第2列,第1行;表S7多媒体附件1), AUROC较H医院低3.2个百分点(94.4%,第1列,第1行;表S7多媒体附件1).当在H医院的数据上训练的AKI模型部署到M医院时,观察到最大的性能下降(-20.5个百分点)。

平均而言,当模型部署在医院而不是训练地点时,AUROC降低了8个百分点(从94.2%降至86.3%)。

图5。基于实时电子病历系统数据的样本患者住院期间谵妄风险预测H:北莱茵-威斯特法伦赫茨糖尿病中心;M:斯图加特马里恩医院;N: Medius Klinik Nürtingen。
查看此图
图6。在某一医院(行)训练并部署在另一医院(列)的模型的性能下降。该表由跨医院评估现场数据的AUROC值生成(多媒体附录1中的表S6)。AKI:急性肾损伤;AUROC:受试者工作特征曲线下面积;H:北莱茵-威斯特法伦赫茨糖尿病中心;M:斯图加特马里恩医院;N: Medius Klinik Nürtingen。
查看此图

临床稳健性和有效性的初步评价

预测模型安装在三家不同医院的实时EHR系统中。这些模型在实时临床工作流程中生成预测并触发警报。这些警报显示在生产EHR系统中,目前正在领域专家的评估中。对临床结果影响的定量评估尚未进行。然而,领域专家的初步评估保证了预测的正确性和有效性。以H医院谵妄预测模型为例,对其性能进行了评价。21].本研究评估了心脏手术后谵妄风险预测模型所作的预测。同一家医院也正在进行一项调查更大人群的队列研究。调查发现,预测服务可能对麻醉计划产生影响,因为风险预测对早期预防策略至关重要。机器学习方法还通过加强筛查工作来改善术后护理。此外,本节的其余部分将介绍我们对H医院的校准和决策曲线的分析,以及我们对M医院用户反馈的初步分析。

校正与决策曲线分析

图7显示了从h医院检索的实时数据的三个用例的校准和决策曲线分析。我们首先应用概率校准[2223]以生成每个用例的校正曲线。校准曲线绘制了阳性情况的真实频率相对于每个箱子的平均预测概率。我们把概率分成10个箱子。给出了概率校正前后对现场数据的预测结果。我们使用等张回归来进行概率校准。校准过程使用前半段实时数据,使用后半段实时数据生成校准曲线和决策曲线。由于可用数据量有限,校准曲线中存在一些峰值。概率标定后,决策曲线[2425]来评估使用预测模型的净效益。预测模型的净收益与“提醒所有患者”或“不提醒”进行了比较。可以观察到,当AKI和败血症使用案例的阈值概率低于90%时,预测模型在临床上是有用的。对于谵妄用例,当阈值概率低于70%时,模型具有效益。

图8显示H和M医院在败血症用例上训练的预测模型的决策曲线。两条曲线都在图8使用H医院的实时数据生成,并对预测概率进行校准。可以看出,H医院训练的模型优于M医院训练的模型。

图7。校准和决策曲线分析。模型和数据均来自H医院(Herz- und Diabeteszentrum Nordrhein-Westfalen Bad Oeynhausen)。AKI:急性肾损伤。
查看此图
图8。败血症用例的决策曲线分析。比较H医院和M医院训练的模型,均使用H医院的实时数据。H:北莱茵-威斯特法伦赫茨糖尿病中心;M:斯图加特玛丽恩医院。
查看此图

用户反馈初步分析

当预测模型安装在生产EHR系统中时,终端用户能够在关闭警报时提供反馈。在m医院收集了134个AKI用例反馈条目,超过三分之一的反馈条目(n=46, 34.3%)表明用户发现预测有用。用户反馈条目的详细信息可以在多媒体附件1

最终用户认为总共有27.6%(37/134)的警报为误报。考虑到AKI发生率较低(M医院为838/8861,9.46%),这是一个令人满意的结果。此外,在37例被评估为假阳性的病例中,20例(54%)已经出院并进行了编码。在这20例出院病例中,4例(20%)实际被编码为AKI。这意味着,即使医生不同意高风险的预测,似乎仍然存在一些患者最终发展为AKI的高风险,而我们的模型可以识别这种风险。

在38.1%(51/134)的案例中,最终用户已经意识到警报带来的AKI风险。这主要有两个原因。首先,在警报创建的时间和警报关闭时给出反馈的时间之间存在明显的差距。其次,警报只显示在已激活预测服务的部门;如果患者是从预测服务未激活的部门转来的,则不会在那里显示任何警报。


主要研究结果

机器学习开发的技术水平是设计和训练单个模型并在不同的医院中使用,或者为单个医院设计和训练特定的模型。我们声称,定义通用模型设计并使用来自特定医院的数据训练模型的特定实例对复制结果有额外的好处。在我们的跨医院评估中,当一个模型部署在另一家医院时,我们观察到性能下降,这是为不同医院开发单一模型的典型局限性。与此同时,采用通用流程和通用模型设计来生成医院特定的预测模型是一种更可靠的解决方案。它解决了不同医院之间的内在差异,保证了目标医院良好的绩效。通过检查三家不同医院的三个用例的性能,在实时临床工作流程中对模型性能的评估确保了这种通用方法的可行性。此外,通过存储来自实时临床工作流程的记录数据并拥有一个通用的模型设计,本文中提出的评估允许人们在实时临床工作流程中模拟模型的性能,而无需在现场安装模型。

动机

基于机器学习的预测模型与训练过程中使用的数据密切相关。这种依赖在很大程度上限制了预测模型在其他医院的可重用性。在不同医院提供无偏见表现的通用模型是机器学习科学家和临床医生热切渴望的,但也往往无法实现。

生成可用于不同医院的通用模型的前提是实现语义互操作性,以保证不同EHR系统之间的共同理解[2627].为了实现语义互操作性,临床术语需要映射到标准表示上。然而,最近的一项研究[28]还显示了与使用标准术语(如LOINC(逻辑观察标识符名称和代码))有关的安全风险,因为不准确的映射导致组织之间的互操作性。

此外,由于医院类型和专业的不同,一种疾病在不同医院的发病率可能有很大差异。这种多样性还导致不同医院执行不同的临床工作流程,从而决定了医院记录的数据。因此,预测模型被认为是一种算法,它通过处理以特定表示形式呈现的医院特定数据来捕获医院医生的知识和实践。如何克服不同医院的不同临床工作流程导致的数据转移的脆弱性是一项挑战。因此,当一个模型在不同的医院运行时,很难保持良好的性能,特别是当EHR数据的特征和临床工作流程存在显著差异时。例如,某一特定供应商的败血症预测在一所医院取得令人满意的结果[29],但在另一家医院进行评估时,情况要严重得多[15].

在我们的跨医院评估中,我们还观察到当一个模型部署在其他医院时性能下降。因此,我们没有向不同的医院提供通用的预测模型,而是设计了一个通用的预测模型开发程序,并将其应用于不同的医院。拥有一个生成医院特定预测模型的通用流程是一个更可靠的解决方案;它解决了不同医院之间的内在差异。

的优势

评估临床工作流程中的预测模型对于验证其性能至关重要。据我们所知,我们是第一个在真实的临床工作流程中如此大规模地评估临床预测模型的人。这种彻底的评估避免了对特定疾病或特定医院环境的过度拟合,从而实现了公平、公正的评估。在现场临床工作流程中部署的模型与我们之前的研究中报道的模型相比提供了相似的性能[9],使用回顾性数据进行评估。

共享相同的特征处理方法允许我们通过不同的预测模型重用预测请求。因此,我们对三家不同医院的三个用例进行了跨医院评估,模拟了现场临床工作流程中的表现,而不是回顾性数据。据我们所知,这是第一个在真实临床工作流程中对多个用例和模拟模型性能进行跨医院评估的研究。

限制

这项研究有一些局限性。首先,我们在本文中所报道的指标的模型开发和评估缺乏在事件发生的时间窗口内预测风险的动态评估。例如,最广泛使用的AKI诊断标准是基于血清肌酐的变化,如肾脏疾病:改善全球预后(KDIGO)指南所定义的[30.].托马捷夫等人[31]报道了一个AKI预测模型,在kdigo定义的事件发生前48小时预测AKI风险。在本文介绍的三个用例中,谵妄被认为是一种精神健康疾病,通常没有确切的发病时间。我们使用KDIGO事件作为标签,基于我们开发现场的回顾性数据开发了一个AKI预测模型。这些模型没有部署到生产系统中;但是,他们在两家医院的回顾性数据表现如下(表S8)多媒体附件1).还提供了样本患者在住院期间的AKI风险预测曲线(图S3)多媒体附件1).对于败血症的预测,由于缺乏记录或疑似感染的可扩展和准确的指标,我们还没有进行这样的动态评估。尽管如此,在三家不同医院的活体系统中,入院当天败血症的AUROC范围在86.9%至88.5%之间,这确保了令人满意的表现。

第二,虽然在不同医院对实时临床工作流程中预测模型的指标进行了评估,但在临床实践中相应的临床结果还有待衡量。尽管如此,在H医院进行的初步临床评估表明,在现场临床工作流程中有积极的影响,我们计划在下一步进行定量评估。决策曲线分析和用户反馈的初步分析也证实了我们的预测模型的有效性。

第三,用于生成和验证预测模型的机器学习方法总是需要大量数据[32].与大量的预测因子特征相比,当前的外部验证研究往往样本量小[33].与我们的预测模型中使用的预测器特征的数量相比,本文中提出的样本量也相对较小。然而,我们也认为,对于发病率低的疾病,很难获得大量的阳性样本。本文中介绍的三个用例已经在实时EHR系统中运行了半年多,我们认为这是一个合理的时间。此外,我们在三家不同的医院对三个不同的用例进行了评估,这有助于证明结果的合理性。

未来的发展方向

我们未来的工作将侧重于在临床实践中评估预测模型的详细临床结果。此外,我们还将评估不同标记策略的影响,例如在实时系统中使用KDIGO标准定义AKI事件。

结论

在本研究中,我们发现模型在回顾性和现场数据评估时表现一致,并且在跨医院评估中观察到表现差异。这确保了为模型开发设计通用流程,在校准工具中实现该设计,并使用公共模型设计生成特定于医院的预测模型,这是保证模型在不同医院中的性能的有效方法。

致谢

JF, NH和VvD从Ruhr-Universität波鸿获得了ARGUS项目的资金(赠款100126059)。来自德达勒斯的作者们获得了欧盟地平线2020项目的资助,genome - 4all(通过人工智能在血液病中实现全民基因组学和个性化医疗;grant 101017549)和PERSIST(基于大数据和人工智能技术的癌症治疗后以患者为中心的生存护理计划;格兰特875406)。作者要感谢Dieter Vanden Abeele和Nico Lapauw将预测服务集成到ORBIS EHR系统并准备日志,Corry Clybouw校对和改进论文的演示,以及斯图加特Marienhospital, Herz- und Nordrhein-Westfalen糖尿病中心Bad Oeynhausen, Alexianer Krefeld和Medius Klinik Nürtingen,以协助其生产系统中的模型校准和预测模型评估。

数据可用性

出于对患者的保护,本次评估中使用的三家医院的患者数据不能公开。用于评估模型性能和运行跨医院评估的代码可在GitHub [34].

作者的贡献

HS、KD和LM对研究进行了概念化,并设计了评估方法。MDH为巩固研究提供了投入。HS和PCS进行模型评价。LM, JF, NH和VvD提供了临床视角。RS协调资源来执行评估。KD和MDH对模型评价过程进行监督。MV、HS、KD和LM定义了模型设计,MV、JDB、HS和KD开发了相应的校准工具。KD和JDB为预测服务开发了解决方案体系结构,并将其集成到生产系统中。HS撰写了初稿,MDH和LM作为医学编辑提供了意见。所有作者都对手稿进行了严格的审查和编辑,并批准了最终版本。

利益冲突

没有宣布。

多媒体附件1

补充材料。

DOCX文件,208kb

  1. Esteva A, Robicquet A, Ramsundar B, Kuleshov V, DePristo M, Chou K,等。医疗保健领域的深度学习指南。2019年1月25日(1):24-29。[CrossRef] [Medline
  2. Cutillo CM, Sharma KR, Foschini L, Kundu S, Mackintosh M, Mandl KD, MI在医疗保健研讨会工作组。医疗保健中的机器智能——从可信度、可解释性、可用性和透明度的角度。NPJ数字医学2020;3:47 [免费全文] [CrossRef] [Medline
  3. 李志强,李志强。机器学习在医学中的应用。中华医学杂志2019年4月04日;38(14):1347-1358。[CrossRef] [Medline
  4. Goldstein BA, Navar AM, penina MJ, Ioannidis JPA。利用电子健康记录数据开发风险预测模型的机遇和挑战:系统回顾。J Am Med Inform association 2017年1月;24(1):198-208 [免费全文] [CrossRef] [Medline
  5. Topol EJ。高性能医学:人与人工智能的融合。中国医学2019年1月25日(1):44-56。[CrossRef] [Medline
  6. 陈凯,陈国强,李志强,等。可扩展和精确的深度学习与电子健康记录。NPJ数字医学2018;1:18 [免费全文] [CrossRef] [Medline
  7. 曼德尔JC,克瑞达DA,曼德尔KD,科哈内IS,拉莫尼RB。SMART on FHIR:一个基于标准的、可互操作的电子健康记录应用程序平台。美国医学信息协会2016年9月23日(5):899-908 [免费全文] [CrossRef] [Medline
  8. 朱佩琪,袁涛,温斯洛,刘志强,等。病房患者风险分层工具的多中心开发和验证。Am J呼吸急救医疗2014年9月15日;190(6):649-655 [免费全文] [CrossRef] [Medline
  9. 孙华,Depraetere K, Meesseman L, De Roo J, Vanbiervliet M, De Baerdemaeker J,等。在不同医院开发临床风险预测应用的可扩展方法。J Biomed Inform 2021年6月;118:103783 [免费全文] [CrossRef] [Medline
  10. 何娟,Baxter SL,徐娟,徐娟,周旭,张凯。人工智能技术在医学中的实际应用。Nat Med 2019 Jan;25(1):30-36 [免费全文] [CrossRef] [Medline
  11. 杜玛帕利,查纳R.人工智能算法在眼科成像的真实世界验证。Lancet Digit Health 2021 Aug;3(8):e463-e464 [免费全文] [CrossRef] [Medline
  12. 金美美,朴宇杰,金东辉,赵卫华。基于医院信息(Delphi)的普外科患者谵妄预测医学(巴尔的摩)2016年3月;95(12):e3072 [免费全文] [CrossRef] [Medline
  13. Wong A, Young AT, Liang AS, Gonzales R, Douglas VC, Hadley D.基于电子健康记录的机器学习模型的开发和验证,以评估新住院无已知认知障碍患者的谵妄风险。美国医学会网络公开赛2018年8月03日;1(4):e181018 [免费全文] [CrossRef] [Medline
  14. Jauk S, Kramer D, Großauer B, Rienmüller S, Avian A, berhold A,等。使用机器学习预测住院患者谵妄的风险:一项实施和前瞻性评估研究。美国医学通报协会2020年7月01日;27(9):1383-1392 [免费全文] [CrossRef] [Medline
  15. 黄A, Otles E, Donnelly JP, Krumm A, McCullough J, DeTroyer-Cooley O,等。在住院患者中广泛实施的专有败血症预测模型的外部验证。JAMA实习生医学2021年8月1日;181(8):1065-1070。[CrossRef] [Medline
  16. 吴娥,吴凯,Daneshjou R,欧阳D,何德,邹杰。医疗人工智能设备如何评估:来自FDA批准分析的局限性和建议。中华医学杂志2021年4月27日(4):582-584。[CrossRef] [Medline
  17. Devlin J, Chang M, Lee K, Toutanova K. Bert:深度双向转换器的语言理解预训练。出来了。预印本于2019年5月24日在线发布[免费全文
  18. 张志刚,张志刚,张志刚,等。你所需要的就是关注。2017年第31届神经信息处理系统国际会议论文集,第31届神经信息处理系统国际会议;2017年12月4日至9日;加州长滩p. 6000-6010网址:https://dl.acm.org/doi/pdf/10.5555/3295222.3295349
  19. JSON文件日志驱动程序。码头工人文档。URL:https://docs.docker.com/config/containers/logging/json-file/[2022-04-05]访问
  20. 王志强,王志强,王志强,王志强,等。ICU-7谵妄严重程度量表的混淆评估方法。重症监护医学2017;45(5):851-857。[CrossRef
  21. 李志强,李志强,李志强,等。人工智能预测心脏手术后谵妄:一个案例研究。临床临床杂志2021年12月;75:110473。[CrossRef] [Medline
  22. Riley RD, Ensor J, Snell KIE, Debray TPA, Altman DG, Moons KGM,等。使用来自电子健康记录或IPD元分析的大数据集对临床预测模型进行外部验证:机遇和挑战。BMJ 2016 6月22日;353:i3140 [免费全文] [CrossRef] [Medline
  23. Niculescu-Mizil A, Caruana R.用监督学习预测良好概率。载于:第22届国际机器学习会议论文集。2005发表于:第22届国际机器学习会议;2005年8月7日至11日;波恩,德国,p. 625-632。[CrossRef
  24. 维克斯AJ,埃尔金EB。决策曲线分析:一种评价预测模型的新方法。Med Decis Making 2006;26(6):565-574 [免费全文] [CrossRef] [Medline
  25. 维克斯·AJ,范·卡尔斯特B,斯泰尔伯格EW。一个简单的,一步一步的指南解释决策曲线分析。Diagn Progn Res 2019;3:18 [免费全文] [CrossRef] [Medline
  26. 孙华,Depraetere K, De Roo J, Mels G, De Vloed B, Twagirumukiza M,等。用于临床研究的电子病历数据语义处理。J Biomed Inform 2015年12月;58:247-259 [免费全文] [CrossRef] [Medline
  27. Bhartiya S, Mehrotra D, Girdhar A.共享电子健康记录时实现完全互操作性的问题。计算机科学进展(英文版);[CrossRef
  28. Carter AB, de Baca ME, Luu HS, Campbell WS, Stram MN。将LOINC用于组织之间的互操作性存在安全风险。柳叶刀数字健康2020年11月;2(11):e569 [免费全文] [CrossRef] [Medline
  29. 班尼特T,罗素S,金J, Schilling L, Voong C,罗杰斯N,等。Epic败血症预测模型在区域卫生系统中的准确性。出来了。预印本于2019年2月19日在线发布[免费全文
  30. Khwaja A. KDIGO急性肾损伤临床实践指南。肾内科临床杂志2012;40 (4):c179-c184 [免费全文] [CrossRef] [Medline
  31. 托马捷夫,葛洛特,雷伊,M, Zielinski, Askham H, Saraiva,等。持续预测未来急性肾损伤的临床应用方法。自然2019 Aug;572(7767):116-119 [免费全文] [CrossRef] [Medline
  32. van der Ploeg T, Austin PC, Steyerberg EW。现代建模技术是数据饥渴:预测二分类端点的模拟研究。BMC medical Res methodo2014 12月22日;14:37 [免费全文] [CrossRef] [Medline
  33. Riley RD, Debray TPA, Collins GS, Archer L, Ensor J, van Smeden M,等。具有二元结果的临床预测模型的外部验证的最小样本量。统计医学2021年8月30日;40(19):4230-4251。[CrossRef] [Medline
  34. 评估不同医院的ML模型。GitHub。URL:https://github.com/patriciacs1994/Evaluate-ML-models-at-different-hospitals[2022-05-10]访问


人工智能:人工智能
阿基:急性肾损伤
AUROC:接收机工作特性曲线下面积
伯特:来自变压器的双向编码器表示
CAM-ICU:重症监护病房混乱评估方法
电子健康档案:电子健康记录
FHIR:快速医疗保健互操作性资源
GenoMed4All:通过人工智能在血液病中的基因组学和全民个性化医疗
医院H:北莱茵-威斯特法伦州赫茨糖尿病中心
M:医院Marienhospital斯图加特
医院护士:Medius Klinik Nürtingen
加护病房:重症监护室
KDIGO:肾脏疾病:改善全球结果
LOINC:逻辑观察标识符名称和代码
NLP:自然语言处理
坚持:基于大数据和人工智能技术的癌症治疗后以患者为中心的生存护理计划


编辑:T Leung;提交19.10.21;JL Domínguez-Olmedo, R Bajpai, X Zhang同行评审;对作者07.01.22的评论;修订版本收到25.02.22;接受12.04.22;发表07.06.22

版权

©Hong Sun, Kristof Depraetere, Laurent Meesseman, Patricia Cabanillas Silva, Ralph Szymanowsky, Janis Fliegenschmidt, Nikolai Hulde, Vera von Dossow, Martijn Vanbiervliet, Jos De baerdemaker, Diana M Roccaro-Waldmeyer, Jörg Stieg, Manuel Domínguez Hidalgo, Fried-Michael Dahlweid。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 07.06.2022。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map