JMI JMIR Med Inform JMIR医学信息学 2291 - 9694 卡塔尔世界杯8强波胆分析 加拿大多伦多 v10i9e38178 35960155 10.2196/38178 原始论文 原始论文 一个临床医生就是你所需要的——心脏磁共振成像测量提取:深度学习算法开发 田勇 Arruda-Olson 阿德莱德 Lim 吉尔伯特 赛义德 Mahanazuddin Abeysinghe Rashmie 辛格 Pulkit 英航 1 https://orcid.org/0000-0002-1538-5519 Haimovich 朱利安 医学博士 2 3. 4 https://orcid.org/0000-0003-4346-6241 里德 克里斯多夫 博士学位 1 https://orcid.org/0000-0002-3893-2423 得以 Shaan 英里每小时,医学博士 2 3. 5 https://orcid.org/0000-0002-2840-4539 艾米丽年代 医学博士 3. 4 https://orcid.org/0000-0001-9361-6397 坎宁安 乔纳森·W 医学博士 4 6 https://orcid.org/0000-0003-4481-7867 Philippakis 安东尼 医学博士 1 7 https://orcid.org/0000-0001-6953-3794 安德森 克里斯托弗·D MMSc博士 8 9 10 https://orcid.org/0000-0002-0053-2002 詹妮弗·E 医学博士 4 11 https://orcid.org/0000-0002-7987-4768 Lubitz 史蒂文一 英里每小时,医学博士 2 3. 4 5 https://orcid.org/0000-0002-9599-4866 巴特拉 医学院毕业 博士学位 1
数据科学平台 哈佛大学和麻省理工学院的布罗德研究所 主街415号 剑桥,马萨诸塞州,02142 美国 1617 714 7000 gpbatra@gmail.com
https://orcid.org/0000-0001-6822-0593
数据科学平台 哈佛大学和麻省理工学院的布罗德研究所 剑桥,麻 美国 医学系 马萨诸塞州总医院 哈佛医学院 波士顿 美国 心血管研究中心 马萨诸塞州总医院 波士顿 美国 心血管疾病倡议 哈佛大学和麻省理工学院的布罗德研究所 剑桥,麻 美国 Demoulas心律失常中心 马萨诸塞州总医院 波士顿 美国 心脏病科 布莱根妇女医院 波士顿 美国 埃里克和温迪施密特中心 哈佛大学和麻省理工学院的布罗德研究所 剑桥,麻 美国 神经内科 布莱根妇女医院 波士顿 美国 亨利和艾莉森·麦坎斯大脑健康中心 马萨诸塞州总医院 波士顿 美国 基因组医学中心 马萨诸塞州总医院 波士顿 美国 心血管研究所和心脏科 医学系 贝斯以色列女执事医疗中心 波士顿 美国 通讯作者:Puneet Batra gpbatra@gmail.com 9 2022 16 9 2022 10 9 e38178 21 3. 2022 28 5 2022 22 7 2022 11 8 2022 ©Pulkit Singh, Julian Haimovich, Christopher Reeder, Shaan Khurshid, Emily S Lau, Jonathan W Cunningham, Anthony Philippakis, Christopher D Anderson, Jennifer E Ho, Steven A Lubitz, Puneet Batra。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2022年9月16日。 2022

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。

背景

心脏磁共振成像(CMR)是一种强大的诊断方式,可提供详细的心脏解剖和功能定量评估。临床报告通常以非结构化文本形式存储在电子健康记录系统中,从临床报告中自动提取CMR测量值将有助于其在研究中的使用。现有的机器学习方法要么依赖于大量的专家注释,要么需要开发耗时且特定于开发环境的工程规则。

客观的

我们假设使用预训练的基于转换器的语言模型可以从临床文本中实现标签高效的数字提取,而不需要启发式或大量的专家注释。在这里,我们在少量CMR注释上微调预训练的基于变压器的语言模型,以提取21个CMR测量值。我们评估了临床预训练的效果,以减少标记需求,并探索了数字输入的替代表示以提高性能。

方法

我们的研究样本包括99,252名在多机构卫生保健系统中接受纵向心脏病学护理的患者。来自9280名患者的12720份可用CMR报告。我们采用临床文本注释工具PRAnCER (Platform Enabling Rapid Annotation for Clinical Entity Recognition)来收集临床医生对370份报告的注释。我们尝试了5种不同的数值量表示和几种模型权重初始化。我们使用宏观平均来评估提取性能 F1-在感兴趣的测量中得分。我们应用表现最好的模型从研究样本中剩余的CMR报告中提取测量值,并评估所提取的测量值与临床结果之间的既定关联,以证明有效性。

结果

权重初始化和数值表示的所有组合在金标准测试集上都获得了出色的性能,这表明在一小组注释上进行微调的变压器模型可以有效地提取数值量。我们的结果进一步表明,自定义数字表示似乎对提取性能没有显著影响。性能最好的模型实现了宏观平均 F1-在评估的CMR测量中得分为0.957(表现最差的左心房前后尺寸测量范围为0.92,表现最好的左心室收缩末容积指数和左心室收缩末直径测量范围为1.0)。将最佳表现模型应用于研究队列,从研究样本中所有可用的报告中获得136,407个测量值。我们观察到提取的左心室质量指数、左心室射血分数和右心室射血分数与心房颤动、心力衰竭和死亡率等临床结果之间的预期关联。

结论

这项研究表明,一个领域不可知的预训练变压器模型能够有效地从诊断报告中提取定量的临床测量数据,并且具有相对较少的金标准注释。建议的工作流可以作为其他定量实体提取的路线图。

自然语言处理 变形金刚 机器学习 心脏核磁共振 临床结果 深度学习
介绍

心脏磁共振成像(CMR)有助于许多重要心脏疾病的表征,包括左、右心室衰竭、左心室肥厚和主动脉根动脉瘤。左心室射血分数(LVEF)的量化以及将心力衰竭患者分为射血分数降低、中度降低或保持的患者是为特定患者选择适当治疗的基础[ 1]。CMR还可以量化右心室功能,是唯一能够全面评估右心室的无创诊断方式[ 2]。来自CMR的解剖信息也可用于诊断其他重要的心脏疾病,包括左心室肥厚,这是心脏整体健康状况的重要标志,以及胸主动脉根动脉瘤[ 3.]。CMR测量,除了其他诊断信息,嵌入在叙述性临床文本。在许多电子健康记录(EHR)系统中,这些测量数据无法以易于获取的统一结构化格式提供。从非结构化CMR报告中自动提取定量测量的工具的开发将促进其在研究中的使用,包括作为机器学习模型的输入。

从临床文本中提取测量值的现有方法通常基于人工开发的启发式方法或机器学习方法,这些方法从标记数据中学习,但不利用预训练的语言表示。基于规则的方法[ 4],虽然计算效率高,但需要大量的手工工作来构建,并且随着报告语言结构的变化,性能可能会下降[ 5]。其他研究使用机器学习方法,如支持向量机和长短期记忆模型,从临床记录中提取测量值,但由于缺乏预训练,这些方法需要大量的专家注释。 6]。此外,先前的临床测量提取方法依赖于大量数据特定的预处理,这可能无法很好地转化为启发式开发之外的电子病历[ 7]。

基于变压器的双向编码器表示(BERT)神经网络[ 8 9]在各种自然语言处理(NLP)任务中取得了最先进的成果[ 10]。这些模型在大量文本上进行预训练,以学习一般的语言结构并产生语言的语境化表示。这种预训练范例的优点是,这些网络可以使用最小的问题特定标签进行微调,从而在许多自然语言任务上达到最先进的性能。BERT最初是在一般领域文本(如Wikipedia)上进行预训练的,但后来通过对特定领域文本进行预训练而适应于临床应用[ 11- 14]。尽管基于变压器的模型在从临床文本中提取非数值实体(如解剖学术语和疾病状态)方面显示出有效性[ 14],它们在从临床文本中提取数值数量方面的应用受到限制[ 15 16]。

在这项研究中,我们假设预训练的转换器在一小组注释上进行微调,可以有效地从诊断文本中提取数值量。我们对一系列预训练的变压器进行了微调,包括临床导向的变压器,以开发一种NLP工作流程,同时从基于心脏病学的EHR队列的CMR报告中提取21种特定的心脏结构和功能测量。这一组代表了CMR报告中所有有临床意义的定量成像结果。我们还探讨了与报告中出现的默认表示相比,替代数字表示是否会影响提取质量。在选择了表现最好的模型后,我们应用我们的工作流程从研究队列中所有可用的CMR报告中提取测量值。为了证明这些提取的准确性,我们评估了提取的心脏解剖和功能指标与事件临床结果之间的预期关联。

方法 研究样本

个体从多机构学术卫生保健系统(麻省总医院布里格姆)的回顾性社区流动心脏病学样本(心脏病学企业仓库[EWOC])中选择。EWOC包括99,252名18岁或以上的成年人,在2000年至2019年期间的1至3年内就诊两次以上心脏病学门诊。队列中每个个体的EHR数据范围广泛,包括人口统计学、人体测量学、生命体征、叙述笔记、实验室结果、药物清单、放射学和心脏病学诊断测试结果、病理报告以及程序和诊断管理账单代码[ 16]。这些数据使用JEDI提取数据基础设施进行处理[ 17]。在排除6个个体和没有可用CMR日期的报告后,EWOC的9280个个体可获得12,720份CMR报告( 图1)。

研究样本的CONSORT(综合试验报告标准)图表。CMR:心脏磁共振成像;EWOC:心脏病企业仓库。

伦理批准

本研究已获得马萨诸塞州布里格姆机构审查委员会(2017P001650)批准。

临床特征确定

基线特征是根据先前公布的《国际疾病分类》第9和第10版诊断代码的分组来定义的[ 16]。分析中使用的临床特征定义见表S1 多媒体附录1。模型样本中个体的基线特征在CMR日期之前确定( 表1)。

训练集、测试集和CMR结果集的基线特征。

训练集(N = 278) 测试集(N = 100) CMR一个结果集b (N = 9280)
年龄(年),中位数(Q1, Q3) 54 (46,64) 58 (45,66) 57 (46,67)
女性,n (%) 95 (34.2) 33 (33) 3666 (39.5)
糖尿病,n (%) 23日(8.3) 10 (10) 1216 (13.1)
冠状动脉疾病,n (%) 69 (24.8) 31 (31) 3406 (36.7)
心肌梗死,n (%) 42 (15.1) 15 (15) 1791 (19.3)
心房颤动,n (%) 104 (37.4) 24 (24) 3164 (34.1)
肥胖,n (%) 12 (4.3) 7 (7) 631 (6.8)
慢性肾脏疾病,n (%) 26日(9.4) 7 (7) 1123 (12.1)
高血压,n (%) 130 (46.8) 55 (55) 5563 (59.9)
种族,n (%)
白色 237 (85.3) 93 (93) 7814 (84.2)
亚洲 14 (5.0) 1 (1) 251 (2.7)
黑色的 13 (4.7) 2 (2) 520 (5.6)
其他 7 (2.5) 1 (1) 195 (2.1)
拉美裔 4 (1.4) 0 (0) 111 (1.2)
未知的 3 (1.1) 3 (3) 390 (4.2)

一个CMR:心脏磁共振成像。

b包括所有在心脏病企业仓库有CMR报告的个人。

CMR标签

与其他电子病历类似,定量CMR测量结果包含在麻省总医院布莱根电子病历的自由文本诊断报告中[ 14 18]。我们利用PRAnCER(用于临床实体识别的快速注释平台)[ 19],一个用于直观标记的开源软件应用程序,对EWOC CMR报告中的21项临床重要测量进行注释( 文本框1)。我们调整了PRAnCER来使用包含CMR功能的自定义模式,而不是统一医学语言系统词汇表[ 20.它是为之设计的。在度量实例的格式和上下文中存在显著的可变性。这包括报告中测量的顺序,用于引用特定测量的语言,单位的存在与否,以及测量名称与值本身之间的位置关系( 图2)。

在所有可获得的报告中,370份是由研究临床医生(JSH)从独特的个体中随机选择的。从这些报告中,270个被随机划分为训练集,其余100个被保留用于模型测试( 图1)。没有个体同时出现在训练集和测试集。由于CMR方案可能根据研究的临床指征而变化,每份报告的测量总数从1到21不等。跨训练集和测试集的每个独特特征的计数见表S2 多媒体附录1。所有370份报告的临床医生标注总时间估计为15小时。

最后,为了解决临床注释的质量问题,我们使用了一个二级注释器(PB)来标记仅为模型测试保留的100份报告。我们计算注释者间的一致性作为注释者之间匹配提取的比例,与临床实体提取文献一致[ 15]。总体一致性非常好,为91.6%,测量方面的一致性值见表S3 多媒体附录1 考虑到注释任务的性质,当两个注释者都从报告中选择度量时,会有完美的精度,任何不一致都表示由于疲劳或指导方针的不同而错过的值。考虑到高度一致性,我们仅对研究临床医生(JSH)的注释进行了模型推导和验证。

从心脏磁共振成像报告中提取的临床测量。

左心室解剖与功能

左室舒张末期容积

左室舒张末期容积指数

左室舒张末期直径

左心室收缩末期容积

左心室收缩末期容积指数

左心室收缩末期直径

左心室射血分数

左室每搏量

左心室质量

左心室质量指数

心输出量

心脏指数

右心室解剖与功能

右心室舒张末期容积

右心室舒张末期容积指数

右心室收缩末期容积

右心室收缩末期容积指数

右心室每搏量

右心室每搏量

其他心脏结构解剖

左心房前后位

肺动脉径

主动脉根部尺寸

3份心脏磁共振成像报告(A,B,C)量化右心室功能的示例文本。等效测量的呈现方式缺乏一致性使得准确提取测量具有挑战性。黄色突出的特征表示右心室舒张末期容积(RVEDV),而蓝色突出的特征表示右心室舒张末期容积指数(RVEDVI)。例C不包含RVEDVI特性。EDV:舒张末期容积;EF:喷射分数;ESV;收缩期终容积;RVEF:右心室射血分数;RVESV:右心室收缩末容积; RVESVI: right ventricular end systolic volume index; RVSV: right ventricular stroke volume.

数值表示

先前的研究表明,使用替代表示法代替默认的表面数字表示法对转换器模型在文本中执行定量操作的能力有重大影响,例如简单的算术[ 21]。大多数基于变压器的模型的词汇表包括有限数量的数值,通常没有十进制数字,因为它们是由用于预训练的语料库中最频繁出现的单词构建的。大多数变压器模型采用的标记化过程基于标点分隔“单词”,并且不区分句号和小数点,这导致十进制数字被分解成多个标记。鉴于默认数字表示的潜在局限性,我们研究了实施替代数字表示是否会影响定量临床测量的提取质量。我们为CMR报告中的定量标记设计了4种不同类型的数值转换,并将其应用于训练样本和测试样本以进行模型推导。其中包括用特殊的标记替换小数点,以确保在标记过程中小数保持完整,所有值的位数一致,科学记数法,以及将数量转换为单词。 表2演示1段文本的这些转换,和 多媒体附录1包含有关其实现的更多信息。

文本示例片段的数值转换。

转换的名字 转换代码片段 笔记
原始 RVESV一个: 51.01 ml 没有转换;供参考
取代了小数 RVESV: 51桶100毫升 小数点被特殊分隔符替换;支持作为单个令牌进行解析,而不是将其分解
一致的数字 RVESV: 051010毫升 所有数字转换为6位长度
科学记数法 RVESV: 5.10100 e + 01 所有数字转换为科学记数法,有5位有效数字
单词 RVESV: 51.01毫升 将数字转换为相应的单词表示

一个RVESV:右心室收缩末期容积。

模型推导与验证

我们的建模方法包括使用HuggingFace变压器库对基于变压器的模型进行微调[ 22]来预测给定CMR报告中每个令牌的标签。为此,我们在BERT架构的最后一层的顶部附加了一个线性分类头。分类头产生22个可能标签的分布- 21个感兴趣的心脏测量加上所有其他标记的“0”标签( 图3)。根据基于转换器的模型的输入大小限制,我们将报告文本预处理为包含128个标记的部分,并考虑子词标记化。我们使用交叉熵损失,学习率为5e5所有实验的批次大小为32。为了评估临床预训练对数值临床值提取的影响,我们尝试使用BERT提供的权重初始化BERT架构的权重 8 9]例(约3.4亿个参数)以及PubMedBERT的临床导向权重[ 11], SapBERT [ 12],以及Bio+ discharge [ 13(每个有~ 1.1亿个参数)。预训练的权重从HuggingFace模型中心下载[ 23]。每个预训练的架构与5个数字表示配对。

每个模型都在由布里格姆总医院托管的临床数据科学中心计算集群上进行了微调。在配备图形处理单元的机器上,每个模型以每epoch约2分钟的速度训练。权重初始化和数值表示策略的每种组合都进行了20次微调,平均需要40分钟。为了模型评估的目的,如果一个标记的预测分数大于0.5,我们就给这个标记分配一个标签。使用宏观平均来评估性能 F1-对所有21个感兴趣的度量进行评分,因为无论报告中出现的频率如何,该度量都捕获特性性能。对于每个模型,我们选择使宏观平均值最大化的epoch数 F1分数。

根据我们的建模实验分配的标签结果,进行了最小的后处理。这包括合并额外的有效数字,这些数字显然应该作为度量的一部分包括在内,并将模型预测的令牌合并为结构化格式( 多媒体附录1最后,我们使用从CMR文献中导出的参考范围对提取值应用上下限[ 24- 26](表S4, 多媒体附录1)。提供了工作流的概述,包括收集临床注释、建模和后处理以提取最终测量值 图4

用于微调预训练变压器架构的架构,具有金标准的心脏磁共振成像注释和每个标记的预测标签。BERT:来自变压器的双向编码器表示ESV:收缩期末期容积。

用于收集临床注释、建模和从心脏磁共振成像报告中提取测量值的自然语言处理工作流。BERT:来自变压器的双向编码器表示ESV:收缩期末容积;CMR:心脏磁共振成像;PRAnCER:用于临床实体识别的快速注释平台RVEDV:右心室舒张末期容积;RVESV:右心室收缩末期容积。

与临床结果的关联

最后,为了评估模型提取的临床有效性,我们评估了所选择的提取特征是否与临床结果(包括死亡率、心房颤动和心力衰竭)有已知的关系[ 27- 29]。我们首先应用性能最高的模型从EWOC的所有CMR报告中提取左心室质量指数(LVMI)、LVEF和右心室射血分数(RVEF)。我们没有为每个标签选择一个模型得分阈值,而是为每个标记选择得分最高的标签。对于具有包含给定特征的多个报告的个体,我们使用从最早的报告中提取的特征进行主要分析。

然后,我们评估死亡率、心房颤动和心力衰竭的发生率,按提取的左心室质量的四分位数计算。我们还测量了异常和正常LVEF和RVEF的死亡率,分别定义为LVEF <50%和RVEF <45% [ 1 30.]。临床结果使用先前描述的诊断代码分组来定义[ 31 32]。对于发生率分析,我们省略了主要结局(即心房颤动或心力衰竭)发生在CMR之前或同一天的个体。对于房颤事件和心力衰竭分析,随访时间从CMR时开始,一直持续到主要结局、死亡或最后一次临床就诊的发生。对于死亡率分析,随访时间从CMR时开始,一直持续到死亡或最后一次临床就诊时。用精确方法计算置信区间。我们使用两样本比例检验比较发病率[ 33]。为了评估报告时间对提取特征与临床结果之间关联的潜在混淆,我们还进行了敏感性分析,选择了从上一份报告中提取的特征。

结果 模型的性能

训练集包括来自270名CMR时中位年龄为65岁(IQR 54-74)的个体的报告,其中34.2% (n=92)为女性( 表2)。测试集包括100例CMR时中位年龄为58 (IQR 45-66)岁的患者的报告,其中33% (n=33)为女性( 表2)。

所有预训练权值和数值表示的组合都获得了优异的宏观平均 F1-测试集的分数。 表3说明了最大宏观平均 F1-预训练权重初始化和数值表示的所有组合的分数。表现最好的组合是BERT,对已替换的十进制数字表示方案进行了微调,从而实现了最大的宏观平均 F1- 12次微调后得分为0.957。宏观平均图 F1-测试集在训练周期上的得分见图S1 多媒体附录1 特征接收器工作特性曲线如图所示 图5。特征级宏观平均的范围 F1-分数为0.902 ~ 1.000,所有分数报告于表S5; 多媒体附录1。为了研究标注工作对模型性能的影响,我们对BERT的组合进行了微调对不同子集的训练数据进行预训练和替换十进制数字表示,并绘制宏观平均值 F1-测试集得分( 图6)。该图显示,当训练报告的数量从45个迭代地增加到大约200个时,性能的显著提高是一致的,但在此之后开始饱和。我们还将训练样本中的注释数量与test关联起来 F1并且没有发现很强的关系(图S2, 多媒体附录1)。

最大macroaveraged F1通过预训练的权重初始化和数字表示,在金标准测试标签上引导95%的ci。

体系结构 数值表示,最大宏观平均 F1-score (95% CI)
原始 取代了小数 一致的数字 科学 单词
PubMedBERT一个 0.954(0.947 - -0.960) 0.952(0.947 - -0.960) 0.950(0.945 - -0.955) 0.955b (0.948 - -0.960) 0.953(0.949 - -0.958)
SapBERT 0.955(0.949 - -0.960) 0.954(0.949 - -0.960) 0.955(0.949 - -0.960) 0.955(0.948 - -0.960) 0.956b (0.951 - -0.961)
生物+放电SummaryBERT 0.950(0.944 - -0.957) 0.953b (0.947 - -0.959) 0.953(0.945 - -0.958) 0.952(0.945 - -0.958) 0.946(0.942 - -0.952)
伯特 0.951(0.945 - -0.957) 0.957b(0.951 - -0.962) 0.951(0.945 - -0.957) 0.944(0.938 - -0.951) 0.952(0.947 - -0.957)

一个BERT:来自变形金刚的双向编码器表示。

b每个预训练权值初始化的最佳表现数值表示。

通过心脏磁共振成像测量对测试集进行模型预测的接受者工作特性曲线。AUC:接收机工作特性曲线下的面积。

调整伯特使用替换的十进制数字表示的性能,作为训练集中注释报告数量的函数。

在EWOC中,来自9280名个体的12,720份CMR报告组成了CMR结果集( 图1)。CMR时结果组个体的中位年龄为57岁(IQR 46-67)岁,39.50%(3666/9280)为女性( 表1)。在选择了最佳模型配置之后,我们应用表现最好的模型来推断该集合中所有报告的CMR值。运行推理后,我们通过生理下界和上界进行过滤(表S6; 多媒体附录1),共提取了136,407个测量值。每个提取的特征和分布指标的计数如表7所示 多媒体附录1。我们还比较了CMR结果集中包含模型预测测量值的报告的比例,发现它们与测试集中的金标准注释比例一致(表S8; 多媒体附录1)。

与临床结果的关联

CMR结果组个体的中位随访时间为5.3 (IQR为2.8-9.2)。在随访期间,我们观察到1520例心力衰竭事件,1488例房颤事件和909例死亡。从9280例个体中提取LVMI 5015例(54.04%)。在结果集中,LVMI的增加与死亡率、房颤和心力衰竭的发生率增加相关,最低和最高四分位数之间的发病率有统计学差异( 图7)。死亡率为每100人年0.9例死亡(PY;95% CI 0.7-1.1),而LVMI提取的最高四分位数(95% CI 1.9-2.6)中,每100 PY有2.2例死亡(95% CI 0.7-1.1)。 P< . 05; 图7)。在LVMI提取的最低四分位数中,房颤的发生率为每100 PY 3.0个事件(95% CI2.5-3.5),而在LVMI提取的最高四分位数中,房颤的发生率为每100 PY 7.9个事件(95% CI 6.8-8.7) ( P< . 05)。在LVMI提取的最低四分位数中,心力衰竭的发生率为每100 PY 3.2件(95% CI 2.7-3.7),而在LVMI提取的最高四分位数中,心力衰竭的发生率为每100 PY 8.1件(95% CI 7.2-9.1) ( P< . 05)。

提取的左心室质量指数、左心室射血分数和右心室射血分数与临床结果的关系。

9280例患者中提取LVEF 7389例(79.62%),其中2297例符合左室收缩功能异常(LVEF <50%)标准。从9280例患者中提取RVEF 6324例(68.15%),其中1626例符合右室收缩功能异常标准(RVEF <45%; 图7)。与心室功能正常的患者相比,LVEF和RVEF异常均与死亡率增加显著相关( P<.两项指标均为05)。在LVEF异常组中,死亡率为每100 PY 2.5例死亡(95% CI 2.2-2.8),而LVEF正常组为每100 PY 1.1例死亡(95% CI 0.9-1.2)。 P< . 05)。在异常RVEF组,死亡率为每100 PY 2.5例死亡(95% CI 2.1-2.8),而正常RVEF组为每100 PY 1.0例死亡(95% CI 0.9-1.2)。 P< . 05)。

我们还进行了敏感性分析,其中最后一次CMR报告用于LVMI, LVEF和RVEF的特征提取。5015个个体中有687个(13.70%)具有1个以上的LVMI, 7389个个体中有1268个(17.16%)具有1个以上的LVEF, 6324个个体中有1038个(16.41%)具有1个以上的RVEF。LVMI首次和最后报告的平均时差为2.4 (SD 2.2)年,LVEF为2.9 (SD 2.9)年,RVEF为2.7 (SD 2.6)年。与初步分析相似,我们观察到随着LVMI的增加,死亡率、房颤和心力衰竭的发生率增加;与LVEF或RVEF正常的个体相比,LVEF或RVEF异常的个体死亡率明显更高(图S3)。 多媒体附录1)。

讨论 主要结果

在这项研究中,我们报告了一种准确实用的基于nlp的方法,可以同时从CMR报告中提取21个定量测量值。我们最后的模型,产生了宏观平均 F1-得分为0.957,来源于利用开源框架收集金标准临床医生标签和公开可用的变压器模型权重的工作流。我们还通过证明提取的CMR测量值与房颤、心力衰竭和死亡率等结果的已知关联,强调了我们方法的临床有效性( 图7) [ 30. 34]。

我们发现BERT与基于临床预训练的模型初始化相比,表现出优异的性能,说明临床预训练对临床数值提取没有显著影响( 表3)。伯特大于现有的临床导向模型,模型复杂性可能对比较性能起作用,表明更大的临床预训练模型代表了未来工作的一个方向。我们还试验了4种不同的数值测量替代表示,发现测试性能与默认表示( 表3)。我们的研究结果表明,对于提取数值量的特殊情况,基于变压器的模型不需要临床预训练或替代数值表示。通过有限训练集大小的实验,我们发现在少于50个标记报告的情况下可以获得出色的性能。此外,175个报告的训练集足以训练出一个性能在270个报告训练的模型的95% CI范围内的模型( 图6)。

我们的模型提取的测量值可能有助于一系列重要心脏病的自动表征,我们将其留给未来的工作。我们期望我们提出的工作流程可以很容易地被其他人从临床文本中提取任意测量值。PRAnCER平台是开源的,可以很容易地适应标记感兴趣的临床测量。我们用于微调和评估NLP模型的软件也是开源的[ 34],并且可以使用配备标准图形处理单元的机器进行模型训练。我们期望可以在临床领域中提取任意数量的临床测量数据,这些数据具有实际数量的标记工作和计算需求,而不限于cmr。

基于注意的错误模式探索

误差模式的表征可以对模型预测的信心和未来研究人员寻找改进模型的方法具有指导意义。尽管我们的最佳模型在我们考虑的所有类型的测量中总体上具有很高的准确性,但最常见的错误模式涉及到模型将应该标记为测量值的值分配为“0”标签。在我们研究的许多情况下,尽管要标记的值周围有类似的标记序列,但像“主动脉根部尺寸”这样的测量值在一个报告中会被正确标记,而在另一个报告中不会被标记。通过检查两个报告中要标记的令牌的注意权重,我们发现正确标记的值对前面的“主动脉根部尺寸”短语中的“尺寸”一词的权重最大。对于错误标记的值,4个最常使用的标记中有3个是单词“dimension”的单独实例,其中一个是正确短语的一部分,其他实例出现在文本的其余部分。所有的注意权重都远远低于正确标记的例子对“维度”一词的注意权重。这可能表明进一步改进的机会可能涉及提供更多的训练示例,其中包含我们数据集中大多数报告中缺失的文本部分,或者通过使用包含关键标记的合成文本来增加现有的标记文本。

此外,我们认识到,虽然我们的模型表现良好,但提取错误是不可避免的。这些错误的临床后果取决于具体的特征。例如,不正确的LVEF提取可能会将心力衰竭患者错误地分类为射血分数降低或射血分数保留,从而影响治疗选择。同样,不正确的RVEF可能会对右侧心力衰竭患者进行错误分类。不正确的主动脉根部大小可能会对主动脉根部动脉瘤进行错误的分类。假阳性误差可能特别难以检测,因为生理滤波的最后后处理停止意味着假阳性仍将在预期范围内。因此,仔细评估模型的性能是必要的,特别是在将这样的模型应用于新数据集时。

与前期工作比较

据我们所知,这是第一个使用基于变压器的模型(没有从头开始预训练)对临床医生标签进行微调以从诊断文本中提取数值测量的例子。我们之前演示了基于使用基于规则的方法生成的大量弱标签从临床文本中提取4个生命体征测量值的价值[ 16]。我们以前的方法是基于这样的假设:为了对基于转换器的方法进行微调,积累足够数量的黄金标准注释是不切实际的。然而,我们发现单个临床医生最多需要15个小时才能为21种类型的定量测量生成足够的金标准注释,从而消除了对基于规则的方法的需求,并且易于扩展到大量相关测量。

最近的工作[ 15]在特定领域的数据上,使用了由预训练BERT模型和FLAIR模型产生的嵌入组合。然后,嵌入被用作双向长短期记忆与条件随机场层的组合的输入,以标记感兴趣的标记,包括数值测量。这种方法工作得很好,并取得了与我们的方法相当的性能与类似数量的标签工作。我们用我们的工作证明,在特定领域的数据上从头开始预训练模型是没有必要的,以达到高水平的准确性。可以避免在临床数据上从头开始预训练模型所需的数天,甚至数周的计算时间。此外,我们还研究了注释数量对性能的影响。

从临床文本中提取数值测量的其他方法也达到了合理的准确性,但我们认为我们的方法最大限度地减少了标记工作,更健壮,并且足够的计算效率,可以作为加速基于ehr的临床研究的实用解决方案。基于规则的方法虽然可能准确,但通常需要多次开发和验证,以确保临床文本的广泛可变性的准确性[ 4]。先前的工作也表明,基于规则的方法可能不容易移植到开发地以外的其他电子病历中。Adekkanattu等人在评估基于规则的超声心动图测量提取模型的可移植性的工作中[ 7报告变量 F1-临床部位不同的分数。我们证明,在临床文本上预先训练的基于转换器的模型可以在实际数量的标签上进行微调,以学习以灵活的方式提取测量值,以适应临床文本中如何表达此类测量值的可变性。

未来工作的限制和方向

我们的研究必须在其局限性的背景下加以解释。我们的测试集由100个报告的相对较小的样本组成,但是对相同大小的测试集随机重新抽样的分析产生了具有显着接近宏观范围的模型 F1-分数(0.947-0.970横跨10个样本),这表明我们的方法的稳健性。我们的方法需要最小程度的后处理,主要涉及对模型提取的值施加生理范围。尽管以这种方式过滤的值相对较少,但这些值可能表示模型误报。后处理的另一个方面涉及扩展模型预测,以包括很少发生的遗漏有效数字。我们对数值表示和预训练模型的实验使提取精度很高,但需要进一步的工作来了解如何最好地使用基于变压器的模型来处理任意数值[ 35]。此外,CMR报告来自一个大型的异构医疗保健系统,虽然我们的模型能够处理相关测量的显着变异性,但需要进一步的工作来证明我们的建模方法可移植到其他机构。

与其他具有医疗保健应用的人工智能模型类似,我们的模型的临床实施受到几个障碍的阻碍[ 36]。第一个是在EHR环境中部署模型,这涉及访问孤立的临床数据和将建模结果集成到电子环境中以进行表示。第二是确保模型能够适应机构之间或在模型的整个生命周期内报告结构的变化。最后,监测和定期质量控制对确保患者安全至关重要。虽然很少有模型成功地克服了这些挑战,但我们假设我们的工作提供了一种适应报告结构变化的建模策略,并为开发针对其他重要临床任务的新定量模型提供了框架。未来的工作应该在实时设置中测试这些模型的性能,以证明对新环境和数据结构的通用性。

结论

我们提出了一个强大的自然语言工作流,用于同时从CMR自由文本报告中提取21种类型的数值测量。我们发现,一般预训练的基于变压器的语言模型需要相对较少的金标准注释,需要最少的数据处理,并且对数值测量的上下文和表示中的显著变化具有鲁棒性。我们观察到提取的CMR测量值与已知的临床结果(如心力衰竭、心房颤动和死亡率)之间的预期关联。我们的工作流程是可重复的,很可能适用于许多其他类型的临床数据。

补充材料。

缩写 伯特

来自变压器的双向编码器表示

CMR

心脏磁共振成像

电子健康档案

电子健康记录

EWOC

心脏病企业仓库

LVEF

左心室射血分数

LVMI

左心室质量指数

国家卫生研究院

美国国立卫生研究院

NLP

自然语言处理

舞蹈者

为临床实体识别提供快速注释的平台

PY

人每年

RVEF

右心室射血分数

我们要感谢Monica Agrawal和David Sontag的协助,使临床实体识别快速注释平台(PRAnCER)平台能够标记心脏磁共振成像(CMR)报告。

截至2022年7月18日,SAL是诺华的全职员工。SAL此前获得了NIH拨款R01HL139731和R01HL157635以及美国心脏协会18SFRN34250007的支持。SAL获得了Bristol Myers Squibb, Pfizer, Boehringer Ingelheim, Fitbit, Medtronic, Premier和IBM的赞助研究支持,并为Bristol Myers Squibb, Pfizer, Blackstone Life Sciences和Invitae提供咨询。JEH获得了拜耳公司的赞助研究支持。他接受拜耳公司和IBM公司的赞助研究支持,并为诺华公司和普罗米修斯生物科学公司提供咨询。CDA获得拜耳公司赞助的研究支持,并为ApoPharma提供咨询。其他作者报告没有潜在的利益冲突。

McMurray J Adamopoulos 年代 安加 年代 Auricchio 一个 玻姆 迈克尔 迪克斯坦 K 福尔克 一直用 Filippatos Gerasimos 假丝酵母 Gomez-Sanchez 米格尔的天使 Jaarsma Kø误码率 拉尔斯 格雷戈里Y H Maggioni 奥尔多·彼得罗 Parkhomenko 亚历山大 Pieske 德国宝得米 Popescu Bogdan的 Rønnevik 每个K Rutten Frans H Schwitter Juerg Seferovic Stepinska 怪不得我 Trindade 佩德罗T Voors Adriaan一 发病率 吸烟的 Zeiher 安德烈亚斯 ESC实务指引委员会 2012年ESC急性和慢性心力衰竭诊断和治疗指南:欧洲心脏病学会急性和慢性心力衰竭诊断和治疗工作组。与ESC的心力衰竭协会(HFA)合作开发 欧洲心脏 2012 07 33 14 1787 847 10.1093 / eurheartj / ehs104 22611136 ehs104 西蒙 右心衰的评估与治疗 Nat Rev Cardiol 2013 04 10 4 204 18 10.1038 / nrcardio.2013.12 23399974 nrcardio.2013.12 Isselbacher 新兴市场 胸腹主动脉瘤 循环 2005 02 15 111 6 816 828 10.1161/01. cir.0000154569.08857.7a T l N Kumamaru Rybicki FJ T KP EMR数值数据的提取:扩展临床研究的有效和可推广的工具 BMC Med Inform Decis mark 2019 11 15 19 1 226 10.1186 / s12911 - 019 - 0970 - 1 31730484 10.1186 / s12911 - 019 - 0970 - 1 PMC6858776 施瓦兹 莱托 E Maruthur 纳米 Rouhizadeh 在非结构化临床文献中识别糖尿病前期讨论:自然语言处理算法的验证 JMIR Med Inform 2022 03 24 10 2 e29803 10.2196/29803 35200154 v10i2e29803 PMC8914791 C Albaghdadi 女士 Jonnalagadda 用于从超声心动图报告中提取大规模数据的自然语言处理工具 《公共科学图书馆•综合》 2016 11 4 e0153749 10.1371 / journal.pone.0153749 27124000 玉米饼- d - 15 - 50601 PMC4849652 Adekkanattu P G Y 金斯伯里 P Z 拉斯穆森 l 帕切科 珍妮弗一 基弗 理查德·C 石头 丹尼尔·J 布兰德 帕斯卡年代 进行义诊 Ancker 杰西卡年代 剪秋罗属植物 托马斯·R 帕沙克 Jyotishman 评价处理超声心动图的NLP系统的可移植性:一项回顾性、多地点观察性研究 AMIA年度会议进程 2019 2019 190 199 32308812 PMC7153064 Vaswani 一个 Shazeer N Parmar N Uszkoreit J 琼斯 l 戈麦斯 一个 凯撒 l Polosukhin 注意力就是你所需的一切 2017 神经信息处理系统研究进展 2017年12月4日 长滩,加州 Devlin J K Toutanova K BERT:深度双向转换器的语言理解预训练 2019 计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长、短论文) 2019年6月2日 明尼阿波利斯、锰 https://doi.org/10.18653/v1/N19-1423 一个 Pruksachatkun Y Nangia N 辛格 一个 迈克尔 J F 莱维 O 鲍曼 年代 SuperGLUE:通用语言理解系统的一个粘性更高的基准 2019 神经信息处理系统研究进展 2019年12月8日 温哥华公元前 https://doi.org/10.48550/arXiv.1905.00537 Y Tinn R H 卢卡斯 Usuyama N X 瑙曼 T J 胡桐 H 面向生物医学自然语言处理的领域特定语言模型预训练 ACM反式。第一版。医疗保健 2022 01 31 3. 1 1 23 10.1145 / 3458754 F Shareghi E Z Basaldella 科利尔 N 生物医学实体表征的自校准预训练 2020 计算语言学协会北美分会2021年会议论文集:人类语言技术 2021年6月6日 在线 10.18653 / v1/2021.naacl-main.334 Alsentzer E 墨菲 J Boag W W D 瑙曼 T 麦克德莫特 公开可用的临床BERT嵌入 2019 第二届临床自然语言处理研讨会论文集 2019年6月7日 明尼阿波利斯,马 10.18653 / v1 / w19 - 1909 扎曼 年代 佩特里 C Vimalesvaran K 霍华德 J Bharath 一个 弗朗西斯 D 彼得斯 N 科尔 GD 林惇 N 基于文本报告半监督自然语言处理的心血管mri自动诊断标记 Radiol Artif intel 2022 01 4 1 e210085 10.1148 / ryai.210085 35146435 PMC8823679 赛义德 年代 天使 一个 Syeda H 詹宁斯 C VanScoy J 赛义德 格里尔 Bhattacharyya 年代 Zozus Tharian B 之前 F h-ANN模型:使用组合上下文嵌入的综合结肠镜概念编译 生物医学工程系统技术[j]; BIOSTEC 2022 03 5 189 200 10.5220 / 0010903300003123 35373222 PMC8970464 得以 年代 里德 C 哈林顿 l 辛格 P Sarma G 弗里德曼 年代 盖迪阿希尔 保罗 钻石 纳撒尼尔 坎宁安 乔纳森·W 特纳 阿什比C 艾米丽年代 Haimovich 朱利安年代 Al-Alusi Mostafa一 Klarqvist 马库斯博士 ashburn 杰弗里·米 Diedrich 基督教 Ghadessi Mercedeh Mielke 约翰娜 Eilken 汉娜米 McElhinney 爱丽丝 Derix 安德里亚 阿特拉斯 Steven J Ellinor 帕特里克·T Philippakis 安东尼一个 安德森 克里斯托弗·D 詹妮弗·E 巴特拉 医学院毕业 Lubitz 史蒂文一 群组设计和自然语言处理以减少电子健康记录研究中的偏差 NPJ数字医学 2022 04 08 5 1 47 10.1038 / s41746 - 022 - 00590 - 0 35396454 10.1038 / s41746 - 022 - 00590 - 0 PMC8993873 GitHub 绝地武士 2022-01-01 https://github.com/broadinstitute/jedi-public 月亮 年代 Sagheb E 年代 程ydF4y2Ba D Bos Geske 简森-巴顿 Noseworthy P 阿克曼 Shellum 乔杜里 R 研究 年代 Araoz P 西村 R Hongfang l Arruda-Olson 一个 13811:一种自动自然语言处理算法,用于对肥厚性心肌病阳性诊断的磁共振成像报告进行分类 循环 2019 140 A13811 Github PRAnCER:为临床实体识别提供快速注释的平台 2022-01-01 https://github.com/clinicalml/prancer Bodenreider O 统一医学语言系统(UMLS):整合生物医学术语 核酸类 2004 01 01 32 数据库问题 D267 70 10.1093 / nar / gkh061 14681409 32 / suppl_1 / D267 PMC308795 Nogueira R Z J 用简单的算术任务研究变压器的局限性 2021 通用人工智能研讨会中的数学推理,ICLR 2021 2021年5月7日 在线 T 首次亮相 l V Chaumond J Delangue C 莫伊 一个 Cistac P Rault T Louf R Funtowicz 戴维森 J 施莱弗 年代 冯滚筒 P C Jernite Y 并不 J Canwen Le Scao T 贵港市 年代 德拉姆 左手 一个 HuggingFace的变形金刚:最先进的自然语言处理 2020 2020年自然语言处理经验方法会议论文集:系统演示 2020年11月16-20日 在线 10.18653 / v1/2020.emnlp-demos.6 模型 拥抱的脸 2022-03-14 https://huggingface.co/models Kawel-Boehm N 黑泽尔 SJ Ambale-Venkatesh B Captur G 弗朗索瓦 CJ Jerosch-Herold 萨勒诺 爱尔兰人 SD Valsangiacomo-Buechel E 范德格斯特 RJ Bluemke 成人和儿童心血管磁共振(CMR)参考范围(“正常值”):2020年更新 心血管医学杂志 2020 12 14 22 1 87 10.1186 / s12968 - 020 - 00683 - 3 33308262 10.1186 / s12968 - 020 - 00683 - 3 PMC7734766 Olivotto 马伦 女士 C 较小的 君子 l Casolo G 德桑蒂斯 Quarta G Nistri 年代 这套 F 索尔顿海 CJ Udelson 曼宁 WJ 马伦 BJ 肥厚性心肌病左室质量的心血管磁共振评价及其意义 美国心脏病学会杂志 2008 08 52 7 559 566 10.1016 / j.jacc.2008.04.047 Hombach V Merkle N Torzewski J 克劳斯 JM Kunze 齐默尔曼 O Kestler Wohrle J 心电图和心脏磁共振成像参数作为特发性扩张型心肌病患者预后较差的预测因素 欧洲心脏杂志 2009 07 24 30. 16 2011 2018 10.1093 / eurheartj / ehp293 德西蒙 G Gottdiener J Chinali 毛雷尔 左心室质量预测与既往心肌梗死无关的心力衰竭:心血管健康研究 欧洲心脏 2008 03 29 6 741 7 10.1093 / eurheartj / ehm605 18204091 ehm605 Vakili 英航 Okin Devereux RB 左心室肥厚的预后意义 美国心脏杂志 2001 3. 141 3. 334 341 10.1067 / mhj.2001.113218 Verdecchia P Reboldi G Gattobigio R 监理、 Borgioni C 天使 F 卡鲁齐奥说 E Sardone 毫克 Porcellati C 高血压患者心房颤动 高血压 2003 02 41 2 218 223 10.1161/01. hyp.0000052830.02773.e4 Surkova E Muraru D 吉诺维斯 D Aruta P 巴勒莫 C Badano LP 左、右心室射血分数对心脏病患者预后的相对重要性 J Am Soc超声心动图 2019 11 32 11 1407 1415. e3 10.1016 / j.echo.2019.06.009 31400846 s0894 - 7317 (19) 30774 - 6 高夫 直流 Pandey DK 常ydF4y2Ba 足总 奥尔蒂斯 C Nichaman MZ 充血性心力衰竭在美国:是否有超过符合I(CD代码)?科珀斯克里斯蒂心脏项目 高级实习医师 2000 01 24 160 2 197 202 10.1001 / archinte.160.2.197 10647758 得以 年代 Keaney J Ellinor PT Lubitz SA 一种简单便携的识别电子病历中房颤的算法 我是卡迪罗吗? 2016 01 15 117 2 221 5 10.1016 / j.amjcard.2015.10.031 26684516 s0002 - 9149 (15) 02195 - 5 PMC4706785 C 比较两个独立的发病率使用条件和无条件的精确测试 制药统计 2008 7 3. 195 201 10.1002 / pst.289 17506083 经营着 Y 风投 卡多 Y 大谷 K F Y 根岸英一 K 竹内 经胸三维超声心动图评价右心室射血分数的预后价值 Circ心血管成像 2017 02 10 2 e005384 10.1161 / CIRCIMAGING.116.005384 28174197 CIRCIMAGING.116.005384 Thawani 一个 Pujara J Ilievski F Szekely P 在NLP中表示数字:一个调查和一个愿景 2021 计算语言学协会北美分会2021年会议论文集:人类语言技术 2021年6月6日 在线 计算语言学协会 644 656 10.18653 / v1/2021.naacl-main.53 凯利 CJ Karthikesalingam 一个 苏莱曼 柯拉 G D 利用人工智能实现临床影响的关键挑战 BMC医学 2019 10 29 17 1 195 10.1186 / s12916 - 019 - 1426 - 2 31665002 10.1186 / s12916 - 019 - 1426 - 2 PMC6821018
Baidu
map