发表在10卷,第9号(2022): 9月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/38178,首次出版
一个临床医生就是你所需要的——心脏磁共振成像测量提取:深度学习算法开发

一个临床医生就是你所需要的——心脏磁共振成像测量提取:深度学习算法开发

一个临床医生就是你所需要的——心脏磁共振成像测量提取:深度学习算法开发

原始论文

1数据科学平台,哈佛大学博德研究所和麻省理工学院,剑桥,马萨诸塞州,美国

2美国马萨诸塞州波士顿哈佛医学院马萨诸塞州总医院医学部

3.美国马萨诸塞州总医院心血管研究中心

4心血管疾病倡议,哈佛大学博德研究所和麻省理工学院,剑桥,马萨诸塞州,美国

5Demoulas心律失常中心,马萨诸塞州总医院,波士顿,马萨诸塞州,美国

6美国马萨诸塞州波士顿布里格姆妇女医院心脏病科

7埃里克和温迪施密特中心,哈佛大学和麻省理工学院布罗德研究所,剑桥,马萨诸塞州,美国

8美国马萨诸塞州波士顿布里格姆妇女医院神经内科

9亨利和艾利森·麦坎斯脑健康中心,马萨诸塞州总医院,波士顿,马萨诸塞州,美国

10基因组医学中心,马萨诸塞州总医院,波士顿,马萨诸塞州,美国

11美国马萨诸塞州波士顿贝斯以色列女执事医疗中心内科心血管研究所和心脏科

通讯作者:

普尼特·巴特拉博士

数据科学平台

哈佛大学和麻省理工学院的布罗德研究所

主街415号

剑桥,马萨诸塞州,02142

美国

电话:1 617 714 7000

电子邮件:gpbatra@gmail.com


背景:心脏磁共振成像(CMR)是一种强大的诊断方式,可提供详细的心脏解剖和功能定量评估。临床报告通常以非结构化文本形式存储在电子健康记录系统中,从临床报告中自动提取CMR测量值将有助于其在研究中的使用。现有的机器学习方法要么依赖于大量的专家注释,要么需要开发耗时且特定于开发环境的工程规则。

摘要目的:我们假设使用预训练的基于转换器的语言模型可以从临床文本中实现标签高效的数字提取,而不需要启发式或大量的专家注释。在这里,我们在少量CMR注释上微调预训练的基于变压器的语言模型,以提取21个CMR测量值。我们评估了临床预训练的效果,以减少标记需求,并探索了数字输入的替代表示以提高性能。

方法:我们的研究样本包括99,252名在多机构卫生保健系统中接受纵向心脏病学护理的患者。来自9280名患者的12720份可用CMR报告。我们采用临床文本注释工具PRAnCER (Platform Enabling Rapid Annotation for Clinical Entity Recognition)来收集临床医生对370份报告的注释。我们尝试了5种不同的数值量表示和几种模型权重初始化。我们使用宏观平均来评估提取性能F1-在感兴趣的测量中得分。我们应用表现最好的模型从研究样本中剩余的CMR报告中提取测量值,并评估所提取的测量值与临床结果之间的既定关联,以证明有效性。

结果:权重初始化和数值表示的所有组合在金标准测试集上都获得了出色的性能,这表明在一小组注释上进行微调的变压器模型可以有效地提取数值量。我们的结果进一步表明,自定义数字表示似乎对提取性能没有显著影响。性能最好的模型实现了宏观平均F1-在评估的CMR测量中得分为0.957(表现最差的左心房前后尺寸测量范围为0.92,表现最好的左心室收缩末容积指数和左心室收缩末直径测量范围为1.0)。将最佳表现模型应用于研究队列,从研究样本中所有可用的报告中获得136,407个测量值。我们观察到提取的左心室质量指数、左心室射血分数和右心室射血分数与心房颤动、心力衰竭和死亡率等临床结果之间的预期关联。

结论:这项研究表明,一个领域不可知的预训练变压器模型能够有效地从诊断报告中提取定量的临床测量数据,并且具有相对较少的金标准注释。建议的工作流可以作为其他定量实体提取的路线图。

中国生物医学工程学报,2010;30 (9):888 - 888

doi: 10.2196/38178

关键字



心脏磁共振成像(CMR)有助于许多重要心脏疾病的表征,包括左、右心室衰竭、左心室肥厚和主动脉根动脉瘤。左心室射血分数(LVEF)的量化以及将心力衰竭患者分为射血分数降低、中度降低或保持的患者是为特定患者选择适当治疗的基础[1]。CMR还可以量化右心室功能,是唯一能够全面评估右心室的无创诊断方式[2]。来自CMR的解剖信息也可用于诊断其他重要的心脏疾病,包括左心室肥厚,这是心脏整体健康状况的重要标志,以及胸主动脉根动脉瘤[3.]。CMR测量,除了其他诊断信息,嵌入在叙述性临床文本。在许多电子健康记录(EHR)系统中,这些测量数据无法以易于获取的统一结构化格式提供。从非结构化CMR报告中自动提取定量测量的工具的开发将促进其在研究中的使用,包括作为机器学习模型的输入。

从临床文本中提取测量值的现有方法通常基于人工开发的启发式方法或机器学习方法,这些方法从标记数据中学习,但不利用预训练的语言表示。基于规则的方法[4],虽然计算效率高,但需要大量的手工工作来构建,并且随着报告语言结构的变化,性能可能会下降[5]。其他研究使用机器学习方法,如支持向量机和长短期记忆模型,从临床记录中提取测量值,但由于缺乏预训练,这些方法需要大量的专家注释。6]。此外,先前的临床测量提取方法依赖于大量数据特定的预处理,这可能无法很好地转化为启发式开发之外的电子病历[7]。

基于变压器的双向编码器表示(BERT)神经网络[89]在各种自然语言处理(NLP)任务中取得了最先进的成果[10]。这些模型在大量文本上进行预训练,以学习一般的语言结构并产生语言的语境化表示。这种预训练范例的优点是,这些网络可以使用最小的问题特定标签进行微调,从而在许多自然语言任务上达到最先进的性能。BERT最初是在一般领域文本(如Wikipedia)上进行预训练的,但后来通过对特定领域文本进行预训练而适应于临床应用[11-14]。尽管基于变压器的模型在从临床文本中提取非数值实体(如解剖学术语和疾病状态)方面显示出有效性[14],它们在从临床文本中提取数值数量方面的应用受到限制[1516]。

在这项研究中,我们假设预训练的转换器在一小组注释上进行微调,可以有效地从诊断文本中提取数值量。我们对一系列预训练的变压器进行了微调,包括临床导向的变压器,以开发一种NLP工作流程,同时从基于心脏病学的EHR队列的CMR报告中提取21种特定的心脏结构和功能测量。这一组代表了CMR报告中所有有临床意义的定量成像结果。我们还探讨了与报告中出现的默认表示相比,替代数字表示是否会影响提取质量。在选择了表现最好的模型后,我们应用我们的工作流程从研究队列中所有可用的CMR报告中提取测量值。为了证明这些提取的准确性,我们评估了提取的心脏解剖和功能指标与事件临床结果之间的预期关联。


研究样本

个体从多机构学术卫生保健系统(麻省总医院布里格姆)的回顾性社区流动心脏病学样本(心脏病学企业仓库[EWOC])中选择。EWOC包括99,252名18岁或以上的成年人,在2000年至2019年期间的1至3年内就诊两次以上心脏病学门诊。队列中每个个体的EHR数据范围广泛,包括人口统计学、人体测量学、生命体征、叙述笔记、实验室结果、药物清单、放射学和心脏病学诊断测试结果、病理报告以及程序和诊断管理账单代码[16]。这些数据使用JEDI提取数据基础设施进行处理[17]。在排除6个个体和没有可用CMR日期的报告后,EWOC的9280个个体可获得12,720份CMR报告(图1)。

图1所示。研究样本的CONSORT(综合试验报告标准)图表。CMR:心脏磁共振成像;EWOC:心脏病企业仓库。
查看此图

伦理批准

本研究已获得马萨诸塞州布里格姆机构审查委员会(2017P001650)批准。

临床特征确定

基线特征是根据先前公布的《国际疾病分类》第9和第10版诊断代码的分组来定义的[16]。分析中使用的临床特征定义见表S1多媒体附录1。模型样本中个体的基线特征在CMR日期之前确定(表1)。

表1。训练集、测试集和CMR结果集的基线特征。
训练集(N=278) 测试集(N=100) CMRa结果组(N=9280)
年龄(年),中位数(Q1, Q3) 54 (46,64) 58 (45,66) 57 (46,67)
女性,n (%) 95 (34.2) 33 (33) 3666 (39.5)
糖尿病,n (%) 23日(8.3) 10 (10) 1216 (13.1)
冠状动脉疾病,n (%) 69 (24.8) 31 (31) 3406 (36.7)
心肌梗死,n (%) 42 (15.1) 15 (15) 1791 (19.3)
心房颤动,n (%) 104 (37.4) 24 (24) 3164 (34.1)
肥胖,n (%) 12 (4.3) 7 (7) 631 (6.8)
慢性肾脏疾病,n (%) 26日(9.4) 7 (7) 1123 (12.1)
高血压,n (%) 130 (46.8) 55 (55) 5563 (59.9)
种族,n (%)

白色 237 (85.3) 93 (93) 7814 (84.2)

亚洲 14 (5.0) 1 (1) 251 (2.7)

黑色的 13 (4.7) 2 (2) 520 (5.6)

其他 7 (2.5) 1 (1) 195 (2.1)

拉美裔 4 (1.4) 0 (0) 111 (1.2)

未知的 3 (1.1) 3 (3) 390 (4.2)

一个CMR:心脏磁共振成像。

b包括所有在心脏病企业仓库有CMR报告的个人。

CMR标签

与其他电子病历类似,定量CMR测量结果包含在麻省总医院布莱根电子病历的自由文本诊断报告中[1418]。我们利用PRAnCER(用于临床实体识别的快速注释平台)[19],一个用于直观标记的开源软件应用程序,对EWOC CMR报告中的21项临床重要测量进行注释(文本框1)。我们调整了PRAnCER来使用包含CMR功能的自定义模式,而不是统一医学语言系统词汇表[20.它是为之设计的。在度量实例的格式和上下文中存在显著的可变性。这包括报告中测量的顺序,用于引用特定测量的语言,单位的存在与否,以及测量名称与值本身之间的位置关系(图2)。

在所有可获得的报告中,370份是由研究临床医生(JSH)从独特的个体中随机选择的。从这些报告中,270个被随机划分为训练集,其余100个被保留用于模型测试(图1)。没有个体同时出现在训练集和测试集。由于CMR方案可能根据研究的临床指征而变化,每份报告的测量总数从1到21不等。跨训练集和测试集的每个独特特征的计数见表S2多媒体附录1。所有370份报告的临床医生标注总时间估计为15小时。

最后,为了解决临床注释的质量问题,我们使用了一个二级注释器(PB)来标记仅为模型测试保留的100份报告。我们计算注释者间的一致性作为注释者之间匹配提取的比例,与临床实体提取文献一致[15]。总体一致性非常好,为91.6%,测量方面的一致性值见表S3多媒体附录1考虑到注释任务的性质,当两个注释者都从报告中选择度量时,会有完美的精度,任何不一致都表示由于疲劳或指导方针的不同而错过的值。考虑到高度一致性,我们仅对研究临床医生(JSH)的注释进行了模型推导和验证。

从心脏磁共振成像报告中提取的临床测量。

左心室解剖与功能

  • 左室舒张末期容积
  • 左室舒张末期容积指数
  • 左室舒张末期直径
  • 左心室收缩末期容积
  • 左心室收缩末期容积指数
  • 左心室收缩末期直径
  • 左心室射血分数
  • 左室每搏量
  • 左心室质量
  • 左心室质量指数
  • 心输出量
  • 心脏指数

右心室解剖与功能

  • 右心室舒张末期容积
  • 右心室舒张末期容积指数
  • 右心室收缩末期容积
  • 右心室收缩末期容积指数
  • 右心室每搏量
  • 右心室每搏量

其他心脏结构解剖

  • 左心房前后位
  • 肺动脉径
  • 主动脉根部尺寸
文本框1。从心脏磁共振成像报告中提取的临床测量。
图2。3份心脏磁共振成像报告(A,B,C)量化右心室功能的示例文本。等效测量的呈现方式缺乏一致性使得准确提取测量具有挑战性。黄色突出的特征表示右心室舒张末期容积(RVEDV),而蓝色突出的特征表示右心室舒张末期容积指数(RVEDVI)。例C不包含RVEDVI特性。EDV:舒张末期容积;EF:喷射分数;ESV;收缩期终容积;RVEF:右心室射血分数; RVESV: right ventricular end systolic volume; RVESVI: right ventricular end systolic volume index; RVSV: right ventricular stroke volume.
查看此图

数值表示

先前的研究表明,使用替代表示法代替默认的表面数字表示法对转换器模型在文本中执行定量操作的能力有重大影响,例如简单的算术[21]。大多数基于变压器的模型的词汇表包括有限数量的数值,通常没有十进制数字,因为它们是由用于预训练的语料库中最频繁出现的单词构建的。大多数变压器模型采用的标记化过程基于标点分隔“单词”,并且不区分句号和小数点,这导致十进制数字被分解成多个标记。鉴于默认数字表示的潜在局限性,我们研究了实施替代数字表示是否会影响定量临床测量的提取质量。我们为CMR报告中的定量标记设计了4种不同类型的数值转换,并将其应用于训练样本和测试样本以进行模型推导。其中包括用特殊的标记替换小数点,以确保在标记过程中小数保持完整,所有值的位数一致,科学记数法,以及将数量转换为单词。表2演示1段文本的这些转换,和多媒体附录1包含有关其实现的更多信息。

表2。文本示例片段的数值转换。
转换的名字 转换代码片段 笔记
原始 RVESV一个: 51.01 ml 没有转换;供参考
取代了小数 RVESV: 51桶100毫升 小数点被特殊分隔符替换;支持作为单个令牌进行解析,而不是将其分解
一致的数字 RVESV: 051010毫升 所有数字转换为6位长度
科学记数法 RVESV: 5.10100 e + 01 所有数字转换为科学记数法,有5位有效数字
单词 RVESV: 51.01毫升 将数字转换为相应的单词表示

一个RVESV:右心室收缩末期容积。

模型推导与验证

我们的建模方法包括使用HuggingFace变压器库对基于变压器的模型进行微调[22]来预测给定CMR报告中每个令牌的标签。为此,我们在BERT架构的最后一层的顶部附加了一个线性分类头。分类头产生22个可能标签的分布- 21个感兴趣的心脏测量加上所有其他标记的“0”标签(图3)。根据基于转换器的模型的输入大小限制,我们将报告文本预处理为包含128个标记的部分,并考虑子词标记化。我们使用交叉熵损失,学习率为5e5所有实验的批次大小为32。为了评估临床预训练对数值临床值提取的影响,我们尝试使用BERT提供的权重初始化BERT架构的权重89]例(约3.4亿个参数)以及PubMedBERT的临床导向权重[11], SapBERT [12],以及Bio+ discharge [13(每个有~ 1.1亿个参数)。预训练的权重从HuggingFace模型中心下载[23]。每个预训练的架构与5个数字表示配对。

每个模型都在由布里格姆总医院托管的临床数据科学中心计算集群上进行了微调。在配备图形处理单元的机器上,每个模型以每epoch约2分钟的速度训练。权重初始化和数值表示策略的每种组合都进行了20次微调,平均需要40分钟。为了模型评估的目的,如果一个标记的预测分数大于0.5,我们就给这个标记分配一个标签。使用宏观平均来评估性能F1-对所有21个感兴趣的度量进行评分,因为无论报告中出现的频率如何,该度量都捕获特性性能。对于每个模型,我们选择使宏观平均值最大化的epoch数F1分数。

根据我们的建模实验分配的标签结果,进行了最小的后处理。这包括合并额外的有效数字,这些数字显然应该作为度量的一部分包括在内,并将模型预测的令牌合并为结构化格式(多媒体附录1最后,我们使用从CMR文献中导出的参考范围对提取值应用上下限[24-26](表S4,多媒体附录1)。提供了工作流的概述,包括收集临床注释、建模和后处理以提取最终测量值图4

图3。用于微调预训练变压器架构的架构,具有金标准的心脏磁共振成像注释和每个标记的预测标签。BERT:来自变压器的双向编码器表示ESV:收缩期末期容积。
查看此图
图4。用于收集临床注释、建模和从心脏磁共振成像报告中提取测量值的自然语言处理工作流。BERT:来自变压器的双向编码器表示ESV:收缩期末容积;CMR:心脏磁共振成像;PRAnCER:用于临床实体识别的快速注释平台RVEDV:右心室舒张末期容积;RVESV:右心室收缩末期容积。
查看此图

与临床结果的关联

最后,为了评估模型提取的临床有效性,我们评估了所选择的提取特征是否与临床结果(包括死亡率、心房颤动和心力衰竭)有已知的关系[27-29]。我们首先应用性能最高的模型从EWOC的所有CMR报告中提取左心室质量指数(LVMI)、LVEF和右心室射血分数(RVEF)。我们没有为每个标签选择一个模型得分阈值,而是为每个标记选择得分最高的标签。对于具有包含给定特征的多个报告的个体,我们使用从最早的报告中提取的特征进行主要分析。

然后,我们评估死亡率、心房颤动和心力衰竭的发生率,按提取的左心室质量的四分位数计算。我们还测量了异常和正常LVEF和RVEF的死亡率,分别定义为LVEF <50%和RVEF <45% [130.]。临床结果使用先前描述的诊断代码分组来定义[3132]。对于发生率分析,我们省略了主要结局(即心房颤动或心力衰竭)发生在CMR之前或同一天的个体。对于房颤事件和心力衰竭分析,随访时间从CMR时开始,一直持续到主要结局、死亡或最后一次临床就诊的发生。对于死亡率分析,随访时间从CMR时开始,一直持续到死亡或最后一次临床就诊时。用精确方法计算置信区间。我们使用两样本比例检验比较发病率[33]。为了评估报告时间对提取特征与临床结果之间关联的潜在混淆,我们还进行了敏感性分析,选择了从上一份报告中提取的特征。


模型的性能

训练集包括来自270名CMR时中位年龄为65岁(IQR 54-74)的个体的报告,其中34.2% (n=92)为女性(表2)。测试集包括100例CMR时中位年龄为58 (IQR 45-66)岁的患者的报告,其中33% (n=33)为女性(表2)。

所有预训练权值和数值表示的组合都获得了优异的宏观平均F1-测试集的分数。表3说明了最大宏观平均F1-预训练权重初始化和数值表示的所有组合的分数。表现最好的组合是BERT,对已替换的十进制数字表示方案进行了微调,从而实现了最大的宏观平均F1- 12次微调后得分为0.957。宏观平均图F1-测试集在训练周期上的得分见图S1多媒体附录1特征接收器工作特性曲线如图所示图5。特征级宏观平均的范围F1-分数为0.902 ~ 1.000,所有分数报告于表S5;多媒体附录1。为了研究标注工作对模型性能的影响,我们对BERT的组合进行了微调对不同子集的训练数据进行预训练和替换十进制数字表示,并绘制宏观平均值F1-测试集得分(图6)。该图显示,当训练报告的数量从45个迭代地增加到大约200个时,性能的显著提高是一致的,但在此之后开始饱和。我们还将训练样本中的注释数量与test关联起来F1并且没有发现很强的关系(图S2,多媒体附录1)。

表3。最大macroaveragedF 1通过预训练的权重初始化和数字表示,在金标准测试标签上引导95%的ci。
体系结构 数值表示,最大宏观平均F1-score (95% CI)
原始 取代了小数 一致的数字 科学 单词
PubMedBERT一个 0.954 (0.947 - -0.960) 0.952 (0.947 - -0.960) 0.950 (0.945 - -0.955) 0.955 b (0.948 - -0.960) 0.953 (0.949 - -0.958)
SapBERT 0.955 (0.949 - -0.960) 0.954 (0.949 - -0.960) 0.955 (0.949 - -0.960) 0.955 (0.948 - -0.960) 0.956 b (0.951 - -0.961)
生物+放电
SummaryBERT
0.950 (0.944 - -0.957) 0.953 b (0.947 - -0.959) 0.953 (0.945 - -0.958) 0.952 (0.945 - -0.958) 0.946 (0.942 - -0.952)
伯特 0.951 (0.945 - -0.957) 0.957b(0.951 - -0.962) 0.951 (0.945 - -0.957) 0.944 (0.938 - -0.951) 0.952 (0.947 - -0.957)

一个BERT:来自变形金刚的双向编码器表示。

b每个预训练权值初始化的最佳表现数值表示。

图5。通过心脏磁共振成像测量对测试集进行模型预测的接受者工作特性曲线。AUC:接收机工作特性曲线下的面积。
查看此图
图6。调整伯特使用替换的十进制数字表示的性能,作为训练集中注释报告数量的函数。
查看此图

在EWOC中,来自9280名个体的12,720份CMR报告组成了CMR结果集(图1)。CMR时结果组个体的中位年龄为57岁(IQR 46-67)岁,39.50%(3666/9280)为女性(表1)。在选择了最佳模型配置之后,我们应用表现最好的模型来推断该集合中所有报告的CMR值。运行推理后,我们通过生理下界和上界进行过滤(表S6;多媒体附录1),共提取了136,407个测量值。每个提取的特征和分布指标的计数如表7所示多媒体附录1。我们还比较了CMR结果集中包含模型预测测量值的报告的比例,发现它们与测试集中的金标准注释比例一致(表S8;多媒体附录1)。

与临床结果的关联

CMR结果组个体的中位随访时间为5.3 (IQR为2.8-9.2)。在随访期间,我们观察到1520例心力衰竭事件,1488例房颤事件和909例死亡。从9280例个体中提取LVMI 5015例(54.04%)。在结果集中,LVMI的增加与死亡率、房颤和心力衰竭的发生率增加相关,最低和最高四分位数之间的发病率有统计学差异(图7)。死亡率为每100人年0.9例死亡(PY;95% CI 0.7-1.1),而LVMI提取的最高四分位数(95% CI 1.9-2.6)中,每100 PY有2.2例死亡(95% CI 0.7-1.1)。P< . 05;图7)。在LVMI提取的最低四分位数中,房颤的发生率为每100 PY 3.0个事件(95% CI2.5-3.5),而在LVMI提取的最高四分位数中,房颤的发生率为每100 PY 7.9个事件(95% CI 6.8-8.7) (P< . 05)。在LVMI提取的最低四分位数中,心力衰竭的发生率为每100 PY 3.2件(95% CI 2.7-3.7),而在LVMI提取的最高四分位数中,心力衰竭的发生率为每100 PY 8.1件(95% CI 7.2-9.1) (P< . 05)。

图7。提取的左心室质量指数、左心室射血分数和右心室射血分数与临床结果的关系。
查看此图

9280例患者中提取LVEF 7389例(79.62%),其中2297例符合左室收缩功能异常(LVEF <50%)标准。从9280例患者中提取RVEF 6324例(68.15%),其中1626例符合右室收缩功能异常标准(RVEF <45%;图7)。与心室功能正常的患者相比,LVEF和RVEF异常均与死亡率增加显著相关(P<.两项指标均为05)。在LVEF异常组中,死亡率为每100 PY 2.5例死亡(95% CI 2.2-2.8),而LVEF正常组为每100 PY 1.1例死亡(95% CI 0.9-1.2)。P< . 05)。在异常RVEF组,死亡率为每100 PY 2.5例死亡(95% CI 2.1-2.8),而正常RVEF组为每100 PY 1.0例死亡(95% CI 0.9-1.2)。P< . 05)。

我们还进行了敏感性分析,其中最后一次CMR报告用于LVMI, LVEF和RVEF的特征提取。5015个个体中有687个(13.70%)具有1个以上的LVMI, 7389个个体中有1268个(17.16%)具有1个以上的LVEF, 6324个个体中有1038个(16.41%)具有1个以上的RVEF。LVMI首次和最后报告的平均时差为2.4 (SD 2.2)年,LVEF为2.9 (SD 2.9)年,RVEF为2.7 (SD 2.6)年。与初步分析相似,我们观察到随着LVMI的增加,死亡率、房颤和心力衰竭的发生率增加;与LVEF或RVEF正常的个体相比,LVEF或RVEF异常的个体死亡率明显更高(图S3)。多媒体附录1)。


主要结果

在这项研究中,我们报告了一种准确实用的基于nlp的方法,可以同时从CMR报告中提取21个定量测量值。我们最后的模型,产生了宏观平均F1-得分为0.957,来源于利用开源框架收集金标准临床医生标签和公开可用的变压器模型权重的工作流。我们还通过证明提取的CMR测量值与房颤、心力衰竭和死亡率等结果的已知关联,强调了我们方法的临床有效性(图7) [30.34]。

我们发现BERT与基于临床预训练的模型初始化相比,表现出优异的性能,说明临床预训练对临床数值提取没有显著影响(表3)。伯特大于现有的临床导向模型,模型复杂性可能对比较性能起作用,表明更大的临床预训练模型代表了未来工作的一个方向。我们还试验了4种不同的数值测量替代表示,发现测试性能与默认表示(表3)。我们的研究结果表明,对于提取数值量的特殊情况,基于变压器的模型不需要临床预训练或替代数值表示。通过有限训练集大小的实验,我们发现在少于50个标记报告的情况下可以获得出色的性能。此外,175个报告的训练集足以训练出一个性能在270个报告训练的模型的95% CI范围内的模型(图6)。

我们的模型提取的测量值可能有助于一系列重要心脏病的自动表征,我们将其留给未来的工作。我们期望我们提出的工作流程可以很容易地被其他人从临床文本中提取任意测量值。PRAnCER平台是开源的,可以很容易地适应标记感兴趣的临床测量。我们用于微调和评估NLP模型的软件也是开源的[34],并且可以使用配备标准图形处理单元的机器进行模型训练。我们期望可以在临床领域中提取任意数量的临床测量数据,这些数据具有实际数量的标记工作和计算需求,而不限于cmr。

基于注意的错误模式探索

误差模式的表征可以对模型预测的信心和未来研究人员寻找改进模型的方法具有指导意义。尽管我们的最佳模型在我们考虑的所有类型的测量中总体上具有很高的准确性,但最常见的错误模式涉及到模型将应该标记为测量值的值分配为“0”标签。在我们研究的许多情况下,尽管要标记的值周围有类似的标记序列,但像“主动脉根部尺寸”这样的测量值在一个报告中会被正确标记,而在另一个报告中不会被标记。通过检查两个报告中要标记的令牌的注意权重,我们发现正确标记的值对前面的“主动脉根部尺寸”短语中的“尺寸”一词的权重最大。对于错误标记的值,4个最常使用的标记中有3个是单词“dimension”的单独实例,其中一个是正确短语的一部分,其他实例出现在文本的其余部分。所有的注意权重都远远低于正确标记的例子对“维度”一词的注意权重。这可能表明进一步改进的机会可能涉及提供更多的训练示例,其中包含我们数据集中大多数报告中缺失的文本部分,或者通过使用包含关键标记的合成文本来增加现有的标记文本。

此外,我们认识到,虽然我们的模型表现良好,但提取错误是不可避免的。这些错误的临床后果取决于具体的特征。例如,不正确的LVEF提取可能会将心力衰竭患者错误地分类为射血分数降低或射血分数保留,从而影响治疗选择。同样,不正确的RVEF可能会对右侧心力衰竭患者进行错误分类。不正确的主动脉根部大小可能会对主动脉根部动脉瘤进行错误的分类。假阳性误差可能特别难以检测,因为生理滤波的最后后处理停止意味着假阳性仍将在预期范围内。因此,仔细评估模型的性能是必要的,特别是在将这样的模型应用于新数据集时。

与前期工作比较

据我们所知,这是第一个使用基于变压器的模型(没有从头开始预训练)对临床医生标签进行微调以从诊断文本中提取数值测量的例子。我们之前演示了基于使用基于规则的方法生成的大量弱标签从临床文本中提取4个生命体征测量值的价值[16]。我们以前的方法是基于这样的假设:为了对基于转换器的方法进行微调,积累足够数量的黄金标准注释是不切实际的。然而,我们发现单个临床医生最多需要15个小时才能为21种类型的定量测量生成足够的金标准注释,从而消除了对基于规则的方法的需求,并且易于扩展到大量相关测量。

最近的工作[15]在特定领域的数据上,使用了由预训练BERT模型和FLAIR模型产生的嵌入组合。然后,嵌入被用作双向长短期记忆与条件随机场层的组合的输入,以标记感兴趣的标记,包括数值测量。这种方法工作得很好,并取得了与我们的方法相当的性能与类似数量的标签工作。我们用我们的工作证明,在特定领域的数据上从头开始预训练模型是没有必要的,以达到高水平的准确性。可以避免在临床数据上从头开始预训练模型所需的数天,甚至数周的计算时间。此外,我们还研究了注释数量对性能的影响。

从临床文本中提取数值测量的其他方法也达到了合理的准确性,但我们认为我们的方法最大限度地减少了标记工作,更健壮,并且足够的计算效率,可以作为加速基于ehr的临床研究的实用解决方案。基于规则的方法虽然可能准确,但通常需要多次开发和验证,以确保临床文本的广泛可变性的准确性[4]。先前的工作也表明,基于规则的方法可能不容易移植到开发地以外的其他电子病历中。Adekkanattu等人在评估基于规则的超声心动图测量提取模型的可移植性的工作中[7报告变量F1-临床部位不同的分数。我们证明,在临床文本上预先训练的基于转换器的模型可以在实际数量的标签上进行微调,以学习以灵活的方式提取测量值,以适应临床文本中如何表达此类测量值的可变性。

未来工作的限制和方向

我们的研究必须在其局限性的背景下加以解释。我们的测试集由100个报告的相对较小的样本组成,但是对相同大小的测试集随机重新抽样的分析产生了具有显着接近宏观范围的模型F1-分数(0.947-0.970横跨10个样本),这表明我们的方法的稳健性。我们的方法需要最小程度的后处理,主要涉及对模型提取的值施加生理范围。尽管以这种方式过滤的值相对较少,但这些值可能表示模型误报。后处理的另一个方面涉及扩展模型预测,以包括很少发生的遗漏有效数字。我们对数值表示和预训练模型的实验使提取精度很高,但需要进一步的工作来了解如何最好地使用基于变压器的模型来处理任意数值[35]。此外,CMR报告来自一个大型的异构医疗保健系统,虽然我们的模型能够处理相关测量的显着变异性,但需要进一步的工作来证明我们的建模方法可移植到其他机构。

与其他具有医疗保健应用的人工智能模型类似,我们的模型的临床实施受到几个障碍的阻碍[36]。第一个是在EHR环境中部署模型,这涉及访问孤立的临床数据和将建模结果集成到电子环境中以进行表示。第二是确保模型能够适应机构之间或在模型的整个生命周期内报告结构的变化。最后,监测和定期质量控制对确保患者安全至关重要。虽然很少有模型成功地克服了这些挑战,但我们假设我们的工作提供了一种适应报告结构变化的建模策略,并为开发针对其他重要临床任务的新定量模型提供了框架。未来的工作应该在实时设置中测试这些模型的性能,以证明对新环境和数据结构的通用性。

结论

我们提出了一个强大的自然语言工作流,用于同时从CMR自由文本报告中提取21种类型的数值测量。我们发现,一般预训练的基于变压器的语言模型需要相对较少的金标准注释,需要最少的数据处理,并且对数值测量的上下文和表示中的显著变化具有鲁棒性。我们观察到提取的CMR测量值与已知的临床结果(如心力衰竭、心房颤动和死亡率)之间的预期关联。我们的工作流程是可重复的,很可能适用于许多其他类型的临床数据。

致谢

我们要感谢Monica Agrawal和David Sontag的协助,使临床实体识别快速注释平台(PRAnCER)平台能够标记心脏磁共振成像(CMR)报告。

利益冲突

截至2022年7月18日,SAL是诺华的全职员工。SAL此前获得了NIH拨款R01HL139731和R01HL157635以及美国心脏协会18SFRN34250007的支持。SAL获得了Bristol Myers Squibb, Pfizer, Boehringer Ingelheim, Fitbit, Medtronic, Premier和IBM的赞助研究支持,并为Bristol Myers Squibb, Pfizer, Blackstone Life Sciences和Invitae提供咨询。JEH获得了拜耳公司的赞助研究支持。他接受拜耳公司和IBM公司的赞助研究支持,并为诺华公司和普罗米修斯生物科学公司提供咨询。CDA获得拜耳公司赞助的研究支持,并为ApoPharma提供咨询。其他作者报告没有潜在的利益冲突。

多媒体附录1

补充材料。

DOC文件,711 KB

  1. McMurray J, Adamopoulos S, Anker S, Auricchio A, Böhm M, Dickstein K, ESC实践指南委员会。2012年ESC急性和慢性心力衰竭诊断和治疗指南:欧洲心脏病学会急性和慢性心力衰竭诊断和治疗工作组。与ESC的心力衰竭协会(HFA)合作开发。中华心脏杂志,2012;33(14):1787-1847。[CrossRef] [Medline
  2. 马西蒙。右心衰的评估与治疗。中华医学杂志,2013;10(4):204-218。[CrossRef] [Medline
  3. Isselbacher,胸腹主动脉瘤。2005年2月15日;111(6):816-828。[CrossRef
  4. 蔡涛,张丽,杨宁,Kumamaru KK, Rybicki FJ,蔡涛,等。EMR数值数据的提取:扩展临床研究的有效和可推广的工具。BMC Med Inform Decis ma2019 11月15日;19(1):226 [j]免费全文] [CrossRef] [Medline
  5. 李建军,李建军,李建军,等。基于自然语言处理算法的糖尿病前期研究。中国医学信息学报(英文版);2009;10(2):29803 [j]免费全文] [CrossRef] [Medline
  6. 张建军,张建军,张建军。超声心动图数据提取方法的研究进展。PLoS One 2016;11(4):e0153749 [j]免费全文] [CrossRef] [Medline
  7. 张建军,张建军,李建军,等。评价处理超声心动图的NLP系统的可移植性:一项回顾性、多地点观察性研究。中国科学院学报(英文版);2019;19 (3):391 - 391 [j]免费全文] [Medline
  8. 张建军,张建军,张建军,等。注意力就是你所需的一切2017年发表于:神经信息处理系统的进展;2017年12月4日;加州长滩http://arxiv.org/abs/1706.03762
  9. Devlin J, Chang M, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。2019年发表于:计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长、短论文);2019年6月2日;明尼阿波利斯,明尼苏达州http://arxiv.org/abs/1810.04805CrossRef
  10. 王安,王志强,王志强,王志强,等。SuperGLUE:通用语言理解系统的一个粘性更高的基准。2019年发表于:神经信息处理系统的进展;2019年12月8日;温哥华,不列颠哥伦比亚省http://arxiv.org/abs/1905.00537CrossRef
  11. 顾勇,丁瑞,程华,Lucas M, Usuyama N,刘旭,等。面向生物医学自然语言处理的领域特定语言模型预训练。ACM反式。第一版。医疗保健2022年1月31日;3(1):1-23。[CrossRef
  12. 刘峰,李建军,李建军,张建军。生物医学实体表征的自对齐预训练。提交于:计算语言学协会北美分会2021年会议论文集:人类语言技术;2021年6月6日;在线网址:http://arxiv.org/abs/2010.11784CrossRef
  13. Alsentzer E, Murphy J, Boag W, Weng W, Jin D, Naumann T,等。公开可用的临床BERT嵌入。2019年发表于:第二届临床自然语言处理研讨会论文集;2019年6月7日;明尼阿波利斯,马萨诸塞州http://arxiv.org/abs/1904.03323CrossRef
  14. Zaman S, Petri C, Vimalesvaran K, Howard J, Bharath A, Francis D,等。基于文本报告半监督自然语言处理的心血管mri自动诊断标记。放射科学与工程学报,2016,31 (1):391 - 391 [j]免费全文] [CrossRef] [Medline
  15. 张建军,张建军,张建军,等。h-ANN模型:使用组合上下文嵌入的综合结肠镜概念编译。生物医学工程学报,2002,21 (5):559 - 559 [j]免费全文] [CrossRef] [Medline
  16. 李建军,李建军,李建军,等。群组设计和自然语言处理以减少电子健康记录研究中的偏差。中华医学杂志(英文版);2008;5(1):47 [j]免费全文] [CrossRef] [Medline
  17. GitHub。绝地武士。URL:https://github.com/broadinstitute/jedi-public[2022-01-01]访问
  18. Moon S, Sagheb E, Liu S, Chen D, Bos M, Geske J,等。13811:一种自动自然语言处理算法,用于对肥厚性心肌病阳性诊断的磁共振成像报告进行分类。发行量2019;140:A13811。
  19. Github。PRAnCER:为临床实体识别提供快速注释的平台。URL:https://github.com/clinicalml/prancer[2022-01-01]访问
  20. 统一医学语言系统(UMLS):整合生物医学术语。核酸学报2004年1月01日;32(数据库版):D267-D270 [免费全文] [CrossRef] [Medline
  21. 刘建军,刘建军,张建军,等。一种基于算法的变压器设计方法。2021年发表于:ICLR 2021通用人工智能研讨会数学推理;2021年5月7日;在线网址:http://arxiv.org/abs/2102.13019
  22. 李建军,李建军,李建军,等。HuggingFace的变形金刚:最先进的自然语言处理。2020年自然语言处理经验方法会议论文集:系统演示;2020年11月16日至20日;在线网址:http://arxiv.org/abs/1910.03771CrossRef
  23. 模型。拥抱的脸。URL:https://huggingface.co/models[2022-03-14]访问
  24. Kawel-Boehm N, Hetzel SJ, Ambale-Venkatesh B, capture G, Francois CJ, Jerosch-Herold M,等。成人和儿童心血管磁共振(CMR)参考范围(“正常值”):2020年更新。中华心血管病杂志2020年12月14日;22(1):87免费全文] [CrossRef] [Medline
  25. Olivotto I, Maron MS, Autore C, Lesser JR, Rega L, Casolo G,等。肥厚性心肌病左室质量的心血管磁共振评价及其意义。美国心脏病学会杂志2008;52(7):559-566。[CrossRef
  26. Hombach V, Merkle N, Torzewski J, Kraus JM, Kunze M, Zimmermann O,等。心电图和心脏磁共振成像参数作为特发性扩张型心肌病患者预后较差的预测因素。欧洲心脏杂志2009年7月24日;30(16):2011-2018。[CrossRef
  27. de Simone G, Gottdiener J, Chinali M, Maurer M.左心室质量预测心力衰竭与既往心肌梗死无关。欧洲心脏杂志2008;29(6):741-747。[CrossRef] [Medline
  28. Vakili BA, Okin PM, Devereux RB。左心室肥厚的预后意义。美国心脏杂志2001;41(3):334-341。[CrossRef
  29. 杨建军,李建军,李建军,等。高血压患者心房颤动。高血压,2003;41(2):218-223。[CrossRef
  30. Surkova E, Muraru D, Genovese D, Aruta P, Palermo C, Badano LP。左、右心室射血分数对心脏病患者预后的相对重要性。中华医学会心脏科杂志,2019;32(11):1407-1415。[CrossRef] [Medline
  31. Goff DC, Pandey DK, Chan FA, Ortiz C, Nichaman MZ。充血性心力衰竭在美国:是否有超过符合I(CD代码)?科珀斯克里斯蒂心脏项目。中华医科大学学报(自然科学版);2009;31(2):397 - 396。[CrossRef] [Medline
  32. Khurshid S, Keaney J, Ellinor PT, Lubitz SA。一种简单便携的识别电子病历中房颤的算法。中华心血管病杂志,2016;17(2):221-225 [J]免费全文] [CrossRef] [Medline
  33. 用条件和无条件精确试验比较两种独立的发病率。药学杂志2008;7(3):195-201。[CrossRef] [Medline
  34. 永田,吴志强,Kado Y, Otani K, Lin F, Otsuji Y,等。经胸三维超声心动图评价右心室射血分数的预后价值。中国心血管杂志,2017;10(2):e005384。[CrossRef] [Medline
  35. 李建军,李建军,李建军,等。NLP中数字表征的研究进展与展望。:计算语言学协会;提交于:计算语言学协会北美分会2021年会议论文集:人类语言技术;2021年6月6日;在线第644-656页。[CrossRef
  36. Kelly CJ, Karthikesalingam A, Suleyman M, Corrado G, King D.人工智能在临床应用中的关键挑战。中华医学杂志2019;17(1):195 [j]免费全文] [CrossRef] [Medline


伯特:来自变压器的双向编码器表示
CMR:心脏磁共振成像
电子健康档案:电子健康记录
EWOC:心脏病企业仓库
LVEF:左心室射血分数
LVMI:左心室质量指数
国家卫生研究院:美国国立卫生研究院
NLP:自然语言处理
舞蹈者:为临床实体识别提供快速注释的平台
PY:人每年
RVEF:右心室射血分数


郝编辑;提交21.03.22;A Arruda-Olson、G Lim、M Syed、R Abeysinghe同行评议;对作者的评论28.05.22;修订版本收到22.07.22;接受11.08.22;发表16.09.22

版权

©Pulkit Singh, Julian Haimovich, Christopher Reeder, Shaan Khurshid, Emily S Lau, Jonathan W Cunningham, Anthony Philippakis, Christopher D Anderson, Jennifer E Ho, Steven A Lubitz, Puneet Batra。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2022年9月16日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map