发表在第10卷第9期(2022):9月

本文的预印本(早期版本)可在以下网站获得https://preprints.www.mybigtv.com/preprint/38178,首次出版
你只需要一个临床医生-心脏磁共振成像测量提取:深度学习算法开发

你只需要一个临床医生-心脏磁共振成像测量提取:深度学习算法开发

你只需要一个临床医生-心脏磁共振成像测量提取:深度学习算法开发

原始论文

1数据科学平台,哈佛和麻省理工学院布罗德研究所,剑桥,MA,美国

2美国麻萨诸塞州波士顿哈佛医学院麻省总医院医学系

3.美国马萨诸塞州波士顿马萨诸塞州总医院心血管研究中心

4心血管疾病倡议,哈佛大学和麻省理工学院布罗德研究所,美国马萨诸塞州剑桥

5美国麻萨诸塞州波士顿马萨诸塞州总医院德莫拉斯心律失常中心

6美国麻州波士顿布里格姆妇女医院心脏病科

7埃里克和温迪施密特中心,哈佛和麻省理工学院布罗德研究所,剑桥,马萨诸塞州,美国

8美国麻萨诸塞州波士顿布里格姆妇女医院神经内科

9亨利和艾莉森·麦坎斯脑健康中心,马萨诸塞州波士顿总医院,马萨诸塞州,美国

10基因组医学中心,麻省总医院,波士顿,马萨诸塞州,美国

11美国麻萨诸塞州波士顿贝斯以色列女执事医疗中心医学部心血管研究所和心脏病科

通讯作者:

普奈特·巴特拉博士

数据科学平台

哈佛和麻省理工的布罗德研究所

缅街415号

马萨诸塞州坎布里奇,02142

美国

电话:1 617 714 7000

电子邮件:gpbatra@gmail.com


背景:心脏磁共振成像(CMR)是一种强大的诊断方式,提供心脏解剖和功能的详细定量评估。从通常以非结构化文本形式存储在电子健康记录系统中的临床报告中自动提取CMR测量值将有助于它们在研究中的使用。现有的机器学习方法要么依赖于大量的专家注释,要么需要开发精心设计的规则,这些规则既耗时又特定于开发它们的环境。

摘要目的:我们假设,使用预训练的基于转换器的语言模型可以从临床文本中实现标签高效的数值提取,而不需要启发式或大量的专家注释。在这里,我们对预先训练的基于变压器的语言模型进行微调,针对少量CMR注释提取21个CMR测量值。我们评估了临床预训练的效果,以减少标记需求,并探索了数字输入的替代表示,以提高性能。

方法:我们的研究样本包括在一个多机构卫生保健系统中接受纵向心脏病学护理的99252名患者。共有来自9280名患者的12720份可用的CMR报告。我们改编了PRAnCER(临床实体识别快速注释平台),这是一种临床文本注释工具,从一名研究临床医生那里收集370份报告的注释。我们实验了5种不同的数值表示和几种模型权值初始化。我们用宏平均法评估提取性能F1-兴趣测量的得分。我们应用性能最佳的模型从研究样本中剩余的CMR报告中提取测量值,并评估所选提取的测量值与临床结果之间建立的关联,以证明有效性。

结果:权值初始化和数值表示的所有组合在金标准测试集上都获得了优异的性能,这表明在一小组注释上微调的变压器模型可以有效地提取数值量。我们的结果进一步表明,自定义数值表示似乎对提取性能没有显著影响。表现最好的模型实现了宏平均F1-评估的CMR测量值为0.957(表现最差的左房前后维测量值为0.92,表现最好的左室收缩期容积指数和左室收缩期直径测量值为1.0)。对研究队列应用最佳表现模型,从研究样本的所有可用报告中获得136,407个测量值。我们观察了提取的左室质量指数、左室射血分数和右室射血分数与房颤、心力衰竭和死亡率等临床结果之间的预期关联。

结论:该研究表明,一个领域不可知的预训练变压器模型能够有效地从诊断报告中提取定量临床测量值,且具有相对较少的金标准注释。建议的工作流程可以作为其他定量实体提取的路线图。

JMIR Med Inform 2022;10(9):e38178

doi: 10.2196/38178

关键字



心脏磁共振成像(CMR)有助于描述许多重要的心脏疾病,包括左右心室衰竭、左心室肥厚和主动脉根动脉瘤。左室射血分数(LVEF)的量化和将心力衰竭患者分为射血分数降低、中度降低或保留的患者是为特定患者选择适当治疗方法的基石[1].CMR还量化了右心室功能,值得注意的是,CMR是唯一能够充分评估右心室的无创诊断方式[2].CMR的解剖信息也可用于诊断其他重要的心脏疾病,包括左心室肥厚(这是心脏整体健康的一个重要标志)和胸主动脉根动脉瘤[3.].CMR测量,除了其他诊断信息外,被嵌入到叙述临床文本中。在许多电子健康记录(EHR)系统中,这些测量数据无法以易于访问的统一结构化格式提供。开发自动从非结构化CMR报告中提取定量度量的工具将促进它们在研究中的使用,包括作为机器学习模型的输入。

现有的从临床文本中提取测量值的方法通常基于人工开发的启发式或机器学习方法,这些方法从标记数据中学习,但不利用预先训练的语言表示。基于规则的方法[4],虽然计算效率高,但需要大量的人工工作来构建,并且会随着报告的语言结构的变化而导致性能下降[5].其他工作使用了支持向量机和长时间短期记忆模型等机器学习方法从临床记录中提取测量值,但由于缺乏预培训,这些方法需要大量的专家注释[6].此外,以往的临床测量提取方法依赖大量的数据特定预处理,这可能无法很好地转化为开发启发式方法的地方以外的电子病历[7].

基于变压器的神经网络,如来自变压器的双向编码器表示(BERT) [89在各种自然语言处理(NLP)任务中取得了最先进的成果[10].这些模型在大量文本上进行预训练,以学习一般的语言结构,并生成语言的上下文化表示。这种预训练范式的优点是,可以使用最小的问题特定标签对这些网络进行微调,从而在许多自然语言任务中实现最先进的性能。BERT最初接受的是维基百科等一般领域文本的预训练,但后来通过对领域特定文本的预训练进行了调整,以用于临床应用[11-14].尽管基于变压器的模型已显示出从临床文本中提取非数值实体(如解剖术语和疾病状态)的有效性[14],它们在从临床文献中提取数值量方面的应用一直受到限制[1516].

在这项研究中,我们假设在一小组注释上进行微调的预训练变压器可以有效地从诊断文本中提取数值量。我们微调了一系列预训练的变压器,包括临床导向的变压器,以开发一个NLP工作流,同时从心脏病学为基础的EHR队列的CMR报告中提取21个心脏结构和功能的特定测量值。这个集合代表了CMR报告中所有有临床意义的定量成像结果。我们还探讨了与报告中出现的默认表示相比,替代数值表示是否会影响提取质量。在选择了性能最好的模型之后,我们应用我们的工作流程从研究队列中所有可用的CMR报告中提取测量值。为了证明这些提取的准确性,我们评估了提取的心脏解剖结构和功能指标与事件临床结果之间的预期关联。


研究样本

个体从一个多机构学术卫生保健系统(马萨诸塞布里格姆总医院)的回顾性社区门诊心脏病学样本(心脏病学企业仓库[EWOC])中选择。EWOC包括99252名18岁或以上的成年人,在2000年至2019年的1至3年内有2次以上心脏病科门诊就诊。队列中每个个体都可获得广泛的电子病历数据,包括人口统计学、人体测量学、生命体征、叙述笔记、实验室结果、药物清单、放射学和心脏病学诊断测试结果、病理报告以及程序和诊断管理账单代码[16].使用绝地提取数据基础设施处理这些数据[17].在排除了6个没有CMR数据的个人和报告后,EWOC有9280个人的12,720份CMR报告(图1).

图1。研究样本的CONSORT(试验报告综合标准)图表。CMR:心脏磁共振成像;EWOC:心脏病学企业仓库。
查看此图

伦理批准

该研究获得了马萨诸塞州布里格姆机构审查委员会(2017P001650)的批准。

临床特征的确定

基线特征的定义采用以前出版的《国际疾病分类》、第9和第10版诊断代码分组[16].分析中使用的临床特征定义见表S1多媒体附件1.建模样本中个体的基线特征已在CMR日期之前确定(表1).

表1。训练集、测试集和CMR结果集的基线特征。
训练集(N=278) 测试集(N=100) CMRa结果集合(N=9280)
年龄(年),中位数(Q1, Q3) 54 (46,64) 58 (45,66) 57 (46,67)
女性,n (%) 95 (34.2) 33 (33) 3666 (39.5)
糖尿病,n (%) 23日(8.3) 10 (10) 1216 (13.1)
冠状动脉疾病,n (%) 69 (24.8) 31 (31) 3406 (36.7)
心肌梗死,n (%) 42 (15.1) 15 (15) 1791 (19.3)
心房颤动,n (%) 104 (37.4) 24 (24) 3164 (34.1)
肥胖,n (%) 12 (4.3) 7 (7) 631 (6.8)
慢性肾脏疾病,n (%) 26日(9.4) 7 (7) 1123 (12.1)
高血压,n (%) 130 (46.8) 55 (55) 5563 (59.9)
种族,n (%)

白色 237 (85.3) 93 (93) 7814 (84.2)

亚洲 14 (5.0) 1 (1) 251 (2.7)

黑色的 13 (4.7) 2 (2) 520 (5.6)

其他 7 (2.5) 1 (1) 195 (2.1)

拉美裔 4 (1.4) 0 (0) 111 (1.2)

未知的 3 (1.1) 3 (3) 390 (4.2)

一个CMR:心脏磁共振成像。

b包括企业心脏病仓库中所有具有CMR报告的个人。

CMR标签

与其他电子病历相似,定量CMR测量包含在麻省总医院布里格姆电子病历的自由文本诊断报告中[1418].我们利用PRAnCER(用于临床实体识别的快速注释平台)[19],一个直观标记的开源软件应用程序,从EWOC CMR报告中注释21个临床重要测量值(文本框1).我们调整了PRAnCER,使其能够使用包含CMR特性的定制模式,而不是统一医疗语言系统词汇表[20.它就是为此而设计的。度量实例的格式和上下文有很大的可变性。这包括报告中度量值的顺序、用于引用特定度量值的语言、单元的存在或缺失,以及度量名称和值本身之间的位置关系(图2).

在所有可用的报告中,370例从独特的个体中随机选择,由研究临床医生(JSH)注释。从这些报告中,270份被随机划分到一个训练集,而剩下的100份被保留用于模型测试(图1).训练集和测试集都没有出现个体。由于CMR方案可能根据研究的临床指征而有所不同,每个报告的测量总数从1到21次不等。在训练集和测试集中每个独特特征的计数见表S2多媒体附件1.所有370份报告的临床医生标记时间估计为15小时。

最后,为了解决临床注释的质量问题,我们使用了一个辅助注释器(PB)来仅标记保留用于模型测试的100份报告。根据临床实体提取文献,我们计算标注者之间的一致性为标注者之间匹配提取的比例[15].总体一致性为91.6%,测量方面的一致性值可在表S3中获得多媒体附件1考虑到注释任务的性质,当两个注释者从报告中选择一个度量值时,具有完美的精确度,任何分歧表示由于疲劳或指导方针的差异而错过的值。鉴于一致性较高,我们仅对研究临床医生(JSH)的注释进行了模型推导和验证。

从心脏磁共振成像报告中提取的临床测量值。

左心室解剖和功能

  • 左室舒张末期容积
  • 左室舒张末期容积指数
  • 左心室舒张末期内径
  • 左心室收缩量
  • 左心室收缩压指数
  • 左心室收缩压端径
  • 左心室射血分数
  • 左心室搏量
  • 左心室肿块
  • 左心室质量指数
  • 心输出量
  • 心脏指数

右心室解剖与功能

  • 右心室舒张末期容积
  • 右心室舒张末期容积指数
  • 右心室收缩末期容积
  • 右心室收缩末期容积指数
  • 右心室搏量
  • 右心室搏量

其他心脏结构解剖

  • 左房前后径
  • 肺动脉尺寸
  • 主动脉根尺寸
文本框1。从心脏磁共振成像报告中提取的临床测量值。
图2。3个心脏磁共振成像报告(A,B,C)量化右心室功能的示例文本。在等效测量方法上缺乏一致性使得精确提取测量具有挑战性。黄色标记的特征为右心室舒张末期容积(RVEDV),蓝色标记的特征为右心室舒张末期容积指数(RVEDVI)。例C中不包含RVEDVI特性。EDV:舒张末期容积;EF:射血分数;ESV;收缩期结束容积;RVEF:右心室射血分数; RVESV: right ventricular end systolic volume; RVESVI: right ventricular end systolic volume index; RVSV: right ventricular stroke volume.
查看此图

数值表示

先前的工作表明,使用替代表示代替默认的数字表面表示对变压器模型在文本中执行定量操作的能力有显著影响,例如简单算术[21].大多数基于变压器的模型的词汇表包含数量有限的数值,通常没有十进制数字,因为它们是从用于预训练的语料库中最常出现的单词构建的。大多数变压器模型使用的标记化过程基于标点符号分离“单词”,不区分句点和小数点,这导致小数被分解为多个标记。鉴于默认数值表示的潜在局限性,我们研究了采用替代数值表示是否会影响临床定量测量的提取质量。我们为CMR报告中的定量令牌设计了4种不同类型的数值转换,它们分别应用于训练样本和测试样本进行模型推导。这些方法包括用一个特殊的令牌替换小数点,以确保在标记过程中小数点保持不变,所有值的位数一致,科学记数法,以及将数量转换为单词。表2演示了文本片段和的这些转换多媒体附件1包含有关其实现的更多信息。

表2。文本片段示例的数值转换。
转换的名字 转换代码片段 笔记
原始 RVESV一个: 51.01 ml 没有转换;供参考
取代了小数 RVESV: 51|01 ml 小数点用特殊分隔符替换;支持将解析作为单个标记,而不是被分解
一致的数字 RVESV: 051010 ml 所有数字转换为6位长度
科学记数法 RVESV: 5.10100 e + 01 所有数字转换为科学记数法,有5位有效数字
单词 RVESV: 51.1毫升 数字转换为相应的单词表示

一个RVESV:右心室收缩末期容积。

模型推导与验证

我们的建模方法包括使用HuggingFace变压器库微调基于变压器的模型[22]来预测给定CMR报告中每个令牌的标签。为此,我们在BERT体系结构的最后一层上附加了一个线性分类头。分类头产生22个可能标签的分布—21个感兴趣的心脏测量值加上所有其他标记的“0”标签(图3).根据基于变压器的模型的输入大小限制,我们将报告文本预处理为包含128个令牌的部分,其中包含子词令牌化。我们使用了学习速率为5e的交叉熵损失5所有实验的批次都是32个。为了评估临床预训练对数值临床值提取的影响,我们用BERT提供的权重初始化BERT体系结构的权重89(~ 3.4亿个参数)以及PubMedBERT的临床导向权重[11,萨伯特[12, Bio+DischargeSummaryBERT [13)(每个参数约1.1亿个)。预训练的权重从HuggingFace模型中心下载[23].每个预先训练的体系结构都与5个数值表示配对。

每个模型都在由麻省布里格姆将军主持的临床数据科学计算集群中心上进行了微调。在配备图形处理单元的机器上,每个模型以大约每历2分钟的速度训练。权重初始化和数值表示策略的每个组合都微调了20个周期,平均需要40分钟。为了模型评估的目的,如果一个标记的预测得分大于0.5,我们就给该标记分配一个标签。性能评估使用宏平均F1-在所有21个感兴趣的测量中得分,因为这个指标捕获特性的性能,而不管在报告中出现的频率。对于每个模型,我们选择使宏平均值最大化的时代数F1分数。

基于我们的建模实验分配的标签的结果应用最小后处理。这包括合并额外的有效数字,显然应该作为测量的一部分,并将模型预测的令牌合并为结构化格式(多媒体附件1最后,我们使用来自CMR文献的参考范围对提取值应用上下限[24-26](表S4,多媒体附件1).概述了工作流程,包括收集临床注释,建模和提取最终测量结果的后处理图4

图3。用于微调预先训练的变压器体系结构的体系结构,该体系结构具有针对每个标记的金标准心脏共振成像注释和预测标签。BERT:双向编码器表示的变压器;ESV:收缩压结束容积。
查看此图
图4。用于收集临床注释、建模和从心脏磁共振成像报告中提取测量值的自然语言处理工作流。BERT:双向编码器表示的变压器;ESV:收缩压末期容积;CMR:心脏磁共振成像;PRAnCER:临床实体识别快速标注平台RVEDV:右心室舒张末期容积;RVESV:右心室收缩末期容积。
查看此图

与临床结果的关系

最后,为了评估模型提取的临床有效性,我们评估了所选择的提取特征是否显示了已知的与临床结果的关系,包括死亡率、心房颤动和心力衰竭[27-29].我们首先应用性能最高的模型,从EWOC的所有CMR报告中提取左心室质量指数(LVMI)、LVEF和右心室射血分数(RVEF)。我们没有为每个标签选择一个模型得分阈值,而是为每个标记选择得分最高的标签。对于拥有多个包含给定特征的报告的个体,我们使用从最早的报告中提取的特征进行初步分析。

然后我们根据提取的左心室质量的四分之一评估死亡率、心房纤颤和心力衰竭的发生率。我们还测量了异常和正常LVEF和RVEF的死亡率,分别定义为LVEF <50%和RVEF <45% [130.].使用先前描述的诊断代码分组定义临床结果[3132].在发生率分析中,我们忽略了在CMR之前或同一天发生主要转归(如心房纤颤或心力衰竭)的个体。对于房颤和心衰分析,随访时间从CMR开始,一直持续到主要结局、死亡或最后一次临床相遇的发生。对于死亡率分析,随访时间从CMR开始,一直持续到死亡或最后一次临床接触。用精确方法计算置信区间。我们使用两样本比例检验比较了发病率[33].为了评估报告时间对提取特征和临床结果之间关联的潜在混淆,我们还进行了敏感性分析,其中我们选择了从上一份报告中提取的特征。


模型的性能

训练集包括270名CMR时中位年龄为65岁(IQR 54-74)的个体报告,其中34.2% (n=92)为女性(表2).该测试集包括100例CMR发生时中位年龄为58岁(IQR 45-66)的个体报告,其中33% (n=33)为女性(表2).

所有预先训练的权重和数值表示的组合都获得了优秀的宏观平均F1-测试集的分数。表3说明了最大宏平均F1-预训练权值初始化和数值表示的所有组合的得分。表现最好的组合是BERT,对替换后的十进制数值表示格式进行了微调,获得了最大的宏观平均F1- 12期微调后的0.957分。一个宏观平均曲线F1在各个训练阶段测试集上的-score可在图S1中获得多媒体附件1接收器工作特性曲线如图所示图5.特征级宏平均的范围F1-scores为0.902到1.000,所有的分数都在表S5中报告,多媒体附件1.为了研究标签工作对模型性能的影响,我们对BERT的组合进行了微调对训练数据的不同子集进行预训练和替换后的十进制数字表示格式,并绘制宏平均F1-测试集的分数(图6).当训练报告的数量从45增加到大约200,但在这个点之后开始饱和时,该图显示了性能的持续显著提高。我们还将训练样本中标注的数量与测试相关F1并没有发现很强的相关性(图S2,多媒体附件1).

表3。最大macroaveragedF 1-通过预先训练的权重初始化和数值表示,在金标准测试标签上评分和引导95% ci。
体系结构 数值表示,最大宏平均F1-评分(95% CI)
原始 取代了小数 一致的数字 科学 单词
PubMedBERT一个 0.954 (0.947 - -0.960) 0.952 (0.947 - -0.960) 0.950 (0.945 - -0.955) 0.955 b (0.948 - -0.960) 0.953 (0.949 - -0.958)
SapBERT 0.955 (0.949 - -0.960) 0.954 (0.949 - -0.960) 0.955 (0.949 - -0.960) 0.955 (0.948 - -0.960) 0.956 b (0.951 - -0.961)
生物+放电
SummaryBERT
0.950 (0.944 - -0.957) 0.953 b (0.947 - -0.959) 0.953 (0.945 - -0.958) 0.952 (0.945 - -0.958) 0.946 (0.942 - -0.952)
伯特 0.951 (0.945 - -0.957) 0.957b(0.951 - -0.962) 0.951 (0.945 - -0.957) 0.944 (0.938 - -0.951) 0.952 (0.947 - -0.957)

一个来自变压器的双向编码器表示。

b每个预训练权值初始化的最佳表现数值表示。

图5。心脏磁共振成像测量测试集模型预测的接收器工作特性曲线。AUC:接收器工作特性曲线下的面积。
查看此图
图6。调整伯特替换了十进制数字表示的性能,作为训练集中标注报告数量的函数。
查看此图

在EWOC中,来自9280个人的12720份CMR报告组成了CMR结果集(图1).CMR结果中位年龄为57 (IQR 46-67)岁,39.50%(3666/9280)为女性(表1).在选择最佳模型配置后,我们应用性能最好的模型来推断该集合中所有报告的CMR值。运行推理后,我们根据生理下限和上界进行过滤(表S6,多媒体附件1),总共提取了136,407个测量值。每个提取的特征和分布指标的计数如表S7所示多媒体附件1.我们还比较了CMR结果集中包含模型预测度量的报告的比例,发现它们与测试集中的金标准注释比例一致(表S8,多媒体附件1).

与临床结果的关系

CMR结果集个体的中位随访时间为5.3 (IQR 2.8-9.2)。在随访结果集中,我们观察到1520例心衰事件,1488例心房纤颤事件,909例死亡。LVMI提取量为5015例(54.04%)。在结果集中,LVMI的增加与死亡率、心房颤动和心力衰竭发生率的增加相关,最低和最高四分位数之间的发生率有统计学上的显著差异(图7).死亡率为每100人年死亡0.9人(PY;95% CI 0.7-1.1),而在提取LVMI的最高四分位数中,每100 PY死亡2.2例(95% CI 1.9-2.6) (P< . 05;图7).左心室mi拔除组最低四分位数的房颤发生率为每100 PY 3.0次(95% CI2.5-3.5),而左心室mi拔除组最高四分位数的房颤发生率为每100 PY 7.9次(95% CI 6.8-8.7)。P< . 05)。LVMI提取组最低四分位数的心衰发生率为每100 PY 3.2次(95% CI 2.7-3.7),而LVMI提取组最高四分位数的心衰发生率为每100 PY 8.1次(95% CI 7.2-9.1)。P< . 05)。

图7。提取的左室质量指数、左室射血分数和右室射血分数与临床结果的关系。
查看此图

9280例患者中提取LVEF 7389例(79.62%),2297例符合异常左室收缩功能障碍标准(LVEF <50%)。9280例(68.15%)中提取了6324例RVEF,其中1626例符合RV收缩功能异常标准(RVEF <45%;图7).与正常心室功能相比,LVEF和RVEF异常均与死亡率增加显著相关(P<。两种方法均为05)。在异常LVEF组,死亡率为每100 PY 2.5例死亡(95% CI 2.2-2.8),而正常LVEF组为每100 PY 1.1例死亡(95% CI 0.9-1.2)。P< . 05)。在异常裂谷热组中,死亡率为每100年2.5例死亡(95% CI 2.1-2.8),而正常裂谷热组为每100年1.0例死亡(95% CI 0.9-1.2) (P< . 05)。

我们还进行了敏感性分析,使用最新的CMR报告对LVMI、LVEF和RVEF进行特征提取。5015例(13.70%)中有687例(1个以上LVMI), 7389例(17.16%)中有1268例(1个以上LVEF), 6324例(16.41%)中有1038例(1个以上RVEF)。首次和最后一次LVMI报告的平均时差为2.4 (SD 2.2)年,LVEF为2.9 (SD 2.9)年,RVEF为2.7 (SD 2.6)年。与初步分析相似,我们观察到随着LVMI的增加,死亡率、心房颤动和心力衰竭的发生率增加;LVEF或RVEF异常个体的死亡率明显高于LVEF或RVEF正常个体(图S3,多媒体附件1).


主要结果

在本研究中,我们报告了一种基于nlp的精确而实用的方法的结果,该方法可以同时从CMR报告中提取21个定量测量值。我们的最终模型,它产生了一个宏观平均F1- 0.957分,来自利用开源框架收集金标准临床医生标签和公开可用的变压器模型权重的工作流程。我们还通过展示提取的CMR测量值与如心房纤颤、心力衰竭和死亡率等结果的已知关联来强调我们方法的临床有效性(图7) [30.34].

我们发现BERT与基于临床导向的预训练的模型初始化相比,表现出优异的性能,表明临床预训练对临床数值提取没有显著影响(表3).伯特比现有的临床导向模型要大,模型的复杂性可能在可比性能中发挥作用,这表明更大的临床预训练模型代表了未来工作的方向。我们还对数值测量的4种不同的替代表示进行了实验,发现测试性能与默认表示相似(表3).我们的研究结果表明,对于提取数值量的特殊情况,基于变压器的模型不需要临床预培训或替代数值表示。通过限制训练集大小的实验,我们发现在少于50个标记报告的情况下,可以获得优异的性能。此外,一个包含175份报告的训练集足以训练一个性能在包含270份报告训练的模型的95% CI范围内的模型(图6).

通过我们的模型提取的测量值可能有助于对一系列重要心脏疾病的自动表征,这将留给未来的工作。我们希望我们提出的工作流程可以很容易地被其他人用于从临床文本中提取任意测量值。PRAnCER平台是开源的,可以很容易地用于标记感兴趣的临床测量。我们用于微调和评估NLP模型的软件也是开源的[34],模型训练可以使用配备标准图形处理单元的机器。我们期望在不限于cmr的临床领域,通过实际的标记工作和计算需求,提取任意数量的临床测量是可能的。

基于注意的错误模式探索

误差模式的表征可以指导对模型预测的信心,并为未来的研究人员找到改进模型的方法。尽管我们的最佳模型在我们考虑的所有类型的测量中具有较高的总体精度,但最常见的错误模式涉及到模型将“0”标签分配给本该被标记为测量的值。在我们检查的许多情况下,一个测量值(如“主动脉根尺寸”)在一个报告中被正确标记,而在另一个报告中没有被标记,尽管在要标记的值周围有类似的标记序列。通过检查两个报告中要标记的标记的注意权重,我们发现正确标记的值在前面的“主动脉根维度”短语中对单词“维度”的权重最大。对于标记错误的值,4个最常出现的标记中有3个是单词“dimension”的单独实例,其中一个是正确短语的一部分,其他实例出现在文本的其余部分。所有的注意权重都远低于正确标注的例子对“维度”一词的注意。这可能表明进一步改进的机会可能包括提供更多的训练示例,这些示例包含我们数据集中大多数报告中不存在的文本部分,或者通过使用包含关键标记的合成文本来增强现有的标记文本。

此外,我们认识到,虽然我们的模型表现良好,但提取错误是不可避免的。这些错误的临床后果取决于具体的特征。例如,不正确的LVEF提取可能会将心力衰竭患者错误地归类为射血分数降低或射血分数保留,从而影响治疗选择。同样,不正确的RVEF也会对右侧心衰患者进行错误的分类。不正确的主动脉根大小可能会对主动脉根动脉瘤进行错误的分类。假阳性错误可能特别难以检测,因为生理过滤的最终后处理停止意味着假阳性仍将在预期范围内。因此,仔细评估模型的性能是必要的,特别是当将这样的模型应用到新的数据集时。

与之前工作的比较

据我们所知,这是第一个使用基于变压器的模型(无需从头开始进行预先训练)对临床医生标签进行微调,从诊断文本中提取数值测量的例子。我们先前展示了基于基于规则的方法生成的大量弱标签从临床文本中提取4个生命体征测量值的价值[16].我们之前的方法是基于这样一个假设,即为了对基于变压器的方法进行微调而积累足够数量的黄金标准注释是不切实际的。然而,我们发现一个临床医生最多需要15个小时来为21种类型的定量测量提供足够的金标准注释,因此消除了基于规则的方法的需要,并能够轻松扩展到大量相关的测量。

近期工作[15]使用了对领域特定数据从头开始预训练BERT模型和FLAIR模型所产生的嵌入的组合。然后,将嵌入作为双向长短期记忆与条件随机场层的组合输入,以标记感兴趣的标记,包括数值测量。这种方法工作得很好,与我们的方法相比,在标签工作上花费了相似的精力,取得了相当的性能。我们用我们的工作证明,对特定于领域的数据从零开始对模型进行预训练,并不是必须要达到高水平的准确性。从临床数据开始对模型进行预训练所需的数天甚至数周的计算可以避免。此外,我们的工作还考察了注释数量对性能的影响。

从临床文献中提取数值测量值的其他方法也获得了合理的准确性,但我们认为我们的方法最大限度地减少了标记工作,更健壮,计算效率足够高,可以作为加速基于ehr的临床研究的实际解决方案。基于规则的方法虽然可能是准确的,但考虑到临床文献的广泛可变性,通常需要多次迭代开发和验证以确保准确性[4].先前的工作还表明,基于规则的方法可能不容易移植到开发地以外的其他电子病历。在他们评估基于规则的超声心动图测量提取模型的可移植性的工作中,Adekkanattu等[7报告变量F1-不同临床部位的评分不同。我们证明,基于变压器的模型在临床文本上进行预先训练,可以对实际数量的标签进行微调,以学习以一种灵活的方式提取测量值,以适应这些测量值在临床文本中如何表达的可变性。

未来工作的局限性和方向

我们的研究必须在其局限性的背景下加以解释。我们的测试集由100个报告的相对较小的样本组成,但是对相同大小的测试集进行随机重新采样的分析产生了具有显著接近宏观范围的模型F1-scores(0.947-0.970在10个样本),这表明我们的方法的鲁棒性。我们的方法需要最小程度的后处理,主要涉及对模型提取的值施加生理范围。尽管以这种方式过滤的值相对较少,但这些值可能代表模型假阳性。后处理的另一个方面是扩展模型预测,以包括遗漏的重要数字,这种情况很少发生。我们对数值表示和预训练模型的实验实现了较高的提取精度,但需要进一步的工作来了解如何在处理任意数值时最好地使用基于变压器的模型[35].此外,CMR报告来自一个大型异构医疗保健系统,虽然我们的模型能够处理相关度量的表示中的显著变化,但还需要进一步的工作来表明我们的建模方法可移植到其他机构。

与其他具有医疗保健应用的人工智能模型类似,我们模型的临床实施受到几个障碍的阻碍[36].首先是在EHR环境中部署模型,这涉及访问竖井临床数据和将建模结果集成到电子环境中进行演示。第二是确保该模型能够适应报告结构的变化,无论是机构之间的变化,还是在模型的生命周期内的前瞻性变化。最后,监测和定期质量控制对确保患者安全至关重要。尽管很少有模型成功地克服了这些众多的挑战,但我们假设,我们的工作提供了一种建模策略,可以适应报告结构的变化,并为开发新的量化模型提供了一个框架,旨在解决其他重要的临床任务。未来的工作应该在实时环境中测试这些模型的性能,以证明其在新环境和数据结构中的通用性。

结论

我们提出了一个功能强大的自然语言工作流,可以同时从CMR自由文本报告中提取21种类型的数值测量值。我们发现,一般预先训练的基于变压器的语言模型需要相对较少的黄金标准注释,需要最少的数据处理,并且对于数值测量的上下文和表示中的显著可变性具有健壮性。我们观察了提取的CMR测量值与已知的临床结果(如心力衰竭、心房颤动和死亡率)之间的预期关联。我们的工作流程是可复制的,可能适用于许多其他类型的临床数据。

致谢

我们要感谢Monica Agrawal和David Sontag,感谢他们帮助改进“临床实体识别快速注释平台”(PRAnCER)平台来标记心脏磁共振成像(CMR)报告。

利益冲突

SAL是诺华的全职员工,截止2022年7月18日。SAL此前获得了NIH拨款R01HL139731和R01HL157635以及美国心脏协会18SFRN34250007的支持。SAL获得了来自百时美施贵宝、辉瑞、勃林格殷格翰、Fitbit、Medtronic、Premier和IBM的赞助研究支持,并为百时美施贵宝、辉瑞、黑石生命科学和Invitae提供咨询。JEH获得了拜耳公司的赞助研究支持。PB获得了拜耳公司和IBM的赞助研究支持,并为诺华公司和普罗米修斯生物科学公司提供咨询。CDA获得了拜耳公司的赞助研究支持,并为appharma提供咨询。其他作者没有报告潜在的利益冲突。

多媒体附件1

补充材料。

DOC文件,711kb

  1. McMurray J, Adamopoulos S, Anker S, Auricchio A, Böhm M, Dickstein K, ESC委员会的实践指南。ESC急性和慢性心力衰竭诊断和治疗指南2012:欧洲心脏病学会急性和慢性心力衰竭诊断和治疗工作组2012。与ESC辖下的心力衰竭协会合作开发。《欧洲心脏杂志》2012年7月;33(14):1787-1847。[CrossRef] [Medline
  2. 马西蒙。右心室衰竭的评估和治疗。2013年4月10日(4):204-218。[CrossRef] [Medline
  3. 胸腹主动脉瘤。流通2005年2月15日;111(6):816-828。[CrossRef
  4. 蔡涛,张磊,杨宁,Kumamaru KK, Rybicki FJ,蔡涛,等。EMR数值数据的提取:一种扩展临床研究的有效和可推广的工具。BMC Med Inform Decis Mak 2019 11月15日;19(1):226 [免费全文] [CrossRef] [Medline
  5. Schwartz JL, Tseng E, Maruthur NM, Rouhizadeh M.非结构化临床文献中前体糖尿病讨论的识别:自然语言处理算法的验证。JMIR Med Inform 2022年3月24日;10(2):e29803 [免费全文] [CrossRef] [Medline
  6. Nath C, Albaghdadi MS, Jonnalagadda SR.用于从超声心动图报告中大规模数据提取的自然语言处理工具。PLoS One 2016;11(4):e0153749 [免费全文] [CrossRef] [Medline
  7. adkkanattu P,蒋刚,罗勇,Kingsbury P,徐铮,Rasmussen L,等。评价NLP系统处理超声心动图的可移植性:一项回顾性、多地点观察性研究。AMIA Annu Symp Proc 2019;2019:190-199 [免费全文] [Medline
  8. Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A,等。你所需要的就是注意力。2017年发表于:神经信息处理系统的进展;2017年12月4日;加利福尼亚州长滩网址:http://arxiv.org/abs/1706.03762
  9. 戴福林,张敏,李凯,Toutanova K. BERT:深度双向转换语言理解的预训练。2019年发表于:计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长短论文);2019年6月2日;明尼苏达州明尼阿波利斯市http://arxiv.org/abs/1810.04805CrossRef
  10. Wang A, Pruksachatkun Y, Nangia N, Singh A, Michael J, Hill F,等。SuperGLUE:通用语言理解系统的更粘的基准测试。2019年发表于:神经信息处理系统的进展;2019年12月8日;温哥华,BC网址:http://arxiv.org/abs/1905.00537CrossRef
  11. 顾宇,Tinn R,程浩,Lucas M, Usuyama N,刘旭,等。面向生物医学自然语言处理的领域特定语言模型预训练。ACM反式。第一版。保健2022年1月31日;3(1):1-23。[CrossRef
  12. 刘芳,李晓燕,王晓燕,王晓燕。基于自对齐的生物医学实体表征方法研究。2020年发表于:计算语言学协会北美分会2021年会议论文集:人类语言技术;2021年6月6日;在线网址:http://arxiv.org/abs/2010.11784CrossRef
  13. Alsentzer E, Murphy J, Boag W,翁伟,Jin D, Naumann T,等。公开的临床BERT嵌入。2019年发表于:第二届临床自然语言处理研讨会论文集;2019年6月7日;明尼苏达州明尼阿波利斯市http://arxiv.org/abs/1904.03323CrossRef
  14. Zaman S, Petri C, Vimalesvaran K, Howard J, Bharath A, Francis D,等。利用文本报告的半监督自然语言处理实现心血管mri的自动诊断标记。Radiol Artif Intell 2022 1月4日(1):e210085 [免费全文] [CrossRef] [Medline
  15. Syed S, Angel A, Syed H, Jennings C, VanScoy J, Syed M,等。h-ANN模型:结合上下文嵌入的综合结肠镜概念编译。Biomed Eng system technology Int Jt Conf BIOSTEC Revis Sel Pap 2022 Mar;5:189-200 [免费全文] [CrossRef] [Medline
  16. Khurshid S, Reeder C, Harrington L, Singh P, Sarma G, Friedman S,等。队列设计和自然语言处理减少电子健康记录研究中的偏见。NPJ数字医学2022年04月08;5(1):47 [免费全文] [CrossRef] [Medline
  17. GitHub。绝地武士。URL:https://github.com/broadinstitute/jedi-public[2022-01-01]访问
  18. Moon S, Sagheb E, Liu S, Chen D, Bos M, Geske J,等。13811:一种自动自然语言处理算法,用于对含有肥厚性心肌病阳性诊断的磁共振成像报告进行分类。发行量2019;140:A13811。
  19. Github。PRAnCER:用于临床实体识别的快速注释平台。URL:https://github.com/clinicalml/prancer[2022-01-01]访问
  20. 统一医学语言系统(UMLS):整合生物医学术语。核酸Res 2004 Jan 01;32(数据库issue):D267-D270 [免费全文] [CrossRef] [Medline
  21. Nogueira R,蒋铮,林杰。基于简单算术任务的变压器的局限性研究。出席:通用人工智能数学推理研讨会,ICLR 2021;2021年5月7日;在线网址:http://arxiv.org/abs/2102.13019
  22. Wolf T,登场L, Sanh V, Chaumond J, Delangue C, Moi A,等。HuggingFace的变形金刚:最先进的自然语言处理。2020年自然语言处理经验方法会议论文集:系统演示;2020年11月16-20日;在线网址:http://arxiv.org/abs/1910.03771CrossRef
  23. 模型。拥抱的脸。URL:https://huggingface.co/models[2022-03-14]访问
  24. Kawel-Boehm N, Hetzel SJ, Ambale-Venkatesh B, Captur G, Francois CJ, Jerosch-Herold M,等。成人和儿童心血管磁共振(CMR)参考范围(“正常值”):2020年更新。J cardiovascular Magn Reson 2020 Dec 14;22(1):87 [免费全文] [CrossRef] [Medline
  25. Olivotto I, Maron MS, auore C, Lesser JR, Rega L, Casolo G,等。肥厚性心肌病左心室质量的心血管磁共振评价及其意义。美国心脏病学会杂志2008年8月52(7):559-566。[CrossRef
  26. Hombach V, Merkle N, Torzewski J, Kraus JM, Kunze M, Zimmermann O,等。心电图和心脏磁共振成像参数是特发性扩张型心肌病患者预后恶化的预测指标。欧洲心脏杂志2009年7月24日;30(16):2011-2018。[CrossRef
  27. de Simone G, Gottdiener J, Chinali M, Maurer M.左心室质量预测心衰与既往心肌梗死无关:心血管健康研究。欧洲心脏杂志2008年3月29日(6):741-747。[CrossRef] [Medline
  28. Vakili BA, Okin PM, Devereux RB。左心室肥厚的预后意义。美国心脏杂志2001年3月141(3):334-341。[CrossRef
  29. Verdecchia P, Reboldi G, Gattobigio R, Bentivoglio M, Borgioni C, Angeli F,等。高血压的心房颤动。高血压2003 Feb;41(2):218-223。[CrossRef
  30. 苏尔科娃E,穆拉鲁D,吉诺维斯D,阿鲁塔P,巴勒莫C,巴达诺LP。心脏病患者左右心室射血分数的相对预后重要性中华医学会超声心动图杂志2019年11月;32(11):1407-1415. 3。[CrossRef] [Medline
  31. Goff DC, Pandey DK, Chan FA, Ortiz C, Nichaman MZ。充血性心力衰竭在美国:有超过满足I(CD代码)吗?科珀斯克里斯蒂心脏项目。Arch实习医师2000年1月24日;160(2):197-202。[CrossRef] [Medline
  32. Khurshid S, Keaney J, Ellinor PT, Lubitz SA。一种简单便携的电子病历房颤识别算法。Am J Cardiol 2016 Jan 15;117(2):221-225 [免费全文] [CrossRef] [Medline
  33. 用条件和无条件精确检验比较两种独立发生率。医药统计2008;7(3):195-201。[CrossRef] [Medline
  34. 永田勇,吴庆昌,加藤勇,大谷K,林F,大治Y,等。经胸三维超声心动图评价右心室射血分数的预后价值。中国心血管影像学杂志2017 Feb;10(2):e005384。[CrossRef] [Medline
  35. 李文华,李文华,李文华。数字在NLP中的表征:一种调查与展望。:计算语言学协会;发表于:计算语言学协会北美分会2021年会议论文集:人类语言技术;2021年6月6日;在线644-656页。[CrossRef
  36. Kelly CJ, Karthikesalingam A, Suleyman M, Corrado G, King D.利用人工智能提供临床影响的主要挑战。BMC Med 2019 10月29日;17(1):195 [免费全文] [CrossRef] [Medline


伯特:来自变压器的双向编码器表示
CMR:心脏磁共振成像
电子健康档案:电子健康记录
EWOC:心脏病学企业仓库
LVEF:左心室射血分数
LVMI:左心室质量指数
国家卫生研究院:国立卫生研究院
NLP:自然语言处理
舞蹈者:用于临床实体识别的快速注释平台
PY:人每年
RVEF:右心室射血分数


郝T编辑;提交21.03.22;同行评议:A Arruda-Olson, G Lim, M Syed, R Abeysinghe;对作者28.05.22的评论;修订版收到22.07.22;接受11.08.22;发表16.09.22

版权

©Pulkit Singh, Julian Haimovich, Christopher Reeder, Shaan Khurshid, Emily S Lau, Jonathan W Cunningham, Anthony Philippakis, Christopher D Anderson, Jennifer E Ho, Steven A Lubitz, Puneet Batra。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 16.09.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是必须正确引用最初发表在《JMIR医学信息学》上的原始作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。


Baidu
map