JMIR医学信息学——自然语言处理和图论:理解成像记录在一本小说表示框架

原始论文

临床放射学和核医学,巴塞尔大学医院,巴塞尔大学,瑞士巴塞尔

通讯作者:

Laurent Binsfeld Goncalves,马

临床放射学和核医学

巴塞尔大学医院

巴塞尔大学

Petersgraben 4

巴塞尔,4031

瑞士

电话:352 621517916

电子邮件:laurent.binsfeld@gmail.com

背景:简洁的可视化框架相关的报告将增加可读性和改善病人的管理。为此,时间推荐之前比较考试必不可少的连接之前考试的书面报告。由于非结构化叙事文本的变量结构和内容,但它们的开采过程受到计算机可读性差。自然语言处理(NLP)允许从非结构化文本自动提取结构化信息,可以作为一个重要的输入对于这样一个新颖的可视化框架。

摘要目的:本研究提出并评估NLP-based算法能够提取时间推荐放射学的书面报告,它适用于所有的放射学报告生成的10年,介绍了一种图形表示成像报告,并为临床和研究目的调查它的好处。

方法:在这个单中心,大学医院,回顾性研究中,我们开发了一个卷积神经网络能够从影像中提取日期推荐报告。模型的性能进行评估计算精度,召回,F1-score使用一个独立的测试集的149份报告。接下来,该算法应用到我们部门的放射学报告生成的从2011年到2021年。最后,报告和他们的元数据被表示为一个modulable图形。

结果:提取推荐日期,命名实体识别(尼珥)模型的精度高0.93,0.95的回忆,和一个F1-score 0.94。总共有1684635份报告包括在分析中。时间参考中提到的53.3%(656852/1684635),显式声明没有在21.0%(258386/1684635),和省略了25.7%(317059/1684635)的报告。成像记录可以可视化指示和modulable图,代表连接箭头所指的链接。

结论:自动提取推荐日期从非结构化的放射学报告使用深度学习NLP算法是可行的。图精制的选择不同的病理通路,促进失踪比较的启示,使查询考试的具体所指的序列。进一步的工作是要评估它的好处在诊所,研究和资源规划。

地中海JMIR通知2022;10 (12):e40534

doi: 10.2196/40534

关键字

放射学; 深度学习; NLP; 放射学报告; 成像记录; 时间推荐; 提取日期; 图论; 医疗信息系统; 资源规划。

放射学部门每天生成大量的报告。叙述放射学报告是放射科医师之间的主要传播媒介,因此在病人护理中扮演核心角色,包含各种各样的医疗信息1,2]。从1996年到2010年,图像研究体积计算机断层扫描(CT)和磁共振成像(MRI)增加了280%到380% (3]。放射学了数字工作流和电子信息传递引用的同事在早期,在这个领域几乎根除模拟数据(4]。这种早期的承诺提供大量的数字化报告数据包含的图像描述。然而,这些信息的提取是阻碍,因为非结构化报告缺乏计算机可读(5]。语义粒度级别的报告包含有价值的信息(例如,多个时间推荐),可以唤起整个报告或特定的发现在多个文档的位置。多腔的信息不能轻易决定整个文档级别(6]。

自然语言处理(NLP)是一个解决问题的办法,从放射学过多的自由文本中提取特定的信息报告。NLP是定义为语言的分析数据,最常见的形式的文本数据,使用计算方法[7- - - - - -13]。NLP已经从基于规则的机器学习算法(14- - - - - -20.),深度学习是后者的一个子集,适用于多层神经网络(21,22]。它能够自动提取结构化信息被描述在许多医学研究设置(23- - - - - -29日]。特别是在放射学,有很多实例,展示了优秀的文本挖掘表演,包括附带的检测结果和建议(30.- - - - - -32),可操作的结果(33),具体结果(34- - - - - -41),质量评估报告(42,43),和策划的数据集的生成44- - - - - -49]。

每个病人放射学报告的量化积累多年来已导致一个高度互联的网络考试。现代图像存档和通信系统(PACS)代表了不同的考试被他们收购日期排序列表。大多数系统能突出前面考试的大致相同的地区学习描述给用户。这种类型的比较不考虑multiregional可视化研究或经常遇到发现后天视野的边缘。它没有前景的日期报告他的发现相比放射科医生。这最后一部分尤其对临床医师评估病人的历史是一个重大的缺点。他们必须仔细阅读每一个报告的时间点相比,放射学家肿瘤进展,例如,或者从外部图像研究所用于放射科医生在的确切时间阅读后续考试。

一个关键连接在这种情况下是之前的考试日期为推荐。良好的实践指南放射性报告放射学(欧洲社会的50]和2020年修订后的美国大学的放射学实践通信参数的诊断成像结果强调,需要比较与先前的调查,包括以前的报告和提及的日期没有以前的成像。通过比较研究,放射科医生赚更多的观察,获得信心在他们的解释,和提供更多的诊断51- - - - - -55]。一项研究发现,诊断的准确性、敏感性和特异性乳房x光检查增加的假阳性率降低(56]。各种最近的研究依赖于NLP技术提取暂时性成像测量的报告(例如,将一个观察当前或之前的考试)(39- - - - - -62年]。然而,我们所知,没有方法,提取每个引用日期从语义放射文本研究。此外,没有研究的文献主要集中在整体时间索引报告的评估,在大多数情况下,由放射科医生在报告的开始。

一个解决方案显示多种不同的报告之间的联系图表示。图论将图定义为一组属性存储在节点连接的边,这代表了连接节点之间的关系(63年,64年]。论文从2020年的一项调查发现,图,由图论的定义,也很难用于表示病人数据在临床环境中;论文在文献综述,只有11匹配的描述(65年]。

本研究旨在开发一种新型的和简洁的可视化框架相关的报告。

为此,我们应用自行设计NLP算法能够提取引用日期从非结构化的放射学报告在所有报告生成的10年大学医院。这个信息是一个重要的输入关系图的节点代表radiology报告和它们的关联元数据的推荐他们的连接边缘。最后,我们调查的潜在好处这样一个图表示和存储为临床和研究目的。

伦理批准

机构审查委员会批准和知情同意的要求放弃(制度审查委员会:Ethikkommission Nordwest -和Zentralschweiz)因为没有病人标识符。收集的数据包括纯文本从放射学报告和随机元数据,都可以追踪回到放射科医生,患者个体,也没有提到医生。

数据集获取和描述

我们提取所有放射学报告从2011年1月至2021年12月以及选择相关的医学数字成像和通信(DICOM)的元数据(即随机患者ID、形态类型、身体区域,研究日期)从医院数据库。所有报告都是用德语写的,来自所有的成像模式(即超声波、射线照相,乳房x光检查,x射线造影、CT、磁共振成像、核医学考试,和正电子发射断层扫描(PET) - CT)。非结构化自由文本报告的报告是一个混合和标准化模板,要么包含副标题与预先写的正常结果截然不同的器官(如CT chest-abdomen)或清单标准化报表功能(如肝脏成像对肝脏MRI)报告和数据系统。报告的广泛的结构通常分为5部分:病史、医疗问题、检查协议,放射性的发现,和印象。

每一个放射学考试都有一个预定义的身体区域和形态类型的DICOM的元数据。有14个身体区域和9模式(见多媒体附录1)。

建设时间参考提取算法

数据选择培训

我们随机选择5187的报告之前提取的放射学报告。

数据注释

一个内部开发的数据注释工具,使用“xtag,”。二年级医学居民(LBG)手动标记与5类5187份报告表明颞引用(表1)。注释的类“日期”、“今天”,“昨天”和“不”之前被应用于文本序列水平(即标注的数字或文字序列)。注释类“失踪”是应用在文档级别和排斥,这意味着没有其他注释可以应用。另一方面,“日期”、“今天”,“昨天”和“不”之前可以应用多次/报告。评估第二次阅读的必要性,第五年医疗居民在放射学(TW)注释100随机选择的报告。这一过程产生了100%的读者之间的协议。考虑到任务的简单性和基于这一结果,我们没有第二个阅读整个数据集。

表1。带注释的类及其定义的意义。

类	意义
日期	精确数值日期指比较考试;任何数值或部分数值格式。
今天	非数值的引用比较研究当日实际报告(例如,任何文字表达意思今天)
昨天	非数值的引用比较研究在实际报告的前一天(即任何文字表达意思昨天)
没有以前的	显式声明,没有类似以前的考试都是可用的
失踪	没有提到的比较研究

数据格式

培训管道要求注释符合IOB2格式(66年,67年]。预测也产生相同的格式(进一步的技术信息中可以找到多媒体附录2(5,68年- - - - - -72年])。

算法的训练和测试

我们排除了2392份报告从注释的数据集,因为他们不包含时间链接。我们把数据分割成一个培训/验证数据集的2646份报告(94.6%)和一个独立的测试数据集的149份报告(5.4%)。我们估计,5%为一个独立的和第二测试数据集是一个有效的表征,我们验证了算法的鲁棒性使用5倍交叉验证(73年]。我们还考虑了低产量变化的要解决的问题。我们使用了宽大的sentencizer文本到句子前培训。然后我们使用ktrain库产生一个双向长期短期记忆(LSTM) [74年)模型从pretrained fastText字嵌入(75年)(详情,请参阅多媒体附录2)。我们运用各种规则提取算法在预测日期序列中提取尽可能多的日期。今天和昨天的非数值类转换成数值格式使用引用报告的日期作为参考。今年日期缺失规范被分配相同的年引用报告。如果每天或每月的预测是忽略失踪了。网格搜索算法测试不同的学习速率和批处理大小组合找到接近最优参数对我们的训练算法。5倍交叉验证(76年训练数据集的)以20%的报告在每一轮验证了评价模型的性能在大独立的数据集。数据集分成折叠完成报告的水平。模型测试中设置的独立的测试数据最终评价的步骤。以下绩效评估指标被用来评估训练模型的质量:精确,回忆,F₁分数(77年]。

提取的形态和身体区域引用

被引用的方式提取使用一个简单的基于规则的方法。从报告中提取时间引用后,算法寻找提到的形态与日期引用这句话。以前的报告的身体部分是源自其元数据和被认为是一样的引用报告的身体区域。

毕业预测关系的信心

我们毕业预测的信心如下:(1)日期、形态,和身体部位;(2)日期和形态;(3)日期和身体部位;(4)日期。这种信心毕业成立为一个链接属性,,1是最自信,4是最不自信。链接是丢弃的如果它是不可能产生基于这四个原则。这种方法允许缩小和增加引用报告的准确性,如果不止一个考试在收购日期引用。

算法应用程序和数据提取完整的数据集

的预备步骤提取时间信息的训练模型一样训练的部分。模型是应用程序的所有的结果报告从2011年到2021年是每个令牌表标签中每一个令牌IOB2格式。预测,不符合IOB2格式被移除。

填充图形数据库

图形数据库系统使用Neo4j(版本4.4)。所有的报告和它们的关联元数据选择从2011年到2021年通过进口py2neo图书馆。考试的元数据包括收购日期、名称、形态,和身体,以及随机患者ID。报告及其元数据被分配到顶点,和单向边缘从引用报告引用的报告。我们分配3属性的边缘:首先由推断类称为“引用类,”第二个显示提取字符串,第三显示预测的信心。

交互图的探索

评估病人的潜在好处数据可视化的图形交互式地探索。一眼,目的是提供一个秩序井然的病人的成像历史的概述和相关报告;使比较之前的考试;并代表所需的病理途径简洁的方式(如肿瘤或术后随访成像)。此外,它揭示了临床医生和放射科医生在什么时候放射科医生使他或她的比较。用户应该能够限制他或她的搜索在报告中单独适应的过滤器的元数据(例如,身体区域、形态类型、报告日期,或关键词报告的文本)。另一个重要功能是提供精确的筛选考试以简洁的顺序,在每一个考试都有一个序列的精确定义的位置。最终的目标是评估错过比较之前的考试,希望能达到视觉上的定位图中缺失的环节和self-designable搜索算法。

数据集

总共1684635份报告从264655年截然不同的患者中提取。我们排除了170415(10.1%)从元数据分析报告,因为他们由咨询笔记和外部推荐(详细的计算多媒体附录3)。图1给出了详细的系统的流程图。

图1所示。研究流程图从医院1684635名患者报告的检索数据库(2011年至2021年)。NLP:自然语言处理。

注释分布

总共有7860注释适用于5187报告从2011年到2019年。训练数据集的类分布如下:44%日期参考,27%没有考试前比较,23%失踪时间链接,今天6%推荐类”。“我们把语义引用类“昨天”从我们的数据集没有足够的训练样本(34/5187,0.7%)。

时间信息提取算法

Hyperparameter优化

算法的输出1依照取得最优的学习速率和批处理大小为1024。再现性的随机状态是固定的。最大数量的训练时期仅限于从来没有达到30的极限。

培训和测试

3时代的停滞在验证性能是针对早期停止。在培训过程中,模型是存储在每个时代。完成后的培训过程中,表现最好的时代权重被用于最终的模型。同样的程序被用于培训涉及的所有步骤。后5倍交叉验证结果多媒体附录4),算法的性能测试之前未使用的测试数据集(表2)。

表2。测试结果在149以前未使用的报告。

变量	精度(95%置信区间)	回忆(95%置信区间)	F₁分数(95%置信区间)
日期	0.93 (0.89 - -0.93)	0.9 (0.86 - -0.93)	0.93 (0.91 - -0.94)
没有以前的	0.94 (0.95 - -0.97)	0.98 (0.96 - -0.98)	0.96 (0.93 - -0.98)
今天	0.76 (0.73 - -0.88)	0.85 (0.79 - -0.90)	0.83 (0.79 - -0.93)
微平均	0.93 (0.91 - -0.94)	0.92 (0.90 - -0.95)	0.94 (0.89 - -0.93)
宏观平均	0.86 (0.84 - -0.95)	0.91 (0.87 - -0.95)	0.91 (0.80 - -0.94)
加权平均	0.93 (0.91 - -0.94)	0.93 (0.90 - -0.94)	0.94 (0.91 - -0.95)

时间引用分析

时间参考类似的考试中提到的53.3%(656852/1232297),显式声明没有在21.0%(258386/1232297),和省略了25.7%(317059/1232297)的报告。可变性多年来断言(图2)。最少的失踪的形式引用是乳房x光检查(41197/545636,7.6%),PET / CT(1850/18,500, 10.3%)和CT (278286/2399017, 11.6%)。另一方面,血管造影术(33924/40872,83.2%)和超声(94080/254270,37.2%)最缺失的引用(表S4多媒体附件5)。身体地区失踪引用量最低的树干(3072/39,639,7.8%)、乳房(5727/70,617,8.1%),和胸腔(25646/276060,9.3%)。另一方面,心脏(19030/26090,72.9%)和颈部(14716/23230,63.4%)地区最缺失的链接(表S5多媒体附件5)。模式主要是指相同的形态除了血管造影术指平片在39.8% (1790/4503),PET / CT指MRI在45.1%(456/1013),与核医学考试指CT在33.9% (3500/10294);表S6多媒体附件5)。每个人地区主要是指身体的同一区域。最极端的例子是“乳房”,这是99.0%(59619/60221)的病例中引用其他乳腺癌研究。

引用的平均时间的分析报告

引用报告从2011年到2021年之间的平均时间确定在天,每通道(表3)和身体区域(表4)。最长期被发现在乳房x光检查(372天)和相应的身体区域乳房(370天)。最短的时间观察在普通x光照片报告(19天)和胸腔地区(10天)。

表3。之间的平均时间引用报告每个形态(n = 757249)。

形态	时间(天),中等(Q1-Q3)	位差	P价值
计算摄影	19 (2 - 118)	116年	<措施
x射线造影	35 (7 - 137)	130年	.048
计算机断层扫描(CT)	42 (3 - 231)	228年	<措施
核磁共振	65 (3 - 344)	341年	.002
核医学	114 (8 - 440)	432年	06
宠物^一个/ CT	129.5 (30 - 366)	336年	<措施
超声波	344 (24 - 386)	362年	.002
乳房x光检查	372年(352 - 722)	368年	03

^一个宠物:正电子发射断层扫描。

表4。引用报告之间的平均时间(n = 757249) /身体区域。

身体区域	时间(天),中等(Q1-Q3)	位差	P价值
胸腔	10 (2 - 156)	154年	. 01
上肢	11 (1)	47	. 01
腹部	35 (4 - 237)	233年	.006
脊柱	35 (3 - 207)	204年	<措施
骨盆	39 (3 - 146)	143年	措施
下肢	42 (6 - 136)	130年	. 01
头	65 (2 - 364)	362年	<措施
树干	89 (34 - 196)	162年	03
心	125 (8 - 378)	370年	= .40
整个身体	128 (8 - 427.3)	419.3	<措施
脖子	182 (29 - 395)	366年	.045
乳房	370年(348 - 550)	202年	.009

探索成像记录图

总体概述

从2011年到2021年所有的成像报告和元数据被成功加载到一个有向图。蓝色节点代表不同的病人报告贴上他们的考试名称(如CT-chest或MRI-head),并自动连接链接他们的提取推荐日期。接口是独立适应能力(例如,用户可以根据需要自由位置的节点,各个组件的颜色和显示元数据是可定制的)。不同的病人报告的总数可以选择任何查询的开始。这个视图允许快速视觉评估考试(最早的比较图3)。

图3。单个病人的案例(肺癌与癌症相关的研究)包括完整的用户界面中的蓝色框左上角的查询接口;蓝色节点包含考试名称,代表所有的成像研究存储在图像存档和通信系统(PACS),并下令最新从古老的左边到右边;连接蓝色箭头代表他们的推荐链接;收购和节点的元数据(考试名称,日期,文本的选择和引用的报告,并找到和印象部分)出现在右边点击当节点。CT:计算机断层扫描;MRI:磁共振成像;宠物:正电子发射断层扫描;处方:x射线;我们:超声; WB: whole body.

Multiparametric过滤表示

缩小最相关的报告,从而促进可视化的最大相关性高的考试每个病人。通过点击感兴趣的节点,用户可以选择只显示相关报告(可视化图4)。另一个可能的方法限制视图和寻找特定的发现是一个搜索筛选器相关联的元数据和相关报告的文本中特定的词。一个可能的概念将是寻找特定的考试没有以前的参考和病理条件定义为一个关键字在报告的文本,这将加快第一次考试的选择与这个条件有关。

图4。过滤的相关研究作为用户界面中的部分截图,所有相关的考试前出现一眼通过点击最后一个节点指的是肺癌(红色箭头)。尽管用户选择最近的研究中,点击其他节点在这个网络会导致相同的观点。CT:计算机断层扫描;MRI:磁共振成像;宠物:正电子发射断层扫描;我们:超声;WB:全身。

具体考试顺序选择

选择高度可定制的参考序列考试与特定的元数据属性(例如,胸部x光片之后,胸部CT)是可能的。这可以改进,例如,一段时间内限制或限制之间的间隔相关考试(图5和6)。

图5。具体的考试顺序选择用户界面中的部分截图,我们查询字段用于随机选择300份报告(蓝色节点)的头部电脑断层扫描(CT)引用的头部磁共振影像(MRI),收购不超过3天后,包含关键字字段“梗塞”的印象。

图6。和弦图代表之间的连接形式的头部区域引用头部电脑断层扫描(CT)图像(浅蓝色rim)在收购后7天。弧的大小正比于引用报告的数量。大多数引用报告是头部磁共振图像(核磁共振成像),其次是其他头部CT图像。克雷格:计算射线照相法;先生:磁共振;纳米:核医学;不:其他;PT:正电子发射断层扫描;我们:超声波。

视觉和Filter-Aided发现失踪的比较关系

选择性与顺序查询过滤器和图形可视化允许快速评估的情况下,推荐链接失踪(图7)。这个特性是有用当考试前比较忽视由于穷人考试历史类似外观的pac或放射学信息系统以及以前的外部图像导入时收购后的pac和阅读下面的考试。

图7。单个病人案例说明失踪时间参考(红色箭头)之间的后续报道(蓝色节点,下令最早收购左边到右边的最新)的计算机断层扫描(CT)的研究胸腔(绿框)。很容易发现疑似错过了顶部的CT-Thorax早些时候报告之间的联系并不是由底部后CT-Thorax报告引用正确的通过搜索查询以及曝光时间不一致的推荐(蓝色框顶部)。宠物:正电子发射断层扫描;我们:超声;WB:全身。

主要研究结果

如本文所示,在一个有向图表示成像记录是可行的。联系他们通过引用日期改善可视化相关的成像途径和比较发现错过了考试。我们还显示,自动提取参考日期从放射学写报告使用基于深度学习NLP算法,需要创建表示奠定基础,是可行的,可实现的意义(高F₁得分为0.94)。

考虑使用NLP暂时性的提取的概念,我们的方法可以从2019年出版而Bozkurt et al (60]。他们的主要焦点是提取测量和其核心描述符,除此之外,他们的时间背景,他们使用基于规则的NLP与预定义的正则表达式。他们只专注于2时间方面(即当前或之前),和他们的管道有一个高F₁得分为0.85。我们的方法使用一个date-extracting LSTM。它关注的所有引用日期在一份书面报告,包括没有精确测量,例如,无法衡量的病变由于无定形配置或整体比较报告的日期。此外,我们的算法具有检测的重要和独特的优势比较的显式的缺失和missingness考试从书面文本。此外,我们提取每个日期的比较报告,因此允许粉碎和精确的联系构建一个通用图。

然而,我们的方法的主要缺点是不比较日期归因于特定研究或测量,这将减缓特定实体的集中审查在复杂的病人的历史。我们的更细粒度的提取方法的另一个缺点是高的复杂性任务,连续增加的依赖拼写正确引用日期。按照这个逻辑,遗漏或错误地选择日期将产生更大影响的完整性机器学习模型和图除了不同写作习惯的影响或报告模板之间不同的机构或放射科医生。虽然报告准则有利于精确日期比较,放射科医生并不总是明确地写的比较发现文本的确切日期。因为这遗漏主要发生在最近的报告相比,这将是开始提到的报告最后引用报告,我们的方法涵盖了大多数的这些情况。这些方面可能使我们的模型的整体适用性更复杂和容易受到较小的错误比暂时性提取算法发展到目前为止。

2006年,拉等78年探索,180万年他们的大型数据库分析报告,放射科医生多久使用一个SQL方法与之前的研究相比。他们发现,42.5%的报告完全省略任何先前的研究,38.7%提到的比较,没有明确相关的比较中指出只有18.8%。虽然不完全可比,他们专注于一个纯粹的语义所指信息提取的方法,它提供了一个好的近似,因为如果报告包含短语暗示向比较,而考试的日期是最有可能被提及。在我们的研究中,报告引用类似考试的日期(53%),显式地声明,没有以前的考试(21%)更频繁,且不容易错过引用链接(26%)。表明颞引用的最好的一年是2021年,只有17.9%的人报告失踪的一个参考,低于2019年的30.4%和2020年的28.8%。这种倾向更时间推荐可能会更加强调比较考试咨询和报告的结构在当前报告准则和数字化,以前的许多研究便利。然而,这些百分比之前考试咨询基于书面引用在放射学报告是最有可能低估了。Haygood et al (79年)在他们的研究从2018年得出结论,认为一个年长的放射图像或医疗文档没有咨询在放射解释仅仅因为它不是报告中提到的并不是有效的。这导致读者法医学的问题。放射科医生被陪审团发现疏忽未能比较新的胸片与所有之前的胸片(80年]。没有书面证据,这就更难维护。另一个相关的方面是不同的提取方法。我们的填空题型可以命名实体识别系统分析粒度级别的数据,因此不能缺失单日期意味着比较在括号或其他日期没有明确语义的推荐所需的SQL的方法。

放射学中研究分析错误报告过程强调比较结果的重要性(52- - - - - -56]。良好的实践指南欧洲社会的放射学(50]和2020年修订后的美国大学的放射学实践通信参数的诊断成像研究结果支持这一主张。金和曼斯菲尔德55)发现,5%的所有错误在放射学从失败导致咨询前影像学研究可能导致正确的诊断。然而,评论之前的放射学家的发现或印象应该获胜当比较以前的考试。一个人必须小心不要跟随一个不正确的路径;此错误,称为“满意的报告,”占6%的所有错误报告在放射学研究金和曼斯菲尔德55]。以前考试的广泛可用性在现代pac呈现比较发现与之前的考试失败的借口过时了。比较考试所提供的自动选择现代pac是固有的偏见,因为它主要考虑了局部区域方面,从而失去关注multiregionality。例如,颈椎和肩膀的CT可能被忽略的潜在来源比较评估顶端肺肿块时,胸部或腹部当口译的臀部。同样的逻辑也适用于临床医生和放射科医生检查给定的成像历史发现,特别是在肿瘤学,许多multiregional研究和发现。

这些复杂的因素要求精心组织可视化系统。可怜的可用性和阻碍病人数据的可视化减少彻底审查他们的动机,这仍然是一个挑战在卫生保健和增加错误率是由于缺少相关的细节,用户疲劳和沮丧(78年,79年]。从2022年的一项研究分析重症监护病房临床信息系统的影响表明,可怜的界面设计和视觉表征用户的不满的主要来源(80年]。我们的探索表明分组相关的考试在一个图表可以帮助改善这一基本和日益紧迫的用户友好性问题。

我们希望,通过加强放射科医生的组织作用和改善案例概述通过替换列表中出现的成像历史,他或她会省略较少引用链接,从而最小化误差比较。另一个至关重要的援助是省略了连接的改进检测的情况下,例如,先前获得的外部扫描加载到pac在阅读下面的考试。这将是很有价值的,随后医生检查成像的历史。时间推荐在一份报告中向读者证明放射科医生没有忘记比较特定的发现。这是一个有价值的资产,考虑到找到的相关性往往是由颞课程。例如,肺结节,脑萎缩变化,或血管动脉瘤没有长期动态变化更令人担忧,特别是婴儿和老年人,无创成像为谁跟进青睐在侵入性医疗调查。优化可视化图形表示可以节省时间以及减少不必要的检查和患者的辐射暴露。

在专业医学、临床医生更专注于特定区域或发现。手动过滤掉无关考试增加了工作和潜在的误差的来源(例如,一个整形外科医生更倾向于研究图像暗示骨折的愈合过程或一个神经学家考试相关脑或脊髓的发现)。我们与考试图允许用户选择所有感兴趣的相关研究和省略,如果需要,所有不相关的报告,从而大大和立即减少研究综述。

我们的系统可以帮助快速指南依从性的质量控制和审查过滤选择序列的考试(如x射线后CT表现)精制的可能性限制搜索interstudy时间。这个高度可定制的基于报告的审查元数据也有助于研究项目。例如,当评估脑损伤的特性随着时间的推移,可以过滤掉所有数据库中的报告中描述的发现报告文本;这些报告将显示,如果需要独立于病人,与各自的相关报告。这种方法快速、直观地加速一个挑剔的查询,提供研究者后续和快速的方法测量步骤相关的图片。定量和定性的预测以及相关的放射学后考试的周期可能会很有价值的临床管理的目的,允许必要的人力和物质资源最优预测。

限制

我们的研究也有一些局限性。主要的限制是分析基于一个三级保健大学医院和强烈地依赖于我们的海关报告。其次,报告被只有1标签阅读器(二年级居民)。的低品位复杂标签引用日期和100%的协议在100年报道的一个子集,我们没有第二个阅读整个数据集。确定的更具挑战性的任务做了比较研究报告过程中至少有一个执照放射科医生。第三,有足够的样本来训练非数值表达“昨天引用日期。“这应该在未来的工作中解决。一个解决方案是使用主动学习算法排序模型的最不确定的预测。第四,缺乏外部验证。此外,据我们所知,没有类似的研究在文献中。然而,应该可再生的方法在其他放射科设置允许未来的比较。为此,我们也做了代码库,允许内部测试(多媒体附录2)。第五,重点是整个管道的可行性,包括提取和表示。因此,我们没有充分评估其临床有效性,但相反,说明潜在的有用性在几个用例。

未来前景

的高性能NLP-based模型在处理大量的自由文本数据突显出其潜在的未来的研究项目。过滤过程的比较研究可以大大加速,这将大大受益的发展图像检测和NLP-based算法。相关的图形数据库的概念可以优化其他医学工程和设计软件工具在放射学通过改善可视化和用户友好性,加速数据选择的研究项目,加强质量控制和临床评估过程。日期的一个重要改进可以连接到具体的研究或测量参考。此外,它可以使资源规划分别预测所需的人力和物质资源。这些数据库是易于实现扩张的一个重要的资产(例如,集成相关的病理报告或图像)。通过给用户纠正的可能性和添加链接,就可以想象创造一个不断自我完善的算法。

结论

我们建立了一个概念验证的NLP-based算法能够准确地提取出推荐的日期从非结构化粒度级别的放射学报告。我们成功地生成可定制的图形的放射学报道,多个过滤器可能自由地应用,提供一个良好序列的视觉概述。这种类型的可视化允许新的可能性为查询特定考试序列,由放射科医生错过的检测比较,并提供健康保健专业人员广泛审查的机会。放射科医生的意识和动力的比较方面他或她的结果就会增加,和他或她的价值不仅仅可以增强对临床医师提供信息,还积极地帮助组织。进一步的工作是要扩大其功能在日常临床实践和评估其明确的好处。

的利益冲突

没有宣布。

‎

多媒体附录1

定义区域和身体形态类型。

多克斯文件,14个KB

‎

多媒体附录2

数据格式和机器学习。

多克斯文件,14个KB

‎

多媒体附录3

不同的数在整个数据集。

多克斯文件,35 KB

‎

多媒体附录4

5倍交叉验证的结果。

多克斯文件,13 KB

‎

多媒体附件5

元数据的分析时间引用。

多克斯文件,19 KB

悲伤调频,垂直AA,汗SH。放射学报告:全科医生的角度。Br J Radiol 2010年1月,83 (985):17-22 [免费的全文][CrossRef][Medline]
李B,白首太放射学报告:你认为你在说什么,他们认为你说。咕咕叫Probl成岩作用Radiol 2017年5月,46 (3):186 - 195。(CrossRef][Medline]
Smith-Bindman R, Miglioretti DL,约翰逊E,李C, Feigelson HS,弗林,等。利用诊断成像研究和相关的辐射暴露病人参加大型综合医疗保健系统,1996 - 2010。《美国医学会杂志》2012年6月13日,307 (22):2400 - 2409 (免费的全文][CrossRef][Medline]
Avrin DE Urbania TH。的电影。阿德莱德大学Radiol 2014年3月,21 (3):303 - 304。(CrossRef][Medline]
Spasic我Nenadic g .临床文本数据机器学习:系统性回顾。地中海JMIR通知2020年3月31日,8 (3):e17984 [免费的全文][CrossRef][Medline]
短的RG, Bralich J, Bogaty D, Befera NT。综合句筛查性乳房x光检查报告使用神经网络分类序列标签的方法。J数字成像2019 10月18日,32 (5):685 - 692 (免费的全文][CrossRef][Medline]
Verspoor K,科恩KB。自然语言处理。:Dubitzky W, Wolkenhauer啊,曹KH横田H,编辑器。系统生物学的百科全书。纽约:施普林格;2013:1495 - 1498。
戈德堡y底漆在自然语言处理的神经网络模型。人工智能研究杂志》2016年11月20日;57:345 - 420 (免费的全文][CrossRef]
梁黄郝T, Z, L,翁H,唐b .健康自然语言处理:方法发展和应用程序。地中海JMIR通知2021年10月21日,9 (10):e23898 [免费的全文][CrossRef][Medline]
伯恩Dreisbach C, Koleck助教,PE、肯美国系统回顾的自然语言处理和文本挖掘的症状电子patient-authored文本数据。Int J地中海通知2019可能;125:37-46 [免费的全文][CrossRef][Medline]
Sheikhalishahi年代,Miotto R,达德利JT, Lavelli,里纳尔蒂,他诉临床笔记慢性病:自然语言处理系统的审查。地中海JMIR通知2019年4月27日,7 (2):e12239 [免费的全文][CrossRef][Medline]
Bae JH,韩寒HW,杨SY、歌曲G, Sa S,钟通用电气、自然语言处理等。在自由文本结肠镜检查评估质量指标和病理报告:开发和可用性研究。地中海JMIR通知2022年4月15;10 (4):e35257 [免费的全文][CrossRef][Medline]
陈J,龚Z,刘w .非参数模型与字嵌入的网络话题发现。信息科学2019年12月,504:32-47。(CrossRef]
欧洲社会的放射学(ESR)。放射科医生应该知道人工智能- ESR白皮书。2019 4月04见解成像;10 (1):44 (免费的全文][CrossRef][Medline]
陈P,征服者H, Galperin-Aizenberg M,库克t .整合自然语言处理和机器学习算法分类放射肿瘤反应的报告。J数字成像2018 4月27日,31 (2):178 - 184 (免费的全文][CrossRef][Medline]
罗JW,庄JJ。在放射学的自然语言处理。神经影像学N点2020;11月30 (4):447 - 458。(CrossRef][Medline]
达尔FA,罗摩T, Hurlen P,布莱克PH值,Husby H,甘德森T, et al .神经挪威放射学分类报告:在ct扫描的儿童使用NLP检测结果。BMC医学通知决策Mak 2021 3月04;21 (1):84 (免费的全文][CrossRef][Medline]
王许刘H,张Z, Y, N,黄Y, Z,杨等。使用伯特(双向编码器陈述变压器)的深度学习方法提取中国放射学证据报告:发展计算机辅助肝癌诊断框架。J地中海互联网Res 2021年1月12日;23 (1):e19689 [免费的全文][CrossRef][Medline]
亚当斯玛丽- K, L,发言R, Troltzsch D,哈姆B,马克维斯奇先生,et al。高度精确的分类胸部影像学报告使用深度学习自然语言模型pre-trained 380万文本报告。生物信息学在2021年1月29日,36 (21):5255 - 5261。(CrossRef][Medline]
Barash Y, Guralnik G,τN, S,利维T,西蒙·O,等。比较深度学习模式提供基于自然语言处理的分类非英语头CT报告。神经放射学2020年10月25日,62 (10):1247 - 1256。(CrossRef][Medline]
程沙特朗G点,沃龙佐夫E, Drozdzal M, Turcotte年代,Pal CJ et al。深度学习:放射科医生的底漆。射线照相2017;37 (7):2113 - 2131。(CrossRef][Medline]
Esteva, Robicquet A、B Ramsundar Kuleshov V, DePristo M,周K, et al。医疗深度学习指南。Nat地中海2019年1月7日,25 (1):24-29。(CrossRef][Medline]
曾庆红QT, Goryachev年代,维斯年代,Sordo M,墨菲SN,拉撒路r .提取主要诊断、伴随疾病和吸烟对哮喘研究现状:对自然语言处理系统的评价。BMC医学通知决策Mak 2006 7月26日,6 (1):30 (免费的全文][CrossRef][Medline]
廖KP, Cai T Savova g·墨菲SN,卡尔森电子战,Ananthakrishnan, et al .表现型算法的开发使用电子医疗记录和结合自然语言处理。BMJ 2015年4月24日,350 (apr24 11): h1885 [免费的全文][CrossRef][Medline]
Murff HJ FitzHenry F, Matheny我绅士N,科特KL, Crimin K, et al。术后并发症的自动识别在电子病历使用自然语言处理。《美国医学会杂志》2011年8月24日,306 (8):848 - 855。(CrossRef][Medline]
荣格K, LePendu P,艾耶年代,Bauer-Mehren,屎B,沙n .开箱即用的功能评价文本挖掘工具,数据挖掘的任务。J是通知协会2015年1月,22 (1):121 - 131 (免费的全文][CrossRef][Medline]
卡雷尔D, Halgrim年代,Tran D, Buist博士DSM, Chubak J,查普曼WW,等。利用自然语言处理改善效率的手工表抽象研究:乳腺癌复发的情况。我增加2014 3月15日,179 (6):749 - 758免费的全文][CrossRef][Medline]
黄SH, LePendu P艾耶SV Tai-Seale M,卡雷尔D,沙NH。对个性化治疗抑郁症:预测诊断和严重程度。J是通知协会2014年11月01;21 (6):1069 - 1075 (免费的全文][CrossRef][Medline]
阿加瓦尔V, Podchiyska T,班达JM,高尔V,梁TI,薄荷味EP, et al。学习的表型统计模型使用嘈杂的标记的训练数据。J是通知协会2016年11月12日,23 (6):1166 - 1173 (免费的全文][CrossRef][Medline]
Trivedi G, Dadashzadeh呃,Handzel RM,查普曼WW, Visweswaran S·豪切斯那里借得创意h .交互式NLP在临床护理:识别偶然发现在放射学报告。:通知2019 8月04;(4):655 - 669 (免费的全文][CrossRef][Medline]
Dutta年代,长WJ,布朗DF, Reisner。自动检测的放射科医生建议使用自然语言处理的额外成像偶然发现。安紧急情况地中海2013年8月,62 (2):162 - 169。(CrossRef][Medline]
Trivedi G,香港C, Dadashzadeh呃,Handzel RM,·豪切斯那里借得创意H, Visweswaran s识别偶然发现放射学创伤患者的报道:一个评估的自动化特性表征方法。Int J地中海通知2019年9月;129:81 - 87 (免费的全文][CrossRef][Medline]
维瑟JJ, de Vries M, Kors农协。自动检测的可操作的结果和沟通提到在放射学报告使用自然语言处理。欧元Radiol 2022 6月06;32 (6):3996 - 4002。(CrossRef][Medline]
李AY,艾略特n自然语言处理识别输尿管的石头在放射学报告。医疗成像Radiat肿瘤学杂志2019年63年6月05;(3):307 - 310。(CrossRef][Medline]
都柏林的年代,鲍德温E,沃克RL,克里斯滕森LM, Haug PJ,杰克逊ML,等。自然语言处理确定肺炎从放射学报告。Pharmacoepidemiol药物Saf 2013年8月1日,22 (8):834 - 841 (免费的全文][CrossRef][Medline]
院长Grundmeier R, Masino,鬼马小精灵T J,贝尔J, Enriquez R, et al。识别长骨骨折在放射学报告使用自然语言处理支持医疗质量改进。:通知2017 12月18日,07年(04):1051 - 1068。(CrossRef]
Kolanu N,布朗,山毛榉,中心小,白色的CP。自然语言处理的放射学报告识别患者的骨折。拱Osteoporos 2021 1月06;16 (1):6。(CrossRef][Medline]
发送方JT,曹LD, Calvachi P, McNulty JJ,阿什比杰,舒尔特,et al .自动化临床图表回顾:一个开源的自然语言处理管道上开发自由文本放射学在胶质母细胞瘤患者报道。JCO癌症告知2020 1月;4:25-34 [免费的全文][CrossRef][Medline]
彼得斯Sevenster M, Buurman J,刘P J, Chang P .自然语言处理技术提取和分类发现在叙事放射学测量报告。:通知2017 12月19日,06 (03):600 - 610。(CrossRef]
程LTE,郑J、Savova g·埃里克森BJ。辨别肿瘤状态从非结构化的核磁共振报告——在现有信息的完整性报告和自然语言处理工具的自动化。数字成像2010 4月30;23 (2):119 - 132 (免费的全文][CrossRef][Medline]
发送方JT, Karhade AV,象牙海岸DJ, Mehrtash, N,兰DiRisio,等。自然语言处理的自动化定量诊断脑转移的报道自由文本放射学报告。JCO临床癌症信息学2019年12月(3):1 - 9。(CrossRef]
吉尔Lacson R, Prevedello LM Andriole KP, R, Lenoci-Edwards J,罗伊·C Fleischner社会。因素与放射科医生坚持Fleischner社会管理指南的肺结节。J科尔Radiol 2012年7月,9 (7):468 - 473。(CrossRef][Medline]
Duszak R, Nossal M,斯科菲尔德L,皮库斯d .腹部超声医师文档缺陷报告:频率、特征和金融影响。J科尔Radiol 2012年6月,9 (6):403 - 408。(CrossRef][Medline]
Petkov VI, Penberthy LT、Dahman英航Poklepovic, Gillam CW,麦克德莫特JH。自动确定转移的非结构化放射肿瘤学临床试验资格审查的报告。实验医学杂志(梅伍德)2013年12月09年;238 (12):1370 - 1378免费的全文][CrossRef][Medline]
周Y, Amundson PK, Yu F,凯斯勒MM, Benzinger TLS, Wippold陆地。自动分类的放射学报告来促进放射学的回顾性研究。J数字成像2014 12月30日,27日(6):730 - 736 (免费的全文][CrossRef][Medline]
男性Hripcsak G,奥斯汀JHM,艾德森PO,弗里德曼c使用自然语言处理翻译临床信息从数据库889921胸部影像学报告。放射学2002年7月,224 (1):157 - 163。(CrossRef][Medline]
查普曼,李年代,康惠普,查普曼WW。文档级分类CT肺动脉造影报告基于上下文的一个扩展算法。J生物医学通知2011年10月,44 (5):728 - 737 (免费的全文][CrossRef][Medline]
陈MC,杨球RL, L, Moradzadeh N,查普曼,拉尔森DB, et al .深度学习分类放射学自由文本报告。放射学2018年3月,286 (3):845 - 852。(CrossRef][Medline]
于年代,Kumamaru KK,乔治·E,邓恩RM, Bedayat, Neykov M, et al . CT肺动脉造影报告的分类存在,长期性和位置与自然语言处理肺栓塞。生物医学通知2014 12月;52:386 - 393 (免费的全文][CrossRef][Medline]
欧洲社会的放射学(ESR)。放射性报告的良好习惯。指南的欧洲社会放射学(ESR)。见解成像2011 4月6;2 (2):93 - 96 (免费的全文][CrossRef][Medline]
史密斯Aideyan UO Berbaum K,王。之前的影响放射影像学检查的解释信息。放射学学术1995年3月,2 (3):205 - 208。(CrossRef]
白K,史密斯Berbaum K,王。的角色前片和报告在当前射线照片的解释。投资Radiol 1994年3月,29 (3):263 - 265。(CrossRef][Medline]
猎人T,博伊尔r .阅读前面的放射学报告的价值。学杂志1988 J Roentgenol 3月01;150 (3):697 - 698。(CrossRef][Medline]
布鲁诺,沃克EA Abujudeh HH。理解和面对我们的错误:错误的流行病学在放射学和策略来减少误差。射线照相2015年10月,35 (6):1668 - 1676。(CrossRef][Medline]
金正日YW,曼斯菲尔德中尉愚弄我两次:延迟诊断放射学与强调延续错误。杂志J Roentgenol 2014年3月,202 (3):465 - 470。(CrossRef][Medline]
公元前Yankaskas RC, Matuszewski J,保龄球JM,贾曼MP,施罗德的男朋友。观察变化的影响从比较乳房x光检查筛查性乳房x光检查的性能在一个大型社区人口。放射学2011年12月,261 (3):762 - 770免费的全文][CrossRef][Medline]
彼得斯Sevenster M, Buurman J,刘P J, Chang P .自然语言处理技术提取和分类发现在叙事放射学测量报告。:通知2017 12月19日,06 (03):600 - 610。(CrossRef]
Sevenster M,勃兹曼J, Cowhy Trost w .配对的自然语言处理管道在自由文本独有的CT测量报告。J生物医学通知2015年2月,53:36-48 [免费的全文][CrossRef][Medline]
Yim W,关颖珊西南,Yetisgen m .分类肿瘤放射学报告事件属性。《信息科学技术协会2017年9月14日,68 (11):2662 - 2674。(CrossRef]
Banerjee Bozkurt年代,Alkim E,我,鲁宾DL。自动检测的测量及其在放射学报告描述符使用混合自然语言处理算法。J数字成像2019年8月,32 (4):544 - 553 (免费的全文][CrossRef][Medline]
Banerjee我Bozkurt年代,Caswell-Jin杰,库里啊,鲁宾DL。自然语言处理方法检测乳腺癌的转移复发的时间。JCO临床癌症信息学2019年12月(3):1 - 12。(CrossRef]
弗里德曼C, Shagina L,西尔Y, Hripcsak g自动编码基于自然语言处理的临床资料。J是通知协会2004;11 (5):392 - 402 (免费的全文][CrossRef][Medline]
Ahalt SC,考克斯年代,Balhoff J, Bizon C, Fecho K, Kebede Y, et al .可视化环境联合知识图:发展生物医学查询语言和交互式web应用程序的界面。地中海JMIR通知2020年11月23日,8 (11):e17964 [免费的全文][CrossRef][Medline]
朱阳光H,小J, W, Y,张年代,徐X,等。医学知识图增强欺诈,浪费和滥用检测索赔数据:模型开发和绩效评估。JMIR地中海通知2020年7月23日,8 (7):e17653 [免费的全文][CrossRef][Medline]
Schrodt J, Dudchenko Knaup-Gregori P Ganzinger m .拓扑图的病人数据:一个系统的文献回顾。地中海J系统2020年3月12日,44 (4):86 (免费的全文][CrossRef][Medline]
Ujiie年代,雅达年代,Wakamiya年代,Aramaki大肠识别药物不良与事件相关的日本文章:自然语言处理分析。地中海JMIR通知2020年11月27日,8 (11):e22661 [免费的全文][CrossRef][Medline]
李戴H, Y, Nekkantti C, Jonnagaddala j .家族史与神经信息提取的关注和一个增强relation-side方案:算法的开发和验证。地中海JMIR通知2020年12月01;8 (12):e21750 [免费的全文][CrossRef][Medline]
Charniak大肠统计技术对自然语言解析。人工智能杂志1997;18 (4):33 (免费的全文][CrossRef]
马丁内斯AR。词性标注。电线Comp统计2011年9月30日,4 (1):107 - 113。(CrossRef]
斯塔布斯,Kotfila C, Uzuner O。自动化系统的纵向de-identification临床叙述:概述轨道1 2014 i2b2 / UTHealth共享任务。J生物医学通知2015年12月,58增刊(增刊):S11-S19 [免费的全文][CrossRef][Medline]
Maiya。ktrain: low-code图书馆增强机器学习。机器学习的研究》杂志2022;23:1-6 [免费的全文]
usb-ai / apophenator。GitHub。URL:https://github.com/usb-ai/apophenator[2022-12-05]访问
林C,许C,卢Y,叶,李C,苏年代,et al。人工智能学习通过外部资源语义分类诊断标准放电笔记。J地中海互联网Res 2017年11月06;19 (11):e380 [免费的全文][CrossRef][Medline]
j . Framewise音素的坟墓,。施密德胡贝尔表示分类与双向LSTM和其他神经网络架构。神经2005;18 (5 - 6):602 - 610。(CrossRef][Medline]
Bojanowski P, E坟墓,Joulin Mikolov t .丰富词向量与subword信息。交易计算语言学协会的2017年12月,5:135 - 146 (免费的全文][CrossRef]
Hastie T, Tibshirani R,弗里德曼j .模型评估和选择。:统计学习的元素。纽约:施普林格;2009:219 - 259。
Taha AA, a Hanbury指标评价三维医学图像分割:分析、选择、和工具。BMC医学成像2015年8月12日,15 (1):29 (免费的全文][CrossRef][Medline]
拉P Menschik ED Goldszal房颤,穆雷JP,维纳毫克,Langlotz CP。开发和验证的查询使用结构化查询语言(SQL)来确定利用对比成像在放射学报告存储在pac。J数字成像2006 1;3月19 (1):52 - 68 (免费的全文][CrossRef][Medline]
Haygood TM,马林斯B,太阳J, Amini B Bhosale P,康HC, et al。之前咨询和引用率在放射影像学研究和文件。j .地中海。图像放大2018 7月1;5 (03):1。(CrossRef]
柏林l .新射线照片必须与之前的所有射线照片相比,或只与最近获得射线照片吗?杂志J Roentgenol 2000年3月,174 (3):611 - 615。(CrossRef][Medline]

‎

CT:计算机断层扫描

日本:医学数字成像和通信

LSTM:长时间的短期记忆

核磁共振成像:磁共振成像

NLP:自然语言处理

政治行动委员会:图像存档和通信系统

宠物:正电子发射断层扫描

编辑一个贝尼省;提交29.06.22;由我Banerjee同行评议,R Sauvayre;评论作者21.07.22;修订版本收到13.09.22;接受30.11.22;发表21.12.22

伊凡Nesic©Laurent Binsfeld Goncalves, Marko Obradovic, Bram斯蒂尔吉斯,托马斯•Weikert Jens Bremerich。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 21.12.2022。

这是一个开放分布式根据条知识共享归属许可(https://creativecommons.org/licenses/by/4.0/),它允许无限制的使用、分配、和繁殖在任何媒介,提供原工作,首次出版于JMIR医学信息学是正确引用。完整的书目信息,原始发布在https://medinform.www.mybigtv.com/上的链接,以及这个版权和许可信息必须包括在内。

本文在以下e-collection /主题问题:

自然语言处理和图论:理解成像记录在一本小说表示框架