卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JBB

JMIR Bioinform Biotech

JMIR生物信息学和生物技术

2563 - 3570

卡塔尔世界杯8强波胆分析

加拿大多伦多

v3i1e36877

10.2196/36877

原始论文

探索使用自然语言处理支持全国静脉血栓栓塞监测的适用性:模型评估研究

Mavragani

孤挺花

Doan

儿子

Waqar阿里

Wajiha博士

Wendelboe

亚伦

博士学位 1

生物统计与流行病学系“，哈德逊公共卫生学院俄克拉荷马大学健康科学中心

CHB 301室

东北13街801号

俄克拉荷马城，好，73104

美国 1 405 271 2229转57897 Aaron-Wendelboe@ouhsc.edu

https://orcid.org/0000-0002-8670-7730

军刀

易卜拉欣

医学博士 2

https://orcid.org/0000-0001-6583-9243

德沃夏克

贾斯汀

博士学位 1

https://orcid.org/0000-0001-5018-7940

亚当斯基

阿里

博士学位 3.

https://orcid.org/0000-0001-6493-2796

Feland

娜塔莉

RN 1

https://orcid.org/0000-0001-6942-9700

雷耶斯

Nimia

医学博士 3.

https://orcid.org/0000-0001-5548-5429

安倍

卡隆

博士学位 3.

https://orcid.org/0000-0002-7018-906X

Ortel

托马斯。

医学博士 2

https://orcid.org/0000-0001-6193-4585

Raskob

加里

博士学位 1

https://orcid.org/0000-0002-5126-0991

1 生物统计与流行病学系“，哈德逊公共卫生学院俄克拉荷马大学健康科学中心

俄克拉荷马城

美国 2 血液科医学系杜克大学

达勒姆数控

美国 3. 血液疾病科国家出生缺陷和发育障碍研究中心疾病控制和预防中心

亚特兰大,乔治亚州

美国

通讯作者:Aaron Wendelboe Aaron-Wendelboe@ouhsc.edu

Jan-Dec 2022

5 8 2022

3. 1

e36877

31 1 2022 2 5 2022 13 6 2022 21 7 2022

©Aaron Wendelboe, Ibrahim Saber, Justin Dvorak, Alys Adamski, Natalie Feland, Nimia Reyes, Karon Abe, Thomas Ortel, Gary Raskob。最初发表在JMIR生物信息学和生物技术(https://bioinform.www.mybigtv.com)， 05.08.2022。

2022

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用首次发表在JMIR生物信息学和生物技术上的原创作品。必须包括完整的书目信息，https://bioinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

静脉血栓栓塞(VTE)是一种可预防的常见血管疾病，据估计每年影响多达90万人。它与近期手术、癌症和住院等危险因素有关。通过自然语言处理(NLP)可以改善VTE监测对患者的管理和安全。NLP工具能够访问电子医疗记录，识别符合静脉血栓栓塞病例定义的患者，随后将相关信息输入数据库以供医院审查。

客观的

我们旨在评估IDEAL-X的VTE识别模型的性能(使用自适应学习的信息和数据提取;埃默里大学(Emory University)的一种NLP工具，通过从2012年至2014年收集的诊断成像记录中“读取”非结构化文本，自动对VTE病例进行分类。

方法

在访问杜克大学和俄克拉何马大学健康科学中心(OUHSC)静脉血栓栓塞试点监测系统的成像记录后，我们使用IDEAL-X的静脉血栓栓塞识别模型对以前手工分类的静脉血栓栓塞病例进行分类。专家们审查了每条记录中技术人员的评论，以确定是否发生了静脉血栓栓塞事件。计算的性能指标(95% ci)包括准确性、敏感性、特异性以及阳性和阴性预测值。采用同质性卡方检验来评估各站点的性能测量差异，显著性水平为0.05。

结果

IDEAL-X的VTE模型“读取”了来自杜克大学的1591条记录和来自OUHSC的1487条记录，总共有3078条记录。综合性能指标的准确性为93.7% (95% CI 93.7% ~ 93.8%)，敏感性为96.3% (95% CI 96.2% ~ 96.4%)，特异性为92% (95% CI 91.9% ~ 92%)，阳性预测值为89.1% (95% CI 89% ~ 89.2%)，阴性预测值为97.3% (95% CI 97.3% ~ 97.4%)。杜克大学的敏感性(97.9%，95% CI 97.8%-98%)高于OUHSC (93.3%， 95% CI 93.1%-93.4%; P<.001)，但OUHSC的特异性(95.9%，95% CI 95.8%-96%)高于Duke University (86.5%， 95% CI 86.4%-86.7%; P<措施)。

结论

IDEAL-X的静脉血栓栓塞模型准确地对来自北卡罗来纳州达勒姆和俄克拉荷马城两个独立卫生系统的试点监测系统的静脉血栓栓塞病例进行了分类。NLP是一种很有前途的工具，可用于设计和实施一个自动化的、具有成本效益的VTE国家监测系统。在全国范围内开展公共卫生监测对于衡量疾病负担和预防措施的影响至关重要。我们建议进行更多的研究，以确定如何将IDEAL-X集成到医疗记录系统中，从而进一步自动化监测过程。

静脉血栓栓塞公共卫生监测机器学习自然语言处理医学影像评论公共卫生

简介

静脉血栓栓塞(VTE)包括深静脉血栓形成(DVT)和肺栓塞，是一种常见但可预防的血管疾病。通过对风险评估、预防和治疗采取协调一致的方法，静脉血栓栓塞的疾病负担可以减少[ 1］．在美国，36%至>50%的静脉血栓栓塞与近期住院或手术有关，被认为是医院相关性静脉血栓栓塞[ 2- 5];因此，医院系统有可能促进有效的静脉血栓栓塞监测。

采用主动或被动方法进行传统静脉血栓栓塞监测具有挑战性，因为国际疾病分类用于识别静脉血栓栓塞的代码已被证明具有中等敏感性和阳性预测价值[ 6- 8]，人工审查医疗记录是劳动密集型的，数据输入也容易出现人为错误。在美国，大多数新生成的临床数据都以数字方式存储和分析，通常以电子病历(EMR)的形式进行。截至2017年，96%的非联邦急症护理医院正在使用电子病历[ 9]，而电子病历的使用率自2008年以来增加了一倍以上[ 10］．

尽管多年来在开发新的数据库和档案格式以保存医疗记录方面取得了进展，但大多数医疗数据仍以非结构化文本的形式存储[ 3.］．非结构化文本是临床和转化研究的丰富数据来源[ 4］．自然语言处理(NLP)工具可用于克服传统VTE监测的挑战，因为它们可以从诊断成像报告(如超声和计算机断层扫描[CT]血管造影报告)中访问关键的非结构化文本[ 11]，确定符合静脉血栓栓塞病例定义的患者，并在有效时间内将相关信息输入监测数据库[ 11- 14］．

使用自然语言处理涉及的一些关键特性包括预处理[ 7]、句法处理、概念和命名实体识别[ 6］．预处理允许算法删除格式(包括回车符和其他空白字符)，然后输出一个“干净”的文本字符串(不包含与原始源相关的标记或控制字符)，以供后续步骤使用。句法处理指的是理解词序(例如，主语-动词-宾语关系)和对模糊名词和代词的引用，如它．因此，该算法能够连接复杂或协调短语的元素。例如，在句子中右肺动脉未见充盈缺损，则算法需要检测的关键字为没有，充盈缺损, 肺动脉．最后，概念和命名实体识别是指识别与单个概念相关的拼写或措辞变化的能力，例如临床医生可能引用、拼写或拼写错误的不同方式静脉血栓栓塞．链接不同的文本表面实现(例如，血栓，栓塞, 肺栓塞)转换为单一概念实体( 静脉血栓栓塞)便于分类，减少了模型训练阶段需要估计的参数总数。

尽管NLP的领域非常广阔，其特征和能力也在不断增长，但NLP在VTE监测中的应用范围很窄。一个具体的软件- ideal - x(信息和数据提取使用自适应学习;埃默里大学)-在之前的研究中使用非结构化文本从成像记录中识别VTE [ 14］．IDEAL-X利用基于机器学习的方法为各种用例定制微调的NLP模型。它分析特定领域的术语和相关语言特征，以确定医疗事件。IDEAL-X NLP工具已应用于不同的用例，其对VTE事件识别的适用性已被Emory大学的试点研究证明[ 14］．当IDEAL-X VTE识别模型在其原生临床环境中对VTE记录的预过滤性能进行测试时，其灵敏度≥97.2%，特异性≥99.3% [ 14］．然而，由于NLP模型是基于来自单个站点的记录进行训练的，预过滤(例如，根据患者的类型和严重程度识别病例)和某些外部因素(例如，特定诊所或地理区域常见的语音模式和词汇选择)可能会影响NLP工具的性能。因此，需要独立验证。

为了评估我们基于机器学习的NLP工具IDEAL-X开发的VTE识别模型的稳健性和适应性，并确定临床环境之间的差异如何影响其性能(作为将NLP应用于国家VTE监测的概念证明)，我们在两个独立的医疗保健环境中评估了VTE模型的准确性——一个在北卡罗来纳州达勒姆，另一个在俄克拉荷马城。

方法研究设计

杜克大学和俄克拉荷马大学健康科学中心(OUHSC)与疾病控制和预防中心合作，建立了静脉血栓栓塞的试点监测系统[ 15， 16］．这两个系统的监测周期(即数据收集)为2012年4月1日至2014年3月31日(24个月)。我们在这项研究和评估中使用了来自两个监测系统的数据。每个监测小组的成员都扮演着黄金标准的角色，他们手动审查成像记录，并根据病例情况进行分类。来自杜克大学研究小组的两名研究人员(IS和TO)和来自OUHSC研究小组的三名研究人员(AW、NF和GR)审查了每一份记录，并将其分类为DVT或肺栓塞的阳性或阴性影像学报告。随后，这些记录被IDEAL-X“读取”，并根据病例情况独立分类。我们通过比较病例状态结果与金标准(人工复查)结果来评估VTE模型的性能。站点的详细信息请参见参与者和程序部分，并对数据收集和病例分类方法进行了总结图1．

图1

杜克大学和俄克拉荷马大学健康科学中心的信息收集和分析流程图。CTA:计算机断层血管造影;DVT:深静脉血栓形成;基于自适应学习的信息和数据提取女士:微软;PE:肺栓塞;PHI:个人健康信息;我们:超声波;V / Q:通气/灌注。

道德的考虑

这项研究由杜克大学机构审查委员会和OUHSC机构审查委员会审查。这两个实体都认为这项研究不包括对人类受试者的研究，因此不受机构审查委员会的批准。

参与者和程序杜克大学

杜克大学的研究人员使用了北卡罗来纳州达勒姆县三家医院(杜克大学医院、杜克地区医院和达勒姆退伍军人事务医疗中心)VTE监测项目生成的数据集。数据集包括所有818个独立诊断为急性深静脉血栓、肺栓塞或两者均阳性的独特记录(符合监测系统的病例定义)。为了确定总共773个独特的阴性成像记录，研究人员回顾了(1)来自同一队列中也有阳性成像研究的患者的阴性成像记录(例如，来自CT血管造影阳性的患者的下肢超声阴性)和(2)通过VTE监测计划确定但通过手动评估记录确定没有DVT或肺栓塞的患者的阴性成像记录。杜克大学的研究小组手动提取了研究结果和结论印象从每个成像报告到Microsoft Excel的部分，不管术语或上下文信息。研究小组排除了描述患者特异性信息、成像研究指征、所使用的成像研究类型以及特征线的附加文本。

杜克大学数据集中的影像学记录包括(1)上肢超声图像，(2)下肢超声图像，(3)胸部CT血管造影扫描，(4)通气-灌注扫描。

的OUHSC

OUHSC的调查人员要求INTEGRIS浸信会医疗中心和INTEGRIS西南医疗中心提供所有来自CT血管造影和压缩超声的成像记录，无论指征如何。据我们所知，这些记录是随机选择的，具有患者群体的代表性。这导致了一个包含1487个独特患者的数据集。OUHSC团队将PDF成像记录(超声和CT记录)转换为纯文本格式。然后，我们使用一种根据记录的格式约定定制的搜索算法来自动定位和划分印象而且发现部分。对于每个患者，这些切片都被提取出来;清除了杂标点、空白和格式化字符;并转换为文本字段，以便输入到IDEAL-X包中。进行额外的文本处理，根据成像类型对记录进行分类。OUHSC研究地点的所有自动文本处理都是使用Python v3.7执行的。

IDEAL-X工具

我们在本分析中使用的IDEAL-X的VTE识别模型已在埃默里大学之前的研究中使用[ 14］．在这项研究中，IDEAL-X用于分析埃默里大学骨科和脊柱医院的放射学报告，这些报告的日期为2009年2月1日至2014年12月9日。影像学报告包括下肢和上肢的超声图像解释、胸部CT对比扫描和胸部磁共振图像[ 14］．作为本研究的一部分，我们将Emory项目开发的VTE识别模型应用于我们的数据集，而无需对模型进行进一步校准或再训练。

两个研究地点(杜克大学和OUHSC)都将数据转换为IDEAL-X所需的格式，该格式由Microsoft Excel电子表格组成，其中包含以下四列用于数据输入 ID，文本，手册, 系统列。的 ID列包含一个未识别的记录ID，该记录ID是使用加密安全哈希函数从PDF图像文件名计算出来的。的文本列为预处理后从影像报告中提取的非结构化文本。的手册列包含与IDEAL-X结果比较的金标准诊断。的系统列，根据IDEAL-X规范，保留空白，然后在处理后填充自动分类。

IDEAL-X的其他汇总输出包括记录总数、敏感性、特异性、真阳性和假阳性的数量以及真阴性和假阴性的数量。此外，对于二项分布数据，使用Clopper-Pearson方法计算95% ci [ 17］．采用同质性卡方检验来评估各站点的性能测量差异，显著性水平为0.05。我们对假阳性结果进行了事后分析，每位合著者回顾了每个假阳性和假阴性结果的文本，并将其划分为以下类别之一:无血栓证据，浅表静脉血栓形成，慢性或残留静脉血栓形成，以及不确定。

结果

杜克大学共收集了1591份影像学记录(上肢超声图像:n=223;下肢超声:n=729例;胸部CT血管造影:n=527;通气-灌注扫描:n=112)。OUHSC共收集了1487条成像记录(压缩超声图像:n=1333;胸部CT血管造影:n=149;通气-灌注扫描:n=5)。这为我们的团队提供了总共3078条记录供IDEAL-X评估。IDEAL-X包含或排除的成像记录数量(根据VTE的病例定义)以及手动复查的记录数量显示在表1(所示为合并数字和按地点分层的数字)。当这两个站点聚合时，有1204个真阳性病例，147个假阳性记录，1681个真阴性记录和46个假阴性病例。文中总结了系统的性能指标表2．总体而言，IDEAL-X的VTE模型达到了90%以上的准确性(93.7%)，灵敏度(96.3%)和特异性(92%)。

当按地点分层时，我们发现杜克大学和OUHSC之间的绩效指标在统计上存在显著差异。在杜克大学( P<.001)，而OUHSC的特异性显著更高( P<措施)。为了进一步研究特异性的差异，我们确定了假阳性结果的总数(147/1351,10.9%)。假阳性结果的原因总结在表3．两个位点的分布有所不同，杜克大学假阳性结果的分类原因与文本提示“没有血栓形成的证据”有关(104/ 104,100%)。此外，杜克大学的104个假阳性结果中有38个(36.5%)来自通气-灌注扫描的报告，这是一种未被包括在IDEAL-X VTE识别模型的机器学习阶段的成像方式。其余的错误发生在先前模型中使用的诊断成像方式(压缩超声和CT血管造影)，相应的成像报告中的许多错误是由于原始文本中不正确的换行，这导致算法对文本的错误解释。相比之下，在OUHSC，假阳性结果最常见的原因是文字说明“浅静脉中有血块”(25/ 43,58.1%)。杜克大学通气-灌注扫描的38个假阳性结果占所有人工解释为通气-灌注扫描的79.2% (38/48) 负杜克大学。相比之下，杜克大学的104例假阳性结果中有20例(19.2%)来自CT血管造影，但这些假阳性结果仅占人工解释的所有CT血管造影结果的8.1% (20/248) 负杜克大学。

表1

IDEAL-X(使用自适应学习的信息和数据提取)系统识别的符合静脉血栓栓塞病例定义的成像记录的分布与那些通过人工复查(金标准)识别的分布相比。给出了综合分布和按监测点分层的分布。

情况分类		通过人工审查进行分类
		结合			杜克大学			的OUHSC^一个
		情况下,n	Noncase n	总分类，N	情况下,n	Noncase n	总分类，N	情况下,n	Noncase n	总分类，N
总体分类^b
	病例由IDEAL-X识别	1204	147	1351	801	104	905	403	43	446
	由IDEAL-X识别的非case	46	1681	1727	17	669	686	29	1012	1041
	IDEAL-X总分类	1250	1828	3078	818	773	1591	432	1055	1487
从压缩超声记录分类
	病例由IDEAL-X识别	736	85	821	465	46	511	271	39	310
	由IDEAL-X识别的非case	28	1436	1464	10	431	441	18	1005	1023
	IDEAL-X总分类	764	1521	2285	475	477	952	289	1044	1333
胸部计算机断层扫描血管造影记录分类
	病例由IDEAL-X识别	403	24	427	274	20.	294	129	4	133
	由IDEAL-X识别的非case	15	234	249	5	228	233	10	6	16
	IDEAL-X总分类	418	258	676	279	248	527	139	10	149
根据通气-灌注扫描记录分类
	病例由IDEAL-X识别	65	38	103	62	38	One hundred.	3.	0	3.
	由IDEAL-X识别的非case	3.	11	14	2	10	12	1	1	2
	IDEAL-X总分类	68	49	117	64	48	112	4	1	5

^一个OUHSC:俄克拉荷马大学健康科学中心。

^b包括来自杜克大学的112个通气-灌注扫描和来自俄克拉荷马大学健康科学中心的5个通气-灌注扫描。

表2

IDEAL-X(信息和数据提取使用自适应学习)系统在监测点的性能。

性能测量			综合性能，% (95% CI)		在杜克大学的表现，%(95%置信区间)		在OUHSC的表现^一个， % (95% ci)
总体分类
	精度	93.7 (93.7 - -93.8)		92.4 (92.3 - -92.5)		95.2 (95.1 - -95.2)
	灵敏度	96.3 (96.2 - -96.4)		97.9 (97.8 -98)		93.3 (93.1 - -93.4)
	特异性	92 (91.9 -92)		86.5 (86.4 - -86.7)		95.9 (95.8 -96)
	PPV^b	89.1 (89 - 89.2)		88.5 (88.4 - -88.6)		90.4 (90.1 - -90.5)
	净现值^c	97.3 (97.3 - -97.4)		97.5 (97.4 - -97.6)		97.2 (97.1 - -97.3)
从压缩超声记录分类
	精度	95.1 (95 - 95.1)		94.1 (94 - 94.2)		95.7 (95.6 - -95.8)
	灵敏度	96.3 (96.2 - -96.4)		97.9 (97.7 -98)		93.8 (93.5 -94)
	特异性	94.4 (94.3 - -94.5)		90.4 (90.1 - -90.5)		96.3 (96.2 - -96.3)
	PPV	89.7 (89.5 - -89.8)		91 (90.8 - -91.1)		87.4 (87.1 - -87.7)
	净现值	98.1 (98 - 98.1)		97.7 (97.5 - -97.9)		98.2 (98.1 - -98.3)
胸部计算机断层扫描血管造影记录分类
	精度	94.2 (94.1 - -94.3)		95.3 (95.1 - -95.4)		90.6 (90 - 91)
	灵敏度	96.4 (96.2 - -96.5)		98.2 (97.9 - -98.4)		92.8 (92.2 - -93.2)
	特异性	90.7 (90.3 -91)		91.9 (91.6 - -92.2)		60岁(53.9 - -65.4)
	PPV	94.4 (94.2 - -94.5)		93.2 (92.9 - -93.4)		97 (96.4 - -97.3)
	净现值	94 (93.6 - -94.2)		97.9 (97.5 - -98.1)		37.5 (34 - 41.6)
根据通气-灌注扫描记录分类
	精度	65 (64.2 - -65.6)		64.3 (63.5 -65)		80 (67.4 - -87.9)
	灵敏度	95.6 (94.5 - -96.2)		96.9 (95.7 - -97.5)		75 (60 - 85.1)
	特异性	22.5 (21.3 -24)		20.8 (19.7 - -22.4)		100 (47.5 -100)
	PPV	63.1 (62.3 - -63.8)		62 (61.2 - -62.8)		100年(78 - 100)
	净现值	78.6 (73.7 -82)		83.3 (77.6 -87)		50 (27.5 - -72.5)

^一个OUHSC:俄克拉荷马大学健康科学中心。

^bPPV:阳性预测值。

^cNPV:负预测值。

我们还回顾了假阴性结果，并在表3．IDEAL-X错误分类记录的一些潜在原因可能是:(1)我们的人工审查员对调查可能的病例的阈值较低，例如将提示慢性静脉血栓栓塞的成像记录、部分堵塞的血管或诊断为血栓性静脉炎的诊断为静脉血栓栓塞的初步病例，需要进一步调查，并可能在进一步检查时排除;(2)如果文本在一个部分中表明有血栓的证据，而在另一个部分中没有证据，IDEAL-X将推迟到表明没有证据的部分;(3) IDEAL-X没有识别某些拼写错误或符号。然而，对于46例假阴性病例中的18例(39.1%)，IDEAL-X错误分类的原因尚不清楚。在杜克大学的6个错误分类结果中，2个(33%)来自通气灌注扫描。

表3

记录不一致的原因。

文字原因		杜克大学记录，n (%)	OUHSC^一个记录，n (%)
假阳性的记录
	没有血栓形成的证据	104 (100)	4 (9.3)
	浅静脉血栓形成	0 (0)	25 (58.1)
	慢性或残余深静脉血栓形成	0 (0)	13 (30.2)
	不确定的	0 (0)	1 (2.3)
	小计	104 (100)	43 (100)
假阴性的记录
	将可疑个案列为“阳性”个案	2 (11.8)	9 (31)
	阳性和阴性结果在同一份报告中	2 (11.8)	6 (20.7)
	无法识别的文本或符号，拼写错误	7 (41.2)	2 (6.9)
	阳性报告被错误分类	6 (35.3)	12 (41.4)
	小计	17 (100)	29日(100)

^一个OUHSC:俄克拉荷马大学健康科学中心。

讨论主要研究结果

这项研究表明IDEAL-X是一种准确的NLP工具，可用于识别VTE病例。该系统通过从成像记录(VTE诊断最可靠的数据源)获取信息，实现VTE病例的自动化识别，可能会提高VTE监测的效率。我们的研究结果有助于Dantes等人发表的研究结果[ 14通过扩大专业骨科医院的使用范围，并展示IDEAL-X在两个不同州的普通医院环境中的实用性和准确性，放射科医生在解释成像研究时使用了不同的语言、单词和短语模式。为了检验IDEAL-X VTE模型的稳健性，埃默里大学(Emory University)的研究人员在配置该模型后没有进行额外的训练[ 14］．因此，本研究更全面地探讨了医院系统的差异如何影响VTE模型的性能。

这种NLP模型的性能受到所使用的成像方式的影响。通气-灌注扫描的特异性和阳性预测值较低，其中95.7%(112/117)来自杜克大学系统。OUHSC的胸部CT血管造影特异性和阴性预测值较低。这些值可能会受到影响，因为我们没有收到所请求的样本(从非案例中只有10条记录就可以证明)。这导致病例患病率为93.2%(139/149)，这不能代表参与的卫生系统中肺栓塞的患病率。

使用NLP对案例进行分类的一个特别优点是IDEAL-X根据案例状态对记录进行分类所需的时间。OUHSC记录(N=1487)的预处理时间约为5分钟，后处理时间<1分钟。相比之下，监视人员每次成像研究大约需要1分钟来阅读文本并根据案件状态进行分类，这意味着本研究中使用的记录分类可能需要52.5人小时。当考虑在连续的时间框架内跨许多设施实施监控时，节省的时间变得越来越有意义。

与之前工作的比较

与其他常用的NLP工具相比，IDEAL-X相对简单，这些工具包括cTAKES(临床文本分析知识提取系统)、MetaMap、MedLEE(医学语言提取和编码系统)、GATE(文本工程通用架构)、NLTK(自然语言工具包)和OpenNLP。考虑到使用NLP的VTE监测系统处于设计和实现的初级阶段，我们还没有包括高级功能，如协参解析、关系提取和语义处理。然而，如果需要额外的细节来确定医生的隶属关系和组织的位置，或者理解长达一段话的文本(而不是1-2句话)，这些特征可能是有必要的。

IDEAL-X除用于静脉血栓栓塞病例识别外，还用于提取正在接受放射治疗的非小细胞癌患者的治疗和预后信息[ 18];心导管检查报告;冠状动脉造影报告;以及包含来自病史、体格检查和出院摘要的非结构化文本的报告[ 19］．这些研究报告了有希望的初步结果，显示了精度值、敏感性值和 F得分83%或更高。

其他NLP算法已经被开发出来并用于识别VTE病例。Hinz等[ 20.]开发了一种算法，报告阳性预测值为84.7%，灵敏度为95.3% F得分0.897。Gálvez等[ 21]开发了一种NLP工具——reveal NLP，用于识别儿科人群中的静脉血栓栓塞病例。报道的敏感性为97.2%，特异性为92.5%。虽然这些先前的研究使用了他们自己开发的工具，但我们的研究在与软件开发无关的机构中实现了IDEAL-X，为NLP工具的有用性和准确性提供了额外的见解。

限制

IDEAL-X的一个主要限制是缺乏与EMR系统的集成;IDEAL-X需要人员手动提取成像记录，这是一个限制速度的步骤。的强制二元选项是另一个限制情况下而且不是个案，以致于不确定的这不是一个选择。各站点观察到的假阳性结果类别的不同分布归因于每个站点请求或提取记录的方式的差异。来自浅表静脉血栓形成和慢性或残余DVT患者的影像学研究不包括在杜克大学的数据集中。如果需要在全国范围内部署NLP工具，则支持快速方便的定制以支持各种事件确定标准将是其先决条件。此外，还需要进行进一步的培训，以便IDEAL-X能够准确地对记录进行分类，以解释在假阳性和假阴性记录中检测到的模式。另一方面，为了监测目的，静脉血栓栓塞病例识别标准也需要标准化，以确保不同机构之间病例报告的一致性。

未来的工作将致力于VTE监测的完全自动化。如何更好地集成NLP程序(如IDEAL-X)的一个例子是，将其包括在设施的临床数据处理中，以便在成像报告完成并发送账单后，也可以通过IDEAL-X运行(以及相关的预处理例程)。除了实时分类静脉血栓栓塞病例外，迈向完全自动化流程的下一步还需要收集人口统计学、临床和风险因素数据，以促进对疾病发病率数据的解释。其他未来的努力包括实现机器学习来微调IDEAL-X算法，以便它能够“学习”如何更准确地区分案例和非案例。来自产生假阳性结果的记录的示例文本可以添加到进一步训练IDEAL-X并提高其准确性。尽管使用这些信息提取软件工具有预期的好处，但在实现过程中仍然存在一定的障碍。这些障碍包括定制部署和本地化的成本，软件的专有性质，以及负责操作和维护系统的人员，确保医疗保健管理员接受好处，并保持遵守健康保险携带和责任法案和其他法规。

结论和公共卫生影响

机器学习和NLP在疾病监测中的应用正在提高从emr中访问和分析非结构化文本的能力。它们的进一步广泛使用有望减少资源需求(即时间和金钱)，同时提高跨站点数据收集标准化的能力。通过对静脉血栓栓塞进行监测，我们将有更好的数据来了解临床实践的变化(例如，直接口服抗凝剂使用的增加)是否正在减轻静脉血栓栓塞的负担。加强静脉血栓栓塞监测可以改善患者的管理、护理和安全性。同样，随着COVID-19大流行的出现，一个强大的国家监测系统将有助于迅速了解COVID-19与静脉血栓栓塞之间的关系[ 22］．从VTE疾病监测中使用NLP获得的经验教训可以扩展到改善其他医院相关疾病的监测，其中来自医疗记录的非结构化文本在检测和分类中发挥关键作用。

缩写

计算机断层扫描

cTAKES

临床文本分析知识提取系统

深静脉血栓形成

EMR

电子病历

门

文本工程通用体系结构

理想x

使用自适应学习的信息和数据提取

MedLEE

医学语言提取与编码系统

NLP

自然语言处理

NLTK

自然语言工具包

OUHSC

俄克拉荷马大学健康科学中心

静脉血栓栓塞

我们非常感谢疾病控制和预防中心健康质量和促进部门的郑帅博士，他在这项研究中使用IDEAL-X(使用自适应学习的信息和数据提取)的专业知识，并审查了这篇手稿的准确性。我们也感谢希瑟·霍伦对手稿的编辑审查。我们真诚地感谢埃默里大学允许我们在这个项目中使用IDEAL-X。此外，我们感谢INTEGRIS Health System的Lisa Hunter和Lori Black在进行本研究监测时的合作。本研究由美国疾病控制与预防中心(合作协议号:#5U36OE000002-01)支持。本报告中的发现和结论仅代表作者的观点，并不代表疾病控制和预防中心的官方立场。

没有宣布。

美国疾病控制与预防中心

成人住院治疗中的静脉血栓栓塞——美国，2007-2009年

MMWR Morb凡人Wkly代表 2012 06 08 61 22 401 404

22672974

mm6122a1

斯宾塞

足总

金刚砂

约菲

西南

预期

Lessard

里德

戈尔

戈德堡

静脉血栓栓塞患者的发生率、临床特征和结局。伍斯特VTE研究

J溶栓 2009 11 28 4 401 409

10.1007 / s11239 - 009 - 0378 - 3

19629642

PMC3248815

梅纳德

预防医院相关静脉血栓栓塞:有效质量改进指南，第2版

医疗保健研究和质量机构 2016 08

2021-02-18

https://www.ahrq.gov/sites/default/files/publications/files/vteguide.pdf

Serhal

米

巴恩斯

静脉血栓栓塞:临床医师更新

Vasc地中海 2019 04 24 2 122 131

10.1177 / 1358863 x18821159

30950331

Wendelboe

我

坎贝尔

丁

Bratzler

贝克曼

毫克

雷耶斯

问

Raskob

通用电气

在俄克拉何马州俄克拉何马县一个种族多样化的人口中静脉血栓栓塞的发生率

Thromb Haemost 2021 06 121 6 816 825

10.1055 / s - 0040 - 1722189

33423245

PMC8180377

Kaafarani

协会

Borzecki

我

Itani想知道

KMF

Loveland

年代

考虑

沪江

Hickson

麦克唐纳

年代

胫骨

米

罗森

正义与发展党

所选患者安全指标的有效性:机会和关注

J Am Coll外科医生 2011 06 212 6 924 934

10.1016 / j.jamcollsurg.2010.07.007

20869268

s1072 - 7515 (10) 00832 - x

詹

战斗

蒋介石

亨特

ICD-9-CM编码识别术后深静脉血栓和肺栓塞的有效性

Jt通信合格病人安全 2007 06 33 6 326 331

10.1016 / s1553 - 7250 (07) 33037 - 7

17566542

s1553 - 7250 (07) 33037 - 7

方

方ydF4y2Ba

唱

上海

威特

Schmelzer

小

Steinhubl

老

耶鲁大学

上海

去

作为

使用住院和门诊管理代码识别急性静脉血栓栓塞的有效性:CVRN VTE研究

医疗保健 2017 12 55 12 e137 e143

10.1097 / MLR.0000000000000524

29135777

00005650-201712000-00021

PMC5125903

按类型划分，拥有认证医疗信息技术的医院的百分比

国家卫生信息技术协调员办公室 2021-05-25

https://dashboard.healthit.gov/quickstats/pages/certified-electronic-health-record-technology-in-hospitals.php

采用基于办公室的医生电子健康记录

国家卫生信息技术协调员办公室 2021-02-18

https://www.healthit.gov/data/quickstats/office-based-physician-electronic-health-record-adoption

Murff

沪江

FitzHenry

Matheny

我

绅士

科特

吉隆坡

Crimin

Dittus

罗森

正义与发展党

艾尔金

棕色（的）

上海

Speroff

使用自然语言处理在电子病历中自动识别术后并发症

《美国医学会杂志》 2011 08 24 306 8 848 855

10.1001 / jama.2011.1204

21862746

306/8/848

罗什福尔

厘米

时

Eguale

李

Buckeridge

戴斯。莱纳姆:

一种新的不良事件检测方法可以从记叙性电子健康记录数据中准确识别静脉血栓栓塞(VTEs)

美国医学信息协会 2015 01 22 1 155 165

10.1136 / amiajnl - 2014 - 002768

25332356

amiajnl - 2014 - 002768

PMC4433368

田

唱ydF4y2Ba

年代

Eguale

罗什福尔

厘米

电子健康记录中叙述放射学报告中VTE事件的自动提取:一项验证研究

医疗保健 2017 10 55 10 药剂 e80

10.1097 / MLR.0000000000000346

25924079

PMC5603980

唐太斯

郑

年代

陆

贝克曼

毫克

Krishnaswamy

一个

理查森

信用证

Chernetsky-Tejedor

年代

王

利用一种新型信息提取软件平台改进了从电子医疗记录中识别静脉血栓栓塞的方法

医疗保健 2018 09 56 9 e54 e60

10.1097 / MLR.0000000000000831

29087984

PMC5927846

Wendelboe

我

坎贝尔

McCumber

米

Bratzler

丁

贝克曼

米

雷耶斯

Raskob

采用主动和被动相结合的方法设计和实现了一种新的静脉血栓栓塞监测系统

Am Heart J 2015 09 170 3. 447 454. e18

10.1016 / j.ahj.2015.06.004

26385027

s0002 - 8703 (15) 00374 - 9

PMC4598067

Ortel

阿诺德

贝克曼

米

棕色（的）

一个

雷耶斯

军刀

我

Schulteis

辛格

英国石油公司

Sitlinger

一个

泰晤士河

嗯

设计和实施一个综合监测系统的静脉血栓栓塞的定义区域使用电子和人工方法

应用临床通知 2019 05 10 3. 552 562

10.1055 / s - 0039 - 1693711

31365941

PMC6669040

Fagerland

兆瓦

Lydersen

年代

Laake

成对二项比例的推荐检验和置信区间

地中海统计 2014 07 20. 33 16 2850 2875

10.1002 / sim.6148

24648355

郑

年代

Jabbour

O ' reilly

陆

越南盾

丁

肖

悦

王

邹

非小细胞肺癌放疗患者治疗和预后信息的自动提取:临床研究

JMIR Med Inform 2018 02 01 6 1 e8

10.2196 / medinform.8662

29391345

v6i1e8

PMC5814605

郑

年代

陆

Ghasemzadeh

哈耶克

党卫军

Quyyumi

王

利用在线机器学习和受控词汇的异构临床报告的有效信息提取框架

JMIR Med Inform 2017 05 09 5 2 e12汽油

10.2196 / medinform.7235

28487265

v5i2e12

PMC5442348

20.

海因茨

嗯

Bastarache

丹尼

定义静脉血栓栓塞表型的自然语言处理算法

AMIA年度诉讼程序 2013 11 16 2013 975 983

24551388

PMC3900229

Galvez

晶澳

帕帕斯

Ahumada

马丁

约

Simpao

房颤

拉赫曼

妈

威默

利用自然语言处理对小儿放射诊断报告中的电子健康档案进行儿童深静脉血栓的识别

J溶栓 2017 10 44 3. 281 290

10.1007 / s11239 - 017 - 1532 - y

28815363

10.1007 / s11239 - 017 - 1532 - y

Di Micco

Russo

踢球的

静脉血栓栓塞及其与COVID-19的关系:仍存在公开争议

药物(考纳斯) 2020 09 27 56 10 506

10.3390 / medicina56100506

32992511

medicina56100506

PMC7601141