医学信息学-慢性疾病临床记录的自然语言处理:系统回顾

审查

¹意大利特伦托布鲁诺凯斯勒基金会研究所电子健康研究小组

²意大利特伦托大学信息工程与计算机科学系

^3.美国纽约州纽约州西奈山伊坎医学院遗传学和基因组科学系下一代保健研究所

⁴NLP研究小组，基金会布鲁诺凯斯勒研究所，特伦托，意大利

⁵瑞士苏黎世大学计算语言学研究所

通讯作者:

Venet Osmani博士

电子健康研究小组

布鲁诺凯斯勒基金会研究所

Povo, Via Sommarive 18

特兰托38123

意大利

电话:39 0461 31 2479

电子邮件:vosmani@fbk.eu

背景:慢性疾病领域需要补充和超越循证医学的新方法，因为世界人口中慢性疾病的发病率不断增加。一个有前途的途径是二次使用电子健康记录(EHRs)，其中对患者数据进行分析，以进行临床和转化研究。基于机器学习的处理电子病历的方法正在提高对患者临床轨迹和慢性疾病风险预测的理解，为获得以前未知的临床见解创造了独特的机会。然而，丰富的临床历史仍然锁定在自由形式的文本中的临床叙述。因此，释放EHR数据的全部潜力取决于自然语言处理(NLP)方法的发展，以自动将临床文本转换为结构化的临床数据，从而指导临床决策，并有可能延迟或预防疾病发作。

摘要目的:该研究的目标是提供一个全面的概述，应用于与慢性疾病相关的自由文本临床记录的NLP方法的发展和采用，包括调查NLP方法在理解临床叙述方面面临的挑战。

方法:遵循系统评价和荟萃分析(PRISMA)指南的首选报告项目，并在5个数据库中使用“临床记录”、“自然语言处理”和“慢性疾病”及其变体作为关键词进行搜索，以最大限度地覆盖文章。

结果:在考虑的2652篇文章中，106篇符合纳入标准。对纳入的论文进行了审查，确定了43种慢性疾病，然后进一步将其分为10个疾病类别《国际疾病分类》第十版．大多数研究集中在循环系统疾病(n=38)，而内分泌和代谢疾病最少(n=14)。这是由于与代谢疾病相关的临床记录的结构，与循环系统疾病的医疗记录相比，代谢疾病通常包含更多的结构化数据，而循环系统疾病的医疗记录更多地关注非结构化数据，因此NLP的关注更强。审查表明，与基于规则的方法相比，机器学习方法的使用有显著增加;然而，深度学习方法仍然是新兴的(n=3)。因此，大多数工作集中于疾病表型的分类，只有少数论文涉及从自由文本中提取共病或将临床记录与结构化数据集成。由于预测的可解释性，相对简单的方法有显著的使用，例如浅分类器(或与基于规则的方法的组合)，这对于更复杂的方法来说仍然是一个重要问题。最后，公开数据的稀缺也可能导致更先进方法的开发不足，例如从临床记录中提取词嵌入。

结论:仍需努力改进:(1)临床NLP方法从提取到理解的进展;(2)承认实体之间的关系，而不是孤立的实体;(3)时间提取以了解过去、现在和未来的临床事件;(4)开发临床知识的替代来源;(5)大规模、去识别的临床语料库的可用性。

JMIR Med Inform 2019;7(2):e12239

doi: 10.2196/12239

关键字

电子健康记录；临床的笔记；慢性疾病；自然语言处理；机器学习；深度学习；心脏病；中风；癌症；糖尿病；肺部疾病

概述

癌症、糖尿病和高血压等慢性疾病的负担被广泛认为是卫生保健的主要挑战之一。虽然在发现新的治疗方法和预防策略方面取得了巨大进展，但这一挑战不仅持续存在，而且发病率呈上升趋势[1]，对患者的生活质量和护理成本产生重大影响。因此，需要新的方法来补充和超越现有的循证医学，以减少慢性疾病对现代社会的影响。

一个有前途的方向是二次使用电子健康记录(EHRs)来分析患者数据，推进医学研究，并更好地为临床决策提供信息。基于电子病历分析的方法[2]有助于更好地了解患者的临床轨迹[3.]同时能够更好地进行患者分层和风险预测[4-6］．特别是，使用机器学习，特别是深度学习来处理电子病历，正在创造一个独特的机会，以获得以前未知的临床见解[7］．这与慢性疾病尤其相关，因为它们的纵向性质提供了非常大和连续的数据流，可以提取有临床意义的模式，并用于指导临床决策，包括延迟或预防疾病发作。

然而，由于其高维、噪声、异质性、稀疏性、不完整性、随机误差和系统偏差，电子病历的表示和建模具有挑战性。此外，关于患者临床历史的大量信息通常被锁在自由文本的临床叙述后面[8因为书写文本仍然是记录临床事件最自然和最有表现力的方法。自然语言处理(NLP)方法的开发对于自动将临床文本转换为可以使用机器学习算法直接处理的结构化临床数据至关重要。NLP在临床领域的应用越来越广泛，包括从放射学报告中识别生物医学概念[9]、护理文件[10]，以及出院摘要[11］．然而，应用于临床叙述的基于NLP的框架尚未广泛应用于临床环境，以帮助决策支持系统或工作流程。

动机

临床记录中的临床相关信息一直是由临床专家通过人工审查提取的，这导致了可伸缩性和成本问题。这与慢性疾病特别相关，因为临床记录主导结构化数据(例如，Wei等人[12以图形方式量化慢性疾病(如类风湿性关节炎、帕金森病和阿尔茨海默病)的结构化数据上的临床记录数量。这些数据的可用性为NLP自动提取有临床意义的信息创造了巨大的机会，这些信息可能会延迟或预防疾病的发作，然而，这也带来了一些挑战。在这篇论文中，我们旨在确定可以加速采用慢性疾病临床记录的NLP的方向，并提供对当前挑战和艺术状态的理解。

有关处理临床病历的系统综述已在过去发表[13-18];但是，没有一项专门针对慢性疾病，因此很难就这一具体和非常多样化的领域得出结论和建议。特别地，本文调查了我们系统综述中确定的43种独特慢性疾病相关的NLP挑战，并讨论了将各种NLP方法应用于临床转化研究的趋势。基于这一综述的结果，我们还对未来的研究方向提出了一些建议，包括:(1)临床NLP方法从提取到理解的演变;(2)承认实体之间的关系，而不是孤立的实体;(3)时间提取，以了解过去、现在和未来的临床事件;(4)开发临床知识的替代来源;(5)大规模鉴定和注释临床语料库的可用性。

搜索策略和信息源

我们遵循了系统评价和元分析(PRISMA)首选报告项目指南[19］．我们对几个数据库进行了搜索，以确定从2007年1月1日到2018年2月6日发表的所有潜在相关文章，包括Scopus、Web of Science(包括MEDLINE)和PubMed，以及计算机协会(ACM)数字图书馆。我们将搜索范围限定在英文期刊文章上。在所有的搜索中，我们使用了以下关键词组的组合:(1)“临床记录”，“医疗记录”或“临床叙述”;(2)“自然语言处理”、“医学语言处理”、“文本挖掘”或“信息提取”;(3)“慢性病”、“心脏病”、“中风”、“癌症”、“糖尿病”或“肺病”(其中最后一组关键词反映了排名前五的慢性病)。搜索关键字的选择是详尽的，以最大限度地覆盖文章。中提供了确切的查询多媒体附件1．

文章选择

在最初的查询中，我们还包括以下术语:“电子健康记录”、“EHR”、“电子医疗记录”和“EMR”。这导致共2652篇检索文章。然而，在审查这些文章时，我们注意到范围太广，提供的结果超出了本次审查的重点。因此，我们将搜索策略缩小到前一节中指定的关键词，共获得478篇文章，其中401篇来自Scopus, 58篇来自Web of Science(包括PubMed)， 13篇来自ACM数字图书馆，6篇手动添加，包括4篇会议论文。在删除46个重复后，保留了432篇文章，由两位作者(MS和VO)审阅了他们的标题和摘要(每人216篇)。在筛选阶段后，保留了159篇文章进行进一步分析。

在第二筛选阶段，5位作者独立审阅了159篇全文文章，最终有106篇文章符合我们在本文中讨论的标准。最常见的排除原因是该工作与慢性疾病没有直接关系(n=32);另一个原因是工作不是主题(例如，这篇文章不是期刊论文，或者我们无法检索文本)。中提供了选择过程的流程图和说明图1而且多媒体附件2,分别。

图1。系统评价和元分析的首选报告项目选择流程图。计算机协会;NLP:自然语言处理。

疾病分类

这106篇文章主要涉及43种独特的慢性疾病(如图所示)多媒体附件2)．我们的目标之一是了解特定疾病类别的NLP程度及其相关的临床记录。因此，我们将43种独特的慢性疾病分为10个疾病类别《国际疾病分类》第十版(ICD-10)，见表1．

表1。研究的慢性疾病分类(n=102)和相应的论文数量。

慢性病分类	研究，n (%)	条件包括
循环系统疾病	38 (35.8)	充血性心脏病(2)，冠状动脉疾病(6)，心脏病(6)，心力衰竭(7)，高血压(5)，外周动脉疾病(3)，肺部疾病(4)
肿瘤	34 (32.1)	乳腺癌(8)、结直肠癌(7)、前列腺癌(4)、淋巴瘤(2)
内分泌、营养和代谢疾病	14 (13.2)	2型糖尿病12例，肥胖2例
其他疾病	16 (15.1)	消化系统疾病(3)、泌尿生殖系统疾病(3)、肌肉骨骼系统和结缔组织疾病(3)、呼吸系统疾病(2)、精神和行为障碍(2)、多种疾病(3)

图2。慢性疾病(黑色部分)与综述文章之间的关系(为清晰起见，我们只纳入了由三篇或三篇以上文章论述的疾病)。

排在前三位的疾病组为(1)循环系统疾病(n=38)(如冠状动脉疾病[20.]和高血压[21]);(2)肿瘤(n=34)(如乳癌[22]和前列腺癌[23]);(3)内分泌、营养和代谢性疾病(n=14)(如2型糖尿病[24]和肥胖[25])。所研究的疾病和相关文章的概述见图2．

一个意想不到的发现是，尽管在普通人群中代谢性疾病的发病率较高[26]与循环系统疾病相比[27]，在这些疾病的临床叙述中使用NLP表现出相反的趋势。与代谢性疾病相比，循环系统疾病的人数要多得多(n=38 vs n=14)。我们假设EHRs中包含的数据结构可以解释这一发现。与循环系统疾病相关的病历相比，代谢疾病相关的病历通常包含更多的结构化数据(例如各种生理和物理参数的数值)，而循环系统疾病的病历则更多地关注非结构化数据[28］．这就产生了使用NLP从与循环系统疾病相关的病历中提取信息的更迫切需求，而代谢性疾病患者的电子病历在很大程度上可能已经包含了可以通过最少预处理的算法使用的数据。在接下来的章节中，我们总结了最具代表性的论文(完整的列表在多媒体附件2)．

疾病组

循环系统疾病

心血管疾病

这一领域的大部分工作都集中在使用NLP来估计心脏病的风险。例如，Chen等[29]开发了一种基于机器学习和规则的混合管道，以识别与心脏病风险相关的医学相关信息，并通过一系列纵向患者记录跟踪疾病进展，包括临床记录(类似于Torri等人[30.])。Karystianis等人[31]及杨等[32]从糖尿病患者的临床记录中评估了心脏病危险因素的识别。罗伯茨等人采用了一种略有不同的方法[33]的研究重点是基于8种风险触发因素(例如阿司匹林)的分类来估计心脏病风险。这一领域的其他研究集中在评估阿司匹林的使用作为一个危险因素[34，35]，从超声心动图中提取心功能测量值[36]、深静脉血栓及肺栓塞[37]，以及低密度脂蛋白水平和他汀类药物的使用[38］．

已使用结构化数据和临床记录预测房颤患者中风和大出血的风险[39]，而心力衰竭患者仅通过临床记录来确定[40］．此外，用意大利语撰写的医疗报告已被用于确定心律失常事件[41］．

外周和冠状动脉疾病

一些研究使用NLP从临床记录中提取外周动脉疾病(PAD)和严重肢体缺血病例[42，43]，包括一项全基因组相关研究，重点研究PAD以确定药物、疾病、体征/症状、解剖部位和程序[44］．利珀等[45]使用NLP对PAD患者进行了暴露于西洛他唑的安全性监测研究，发现恶性心律失常和猝死的并发症与该药物没有关联。此外，临床文本分析知识提取系统(Clinical Text Analysis Knowledge Extraction System, cTAKES)已用于处理糖尿病患者的临床病史，以预测PAD的发展[46］．

高血压

关于高血压的工作主要集中在NLP上，以提取相关指标、共病和药物治疗[21］．分析了1亿份保加利亚语门诊病历的临床叙述，以提取具有高灵敏度和高回忆性的数值血压值[47]，而术语高血压是从自由文本笔记中提取的，使用的是基于规则的开源工具[48］．使用开源药物信息提取(IE)系统MedEx，临床记录和几种类型的医疗文件也被用于识别高血压个体[49］．

右侧，左侧，充血性心力衰竭

伯德等[50]和Jonnagaddala等人[20.]提出了一种混合NLP模型，从临床记录和电子病历中识别弗雷明汉心力衰竭的体征和症状(即，对是否断言弗雷明汉标准进行分类)。从自由文本超声心动图报告中提取左室射血分数[51]，而使用naïve贝叶斯和条件随机场(conditional random field, CRF)分类器，利用糖尿病患者的非结构化纵向EHRs提取心脏病相关信息[52］．

王等[53]提出了一种从电子病历中识别充血性心力衰竭(CHF)的系统，他们对该系统进行了前瞻性验证。此外，左室射血分数加上相关的定性和定量值被用于识别有CHF风险的患者[54]，而自由文本笔记则用于区分左右心衰[55］．

心力衰竭鉴定

黄玉等[56]开发了一种算法，通过出院总结记录来识别对饮食、体育活动、药物依从性和临床预约自我管理无效的心力衰竭(HF)患者，而Garvin等人[57]重点关注心衰患者的护理质量。Vijayakrishnan等[58]探索了先前验证的文本和数据挖掘工具的应用，以确定大量初级保健人群的EHRs中HF体征和症状标准的存在。他们发现，在最终的HF病例中，HF的体征和症状被记录的频率要高得多，而且比首次诊断早了几年，因此提示了HF早期检测的潜在未来作用。最后，使用正则表达式来确定预定义的心理社会因素，这些因素可作为心衰病例后再次入院可能性的预测因素[59］．

肿瘤

概述

本节回顾了一些与癌症相关的研究，包括多种癌症的检测[60，61]，提取肿瘤特征及肿瘤相关信息[62-64]、癌症患者的疾病轨迹[65]、癌症复发[23，66]，以及侦测癌症的阶段[67，68］．

Kasthurirathne等[60]评估了常用分类算法的性能，以使用非字典方法从自由文本病理报告中检测癌症病例。Yim等[62]探索了一种机器学习算法，通过对放射报告应用参考分辨率来提取肿瘤特征。詹森等人[65开发了一种方法，可以从临床文献中估计癌症患者的疾病轨迹。纳波利塔诺等人[67]促进了癌症分期相关信息的提取，提出了一种半结构化报告模型，优于单独的非结构化报告模型．

许多研究集中于NLP在病理学、组织病理学和放射学报告中的不同应用[69]，包括从叙述性癌症病理报告中提取相关领域实体[70］，病理报告中医疗实体的否定检测[71］，从病理报告到图表表示的句子翻译[72］，从病理报告和病理分类中提取信息[73，74]，以及根据组织病理学记录识别命名实体[75］．

最常见的三种癌症是乳腺癌(n=8)、结直肠癌(n=7)和前列腺癌(n=4)。

乳腺癌

卡雷尔等[66]提出了一种NLP系统来处理临床文本以识别乳腺癌复发，而Castro等人[22]解决了自动乳腺成像报告和数据系统(BI-RADS)从乳腺放射报告中提取类别的问题。米勒等[76]提出了一种在领域内(结肠癌)和领域间(乳腺癌)评估的临床文本中进行共参考解析的工具。Mykowiecka等[77]提出了一个基于规则的IE系统，评估乳房x光检查报告。Bozkurt等人[78]开发了NLP方法来识别自由文本乳房x光检查报告中的病变，并提取它们之间的对应关系，为每个病变生成完整的信息框架。

结直肠癌和前列腺癌

ehr和NLP用于识别需要大肠癌筛查的患者[79]，并检测结肠镜检查相关概念及时间相关信息[80］．此外，EHRs和NLP也被用于识别前列腺活检阳性的前列腺腺癌患者[81］．

肝癌和胰腺癌

平等[82]从肝癌患者的各种临床报告中提取了一组预定义临床概念的文本信息，而al - haddad等人[83]确认了导管内乳头状粘液性肿瘤的外科病理诊断。

内分泌、营养和代谢疾病

NLP在内分泌、营养和代谢疾病领域的应用包括否定检测和在自由文本笔记中提及家族史[84]以及为医学概念分配时间标签[85];肥胖(25，86]及糖尿病诊断[77，87-89];以及糖尿病并发症，如足部检查结果[90］，视力丧失[91］，量化低血糖的发生[24］．

结合两个支持向量机(svm)，通过从临床文本中提取肥胖和糖尿病相关概念来自动识别肥胖类型[86]除了病人的身份识别外[92］．开发并验证了基于svm的系统，以识别与糖尿病有关的EHR进度记录[87]，而临床报告的足部检查结果[90]被用来预测生活质量[93］．此外，对大型EHR数据库的分析用于量化低血糖的发生[24］．

其他疾病类别

其余16篇论文集中于处理不同类型慢性疾病的临床记录。三项研究涉及肌肉骨骼系统和结缔组织疾病，特别是使用NLP和SVM对美国退伍军人EMRs中与轴性脊椎关节炎相关的文本片段进行分类[94]，系统性红斑狼疮的表型[95]，以及基于本体的NLP和logistic回归对类风湿关节炎患者的识别[96］．在消化系统疾病领域，Chen等[97]使用来自病理报告的自然语言特征来识别乳糜泻患者，Soguero-Ruiz等[98]采用特征选择和支持向量机检测结直肠癌术后早期并发症，Chang等[99]将基于规则的NLP与ICD-9s和实验室值集成到一个算法中，以更好地定义和风险分层肝硬化患者。

两篇论文评估了多疾病领域的深度学习。特别是Miotto等人[3.]从基于神经网络的聚合EHRs(结构化临床数据和临床记录)中获得了通用患者表示，该神经网络促进了给定患者状态的临床预测建模。临床记录使用国家生物医学本体中心的开放生物医学注释器进行解析，提取医学术语，并使用主题建模(潜在狄利克雷分配)进行进一步处理。史等[One hundred.]提出使用全连接层的词嵌入和卷积神经网络从患者临床记录中评估疾病风险。

神经网络也被用于处理临床记录，以进行精神病学诊断的表型分析[101］．特别地，这个模型包括两个神经网络，一个在排斥病人方面非常准确，但在识别合适的病人方面很差，另一个则具有相反的能力。在精神和行为障碍的同一领域，共病网络来自丹麦最大的精神病院的患者记录，以提取疾病相关性[102］．

基于NLP的临床记录IE也用于(1)筛选侵袭性肺霉菌的计算机断层扫描报告[103]，(2)发现慢性阻塞性肺疾病与其他医学术语的共发[104]，(3)量化术前聚集危险因素与白内障手术并发症的关系[105]，(4)从临床记录中发现多发性硬化症患者，然后由其医疗保健提供者初步识别[106]，以及(5)在重症监护多参数智能监测II (MIMIC-II)公开数据集中识别透析患者[107］．

最后，Pivovarov和Elhadad [108]使用慢性肾脏疾病患者的临床记录来验证一个新的模型，通过结合来自临床文档使用模式、公认定义和概念在本体中的位置的互补信息来计算两个医学概念的相似性。

信息提取方法

为了了解慢性疾病的NLP方法的趋势，在这篇综述中，我们分析了所使用的方法(机器vs基于规则的学习)的论文。与基于规则的方法相比，机器学习方法的使用越来越多(如图所示)图3)，考虑到NLP文献中显示的机器学习算法的优越性能，它并不像我们预期的那样明显[109］．这一结果可能反映了这样一个事实，即我们目前仍在见证从基于规则的方法到机器学习算法的过渡，基于规则的方法被用作比较机器学习方法性能的基线。

我们的综述确定了16篇论文采用了结合基于规则的方法和机器学习方法的混合方法。其中，2篇论文描述了识别疾病、风险因素、药物和时间属性的工作。特别地，基于crf、svm和基于规则的方法的混合管道被用于识别否定信息和规范化时态表达式[29]，同时使用一系列SVM模型结合人工构建的词汇表对每种风险因素的触发因素进行分类[33］．

我们确定了24篇论文，重点比较了基于规则的方法和机器学习方法的性能。通常，基于规则的方法被用作基准，以测试机器学习算法的性能。

至于基于规则的方法，本文中的方法包括字典查找[110-112]，基于领域本体的术语识别[3.，42，45，58]，各种类型的手动定义的规则[37，113]和正则表达式模式[114，115］．

最广泛使用的机器学习方法是支持向量机，已被用于预测医疗记录中的心脏病[32，46]，识别与糖尿病有关的电子病历进度记录[94]，并根据BI-RADS对乳腺放射报告进行分类[22］．

Naïve贝叶斯是第二常用的方法，用于预测医疗记录中的心脏病[30.，80]，按吸烟状况分类[52]，搜寻EMR记录以确定多发性硬化[106]，并对肥胖的EMR记录进行分类[86]和癌症[60，65，67］．crf是第三种最常见的方法，已在医疗记录中用于预测心脏病[29，32]，确定有关糖尿病的电子病历进度记录[85]，分类乳腺放射报告[22]，并在放射学报告中识别肿瘤属性[63］．最后，随机森林被用于预测心脏病[53]，以分类癌症类型[60]，以及识别高血压[49］．

表2。最常用的自然语言处理方法和相应的论文数量。

方法	论文(n)
支持向量机	18
朴素贝叶斯	11
条件随机场	7
随机森林	4
最大熵	3.
决策树	3.
深度神经网络	3.
逻辑回归	3.
基于规则的方法	74

有趣的是，只有3篇论文使用了基于深度学习的方法[3.，One hundred.，101]，如图所示表2．特别是Geraci等人[101]将深度神经网络应用于emr，以确定适合青少年抑郁症研究的候选人。Miotto等[3.]提出了一种方法，可以从汇总的EHRs(包括临床叙述)中派生出便于临床预测建模的患者表示。他们使用主题建模来表示自由文本笔记。该方法的性能明显优于标准特征学习策略。最后，Shi等人[One hundred.]提出了一种基于临床记录的疾病评估模型，利用卷积神经网络进行疾病风险评估。实验对象包括脑梗死、肺部感染和冠状动脉粥样硬化性心脏病患者。

自然语言处理任务，方法和数据集

综述论文中描述的NLP工作和相关方法表明，最常描述的任务是文本分类和实体识别。大多数论文使用NLP中的标准方法描述文本分类任务，如SVM (n=12)和naïve Bayes (n=4)。实体识别方法基于人工开发的资源(字典、正则表达式、手写规则)以及基于机器学习的方法。对于前者，有基于字典的方法(n=5)和依赖正则表达式的方法(n=12)。对于后者，方法主要基于标准的机器语言技术，如CRF和深度学习。一些论文描述了共参分辨率(n=2)和否定检测(n=3)的方法。协参分辨率采用支持向量机，而否定检测基于支持向量机(n=2)或人工规则(n=1)。

关于数据集，大多数论文描述了在未公开可用的数据集上运行的实验(通常是在研究型医疗机构收集的临床数据，并由内部NLP团队利用)。另一方面，在涉及公开语料库的16篇论文中，有12篇利用了整合生物学和床边(i2b2)数据集的信息学。使用的其他4个公共数据集是MIMIC-II [107]， PhenoCHF [116]、您的医疗事件的时间历史(百里香)和癌症深层表型提取(DeepPhe) [76］．

与其他系统评价的比较

人们对使用自然语言处理自动化处理医疗记录，特别是自由文本临床记录的兴趣正在增加，最近对该领域的一些评论就是一个例子。然而，这些作品都没有仅仅关注慢性疾病，患者临床记录的数量往往比其他领域大，也没有就如何推进该领域的临床应用，帮助治疗慢性疾病提供具体建议。在这里，我们简要地总结了与本文部分相关的前人工作。

福特等人[13]对67篇论文进行了系统综述，这些论文使用了应用于医疗记录的IE技术，目的是发现病例(即发现特定疾病的发生)。同样，Kreimeyer等人[117]回顾了86篇关于临床NLP系统和71个相关NLP任务的论文。

Shivade等人的研究[14]回顾了97篇旨在为进一步医学研究确定患者群体的论文。与我们的工作不同，他们的工作不局限于使用自然语言处理和文本挖掘的研究调查，而是包括基于规则的方法，不使用医疗记录的文本部分。然而，他们观察到，与基于规则的系统相比，机器学习、统计和NLP方法的使用正在上升。

阿贝等[118]通过基于prisma的综述来考虑文本挖掘在精神病学中的应用。该研究评估了与研究目标相关的特定NLP技术的应用，首先是定性的，然后是对所选摘要的主题进行聚类分析。它确定了出版物中的四个主要主题:(1)精神病理学(2)，患者视角，(3)医疗记录，(4)医学文献。这篇综述的范围与我们自己的部分重叠，考虑到狭窄的主题分析和从其他文本资源(如患者视角)处理IE的研究。

Spasic等人的综述[119他专注于癌症研究。作者根据癌症类型和处理文件的类型对研究进行了分类。它们不仅专注于基于医疗记录或其他类型的临床文件的研究，还包括将文本挖掘技术应用于PubMed出版物的元研究。他们将NLP应用程序分为四类:命名实体识别、IE、文本分类和信息检索。他们的调查揭示了符号方法的优势(字典和基于规则)。

Pons等人的工作[120是NLP在放射学领域应用的系统综述。经过基于摘要的初步预选，对所选论文的全文进行详细审查，最终产生67篇论文，所有论文都被认为考虑了NLP在放射学中的实际应用。选定的出版物根据具体应用分为五个大类:诊断监测、队列建设、查询病例检索、放射实践质量评估和临床支持服务。作者对每个出版物中报告的性能进行了详细的比较分析，并按应用程序类别对它们进行了分组。

与我们的工作最接近的是Wang等人的系统综述[18]，专注于IE应用;然而，我们的综述还包括临床记录分析中使用的方法，提供了更广泛的文章集。我们认为，与以前的综述相比，我们的综述对慢性疾病的覆盖范围更广、覆盖面更广，并对每种疾病进行了详细分析，而以前的综述主要关注癌症等特定疾病[119]、精神病学[118]、放射学[120]，或IE应用程序[18］．

出版地点

本综述中所考虑的106篇文章发表在50个独特的场所。图4说明了我们如何手动将出版场所分为三类:(1)临床医学，(2)医学信息学，(3)计算机科学。我们观察到大多数研究发表在医学信息学期刊上。图5近年来，NLP在慢性疾病临床和信息学研究中的应用呈现增长趋势(由于部分年度检索，2018年除外)。

主要研究结果

我们的系统综述表明，NLP在处理不同慢性疾病的临床记录(分析中确定了43种独特的慢性疾病)方面具有广泛的应用。在这方面，与基于规则的方法相比，机器学习的使用有了显著的增加。尽管深度学习提供了潜力，但大多数论文仍然依赖于浅分类器。事实上，只有少数研究(即3篇论文)将深度分类器或一般深度学习方法用于NLP。考虑到深度学习在文本处理方面的潜力，这是出乎意料的。121］．我们的假设是，由于深度学习仍然是一个新兴领域，在临床领域的初步应用可能已经发表在研讨会、会议论文集和电子打印库arXiv上，而不是本文的重点期刊。在这方面，在arXiv中对“深度学习”、“临床记录”、“医疗记录”或“临床叙述”进行关键词搜索，前五年(2013-2018年)的论文数量显著增长:2013年至2015年有7篇，2016年有13篇，2017年有19篇，2018年有22篇。此外，期刊评审时间较长可能是导致最近论文出现这种结果的原因。我们预计这一结果将在未来几年发生变化，因为越来越多的基于深度学习处理临床记录的工作将发表在同行评审的期刊上。

我们回顾的另一个发现是，大多数论文都确定了特定疾病的危险因素，并根据某种疾病的表型对临床记录进行了分类。然而，只有少数几篇论文从自由文本中提取共病，或将临床记录与结构化数据整合起来，以预测和纵向建模慢性疾病患者的轨迹。这种结果可能与数据分析方法和算法(如前面强调的浅分类器和基于规则的方法)的使用有关，这些方法无法捕捉临床变量之间的时间和纵向关系，进而捕捉疾病演变。使用的工具(如MetaMap)和方法(如将n-grams映射到本体)可能是其他影响因素。虽然这些工具可以从文本中提取有意义的医疗信息，但本质上它们减少了推导出更复杂关系的可能性，这主要是由于短语结构(例如，"乳腺癌和肺癌"可能仅被标识为"乳腺癌"和"肺癌"，而不是同时标识为"乳腺癌"和"肺癌")。然而，就预测的可解释性而言，使用相对简单的方法是有优势的，这在临床领域是一个非常重要的方面，而对于更复杂的方法来说，它仍然是一个重要的问题。

我们的综述只检索了一些关于从临床记录中提取词嵌入主题的研究。这可能是由于训练算法的可用数据不足，以及嵌入方法只是最近才开发出来的事实。训练数据不足的问题可以使用迁移学习方法来解决，而对特定疾病或疾病类别使用预先计算的嵌入可能有助于有效地捕捉纵向关系。

我们的综述表明，SVM和naïve贝叶斯算法最常用于基于机器学习的任务或与基于规则的方法结合使用。这可能是由于这些算法的流行，也因为naïve贝叶斯是一个相对简单的算法，需要相对少量的训练数据(例如，与深度分类器相比)。虽然直接比较我们考虑的研究的算法性能是不可行的(由于数据的多样性和所解决的挑战)，但我们注意到，最常报告的性能指标是灵敏度(召回率)、正预测值(精度)和F得分。

最后，我们的综述强调了公共数据集的可用性仍然稀缺的事实。考虑到临床数据的敏感性以及所有法律和监管问题，包括《健康保险可携带性和责任法案》和欧洲法律的数据保护指令(指令95/46/EC)(被《通用数据保护条例2016/679》取代)，这一结果在很大程度上是意料之中的。因此，本文中回顾的研究通常来自基于研究的卫生保健机构，其内部NLP团队可以访问临床数据。因此，仍然需要共享任务，如i2b2和访问数据，这将增加临床NLP的参与，并有助于改进针对临床应用的NLP方法和算法。

限制

本综述研究了过去11年的IE临床应用文献，可能存在以下局限性。该综述仅限于用英语撰写的期刊文章，以及用其他语言撰写的论文，特别是考虑临床叙述的论文，可能会提供额外的结果。此外，使用非ehr系统的临床文章的论文没有被考虑。最后，专注于临床领域可能会对所审查的方法(基于规则与机器学习)产生偏见，因为与其他领域相比，基于规则的方法在临床领域更普遍[122］．

建议

我们的综述表明，临床NLP方法显然有必要从提取临床概念演变到更多地关注概念理解(即，不仅理解概念之间的关系，而且在推理过程中纳入临床事实、领域知识和一般知识)。在这篇综述中，我们还没有遇到试图弥合概念提取和概念理解之间差距的工作。

我们提出了以下具体建议:

专注于临床概念和实体之间关系的识别。虽然在识别文本叙述中的实体(如疾病、药物、程序)方面已经取得了进展，但必须进一步努力，自动推断这些实体之间的关系(例如，药物A导致慢性疾病C的不良事件B)，这反过来将有助于对临床文本进行更深入的理解。
从自然语言文本中提取时间信息、自动标记和规范化是一个重要方面。这与临床文献尤其相关，因为疾病进展和临床事件通常是按时间顺序记录的，特定事件仅在特定的时间背景下才显着。因此，考虑到时间提取在临床环境中的意义，应给予极大的关注，特别是因为本综述中没有一篇文章涉及时间提取(或使用粗糙的方法，如临床记录的时间戳)。
有注释的临床语料库的稀缺增加了开发领域知识的替代来源的需求。除了主流资源，如生物医学文献、百科全书和教科书，自动诊断和决策支持系统也可以利用(如DXplain [123])。迁移学习是一种将其他领域现有语料库中的知识转移到临床领域的方法，也具有巨大的潜力，应该进行更详细的研究。
有效的临床NLP的重大进展将依赖于研究人员可用的大规模语料库。虽然i2b2及其后继者n2c2等共享任务是朝着正确方向迈出的一步，但还需要进一步的激励措施，例如开发一种机制，使患者能够捐赠他们的匿名数据，甚至提供在护理机构内基于临床文本运行的算法。

致谢

这项工作得到了欧盟地平线2020研究和创新计划的部分支持，资助协议#769765。

利益冲突

没有宣布。

‎

多媒体附件1

搜索策略。

PDF档案(adobepdf档案)，178KB

‎

多媒体附件2

完整的综述论文列表，慢性疾病及其分类，使用的算法，发表地点，和排除的论文。

XLSX文件(Microsoft Excel文件)，107KB

世界卫生组织。世卫组织2014年全球非传染性疾病状况报告网址:https://www.who.int/nmh/publications/ncd-status-report-2014/en/[访问日期:2019-03-29][WebCite缓存］
李志强，李志强，李志强，等。电子健康档案的应用因素分析。JMIR Med Inform 2016 6月01日;4(2):e19。［CrossRef] [Medline］
Miotto R, Li L, Kidd BA, Dudley JT。深度患者:从电子健康记录中预测患者未来的无监督表示。科学报告2016年12月17日;6:26094 [免费全文] [CrossRef] [Medline］
詹森P，詹森L，布鲁纳克s挖掘电子健康记录:朝着更好的研究应用和临床护理。2012年5月2日;13(6):395-405。［CrossRef] [Medline］
Goldstein BA, Navar AM, penina MJ, Ioannidis JPA。利用电子健康记录数据开发风险预测模型的机遇和挑战:系统回顾。中国医学杂志2017年1月24日(1):198-208。［CrossRef] [Medline］
叶超，付涛，郝松，张勇，王欧，金波，等。预测来年发生高血压:使用全州电子健康记录和机器学习的前瞻性研究J Med Internet Res 2018年1月30日;20(1):e22 [免费全文] [CrossRef] [Medline］
Miotto R，王峰，王松，姜霞，Dudley JT。医疗保健领域的深度学习:回顾、机遇和挑战。简介Bioinform 2017年5月6日。［CrossRef] [Medline］
Jensen K, Soguero-Ruiz C, Oyvind MK, Lindsetmo R, Kouskoumvekaki I, Girolami M，等。电子健康记录中用于识别癌症患者轨迹的自由文本分析。科学报告2017年12月07日;7:46226 [免费全文] [CrossRef] [Medline］
Flynn R, Macdonald TM, Schembri N, Murray GD, Doney ASF。从自由文本放射学报告中自动获取数据，以提高住院患者中风代码的准确性。中国药物流行病学杂志2010 Aug;19(8):843-847。［CrossRef] [Medline］
Popejoy LL, Khalilia MA, Popescu M, Galambos C, Lyons V, Rantz M，等。使用自然语言处理和领域特定本体量化护理协调。J Am Med Inform association 2015 Apr;22(e1):e93-e103 [免费全文] [CrossRef] [Medline］
杨海燕，李志强，李志强。一种基于文本挖掘的临床出院总结疾病状态预测方法。中国医学信息杂志2009;16(4):596-600 [免费全文] [CrossRef] [Medline］
魏W，特谢拉PL，莫H，克罗宁RM，华纳JL，丹尼JC。结合电子健康记录中的计费代码、临床记录和药物，可提供优越的表型性能。J Am Med Inform association 2016 april;23(e1):e20-e27 [免费全文] [CrossRef] [Medline］
福特E，卡罗尔JA，史密斯HE，斯科特D，卡塞尔JA。从电子病历文本中提取信息以提高病例检测:一项系统综述。美国医学信息协会2016年12月;23(5):1007-1015 [免费全文] [CrossRef] [Medline］
许维德，李志强，李志强，等。使用电子健康记录识别患者表型队列的方法综述。中国医学信息杂志2014;21(2):221-230 [免费全文] [CrossRef] [Medline］
张志刚，张志刚，张志刚。文本挖掘技术在精神病学研究中的应用。精神病学杂志2016年12月;25(2):86-100。［CrossRef] [Medline］
spasiic I, Livsey J, Keane JA, nenadiic G.癌症相关信息的文本挖掘研究现状及未来发展方向。国际医学杂志2014年9月;83(9):605-623 [免费全文] [CrossRef] [Medline］
庞斯E，博朗LMM，胡宁克米高梅，高仕JA。放射学中的自然语言处理系统综述。放射学2016年5月;279(2):329-343。［CrossRef] [Medline］
王勇，王泽富，Rastegar-Mojarad M, Moon S，沈飞，Afzal N，等。临床信息提取应用文献综述。J Biomed Inform 2018年12月;77:34-49 [免费全文] [CrossRef] [Medline］
莫赫D，利伯拉蒂A，泰兹拉夫J，阿尔特曼DG。系统评价和元分析的首选报告项目:PRISMA声明。PLoS Med 2009 7月21日;6(7):e1000097 [免费全文] [CrossRef] [Medline］
李晓霞，李志强，李志强，李志强。基于文本挖掘的非结构化电子健康记录的冠心病风险评估。J Biomed Inform 2015 12月;58增刊:S203-S210 [免费全文] [CrossRef] [Medline］
Backenroth D, Chase HS, Wei Y, Friedman C.使用回归和电子健康记录监测处方模式。BMC Med Inform Decis Mak 2017年12月19日;17(1):175 [免费全文] [CrossRef] [Medline］
Castro SM, Tseytlin E, Medvedeva O, Mitchell K, Visweswaran S, Bekhuis T，等。从放射学报告自动注释和分类BI-RADS评估。J Biomed Inform 2017年12月;69:177-187 [免费全文] [CrossRef] [Medline］
李志强，李志强，李志强，等。利用自然语言处理病历文本对转移性前列腺癌患者疼痛的纵向分析。美国医学信息学会2013年9月20日(5):898-905 [免费全文] [CrossRef] [Medline］
李志强，李志强，李志强，等。评估2型糖尿病患者电子病历中低血糖的发生及其严重程度。糖尿病临床研究2016年11月;121:192-203。［CrossRef] [Medline］
Ware H, Mullett CJ, Jagannathan V.评估临床条件的自然语言处理框架。中国医学信息杂志2009;16(4):585-589 [免费全文] [CrossRef] [Medline］
高登SH，罗宾逊KA，萨尔丹哈I，安东B，拉登森PW。临床综述:美国内分泌和代谢紊乱的患病率和发病率:一项全面综述。中华内分泌杂志2009年6月;94(6):1853-1878 [免费全文] [CrossRef] [Medline］
陈晓明，陈晓明，陈晓明。冠心病与急性冠脉综合征的流行病学研究。Ann Transl Med 2016 7月;4(13):256 [免费全文] [CrossRef] [Medline］
廖平，Ananthakrishnan AN, Kumar V, Xia Z, Cagan A, Gainer VS，等。方法:开发一种电子病历表型算法，以比较3个慢性疾病队列中冠状动脉疾病的风险。PLoS One 2015;10(8):e0136651 [免费全文] [CrossRef] [Medline］
陈强，李华，唐波，王旭，刘旭，刘震，等。一个自动系统，以确定心脏疾病的风险因素，随着时间的临床文本。J Biomed Inform 2015年12月;58增刊:S158-S163 [免费全文] [CrossRef] [Medline］
鸟井M，范俊，杨伟，李涛，MT Wiley, Zisook DS，等。在电子病历中应用文本分析的心脏病危险因素检测。J Biomed Inform 2015 12月;58增刊:S164-S170 [免费全文] [CrossRef] [Medline］
Karystianis G, Dehghan A, Kovacevic A, Keane JA, Nenadic G.临床记录中使用局部词汇化规则识别心脏病危险因素。J Biomed Inform 2015 12月;58增刊:S183-S188 [免费全文] [CrossRef] [Medline］
杨H，加里波第JM。心脏病危险因素自动识别的混合模型。J Biomed Inform 2015 12月;58增刊:S171-S182 [免费全文] [CrossRef] [Medline］
Roberts K, Shooshan SE, Rodriguez L, Abhyankar S, Kilicoglu H, Demner-Fushman D.细纹理注释在电子病历中心脏病危险因素监督识别中的作用。J Biomed Inform 2015 12月;58增刊:S111-S119 [免费全文] [CrossRef] [Medline］
Pakhomov S, Shah N, Hanson P, Balasubramaniam S, Smith S.电子医疗记录的自动化处理是确定心血管事件风险人群使用阿司匹林的可靠方法。Inform Prim Care 2010;18(2):125-133 [免费全文] [Medline］
郑春华，李志强，李志强，李志强。基于电子病历的非瓣膜性心房颤动患者药物提取研究。临床杂志2015年9月37(9):2048-2052。［CrossRef] [Medline］
Patterson OV, Freiberg MS, Skanderson M, Brandt CA, DuVall SL.通过自然语言处理解锁心脏疾病研究中的超声心动图测量。BMC心血管疾病2017 12月12日;17(1):151 [免费全文] [CrossRef] [Medline］
田喆，孙森，Eguale T, Rochefort CM。从电子健康记录中的叙述放射学报告中自动提取静脉血栓栓塞事件:一项验证研究。医疗护理2017年12月;55(10):e73-e80 [免费全文] [CrossRef] [Medline］
Ross EG, Shah N, Leeper N.他汀类药物强度或达到低密度脂蛋白?评估新的胆固醇治疗指南的实践证据。PLoS One 2016;11(5):e0154952 [免费全文] [CrossRef] [Medline］
王世武，Rogers JR, Jin Y, Bates DW, Fischer MA。使用电子医疗记录识别复杂心房颤动患者进行针对性干预。美国医学杂志2017年3月1日;24(2):339-344。［CrossRef] [Medline］
Pakhomov S, Weston S, Jacobsen S, Chute C, Meverden R, Roger V.用于临床研究的电子病历:在心力衰竭识别中的应用。Am J Manag Care 2007 Jun;13(6 Part 1):281-288 [免费全文] [Medline］
Viani N, Larizza C, Tibollo V, Napolitano C, Priori SG, Bellazzi R，等。从意大利医疗报告中提取信息:本体驱动的方法。国际医学杂志2018年3月;111:140-148。［CrossRef] [Medline］
Afzal N, Mallipeddi VP, Sohn S, Liu H, Chaudhry R, Scott CG，等。临床记录的自然语言处理识别严重肢体缺血。Int J Med Inform 2018 Mar;111:83-89 [免费全文] [CrossRef] [Medline］
刘海燕，孙志强，刘志强，等。利用自然语言处理技术从叙述性临床记录中挖掘外周动脉疾病病例。血管外科杂志2017年12月;65(6):1753-1761 [免费全文] [CrossRef] [Medline］
Kullo IJ, Fan J, Pathak J, Savova GK, Ali Z, Chute CG。利用信息学进行遗传研究:利用电子病历进行外周动脉疾病的全基因组关联研究。中国医学杂志2010;17(5):568-574 [免费全文] [CrossRef] [Medline］
李鹏飞，李鹏飞，李鹏飞，李鹏飞，李鹏飞。基于实践的证据:通过临床记录的文本挖掘来分析西洛他唑的安全性。PLoS One 2013;8(5):e63499 [免费全文] [CrossRef] [Medline］
王志强，王志强，王志强，等。基于临床叙事的冠状动脉疾病自动预测。J Biomed Inform 2017年12月;72:23-32 [免费全文] [CrossRef] [Medline］
Boytcheva S, Angelova G, Angelov Z, Tcharaktchiev D.用于门诊临床文本回顾性分析的文本挖掘和大数据分析。中国机械工程，2015;1(4):55-77 [免费全文] [CrossRef］
李志强，李志强，李志强。基于非结构化临床病历的高血压信息提取系统。计算科学2014:219-227 [免费全文] [CrossRef］
王伟，李志强，李志强，李志强，等。评估电子健康记录数据源和识别高血压个体的算法方法。J Am Med Inform association 2017年1月;24(1):162-171 [免费全文] [CrossRef] [Medline］
伯德RJ，施泰因哈布尔SR，孙J, Ebadollahi S, Stewart WF。自动识别心衰诊断标准，使用文本分析临床笔记从电子健康记录。国际医学杂志2014年12月;83(12):983-992 [免费全文] [CrossRef] [Medline］
Garvin JH, DuVall SL, South BR, Bray BE, Bolton D, Heavirland J，等。使用非结构化信息管理体系结构(UIMA)中的正则表达式自动提取射血分数用于心脏衰竭的质量测量。中国医学杂志2012;19(5):859-866 [免费全文] [CrossRef] [Medline］
李志强，李志强，李志强，李志强。基于纵向电子健康记录的糖尿病患者心脏病危险因素分析。Biomed Res Int 2015;2015:636371 [免费全文] [CrossRef] [Medline］
王勇，罗俊，郝松，徐辉，申艾，金波，等。基于NLP的充血性心力衰竭病例发现:全州电子病历的前瞻性分析。国际医学杂志2015年12月;84(12):1039-1047。［CrossRef] [Medline］
金勇，郭文杰，黄世峰，李文杰，等。从各类临床报告中提取左室射血分数信息。J Biomed Inform 2017年12月;67:42-48 [免费全文] [CrossRef] [Medline］
美国心脏协会。心力衰竭的类型https://www.heart.org/en/health-topics/heart-failure/what-is-heart-failure/types-of-heart-failure[访问日期:2019-03-30][WebCite缓存］
托帕兹M, Radhakrishnan K, Blackley S，雷V，赖K，周磊。利用自然语言处理研究心力衰竭自我管理与再住院的相关性。西部Nurs Res 2017年1月;39(1):147-165。［CrossRef] [Medline］
贾文杰，金Y，戈贝尔GT，马西尼，雷德德A，布雷BE，等。使用自然语言处理自动化心脏衰竭的质量测量:退伍军人事务部的描述性研究。JMIR Med Inform 2018年1月15日;6(1):e5 [免费全文] [CrossRef] [Medline］
李志强，李志强，李志强，等。通过使用电子健康记录的文本和数据挖掘确定的大型初级保健人群中心力衰竭体征和症状的流行率。J Card Fail 2014 7月;20(7):459-464 [免费全文] [CrossRef] [Medline］
Watson AJ, O'Rourke J, Jethwani K, Cami A, Stern TA, Kvedar JC，等。将电子健康记录实时提取的心理社会数据与心力衰竭再入院风险联系起来。心身科学2011;52(4):319-327 [免费全文] [CrossRef] [Medline］
徐红，夏燕，马姆林，等。使用现有的现成方法来实现更好的公共健康报告:使用纯文本医疗数据的医学词典在自动癌症检测中的价值。J Biomed Inform 2017年12月;69:160-176 [免费全文] [CrossRef] [Medline］
Osborne JD, Wyatt M, Westfall AO, Willig J, Bethard S, Gordon G.使用自然语言处理和机器学习有效识别国家强制报告的癌症病例。美国医学信息协会2016年11月23日(6):1077-1084。［CrossRef] [Medline］
严伟，关文文，叶蒂根。肿瘤参考分辨率和特征提取在放射学报告中用于肝癌分期预测。J Biomed Inform 2016 12月;64:179-191 [免费全文] [CrossRef] [Medline］
严伟，关文文，叶蒂根。放射学报告中肿瘤事件属性的分类。中国生物医学工程学报，2017年9月14日;［CrossRef］
王宏，张伟，曾强，李志，冯凯，刘磊。基于自然语言处理的中文操作笔记重要信息提取方法。J Biomed Inform 2014年4月;48:13 -136 [免费全文] [CrossRef] [Medline］
Jensen K, Soguero-Ruiz C, Oyvind MK, Lindsetmo R, Kouskoumvekaki I, Girolami M，等。电子健康记录中用于识别癌症患者轨迹的自由文本分析。科学报告2017年12月07日;7:46226 [免费全文] [CrossRef] [Medline］
张志刚，张志刚，张志刚，等。利用自然语言处理提高人工图表提取效率的研究:以乳腺癌复发为例。Am J流行病2014年3月15日;179(6):749-758 [免费全文] [CrossRef] [Medline］
纳波利塔诺G，马歇尔A，汉密尔顿P，加文AT。手术病理报告的机器学习分类和信息提取降噪的块识别。Artif Intell Med 2016 12月;70:77-83。［CrossRef] [Medline］
华纳JL，利维MA，纽斯MN，华纳JL，利维MA，纽斯MN。从叙述式电子健康记录数据中提取癌症分期信息的可行性和准确性。J Oncol practical 2016 Feb;12(2):157-169。［CrossRef] [Medline］
Zopf JJ, Langer JM, Boonn WW, Kim W, Zafar HM。开发自动检测引用肾上腺检查结果的放射学报告。J Digit Imaging 2012 Feb;25(1):43-49 [免费全文] [CrossRef] [Medline］
欧Y，帕特里克J.自动结构化报告从叙述癌症病理报告。2014年发表于:HIKM '14第七届澳大利亚卫生信息学和知识管理研讨会论文集;2014;奥克兰。
欧杨。自动否定检测在叙述病理报告。Artif Intell Med 2015 5月;64(1):41-50 [免费全文] [CrossRef] [Medline］
罗勇，王晓明。基于子图挖掘的淋巴瘤自动分类方法。中国医学信息杂志2014;21(5):824-832 [免费全文] [CrossRef] [Medline］
Ashish N, Dahm L, Boicey C.加州大学欧文分校-病理提取管道:用于从病理报告中提取信息的病理提取管道。卫生信息学杂志2014年12月;20(4):288-305。［CrossRef] [Medline］
朱赫V, Defossez G, Burgun A, Le Beux P, Levillain P, Ingrand P，等。自由文本病理报告的自动分类，用于登记癌症事件病例。方法中华医学杂志，2012;51(3):242-251。［CrossRef] [Medline］
Afzal M, Hussain M, Khan WA, Ali T, Jamshed A, Lee S.智能提取和分析系统的临床研究。Telemed E Health 2017 Dec;23(5):404-420。［CrossRef] [Medline］
Miller T, Dligach D, Bethard S, Lin C, Savova G.面向可推广的以实体为中心的临床共参分辨率。J Biomed Inform 2017年12月;69:251-258 [免费全文] [CrossRef] [Medline］
张晓明，李志强，张晓明，等。基于规则的临床数据信息提取方法研究。J Biomed Inform 2009 Oct;42(5):923-936 [免费全文] [CrossRef] [Medline］
博兹库尔特，李普森JA，塞诺尔U，鲁宾DL。从乳房x光检查报告中自动提取成像观察结果及其特征。中国医学杂志2015年4月22日(e1):e81-e92。［CrossRef] [Medline］
Denny JC, Choma NN, Peterson JF, Miller RA, Bastarache L, Li M，等。自然语言处理提高了电子病历中大肠癌检测的识别。医学Decis Making 2012;32(1):188-197。［CrossRef] [Medline］
邓尼·JC，彼得森·JF，乔玛·NN，许·H，米勒·RA, Bastarache L，等。从电子病历中提取结肠镜检查的时间和状态描述符。中国医学杂志2010;17(4):383-388 [免费全文] [CrossRef] [Medline］
郑超，张文杰，张文杰，等。从电子病历中提取数据:评估前列腺活检结果的自然语言处理程序的验证。世界泌尿学杂志2014 Feb;32(1):99-103。［CrossRef] [Medline］
平旭，曾勇，钟勇，吴勇，徐超，杨鹏，等。用于肝癌患者状态追踪的信息提取:混合临床叙述报告类型。Telemed E Health 2013 9月19日(9):704-710。［CrossRef] [Medline］
Al-Haddad MA, Friedlin J, Kesterson J, Waters JA, Aguilar-Saavedra JR, Schmidt CM。自然语言处理发展临床注册:导管内乳头状粘液性肿瘤的验证研究。HPB (Oxford) 2010年12月;12(10):688-695 [免费全文] [CrossRef] [Medline］
Garcelon N, Neuraz A, Benoit V, Salomon R, Burgun A.改进全文搜索引擎:否定检测和家族史背景在生物医学数据仓库中识别案例的重要性。美国医学杂志2017年5月01日;24(3):607-613。［CrossRef] [Medline］
张楠，戴华，陈超，蔡涛，徐伟。一种基于上下文感知的电子病历中医学概念进展跟踪方法。J Biomed Inform 2015 12月;58增刊:S150-S157 [免费全文] [CrossRef] [Medline］
Figueroa RL, Flores CA.从电子医疗记录中提取信息，根据合并症和体重测量确定患者的肥胖状况。J Med Syst 2016 Aug;40(8):191。［CrossRef] [Medline］
Wright A, McCoy AB, Henkin S, Kale A, Sittig DF。支持向量机用于分类自由文本笔记:跨两个机构的准确性评估。中国医学杂志2013;20(5):887-890 [免费全文] [CrossRef] [Medline］
Mishra NK, Son RY, Arnzen JJ。迈向糖尿病病例自动检测和ABCS协议符合性评估。Clin Med Res 2012 Aug;10(3):106-121 [免费全文] [CrossRef] [Medline］
郑林，王勇，郝松，申艾，金波，吴德德，等。基于web的糖尿病患者人群健康管理的实时病例发现:基于自然语言处理的算法与全州电子病历的前瞻性验证JMIR Med Inform 2016年11月11日;4(4):e37 [免费全文] [CrossRef] [Medline］
Pakhomov SVS, Hanson PL, Bjornsen SS, Smith SA。使用临床记录和机器学习自动分类足部检查结果。美国医学信息学会2008年3月15日(2):198-202 [免费全文] [CrossRef] [Medline］
Smith DH, Johnson ES, Russell A, Hazlehurst B, Muraki C, Nichols GA，等。在2型糖尿病患者中，较低的视力预示着较差的效用值。qal Life Res 2008 12月;17(10):1277-1284。［CrossRef] [Medline］
魏伟，陶c，姜光，楚特CG。基于语义概念频率的高通量患者识别方法:使用2型糖尿病临床记录的案例研究。2010年11月13日;2010:857-861 [免费全文] [Medline］
Pakhomov S, Shah N, Hanson P, Balasubramaniam S, Smith SA, Smith SA。使用电子病历自动预测生活质量。AMIA年度Symp Proc 2008年11月06:545-549 [免费全文] [Medline］
何涛，邵勇，冷杰，滕超，Redd D，等。在美国退伍军人电子病历中识别轴性脊椎关节炎。关节炎护理Res(霍博肯)2017年12月;69(9):1414-1420 [免费全文] [CrossRef] [Medline］
特纳CA，雅各布斯AD，马奎斯CK，奥茨JC，卡门DL，安德森PE，等。Word2Vec反演和传统文本分类器的表型狼疮。BMC Med Inform Decis Mak 2017 Aug 22;17(1):126 [免费全文] [CrossRef] [Medline］
王志强，王志强，王志强，等。在电子健康记录中识别类风湿关节炎的算法的可移植性。J Am Med Inform association 2012年6月;19(e1):e162-e169 [免费全文] [CrossRef] [Medline］
陈伟，黄毅，林生。纳入病理报告在提高患者计算识别中的应用。J Pathol Inform 2016;7:46 [免费全文] [CrossRef] [Medline］
Soguero-Ruiz C, Hindberg K, Rojo-Alvarez JL, Skrovseth SO, Godtliebsen F, Mortensen K，等。电子病历中字袋吻合口漏早期检测的支持向量特征选择。IEEE生物医学健康信息2016年12月;20(5):1404-1415。［CrossRef] [Medline］
张克勤，于春春，克拉克，A Hackbarth, T Sanders, Esrailian E，等。定义肝硬化患者群体:具有自然语言处理的自动算法。中华胃肠杂志2016;50(10):889-894。［CrossRef] [Medline］
石旭，胡勇，张勇，李伟，郝勇，Alelaiwi A，等。基于医学临床记录的统一模型多疾病风险评估。IEEE Access 2016;4:7074-7083。［CrossRef］
Geraci J, Wilansky P, de Luca V, Roy A, Kennedy JL, Strauss J.将深度神经网络应用于电子病历中的非结构化文本注释，用于青少年抑郁症的表型。基于证据的心理健康2017年7月24日;20(3):83-87 [免费全文] [CrossRef] [Medline］
Roque F, Jensen P, Schmock H, Dalgaard M, Andreatta M, Hansen T，等。使用电子患者记录发现疾病相关性并对患者队列进行分层。PLoS计算生物学2011年8月;7(8):e1002141 [免费全文] [CrossRef] [Medline］
Ananda-Rajah MR, Martinez D, Slavin MA, Cavedon L, Dooley M, Cheng A，等。通过使用自然语言处理筛选计算机断层扫描报告，促进血液系统恶性肿瘤患者肺部侵袭性霉菌疾病的监测。PLoS One 2014;9(9):e107797 [免费全文] [CrossRef] [Medline］
Baechle C, Agarwal A，朱旭。大数据驱动慢性阻塞性肺疾病患者共发病证据的发现。J大数据2017年4月4日;4(1)。［CrossRef］
加斯金GL，潘兴S，科尔TS，沙NH。白内障手术危险因素及并发症的预测模型。欧洲眼科杂志2016年6月10日;26(4):328-337 [免费全文] [CrossRef] [Medline］
Chase HS, Mitrani LR, Lu GG, Fulgieri DJ。使用自然语言处理的电子健康记录早期识别多发性硬化症。BMC Med Inform Decis Mak 2017 Feb 28;17(1):24 [免费全文] [CrossRef] [Medline］
Abhyankar S, Demner-Fushman D, Callaghan FM, McDonald CJ。结合结构化和非结构化数据来确定接受透析的ICU患者队列。中国医学信息杂志2014;21(5):801-807 [免费全文] [CrossRef] [Medline］
Pivovarov R, Elhadad N.一种基于知识和数据驱动的混合方法来识别语义相似概念。J Biomed Inform 2012 Jun;45(3):471-481 [免费全文] [CrossRef] [Medline］
柯罗宁，陈建平，陈建平，陈建平。基于规则和机器学习的患者门户信息分类方法的比较。Int J Med Inform 2017年12月;105:110-120 [免费全文] [CrossRef] [Medline］
倪毅，Wright J, Perentesis J, T凌仁，Deleger L, Kaiser M，等。提高试验-患者匹配的效率:儿科肿瘤患者的自动化临床试验资格预筛查。BMC Med Inform Decis Mak 2015年4月14日;15:28 [免费全文] [CrossRef] [Medline］
Small AM, Kiss DH, Zlatsin Y, Birtwell DL, Williams H, Guerraty MA，等。文本挖掘应用于电子心血管手术报告以识别三瓣主动脉狭窄和冠状动脉疾病患者。J Biomed Inform 2017年12月;72:77-84 [免费全文] [CrossRef] [Medline］
周玲，陆勇，Vitale CJ, Mar PL, Chang F, Dhopeshwarkar N，等。在电子健康记录中用结构化数据表示家庭亲属信息。应用临床杂志2014;5(2):349-367 [免费全文] [CrossRef] [Medline］
查普曼BE, Lee S, Kang HP，查普曼WW。基于ConText算法扩展的CT肺血管造影报告的文档级分类。J Biomed Inform 2011 Oct;44(5):728-737 [免费全文] [CrossRef] [Medline］
林福平，李志强，李志强。TEPAPA:一种新的硅特征学习管道，用于从基于文本的电子病历中挖掘预后和关联因素。科学通报2017年7月31日;7(1):6918 [免费全文] [CrossRef] [Medline］
Nath, Albaghdadi MS, Jonnalagadda SR.用于从超声心动图报告中大规模数据提取的自然语言处理工具。PLoS One 2016;11(4):e0153749 [免费全文] [CrossRef] [Medline］
李文杰，李文杰，李文杰，等。异质文本资源的表型信息映射到特定领域的术语资源。PLoS One 2016;11(9):e0162287 [免费全文] [CrossRef] [Medline］
Kreimeyer K, Foster M, Pandey A, Arya N, Halford G, Jones SF，等。捕获和标准化非结构化临床信息的自然语言处理系统:系统综述。J Biomed Inform 2017年12月;73:14-29 [免费全文] [CrossRef] [Medline］
张志刚，张志刚，张志刚。文本挖掘技术在精神病学研究中的应用。精神病学杂志2016年12月;25(2):86-100。［CrossRef] [Medline］
spasiic I, Livsey J, Keane JA, nenadiic G.癌症相关信息的文本挖掘研究现状及未来发展方向。国际医学杂志2014年9月;83(9):605-623 [免费全文] [CrossRef] [Medline］
庞斯E，博朗LMM，胡宁克米高梅，高仕JA。放射学中的自然语言处理系统综述。放射学2016年5月;279(2):329-343。［CrossRef] [Medline］
Ching T, Himmelstein DS, beaulieue - jones BK, Kalinin AA, Do BT, Way GP，等。深度学习在生物学和医学领域的机遇和障碍。J R Soc Interface 2018 Apr;15(141) [免费全文] [CrossRef] [Medline］
Chiticariu L, Li Y, Reiss F.基于规则的信息提取已经死了!基于规则的信息提取系统万岁!2013年发表于:Proc Conf Empir Methods Nat Lang Process EMNLP;2013;西雅图。
巴奈特GO，西米诺JJ，哈普JA，霍弗EP。DXplain。不断发展的诊断决策支持系统。中国医学杂志1987年7月3日;58(1):67-74。［Medline］

‎

BI-RADS:乳房成像报告和数据系统

瑞士法郎:充血性心力衰竭

CRF:条件随机场

DeepPhe:癌症深层表型提取

电子健康档案:电子健康记录

EMR:电子病历

心力衰竭:心脏衰竭

i2b2:整合生物学和床边的信息学

ICD:《国际疾病分类》第十版

即:信息提取

模仿2:重症监护中的多参数智能监护2

NLP:自然语言处理

垫:周围动脉疾病

棱镜:系统评价和元分析的首选报告项目

支持向量机:支持向量机

百里香:您的医疗事件的时间历史

G·艾森巴赫(G Eysenbach)编辑;提交17.09.18;C Shivade同行评审，M Torii;对作者07.01.19的评论;修订本于04.03.19收到;接受24.03.19;发表27.04.19

©Seyedmostafa Sheikhalishahi, Riccardo Miotto, Joel T Dudley, Alberto Lavelli, Fabio Rinaldi, Venet Osmani。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com)， 2019年4月27日。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，http://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

慢性疾病临床记录的自然语言处理:系统综述