发表在第八卷,第10位(2020): 10月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/17376,首次出版
使用观察性医疗结果伙伴关系公共数据模型的临床数据存储库队列检索系统的实现:概念验证系统验证

使用观察性医疗结果伙伴关系公共数据模型的临床数据存储库队列检索系统的实现:概念验证系统验证

使用观察性医疗结果伙伴关系公共数据模型的临床数据存储库队列检索系统的实现:概念验证系统验证

原始论文

1健康科学研究部,梅奥诊所,罗切斯特,明尼苏达州,美国

2美国俄勒冈州波特兰市俄勒冈健康与科学大学计算机科学与电气工程系

3.美国俄勒冈州波特兰市俄勒冈卫生与科学大学医学信息学和临床流行病学系

通讯作者:

刘红芳,博士

健康科学研究部

梅奥诊所

第一街西南200号

罗切斯特,明尼苏达州,55901

美国

电话:1 507 293 0057

电子邮件:liu.hongfang@mayo.edu


背景:电子健康记录的广泛采用使电子健康记录数据能够二次用于临床研究和保健服务。自然语言处理技术在提取嵌入在非结构化临床数据中的信息方面已经显示出前景,信息检索技术提供了灵活和可扩展的解决方案,可以增强自然语言处理系统对相关记录的检索和排序。

摘要目的:在本文中,我们提出了一个队列检索系统的实现,该系统可以在结构化数据和非结构化文本上执行文本队列选择查询-通过电子健康记录文本分析(CREATE)增强的队列检索。

方法:CREATE是一个概念验证系统,它利用结构化查询和自然语言处理结果的信息检索技术的组合来提高队列检索性能,使用观察性医疗结果伙伴关系公共数据模型来增强模型的可移植性。使用自然语言处理组件从文本查询中提取公共数据模型概念。利用信息检索技术和框架,设计了一个层次索引来支持公共数据模型概念搜索。

结果:我们对5个队列识别查询进行了案例研究,使用患者级和文档级5个信息检索指标的精度进行了评估,结果表明CREATE的平均精度为0.90,优于仅使用结构化数据或仅使用非结构化文本的系统,平均精度分别为0.54和0.74。

结论:梅奥诊所生物银行数据的实施和评估表明,CREATE优于在复杂文本队列查询中只使用结构化数据或非结构化文本之一的队列检索系统。

中华医学杂志,2020;8(10):1177 - 1177

doi: 10.2196/17376

关键字



电子健康纪录的广泛采用,使临床数据得以用于临床研究和提供医疗服务。[1].许多机构已经建立了临床数据存储库,并结合队列检索工具(例如,整合生物学和床边信息学)来支持临床数据的研究使用,包括回顾性研究以及可行性评估或临床试验的患者招募。然而,由于医疗机构和电子病历系统的异质性和复杂性,导致研究可重复性差,阻碍了基于电子病历的临床研究。

对于结构化的电子健康记录数据,为了确保跨多个机构(和跨多个站点)的电子健康记录数据的标准化和逻辑统一表示,许多大型临床研究网络,如临床试验应计制[2]、电子病历和基因组学[3.]和国家以患者为中心的临床研究[4]采用了共同的数据模型,目的是用相同的研究方法产生可比较和可重复的结果[56].我们先前的调查[7]展示了一种通用数据模型,即观察性医疗结果伙伴关系(OMOP)通用数据模型,在利用观察性健康数据科学和信息学(OHDSI)项目实现多机构研究中电子健康记录数据的结构和语义一致性方面的可泛化性[7].

在电子健康记录中,相关患者信息的很大一部分以非结构化文本的形式嵌入,在将这些数据用于临床研究时,信息提取等自然语言处理技术至关重要[8-11].许多临床自然语言处理系统已经开发出来,从文本中提取信息,用于各种下游应用[1213但在性能和可移植性方面存在挑战[14-17].信息检索是搜索引擎中用于根据用户查询从大量文本文档中存储、检索和排序文档的一种技术,它可以提供一种利用临床叙述进行队列检索的替代方法,因为它不太依赖语义,并且可以将最终用户纳入循环[1819].自然语言处理和信息检索的结合是一种很有前途的解决方案,用于从非结构化临床文本中检索队列,并且有几篇综述文章[520.关于信息检索或案件检测的自然语言处理技术。

然而,目前大多数临床数据存储库实现都不支持对结构化和非结构化文本的无缝搜索。因此,医疗保健从业人员和研究人员仍然高度要求对电子健康记录中的结构化和非结构化数据进行高效和全面的患者级搜索引擎。在本文中,我们描述了一个队列检索系统的概念验证实现-通过电子健康记录文本分析增强队列检索(CREATE) -其中使用相同的查询来搜索结构化(使用OMOP公共数据模型表示的电子健康记录)和非结构化文本(利用概念提取系统)。CREATE中的队列检索分两个阶段进行:第一阶段使用结构化数据筛选患者,第二阶段在文档或患者级别检索结果并对结果进行排序。系统的功能是使用先前组装的查询集合[21]在一个由来自梅奥诊所生物银行队列的电子健康记录数据组成的语料库上[22].

一般有两种搜索非结构化文本的方法,用于病人护理、临床研究和医疗护理的可追溯性等目的[23].第一种方法基于文本搜索。例如,密歇根大学的电子医疗记录搜索引擎(EMERSE) [24是一个全文搜索引擎,其目标是促进临床医生,管理人员和临床或转化研究人员基于临床叙述的信息检索。但是,EMERSE不支持使用结构化电子健康记录数据(如人口统计信息、实验室测试和药物)进行查询。Warehouse博士,由Garcelon等人提出[25]是一个自由文本搜索引擎,使用Oracle文本索引其文档。该系统基于关系数据库,依赖于检索后的排名,这可能会限制其部署最先进的信息检索方法的能力,如最佳匹配25或马尔可夫随机场。搜索非结构化文本的另一种方法是使用自然语言处理系统提取概念。例如,SemEHR [26]是一种基于快速医疗保健互操作性的语义搜索引擎[27从临床自然语言处理系统Bio-YODIE中提取的临床语义概念的表示。当使用MIMIC-III(重症监护医疗信息集市)数据集进行评估时,该系统在检索给定单个概念查询的患者(如丙型肝炎和艾滋病毒)和本地电子健康记录中的实验室测试结果方面表现出高性能[26].

2018国家NLP临床挑战(共享任务轨道1)[28]还为电子健康记录队列检索系统的标准化评估做出了贡献。评估数据集包括288例患者的临床叙事文本,用于概念提取、时间推理和推理。官方评价表明,顶级系统采用基于规则的系统和混合系统来解决问题,并引领了未来类似任务的系统开发方向。2018年语料库由半结构化和叙事性文本组成。结构化数据通过半结构化文本的部分提供,而不是以结构化格式提供。因此,2018年语料库的队列检索系统需要额外的组件来处理半结构化元数据,这可能不适用于现实世界的电子健康记录数据系统。

几项研究[29-31已经解决了如何通过语法解析或序列标记来表示文本队列标准或查询的挑战。提出的方法主要是提供端到端检索系统文本查询的自动解析和建模功能。为了进一步扩展查询以支持最终用户对解析结果的定制,我们的队列检索系统具有以下设计原则:(1)采用通用数据模型,方便多机构研究使用结构化和非结构化数据进行队列检索;(2)在检索系统中灵活和有能力地应用最先进的信息检索方法;(3)在下游基于机器学习的队列选择方法中纳入相关性判断;(4)在索引短语中生成语义注释,提供实时语义搜索体验。


系统架构概述

我们的队列检索系统的临床数据存储的概述显示在图1。具体来说,根据特定的临床数据存储库实现,将文本查询自动或手动地扩展和划分为结构化和非结构化数据字段。结构化数据和非结构化文本数据的查询实现以不同的方式进行管理:结构化电子健康记录数据可以在关系数据库管理系统上使用结构化查询语言(SQL)从相应的临床数据存储库中检索,非结构化电子健康记录数据可以通过自然语言处理进行预处理,并利用信息检索技术进行检索。检索到的结果可以合并和汇总用于临床研究应用,如临床试验可行性评估或队列识别。对于队列识别,检索和筛选的队列可以被视为弱标记数据集。人类相关性判断是通过图表审查手动验证结果的潜在后续步骤。

图1所示。CREATE工作流程概述。CDR:临床数据库;CM:临床修饰;CPT:当前程序术语;EHR:电子健康记录;国际疾病分类;NLP:自然语言处理;OHDSI:观察健康数据科学和信息学;关系型数据库管理系统。
查看此图

采用OMOP公共数据模型进行患者检索

为改善本系统的互用性和可移植性(使用不同的数据源),我们采用了OMOP通用数据模型(5.3.1版)[32]索引电子健康记录数据。使用OMOP公共数据模型进行队列检索的临床数据存储库的层次索引结构见图2。索引的表包括来自非结构化和结构化源的数据,包括从非结构化临床记录和就诊信息中提取的OMOP公共数据模型工件、人口统计信息(表示为公共数据模型人员)以及来自结构化数据的诊断、过程和实验室测试。结构化和非结构化数据的区别在不同的电子健康记录系统中有所不同。因此,采用者的实施细节可能与本研究中的实施有所不同。

图2。使用OMOP公共数据模型的分层索引结构。NLP:自然语言处理。
查看此图

结构化数据(如过程、诊断、实验室测试和人口统计数据)直接从关系数据库查询,并通过提取-转换-加载过程加载到索引中。我们将结构化数据映射到统一医学语言系统(UMLS)概念的唯一标识符,或者通过使用UMLS元辞典中已有的映射定义[33](例如,ICD-9-CM或ICD-10-CM,现行程序术语4和SNOMED临床术语)或通过使用自然语言处理(例如,当地实验室测试代码)。这些概念随后通过Athena(版本1.10.0;标准化词汇[34].

来自梅奥诊所电子健康记录的临床文本由现有部分组成,这些部分提供了对患者遭遇的特定角度的简要描述,例如社会历史、诊断和主诉。我们选择使用文档部分来索引临床文本以进行队列检索,这是基于以下观察:虽然句子级别的检索不足以判断我们调查的主题集合的相关性,但文档级别的检索可能提供大多数不相关的信息。

通过字典查找组件提取各种常见的数据模型概念作为实体提及,例如药物过程,SignSymptom及其概念标识符(例如,UMLS概念唯一标识符)由cTAKES (Apache软件基金会)[12],随后编入Elasticsearch (Elasticsearch BV)。此外,实体提到属性,如否定确定,家族病史是储存在野外的吗term_modifiers

文本查询形式

自然语言文本查询被输入到用于索引的相同概念提取管道中。类似地,从文本查询中提取规范化的概念及其相关属性(例如,否定、确定性、经验者或状态)。逻辑概念,例如必须不得也用于从文本生成查询,以便在查询后端进一步解析和解释。文本查询建模过程的一个示例在图3。在查询“患有炎症性肠病(溃疡性结肠炎或克罗恩病)的成年人,他们没有做过肠、直肠或肛门手术,需要切除、造口术”,自然语言处理组件可以检测并规范原始提及的“肠病”、“溃疡性结肠炎”、“克罗恩病”和“克罗恩病”进入各种编码系统,包括OHDSI id,而“成年人”的人口统计信息和手术列表可以根据出生日期和当前程序术语4代码手动添加为结构化数据过滤器。

图3。文本查询建模示例。CUI:概念唯一标识符;OHDSI:观察健康数据科学和信息学;医学临床术语系统化命名法;TUI(语义):类型唯一标识符。
查看此图

用户界面

我们为CREATE开发了一个基于web的用户界面,其细节见多媒体附录1。提取的所有信息按主题显示给用户,以便在执行查询之前进行可能的插入、修改和删除。由于自然语言处理组件将建议解析结果并将其映射到公共数据模型概念中,因此期望用户将重点放在配置提取的概念之间的逻辑和删除通用概念(例如,的UMLS概念)药物治疗),它不需要在各种来源的标准词汇表中搜索概念,也不耗时。

检索方法

CREATE使用Elasticsearch [35]作为搜索引擎的后端信息检索组件。由于Elasticsearch包括对父子关系的分层查询的支持,分层索引架构如图所示图2允许查询策略的极大灵活性。在查询执行期间,可以通过一个结构化字段(例如,就诊年龄)、一个非结构化字段(例如,患者是否有包含来自非结构化数据的公共数据模型概念的部分)或两者检索和过滤具有特定公共数据模型概念集的患者。

给定一个文档d还有一个文本查询中提取的公共数据模型概念集可以表示为O= {o1,…,on},o是一个常见的数据模型概念。两者的相似度得分do可以表示为年代do).然后将每个文档对每个查询的总分定义为:

等式右侧的第一项是查询中所有常见数据模型概念的平均相似度。第二项是文档和全文查询之间的相似性。在极端用例中,可以对这两个术语进行加权,以更加强调结构化或非结构化数据对查询的贡献。患者级相似度得分是前100个文档得分的平均值。top rank阈值100是根据我们对测试查询结果中的前10、20、50和100的实验选择的,可能需要进一步调优。

CREATE的功能评估

系统设计有两个方面需要通过临床数据存储库的实际实施进行可行性评估。

首先,需要专门为每个临床数据存储库体系结构创建数据映射。在将数据索引到CREATE之前,必须在临床数据存储库表示、OMOP公共数据模型表和提取的自然语言处理概念之间建立与站点相关的相关性。其次,需要对检索结果进行评估,以验证所提出的查询建模和检索方法能够生成有意义的检索结果。

性能是用平均值来衡量的精度为5在5个查询中。作为对CREATE功能的评估,我们从先前策划的查询集合中随机抽取了5个查询[2136]通过手工图表评审来评估CREATE。结构化查询使用手动转换的ICD-9-CM或ICD-10-CM代码。从结构化电子病历数据中检索到的患者没有相关性排序,因此我们从相关患者中随机选择5名患者作为计算5点精度的前5名。从非结构化文本查询和CREATE结果中检索前5名患者,基于最佳匹配25 [30.].一位医学专家对每个检索队列的前5名患者进行了完整的图表回顾。患者相关性分为3类,明确相关部分相关的,不相关的医学专家绝对相关、部分相关和不相关的计算精度分别为1、0.5和0。


我们将CREATE作为Mayo Clinic Biobank Rochester队列的可行性评估工具,该队列是2009年启动的一项大规模机构资助的研究资源,包含45,613名同意参与的Mayo Clinic Rochester患者的血液、电子健康记录和患者提供的数据。这一资源已广泛用于250多项与健康有关的研究和临床研究[22].在我们的实验中,我们将纳入的患者限制在其电子健康记录中至少有一个临床记录,并提取相应的结构化数据。

在数据提取之后,我们调查并比较了Mayo诊所的电子健康记录系统实现与OMOP公共数据模型表。在数据探索阶段,我们发现对应表下的数据元素一般都很容易映射;因此,我们在表级别的粒度上显示映射。表1显示了几个OMOP公共数据模型表到梅奥诊所电子健康记录表的映射。中还列出了用于将ctakes类型系统的命名实体提及类型转换为公共数据模型表的映射表1

表1。OMOP公共数据模型与梅奥诊所电子健康记录之间的表级映射。
OMOP一个通用数据模型和
梅奥诊所临床数据库
记录数 词汇表 自然语言处理采用take -type系统

人口统计资料 45613年 - - - - - -b - - - - - -
条件

诊断 9712736年
  • ICD-9-CMc
  • ICD-10-CMd
  • SignSymptom
  • DiseaseDisorder

程序 13014264年 CPTe 过程
测量

实验室 15719203年 本地编码系统 实验室

生命体征 - - - - - - - - - - - - VitalSigns
Drug_Exposure

DrugExposure - - - - - - umlf 药物治疗
请注意

临床的笔记 68198499年 - - - - - - - - - - - -

一个OMOP:观察性医疗结果伙伴关系。

b没有等效的或没有系统用于等效的概念。

cICD-9-CM:国际疾病分类,第九次修订,临床修订。

dICD-10-CM:国际疾病分类,第十版,临床修改。

eCPT:当前程序术语。

f统一医学语言系统。

表2列出5个查询的详细描述以及用于判断患者相关性的人工图表审查过程中使用的相应关键词。在涉及的细节级别、逻辑和语义复杂性方面,这些查询不同于某些相关工作中用于评估系统的单一条件标准。查询的结构化部分和CREATE查询格式规范的完整解析结果可以在多媒体附录2多媒体附录3,分别。

精度在5的结果显示在表3。总体比较表明,作为使用结构化和非结构化电子健康记录数据的系统组合,CREATE优于仅使用结构化或非结构化电子健康记录数据中的一种进行全文查询的系统。对于每个查询,CREATE的执行至少与仅使用结构化或非结构化电子健康记录数据的系统一样好。

表2。已测试查询的列表。
查询 描述 关键字
1 患有炎症性肠病(溃疡性结肠炎或克罗恩病)的成年人,未做过肠、直肠或肛门手术(需要切除、造口术) 溃疡性结肠炎,克罗恩病,切除,造口术,直肠脱垂,肛瘘,狭窄成形术切除
2 18-100岁被诊断为遗传性出血性毛细血管扩张(HHT)的成年人,也称为Osler-Weber-Rendu综合征。
奥斯勒-韦伯-伦度综合征,遗传性出血性毛细血管扩张
3. 4岁以前接受过神经科门诊的诊断为单纯或复杂部分性癫痫的定位相关(局灶性)癫痫患儿。 癫痫,局部发作,神经学
4 18-70岁的类风湿性关节炎患者,目前接受甲氨蝶呤治疗,从未使用过生物疾病缓解抗风湿药物(DMARD)。
类风湿性关节炎生物甲氨喋呤阿巴接受,阿达木单抗,阿那那单抗,certolizumab,依那西普,golimumab,英夫利昔单抗,利妥昔单抗,托西珠单抗,托法替尼
5 接受血管紧张素转换酶(ACE)抑制剂治疗并出现相关咳嗽的成年人,与ACE抑制剂引起的咳嗽作为药物的不良反应一致。 贝那普利、洛坦新、卡托普利、依那普利、维索泰克、福辛普利、赖诺普利、普列维尔、司司利、莫西普利、培哚普利、Aceon、喹那普利、阿库普利、雷米普利、阿他司、曲多普利、马维克、咳嗽、血管紧张素转换酶(ACE)抑制剂
表3。电子健康记录文本的采样查询精度为5%。
查询 结构化 非结构化 创建一个(非结构化和结构化相结合)
1 0.8 0.6 0.8
2 0.7 1.0 1.0
3. 0.3 0.5 0.8
4 0.7 0.7 1.0
5 0.2 0.9 0.9
的意思是 0.54 0.74 0.90

一个CREATE:通过电子健康记录文本分析增强队列检索。


主要研究结果

CREATE是一个概念验证,它利用结构化查询和信息检索技术的组合来改进队列检索性能,同时采用OMOP公共数据模型来增强模型可移植性。使用示例查询对实现的评估支持了我们的假设,即在确定特定临床应用的任何给定患者电子健康记录数据的输入查询的相关性方面,使用结构化和非结构化电子健康记录数据的组合优于单源系统。CREATE的设计是为了提高判断患者相关性的效率,从人工查询判断(拉)转变为系统反馈判断(推)。

直观地说,查询的性质以及与查询相关的数据在临床数据存储库中的呈现方式会显著影响所查询数据源(即结构化、非结构化和组合)的性能。例如,查询5中的一个主要概念是使用血管紧张素转换酶(ACE)抑制剂进行治疗。在非结构化文本信息检索方法中,选择ACE抑制剂相关性咳嗽患者作为关键词是有效的血管紧张素转化酶抑制剂咳嗽通常作为药物不良事件在临床情境中同时发生。相比之下,在本实验中,结构化数据查询具有挑战性。在我们的临床数据存储库中,药物信息仅以半结构化文本的形式呈现,这些文本是由计算机化的提供者订单输入生成的,没有规范化为结构化数据。因此,单纯依靠结构化数据无法获得相关的队列,导致检索到的队列相关性很低。当查询非结构化文本时,这种限制通常不重要,因为大多数临床数据都是在临床记录中提出或总结的。

然而,当查询具有年龄或性别标准的队列时,仅对非结构化数据进行查询无法有效地工作。例如,即使在查询3中提到了年龄,所有检索到的患者都是成人患者,而不是预期的儿科患者。这是由于缺乏从叙事文本中提取日期和年龄,这不是一项微不足道的信息提取任务。要为非结构化文本建立一个可靠的查询系统,而不提供元数据,如出生日期或相遇时的年龄,通常需要依赖于语料库的工程努力,从叙事文本中提取日期和年龄。

限制

本研究存在诸多局限性,可能为我们未来的工作提供方向。我们目前的功能测试是基于一个注释者在5的5查询精度,这不足以覆盖所有队列检索案例和纵向患者病情场景。虽然我们承认,来自注释者和审稿人的对完全注释的患者队列的大量查询将非常有助于评估系统的性能,但判断完整的患者病史非常耗时,特别是对于否定的条件和治疗(例如,检查患者是否患有某种疾病或程序)。随着系统投入生产,利用系统的每个研究的反馈可以被保留和分析,以便对系统的性能进行更全面的统计。

在没有全局编码系统的情况下处理概念时,概念映射(例如我们的解决方案中使用的概念映射)依赖于自然语言处理算法的输出。虽然这是一种快速而直接的解决方案,但目前的自然语言处理工具无法达到与人类分配代码相同的精度水平。从本地词汇表完成映射需要大量的人工工作并保证数据质量[37],因此在本研究范围内不可行。这个问题的解决方案是利用值集存储库来管理概念。虽然并非在所有语义空间中都能找到一对一的映射,但值集存储库可以提供一种系统的方法来管理集合或聚合中的概念集[38].

在该系统框架中,还有几种可能的方法来进一步改进信息检索组件。在本研究中,我们仅使用开箱即用的查询算法来衡量患者的相似度并对相关性进行排序。更高级的信息检索方法可以应用于查询,如基于案例的推理[39-41]、伪相关反馈[42],以及不同的排名模型[4344].虽然公共数据模型概念和原始文本的权重相等,但可以调整权重以满足不同的检索角度和需求。

结论

我们开发了端到端患者级信息检索系统CREATE,能够利用OMOP公共数据模型查询结构化和非结构化数据。对Mayo Clinic Biobank的实施和功能评估表明,CREATE优于在复杂文本队列查询中仅使用结构化或非结构化数据之一的队列检索系统。CREATE的源代码可以在多媒体附录4

在未来,我们将通过添加更多的查询主题和更大的手工图表评审队列来改进评估过程。系统将加入主动学习组件,对系统筛选的队列进行人在环分析,进一步提高相关性判断的效率。这样,基于机器学习或基于规则的队列识别算法都可以实时部署和评估。这可能会扩展到一个主动学习的群体识别框架[45].

致谢

我们真诚地感谢对查询语料库进行注释的Donna Ihrke。这项工作得到了美国国立卫生研究院的支持(拨款R01LM011934, R01EB19403, R01LM11829和U01TR02062)。本文的内容完全是作者的责任,并不一定代表美国国立卫生研究院的官方观点。

利益冲突

没有宣布。

多媒体附录1

基于web的图形用户界面CREATE。

DOCX文件,658 KB

多媒体附录2

从文本查询解析CREATE的结果。

DOCX文件,18kb

多媒体附录3

CREATE查询的格式规范。

DOCX文件,16 KB

多媒体附录4

CREATE的源代码。

DOCX文件,12 KB

  1. 王晓明,王晓明。电子病历数据质量评估的方法和维度:支持临床研究的重用。美国医学信息协会杂志2013年1月1日;20(1):144-151。[CrossRef]
  2. 应计临床试验(ACT)网络。临床与转化科学研究所。URL:https://www.ctsi.umn.edu/consultations-and-services/multi-site-study-support/accrual-clinical-trials-act-network[2020-08-20]访问
  3. Gottesman O, Kuivaniemi H, Tromp G, Faucett WA, Li R, Manolio TA,等。电子医疗记录和基因组学(浮现)网络:过去、现在和未来。中华医学杂志,2013;15(10):761-771。[CrossRef]
  4. PCORnet:国家以病人为中心的临床研究网络。URL:https://pcornet.org/clinical-research-network/[2020-08-20]访问
  5. 梅斯特m, Lovis C, b rkle T, Tognola G, Budrionis A, Lehmann CU。临床数据再利用或二次使用:现状和潜在的未来进展。医学通报2017年8月;26(1):38-52 [j]免费全文] [CrossRef] [Medline]
  6. Bycroft C, Freeman C, Petkova D, Band G, Elliott LT, Sharp K,等。英国生物银行资源与深度表型和基因组数据。《自然》2018年10月10日;562(7726):203-209。[CrossRef]
  7. 刘松,王勇,洪宁,沈飞,吴松,hershw,等。在2017年IEEE国际医疗保健信息学会议(ICHI)上发表;2017年8月23日至26日;帕克城,UT, USA第21-25页https://doi.org/10.1109/ICHI.2017.63
  8. 王勇,王丽,Rastegar-Mojarad M, Moon S, Shen F, Afzal N,等。临床信息提取应用:文献综述。生物医学信息学报,2018(1):34-49。[CrossRef]
  9. 吴宇鹏,程超武,Kaddi CD, Venugopalan J, Hoffman R,王md . -面向精准医疗的基因组学和电子健康记录大数据分析。生物医学工程学报(英文版);2017;36 (2):663 - 668 [j]免费全文] [CrossRef] [Medline]
  10. Murff HJ, FitzHenry F, Matheny ME, Gentry N, Kotter KL, Crimin K,等。使用自然语言处理在电子病历中自动识别术后并发症。中华医学杂志,2011;36(8):848-855。[CrossRef] [Medline]
  11. Maddox TM, Albert NM, Borden WB, Curtis LH, Ferguson TB, Kao DP等。学习医疗保健系统和心血管护理:来自美国心脏协会的科学声明。流通2017年4月4日;135(14)。[CrossRef]
  12. Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, Kipper-Schuler KC,等。梅奥临床文本分析和知识提取系统(cTAKES):架构,组件评估和应用。医学信息学报,2010,17(5):507-513。[CrossRef]
  13. Aronson AR, Lang F.概述MetaMap:历史视角和最新进展。中华医学杂志,2010;17(3):229-236。[CrossRef]
  14. 李建军,李建军,李建军,等。基于语义分析的临床语篇分析。2014,中文信息学报(ei);2014年8月23-24日;爱尔兰,都柏林,第54-62页。[CrossRef]
  15. Pradhan S, Elhadad N, South B, Martinez D, Christensen L, Vogel A,等。任务1:ShARe/CLEF电子健康评估实验室2013。在:CLEF(工作笔记)。2013年出席:ShARe/CLEF电子健康评估实验室;2013年9月23-26日;瓦伦西亚,西班牙。
  16. Carroll R, Thompson WK, Eyler AE, Mandelin AM, Cai T, Zink RM,等。在电子健康记录中识别类风湿关节炎算法的可移植性。中国医学信息学报,2012;19(1):349 - 349 [J]免费全文] [CrossRef] [Medline]
  17. 梅拉比S, Krishnan A, Roch AM, Schmidt H, Li D, Kesterson J,等。胰腺癌家族史患者的鉴定——NLP系统可移植性的研究。畜牧兽医学报,2015;16 (6):564 - 568 [j]免费全文] [Medline]
  18. Goodwin TR, Harabagiu SM。从脑电图报告和信号数据确定多模态患者队列。见:年度研讨会论文集。2016年在:美国医学信息学协会;2016年11月12日至16日;芝加哥,伊利诺伊州,美国p. 1794-1803。
  19. Hanauer DA, Mei Q, Law J, Khanna R,郑凯。支持电子病历信息检索:密歇根大学电子病历搜索引擎(EMERSE)开发与使用的9年经验报告。生物医学信息学报(英文版);2015;55:290-300。[CrossRef]
  20. 福特E,卡罗尔JA,史密斯HE,斯科特D,卡塞尔JA。从电子病历文本中提取信息以改进病例检测:系统综述。医学信息学报,2016,23(5):1007-1015。[CrossRef]
  21. 吴松,刘松,王勇,Timmons T, Uppili H, Bedrick S,等。用于患者级信息检索的机构内部电子病历集合。信息科学与技术学报,2017年9月18日;68(11):2636-2648。[CrossRef]
  22. Olson JE, Ryu E, Johnson KJ, Koenig BA, Maschke KJ, Morrisette JA,等。梅奥诊所生物库:个体化医疗的基石。Mayo Clinic journal; 2013;88(9):952-962。[CrossRef]
  23. bion P, Metzger M, Pezet C, Sebban C, Barthuet E, Durand T.医院日常实践背景下的计算机化病历信息检索系统:以lsamon bsamra癌症中心(法国)为例。苹果临床通报2017年12月20日;05(01):191-205。[CrossRef]
  24. Hanauer DA, Mei Q, Law J, Khanna R,郑凯。支持电子病历信息检索:密歇根大学电子病历搜索引擎(EMERSE)开发与使用的9年经验报告。生物医学信息学报(英文版);2015;55:290-300。[CrossRef]
  25. 张建军,张建军,张建军,等。面向叙述性报告的临床医生友好数据仓库:Dr. warehouse。生物医学信息学报,2018;80:52-63。[CrossRef]
  26. 吴辉,Toti G, Morley KI, Ibrahim ZM, Folarin A, Jackson R,等。SemEHR:一个通用的语义搜索系统,从临床记录中显示语义数据,用于定制护理,试验招募和临床研究。中华医学杂志,2018;25(5):530-537 [J]免费全文] [CrossRef] [Medline]
  27. FHIR(快速医疗保健互操作性资源)。FHIR概述。URL:https://www.hl7.org/fhir/overview.html
  28. Stubbs A, Filannino M, Soysal E, Henry S, Uzuner Ö。临床试验队列选择:n2c2 2018共享任务轨道1。中华医学杂志,2019,26(11):1163-1171。[CrossRef] [Medline]
  29. 翁晨,杜士文,沈一,richessr .资格标准的形式表示:文献综述。生物医学信息学报;2010;43(3):451-467。[CrossRef]
  30. 翁晨,吴晓明,罗忠,王晓明,王晓明。一种基于多尺度的中文中文中文翻译方法。美国医学信息协会杂志2011年12月01日;18(增刊1):i116-i124。[CrossRef]
  31. 康涛,张生,唐勇,Hruby GW, Rusanov A, Elhadad N,等。EliIE:临床试验资格标准的开源信息提取系统。医学信息学报,2017;24(6):1062-1071。[CrossRef]
  32. OMOP公共数据模型v5.3.1。GitHub。URL:https://github.com/OHDSI/CommonDataModel/tree/v5.3.1[2020-08-20]访问
  33. Metathesaurus。uml。URL:https://www.nlm.nih.gov/research/umls/knowledge_sources/metathesaurus/index.html[2020-08-20]访问
  34. 雅典娜标准化词汇- OHDSI。URL:https://www.ohdsi.org/analytic-tools/athena-standardized-vocabularies/[2020-08-20]访问
  35. Elasticsearch:官方的分布式搜索和分析引擎。URL:https://www.elastic.co/elasticsearch/[2020-08-20]访问
  36. 王勇,文安,刘松,hershw, Bedrick S,刘宏。基于电子病历的临床信息检索试验集。2019年10月;2(3):360-368 [j]免费全文] [CrossRef] [Medline]
  37. Huser V, DeFalco FJ, Schuemie M, Ryan PB, Shang N, Velez M,等。一种用于患者级临床数据集的数据质量工具的多站点评估。2016年11月30日;4(1):24。[CrossRef]
  38. 皮特森KJ。从值集存储库中挖掘层次结构相似簇。发表于:AMIA年度研讨会;2017年11月4-8日;美国华盛顿特区。
  39. 马志强,陈志强,陈志强,等。基于案例推理的老年痴呆症患者护理。In: Aha DW, Watson I,编辑。案例推理国际会议。计算机科学课堂讲稿。柏林:施普林格;2001:702 - 715。
  40. van den Branden M, Wiratunga N, Burton D, Craw S.整合基于案例的推理与电子病历系统。人工智能在医学中的应用2011;51(2):117-123。[CrossRef]
  41. Miotto R, Weng C.使用电子健康记录的基于病例的推理有效地识别临床试验的合格患者。美国医学信息协会杂志2015年3月13日;22(e1):e141-e150。[CrossRef]
  42. 李建军,李建军,李建军,等。基于gis的智能检索方法[j]。见:第四届文本检索会议(TREC-4)。: NIST特别出版物500-236;1995年出席:第四次文本检索会议(TREC-4);11月1 - 3;盖瑟斯堡,马里兰州,第25-48页https://trec.nist.gov/pubs/trec4/papers/Cornell_trec4.ps.gz
  43. 曹忠,魏峰,董林,李松,周明。递归神经网络排序及其在多文档摘要中的应用。2015年发表于:第29届AAAI人工智能会议论文集;2015;奥斯汀,德克萨斯州,美国第2153-2159页。
  44. 陈健,余华。基于对患者重要性的电子病历记录中术语的无监督集成排序。生物医学信息学报,2017年4月;68:121-131。[CrossRef]
  45. 陈颖,Lasko TA,梅强,Denny JC,徐华。临床文本命名实体识别的主动学习方法研究。生物医学信息学报,2015;58:11-18。[CrossRef]


创建:电子健康记录文本分析增强队列检索
-:电子病历搜索引擎
ICD-9-CM:《国际疾病分类》第九版,临床修订
ICD-10-CM:《国际疾病分类》第十版,临床修订
OHDSI:观察健康数据科学与信息学
OMOP:观察性医疗成果伙伴关系
snom):系统化医学命名法
uml:统一医学语言系统


C·洛维斯编辑;提交10.12.19;经T Goodwin, J Lalor, S Meystre同行评审;对作者29.02.20的评论;收到04.06.20修订版本;接受28.07.20;发表06.10.20

版权

©刘思佳,王燕山,温安杰,王利伟,洪娜,沈飞辰,Steven Bedrick, William Hersh,刘红芳。原发表于JMIR医学信息学(http://medinform.www.mybigtv.com), 2020年10月6日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map