发表在gydF4y2Ba在gydF4y2Ba24卷gydF4y2Ba第六名gydF4y2Ba(2022)gydF4y2Ba: 6月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/37213gydF4y2Ba,首次出版gydF4y2Ba.gydF4y2Ba
利用序列Motif发现工具识别表型叙述的语言模式对中国电子健康记录的深度表型:算法开发与验证gydF4y2Ba

利用序列Motif发现工具识别表型叙述的语言模式对中国电子健康记录的深度表型:算法开发与验证gydF4y2Ba

利用序列Motif发现工具识别表型叙述的语言模式对中国电子健康记录的深度表型:算法开发与验证gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba中国医学科学院北京协和医学院系统医学研究所,中国北京gydF4y2Ba

2gydF4y2Ba苏州系统医学研究所,苏州,中国gydF4y2Ba

3.gydF4y2Ba广州实验室,中国广州gydF4y2Ba

4gydF4y2Ba广州医科大学,中国广州gydF4y2Ba

*这些作者贡献相同gydF4y2Ba

通讯作者:gydF4y2Ba

蒋太姣,博士gydF4y2Ba

系统医学研究所gydF4y2Ba

中国医学科学院北京协和医学院gydF4y2Ba

中国江苏省苏州市崇文路100号gydF4y2Ba

北京,215000gydF4y2Ba

中国gydF4y2Ba

电话:86 13366191184gydF4y2Ba

电子邮件:gydF4y2Bataijiaobioinfor@ism.cams.cngydF4y2Ba


背景:gydF4y2Ba电子病历中的表型信息主要以非结构化的自由文本形式记录,不能直接用于临床研究。基于电子病历的深度表型分型方法能够以较高的保真度构建电子病历中的表型信息,成为医学信息学研究的热点。然而,开发一种针对非英语电子病历(即中文电子病历)的深度表型分型方法具有挑战性。虽然中国存在大量的EHR资源,但适合开发深度表型方法的细粒度注释数据有限。在如此低资源的情况下,开发中国电子病历的深度表型分型方法具有挑战性。gydF4y2Ba

摘要目的:gydF4y2Ba在本研究中,我们旨在基于有限的细粒度注释数据,开发一种具有良好泛化能力的中国电子病历深度表型分型方法。gydF4y2Ba

方法:gydF4y2Ba该方法的核心是利用序列基序发现工具识别中文电子病历表型描述的语言模式,并通过识别自由文本中的语言模式对中文电子病历进行深度表型分型。具体而言,基于细粒度信息模型PhenoSSU (Semantic Structured Unit of Phenotypes)对1000份中文电子病历进行人工标注。标注数据集随机分为训练集(n= 700,70%)和测试集(n= 300,30%)。挖掘语言模式的过程分为三个步骤。首先,将训练集中的自由文本编码为单字母序列(P:表型,A:属性)。其次,使用生物序列分析工具meme (Multiple Expectation Maximums for Motif Elicitation)来识别单字母序列中的Motif。最后,将识别出的母题简化为一系列代表中国电子病历中PhenoSSU实例语言模式的正则表达式。基于已发现的语言模式,我们开发了一种中文电子商务信息的深度表型方法,包括基于深度学习的命名实体识别方法和基于模式识别的属性预测方法。gydF4y2Ba

结果:gydF4y2Ba从训练集中的700个中文ehr中共挖掘出51个具有统计学意义的序列motif,并将其组合成6个正则表达式。研究发现,这6个正则表达式可以从训练集中134个(SD 9.7)注释的EHRs中学习到。中国电子病历深度表型识别算法在测试集上识别PhenoSSU实例的整体准确率为0.844。在实体识别子任务中,基于变压器-双向长短期记忆和条件随机场模型的双向编码器表示,算法F1得分为0.898;在属性预测子任务中,该算法采用基于语言模式的方法,加权精度达到0.940。gydF4y2Ba

结论:gydF4y2Ba我们开发了一种简单但有效的策略,可以用有限的细粒度注释数据对中国电子病历进行深度表型分析。我们的工作将促进中国电子病历的二次使用,并为其他非英语国家提供借鉴。gydF4y2Ba

中国医学杂志,2018;24(6):e37213gydF4y2Ba

doi: 10.2196/37213gydF4y2Ba

关键字gydF4y2Ba



目前,电子健康档案正日益成为临床数据挖掘和分析的重要来源[gydF4y2Ba1gydF4y2Ba].描述患者临床表现的表型信息是电子病历中最有价值的临床信息类型之一[gydF4y2Ba2gydF4y2Ba].然而,电子病历中的表型信息主要以自由文本的形式记录,计算机很难直接使用[gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba4gydF4y2Ba].因此,开发自然语言处理(NLP)技术来有效地构建自由文本中的表型信息是非常重要的。在电子病历中构建表型信息的NLP技术称为基于电子病历的表型[gydF4y2Ba5gydF4y2Ba].gydF4y2Ba

基于ehr的表型分型涉及两个关键因素[gydF4y2Ba6gydF4y2Ba].第一个因素是信息模型的发展,它可以定义表型的标准化目标[gydF4y2Ba7gydF4y2Ba].第二个因素是表型算法的发展,该算法可以将表型信息处理为预定义的信息模型[gydF4y2Ba8gydF4y2Ba].近年来,基于ehr的表型方法的重点已经从粗粒度级转移到细粒度级[gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba].与粗粒度表型相比,细粒度表型可以捕获更多的表型细节,包括表型概念及其相关属性[gydF4y2Ba11gydF4y2Ba].例如,在自由文本描述“右下腹突然剧烈疼痛”中,细粒度深显型方法不仅考虑了显型“疼痛”,而且还考虑了其相关的身体位置(“腹部”)、时间模式(“急性”)和严重程度(“严重”)的属性。基于ehr的表型可以在细粒度级别上描述表型细节,称为基于ehr的深度表型[gydF4y2Ba12gydF4y2Ba].gydF4y2Ba

深度表型方法可以以高保真的方式描述表型信息,这可能会提高基于ehr的应用的准确性,例如疾病诊断和治疗[gydF4y2Ba13gydF4y2Ba].因此,深度表型已成为医学信息学研究的重点。近年来,已发展出一系列英语电子病历的深度表型分析方法。例如,彼得森等人[gydF4y2Ba14gydF4y2Ba]使用MetaMap工具[gydF4y2Ba15gydF4y2Ba]来识别EHRs中的表型概念,以及一个神经网络模型来预测与表型相关的属性值。他们最终使用快速医疗保健互操作性资源(FHIR)模型对英文电子病历进行了描述[gydF4y2Ba16gydF4y2Ba].许等[gydF4y2Ba17gydF4y2Ba]建立了双向长短期记忆和条件随机场(Bi-LSTM-CRF)模型识别电子病历中的表型概念,结合机器学习方法预测属性值,最后用临床元素模型(CEM)表示英文电子病历中的表型信息[gydF4y2Ba18gydF4y2Ba].与英文电子病历深度分型的进展相比,中文电子病历深度分型的方法还处于起步阶段。针对语言差异的存在,既定的策略[gydF4y2Ba14gydF4y2Ba,gydF4y2Ba17gydF4y2Ba,gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba英文ehr不能直接用于中文ehr。此外,开发深度表型算法需要细粒度注释数据。然而,由于标注成本较高,很难获得大量的标注数据。这意味着中国电子病历深度表型算法的开发面临着低资源场景的挑战[gydF4y2Ba8gydF4y2Ba,因此,如何开发一种针对有限细粒度标注数据的深度表型中国电子病历的通用算法值得考虑。gydF4y2Ba

在之前的工作中,我们开发了一个名为PhenoSSU(表型语义结构化单元)的细粒度信息模型[gydF4y2Ba21gydF4y2Ba],可以准确地描述来自SNOMED CT (systemized nomature of Medicine-Clinical Terms)的12个属性的医学指南中的表型信息。为了探索中国电子病历深度表型的有效策略,我们尝试用PhenoSSU模型对一些中国电子病历进行标注。在标注过程中,我们发现在中文电子病历的自由文本中经常出现一些PhenoSSU实例的语言模式。例如,在给定的中文句子“患者反复出现(属性)剧烈(属性)腹部(属性)疼痛(表型)”(英文翻译为“反复剧烈腹痛患者”)中存在“属性+属性+属性+表型”的语言模式。如果能有效地从中文电子病历语料库中学习到PhenoSSU实例的语言模式,则有可能通过扫描PhenoSSU实例的语言模式对中文电子病历进行深度表型分型。因此,如何有效地从中文电子病历语料库中学习PhenoSSU实例的语言模式就成为一个重要的问题。gydF4y2Ba

虽然可以手动观察和总结PhenoSSU实例的语言模式,但这是一个耗时的过程,需要有经验的专家来完成。在语言模式挖掘领域,基于apriori的方法是最具代表性的算法之一,它基于关键词出现频率计数的原理[gydF4y2Ba22gydF4y2Ba].Apriori算法适用于基于词共现的简单语言模式挖掘。例如,最近的一项研究使用Apriori算法来学习社交网络服务中网络欺凌行为的语言模式[gydF4y2Ba23gydF4y2Ba].当两个关键词频繁同时出现时,就被认为构成了一种潜在的语言模式,例如“愚蠢”和“滥用”同时出现。然而,PhenoSSU实例的语言模式更加复杂。因此,基于apriori的方法不适合挖掘PhenoSSU实例的语言模式,因为它们不能同时处理一个表型和几个属性值的同时出现。受Ofer等人工作的启发[gydF4y2Ba24gydF4y2Ba,将生物序列(如DNA序列)视为人类语言,并使用先进的NLP工具来处理生物任务,我们的目标是将中国电子档案建模为类DNA序列,并使用先进的生物信息学工具挖掘语言模式。在最近的一篇综述中,Castellana等[gydF4y2Ba25gydF4y2Ba]调查了16种经典的DNA基序发现工具,并评估了它们发现29个模拟序列数据集中嵌套的序列基序的能力。MEME (Multiple Expectation Maximums for Motif Elicitation) Motif发现工具在16种经典DNA Motif发现工具中表现最好。在本研究中,我们将表型描述为“P”,属性描述为“A”,将自由文本转换为可以用MEME motif发现工具分析的单字母序列。在这个单字母序列中发现的序列母题可以看作是中国电子病历中PhenoSSU实例的语言模式。基于在电子病历中发现的语言模式,我们可以通过识别自由文本中的语言模式来识别PhenoSSU实例。综上所述,中国电子商务信息的深度表型研究可以转化为序列母序发现和语言模式识别两个连续的步骤。gydF4y2Ba

基于这一思路,我们利用生物序列motif发现工具识别中文电子档案中PhenoSSU实例的语言模式,并通过扫描自由文本的语言模式,开发了中文电子档案的深度表型算法。本文的其余部分组织如下。第一部分介绍了PhenoSSU模型的组成及其在自由文本中的常见语言模式。第二部分介绍了利用生物序列基序发现工具从中文电子病历语料库中学习语言模式的方法。第三部分介绍了基于语言模式的中文电子病历PhenoSSU实例识别方法。最后一节介绍了一个案例研究,以说明深度表型算法的潜在应用。虽然本研究开发的深度表型算法只能处理中国的电子病历,但其基础方法对其他非英语国家也具有启发意义。gydF4y2Ba


概述gydF4y2Ba

本研究提出了一种数据驱动的中文电子病历语言模式学习方法。通过将训练集编码为单字母序列的管道,并使用MEME motif发现工具对序列进行分析,我们学习了6个正则表达式,然后将它们引入到基于模式识别的属性预测算法中。语言模式学习方法的整个流程如图所示gydF4y2Ba图1gydF4y2Ba.gydF4y2Ba

‎gydF4y2Ba
图1。语言模式学习方法的管道。答:属性;C:标点符号;电子健康记录:电子健康记录;模因:母题引出的多重期望最大值O:其他信息;P:表型;表型的语义结构单位PhenoSSU;re.compile:用于编译正则表达式模式的Python方法; SNOMED CT: Systematized Nomenclature of Medicine–Clinical Terms.
查看此图gydF4y2Ba

中文电子病历表型信息表达的PhenoSSU模型设计gydF4y2Ba

PhenoSSU本质上是一个实体-属性-值模型,由表型术语和来自SNOMED CT的标准化属性组成。与CEM和FHIR两种常用的信息模型相比,PhenoSSU模型更适合于深度表型的任务,原因有二。首先,已经证明PhenoSSU模型比CEM和FHIR模型更好地表示医学文本中的表型信息[gydF4y2Ba21gydF4y2Ba].其次,PhenoSSU模型更注重用标准化的属性和值集来表征表型性状;此外,PhenoSSU模型的属性和值集更容易根据特定的研究语料库进行调整。gydF4y2Ba

为了构建细粒度标注语料库,基于PhenoSSU模型对1000份中国呼吸系统疾病EHRs进行人工标注,该模型的设计基于呼吸系统疾病占比较大的感染性疾病[gydF4y2Ba21gydF4y2Ba].这1000份中文电子病历来自爱易网站的电子病历数据库[gydF4y2Ba26gydF4y2Ba];这些电子病历中所有患者的私人信息都被爱易网站掩盖了。gydF4y2Ba

在手动标注过程中,我们优化了PhenoSSU模型中包含的属性,使其适合中国电子病历。优化后的PhenoSSU模型包含10个属性,可进一步分为两种亚型:(1)基于短语的表型属性,如“重度咳嗽”或“发烧”,包括断言、严重程度、时间模式、侧面性、空间模式、象限模式和身体位置;(2)基于逻辑的表型属性,如“WBC[白细胞]12.5 × 10”gydF4y2Ba9gydF4y2Ba/L”,包括样品、分析物和异常。PhenoSSU模型的组成如图S1和表S1所示gydF4y2Ba多媒体附件1gydF4y2Ba,以及模型所包含属性的定义、典型值和SNOMED CT编码。gydF4y2Ba

自由文本中的表型信息可以用PhenoSSU模型进行结构化表示。例如,描述“右下腹突然剧烈疼痛”可以表示为PhenoSSU实例,该实例由显型概念“疼痛”、断言属性“目前”、时间模式属性“急性”、严重属性“严重”、象限模式属性“右下腹”和身体位置属性“腹部”组成。同时,PhenoSSU模型也包含基于逻辑的表型(即定性和定量测试结果)。例如,“WBC 12.5 × 10gydF4y2Ba9gydF4y2Ba/L”可以表示为一个PhenoSSU实例,由分析物“WBC”和异常属性“abnormal: higher”组成,合并归一化为SNOMED CT中“血白细胞数增加(414478003)”的概念(gydF4y2Ba图2gydF4y2Ba, A).相关知识来自我们之前的研究LATTE(转化实验室测试结果)[gydF4y2Ba27gydF4y2Ba],被整合到这项工作中,包括样品来源,分析物名称,以及1098个实验室测试的参考范围。中关于知识库的详细信息如图S2和S3所示gydF4y2Ba多媒体附件1gydF4y2Ba.gydF4y2Ba

根据我们之前工作中PhenoSSU模型的标注准则,两位具有医学背景的中国作者(LC和SL)独立手工标注了这些病历。在brat快速标注工具平台上标注[gydF4y2Ba28gydF4y2Ba].Cohen κ的初始标注一致性为0.851。所有不一致的注释都是由项目主管(TJ)决定的。gydF4y2Ba

在标注过程中,我们在EHR文本中发现了一些PhenoSSU实例的语言模式。例如,对基于短语的表型“右下腹部突发剧烈疼痛”(英文翻译为“右下腹突然剧烈疼痛”)的描述可以总结为“属性(右下腹)+属性(腹部)+属性(急性)+属性(严重)+表型(疼痛)”。同样,基于逻辑的表型描述在自由文本中具有共同的语言模式,如“分析物(WBC) +数字(12.5 × 10gydF4y2Ba9gydF4y2Ba) +单位(cell / L) " (gydF4y2Ba图2gydF4y2BaB).如果我们能够从中国电子健康记录中挖掘PhenoSSU实例的语言模式,那么就有可能开发基于模式识别的深度表型。gydF4y2Ba

‎gydF4y2Ba
图2。自由文本表型描述和语言模式。A.使用PhenoSSU模型构建自由文本的例子。B.自由文本中的语言模式的例子。答:属性;L:分析物;N:数量;P:疼痛;表型的语义结构单位PhenoSSU;U:单位; WBC: white blood cell.
查看此图gydF4y2Ba

利用模因学习中文电子病历实例的语言模式gydF4y2Ba

概述gydF4y2Ba

为了从中文电子病历语料库中学习PhenoSSU实例的语言模式,本研究将1000份标注中文电子病历分为训练集(n= 700,70%)和测试集(n= 300,30%)。语言模式挖掘的工作流程gydF4y2Ba图3gydF4y2Ba,包括模式发现和模式充实两个阶段。在语言模式发现阶段,我们使用了MEME motif发现工具,该工具用极大似然方法解决了motif挖掘问题[gydF4y2Ba29gydF4y2Ba],以获得PhenoSSU实例的种子语言模式。在语言模式丰富阶段,提出了一种半自动的语言模式空白检测和填充方法。通过模式发现和丰富,我们建立了PhenoSSU实例的语言模式库。gydF4y2Ba

‎gydF4y2Ba
图3。从中国电子病历语料库中学习PhenoSSU模型的语言模式的工作流程。表型的语义结构单位PhenoSSU;re.compile:用于编译正则表达式模式的Python方法。gydF4y2Ba
查看此图gydF4y2Ba
第一阶段:语言模式发现gydF4y2Ba

首先,将训练集中的自由文本编码为单字母序列。为了将EHRs表示为MEME motif发现工具的输入,我们按照以下标准将其编码为单字母序列:显型(即“发烧”和“咳嗽”)编码为“P”,属性(即“严重”)编码为“a”。在基于短语的表型描述中,“P”和“A”可以在原文中直接识别出来。然而,要计算基于逻辑的表型异常,我们需要结合样本(“S”)、分析物(“L”)、数字(“N”)和单位(“U”)。具体来说,实验室检查的来源(即“血液”和“尿液”)被编码为“S”,分析物(即“白细胞”)被编码为“L”,数字被编码为“N”(即“37”),单位(即“°C”)被编码为“u”。与此同时,标点符号(即逗号)被编码为“C”,其他信息被编码为“o”。在这项研究中,电子病历使用FlashText工具进行编码,这是一种基于字符串的概念识别和替换工具[gydF4y2Ba30.gydF4y2Ba].FlashText可以基于trie字典数据结构查找和替换关键字,比正则表达式快82倍。由于其处理文本的效率,我们选择FlashText工具将文本编码为单字母序列。注意FlashText可以保留原始文本中字符串的索引。例如,自由文本描述“患者主诉(O)急性(A)呼吸困难(P),右下(A)腹部(A)突发(A)剧烈(A)疼痛(P)……没有出现(A)发热(P), (C)乏力(P)”(英文翻译:“急性呼吸困难患者抱怨…右下腹突然剧烈疼痛……No fever and fatigue”) could be encoded as “AP...AAAAP...APCP.gydF4y2Ba“在这一阶段,我们最终从训练集中的整个EHRs中获得了单字母序列。gydF4y2Ba

其次,利用MEME motif discovery工具对单字母序列中的motif进行挖掘。模因母题发现的管道由三个步骤组成:找到起点,最大化似然期望,对发现的母题进行评分。gydF4y2Ba

输入是一组未对齐的序列,输出是一组可能的图案。模因中母题的统计显著性由gydF4y2BaEgydF4y2Ba值,该值基于对数似然比。MEME motif发现工具的设置优化如下:gydF4y2Ba

  1. Motif发现模式:经典模式。在经典模式下,只需要提供一个序列。该算法通过似然排序找到序列中重复的序列片段。gydF4y2Ba
  2. 选择站点分布:任意数量的重复。这个选项意味着选择重复出现的主题。gydF4y2Ba
  3. 图案可以有多宽:从2到30。这个数字是单个图案的宽度(即序列图案中的字符)。MEME可以使用启发式函数分别选择每个母题的最佳宽度。在这个过程中,有一些基序包含“O”(即其他信息),这与表型描述无关。因此,我们将字母“O”的基序分离出来,生成可能代表PhenoSSU实例语言模式的序列片段。gydF4y2Ba

第三,我们根据发现的主题构建正则表达式。为了使图案在我们的算法中可用,我们构建了正则表达式。例如,我们基于“AP”、“AAP”、“AAAP”和“AAAAP”等motif生成的motif或序列段构建了正则表达式“a +P”。gydF4y2Ba

第二阶段:语言模式丰富gydF4y2Ba

在这一阶段,首先采用基于语言模式识别的方法自动识别训练集中中文电子病历中的PhenoSSU实例。语言模式识别的工作流程gydF4y2Ba图4gydF4y2Ba,包括以下步骤:gydF4y2Ba

  1. 将文本编码为单字母序列。例如,描述“右下腹部突发剧烈疼痛”(英文翻译为“右下腹突然剧烈疼痛”)被编码为单字母序列“AAAAP”。FlashText工具可以记录汉字在每一个字母中的位置索引,从而可以将单个字母映射到原始文本。位置索引记录的示例显示在图S4中gydF4y2Ba多媒体附件1gydF4y2Ba.gydF4y2Ba
  2. 用语言模式扫描单字母序列。在这种情况下,“AAAAP”与语言模式“A + P”完美匹配,这意味着这四个属性与表型相关。gydF4y2Ba
  3. 通过索引将这些字母映射到原始文本。答:右下角;答:腹部;答:急性;答:严重;P:疼痛。gydF4y2Ba
  4. 在PhenoSSU模型中填充表型和相关属性。最后,描述“右下腹部突发剧烈疼痛”可以转换为一个PhenoSSU实例,由显型“疼痛”、断言属性“目前”、时间模式属性“急性”、严重属性“严重”、象限模式属性“右下”和身体位置属性“腹部”组成。gydF4y2Ba

基于上述步骤,我们通过将自动识别的实例与手动标注的实例进行比较,发现了未识别的PhenoSSU实例。例如,描述“没有出现(A)发热(P),(C)乏力(P)”(英文翻译:“No fever or fatigue”)可以被编码为“APCP”,其中“AP”匹配我们模式库中的正则表达式(“A + P”)。通过映射到原始文本,“没有出现发热,乏力”被转换为一个PhenoSSU实例,由表型“fever”和断言属性“absent”组成。然而,“缺席”也是表型“腹泻”和“体重减轻”的属性,算法没有识别出这些属性。gydF4y2Ba

最后,为了检查为什么这些PhenoSSU实例不能被识别,所有这些实例都被编码为单字母序列,可以用语言模式进行扫描。如果没有匹配的模式,我们就收集这些序列来构建新的正则表达式,并将它们添加到语言模式库中。在这个例子中,像“APCPCP”这样的序列被丰富成一个正则表达式“(a + P (CP) +)”。gydF4y2Ba

‎gydF4y2Ba
图4。通过语言模式识别从自由文本中识别PhenoSSU实例的工作流程。方括号内的数字表示原文中单个字母的位置索引。答:属性;P:表型;表型的语义结构单位PhenoSSU;re.compile:用于编译正则表达式模式的Python方法。gydF4y2Ba
查看此图gydF4y2Ba

从中国电子病历识别PhenoSSU实例:工作流gydF4y2Ba

PhenoSSU实例的识别可分为实体识别和属性预测两个子任务。为了找到这两项任务的最佳策略,有必要将我们提出的方法与当前最先进的方法进行比较。gydF4y2Ba

第一个子任务是实体识别,旨在识别与表型实体和属性实体对应的文本跨度。在中文电子病历命名实体识别子任务中,BERT -Bi-LSTM-CRF模型在CCKS(中国知识图与语义计算大会)2018年任务1:中文电子病历命名实体识别中验证了其有效性,并取得了最佳F1分91.43 [gydF4y2Ba31gydF4y2Ba].因此,在本研究中,我们比较了BERT-Bi-LSTM-CRF模型和经典的基于字典的方法的算法性能。BERT模型的参数使用Python中的Kashgari包进行训练(3.6.1版本;Python软件基金会)。在基于字典的方法中,表型知识库来源于《国际疾病分类》第10版和第11版的中文译本,以及《人类表型本体论》(详见中表S2)gydF4y2Ba多媒体附件1gydF4y2Ba).此外,属性触发词的知识库来自于训练集的注释。结合实体识别和其他编码规则,将自由文本编码为单字母序列,用于后续的属性预测子任务。gydF4y2Ba

表型的属性识别是第二个子任务,旨在为PhenoSSU模型中的10个属性预测合适的值。在第一个子任务中利用自由文本中编码的单字母序列和开发的模式识别算法进行属性预测。对于属性预测的子任务,我们没有将我们的模式识别算法与现有的方法进行比较,因为PhenoSSU模型是一个相对较新的信息模型,基于PhenoSSU模型的中国EHRs深度表型的算法非常稀缺。然而,我们已经参考了最先进的深度表型英语电子病历算法。例如,我们之前的工作表明,基于支持向量机(SVM)的模型在英文临床指南的深度表型任务中表现最好。因此,本文将支持向量机模型与基于语言模式的方法进行了比较。SVM模型使用了三个特征:(1)表型与属性词之间的距离,(2)表型与属性词之间的停顿次数,(3)属性词的特征(例如,一些属性词仅位于表型词的左侧)。SVM模型是用Python中的scikit-learn包(版本1.1.0)构建的。SVM模型的参数调整基于一种混合搜索策略。在这项研究中,我们没有使用基于深度学习的方法,因为我们之前的工作表明,由于缺乏训练样本,它们不擅长识别PhenoSSU实例[gydF4y2Ba21gydF4y2Ba].gydF4y2Ba

PhenoSSU实例识别算法性能评估gydF4y2Ba

为了评估识别PhenoSSU实例的算法性能,我们使用了SemEval(语义评估)2015任务14:临床文本分析中的评估指标[gydF4y2Ba32gydF4y2Ba].gydF4y2Ba

在实体识别子任务中,以F1分数作为评价指标。当一个预测的实体词完全符合黄金标准的文本跨度时,它被认为是真正的积极。精度度量计算为正确预测的实体在算法识别的所有实体中的比例,召回度量计算为正确预测的实体在注释器识别的所有实体中的比例。F1分数以精密度和召回率的调和平均值计算。gydF4y2Ba

在属性预测子任务中,采用平均准确率和加权平均准确率作为评价指标,因为加权平均准确率充分考虑了语料库中各个属性值的分布情况,能够更好地评价那些分布较小的属性值。gydF4y2Ba

对于phenossu实例级的评估,我们使用F1分数进行实体识别和加权平均进行属性预测的组合。当算法标注的表型和相关属性值与专家标注的对应PhenoSSU实例相同时,则认为该PhenoSSU实例是正确的。gydF4y2Ba

道德的考虑gydF4y2Ba

本研究使用的1000份中国呼吸系统疾病的EHR数据来自爱易网EHR数据库[gydF4y2Ba26gydF4y2Ba].不需要伦理批准,因为下载的电子病历数据,包括患者的私人信息,都被爱易网站掩盖了。gydF4y2Ba


从中国电子病历学习PhenoSSU实例的语言模式gydF4y2Ba

从训练集中的中国EHRs中一共发现了51个序列motif(具体如图S5所示)gydF4y2Ba多媒体附件1gydF4y2Ba).基于这51个主题,我们构建了6个正则表达式(gydF4y2Ba表1gydF4y2Ba),即中文电子病历中PhenoSSU实例的语言模式。短语型的正则表达式中,“AP +”出现频率最高。该正则表达式最常见的描述是“缺失”加表型,可用于临床实践中的鉴别诊断。第二个频繁出现的正则表达式是“A + P”,通常对应于对表型的详细描述,如“身体位置+严重程度+表型”。还有一些复杂的语言模式可以概括为“A × PC × A +”,例如,“严重(A)咳嗽(P),(C)呈持续性(A)”(即严重咳嗽,一致)。在基于逻辑的表型正则表达式中,最典型的是“S × LNU”,如描述“WBC 12 × 10”gydF4y2Ba9gydF4y2Ba/ l .”也有直接解释实验室检查结果的语言模式:“S × LR[实验室检查结果]”,如“血糖升高”(即高血糖)。以上结果表明,中文电子病历存在固有的语言模式。语言模式的具体出现频率见表S3gydF4y2Ba多媒体附件1gydF4y2Ba.gydF4y2Ba

在本研究中,从700个中国电子病历的训练集中学习了6个正则表达式。然而,为了构建六个正则表达式,训练集的大小可以小于700。为了探索训练集的潜在最小大小,我们进行了一个实验,以探索能够匹配所有六个正则表达式的ehr的最小数量。在实验中,我们从数据量逐步增加的训练集中随机选取EHRs,用6个正则表达式进行扫描。当所有6个正则表达式都能匹配时,记录数据大小。这个过程重复1000次,以计算涵盖六个正则表达式的EHR和的平均值和标准差。结果表明,在134个(SD 9.7) ehr中,6个正则表达式可以被匹配。我们没有使用本研究中描述的模式发现方法,因为该方法中有一个半自动步骤。重复模式发现方法1000次将非常耗时。绘制的折线图显示了所有1000个测试中的5个例子(图S6)gydF4y2Ba多媒体附件1gydF4y2Ba).gydF4y2Ba

表1。本研究基于中文电子健康档案语料库语言模式的六种正则表达式。gydF4y2Ba
表型类别和正则表达式gydF4y2Ba 中文例子(英文翻译)gydF4y2Ba
Phrase-based表型gydF4y2Ba

re.compilegydF4y2Ba一个gydF4y2Ba(“一个gydF4y2BabgydF4y2Ba+ PgydF4y2BacgydF4y2Ba(CgydF4y2BadgydF4y2BaP) + ")gydF4y2Ba “无/A咳嗽/P, /C发热/P”(没有咳嗽或发烧)gydF4y2Ba

re.compile(“AP +”)gydF4y2Ba “严重/A腹痛/P腹泻/P”(严重腹痛和腹泻)gydF4y2Ba

re.compile(“A + P ")gydF4y2Ba “右下腹/A严重/A疼痛/P”(右下腹部剧烈疼痛)gydF4y2Ba

re.compile(“××PC +”)gydF4y2Ba “咳嗽/P,/C呈持续性/A”(咳嗽,始终如一)gydF4y2Ba
基于逻辑的表型gydF4y2Ba

re.compile(“年代gydF4y2BaegydF4y2Ba×LgydF4y2BafgydF4y2BaNgydF4y2BaggydF4y2BaUgydF4y2BahgydF4y2Ba”)gydF4y2Ba 白细胞/ l 12×10gydF4y2Ba9gydF4y2Ba/ n / l / u " (wbcgydF4y2Ba我gydF4y2Ba12 × 10gydF4y2Ba9gydF4y2Ba/ L)gydF4y2Ba

re.compile(“S×LRgydF4y2BajgydF4y2Ba”)gydF4y2Ba “血/S糖/L升高/R”(高血糖)gydF4y2Ba

一个gydF4y2Bare.compile:用于编译正则表达式模式的Python方法。gydF4y2Ba

bgydF4y2Ba答:属性。gydF4y2Ba

cgydF4y2BaP:表现型。gydF4y2Ba

dgydF4y2BaC:标点符号。gydF4y2Ba

egydF4y2Ba标本。gydF4y2Ba

fgydF4y2Ba李:分析物。gydF4y2Ba

ggydF4y2Ba护士:号码。gydF4y2Ba

hgydF4y2BaU:单元。gydF4y2Ba

我gydF4y2BaWBC:白细胞。gydF4y2Ba

jgydF4y2BaR:实验室检查结果。gydF4y2Ba

识别PhenoSSU实例的最佳策略gydF4y2Ba

基于中文电子病历的语言模式,提出了一种基于模式识别的PhenoSSU实例识别方法。为了找到识别PhenoSSU实例的最佳策略,我们在实体识别和属性预测子任务中开发并比较了不同的方法。结果是gydF4y2Ba图5gydF4y2Ba结果表明,最佳策略是使用基于深度学习的方法识别实体,然后使用基于模式识别的方法预测属性值。gydF4y2Ba

具体而言,在实体识别子任务中,深度学习方法(即BERT-Bi-LTSM-CRF)的表现最好,F1得分为0.898 (gydF4y2Ba图5gydF4y2BaB).作为对比,基于字典的方法F1得分为0.804。在属性预测子任务中,基于模式识别的方法表现最好,准确率为0.977,加权平均为0.940 (gydF4y2Ba图5gydF4y2Ba, C).基于svm的方法精度为0.783,加权平均为0.709。中国电子病历的深度表型算法在测试集上的总体精度为0.844。两种模型预测属性值的具体性能见表S4gydF4y2Ba多媒体附件1gydF4y2Ba.gydF4y2Ba

‎gydF4y2Ba
图5。确定识别PhenoSSU实例的最佳策略。A.从自由文本中识别PhenoSSU实例的工作流。B.基于字典的方法和基于深度学习的方法在识别表型概念方面的性能比较。C.基于svm的方法与基于模式识别的方法在识别表型属性方面的性能比较。表型的语义结构单位PhenoSSU;SNOMED CT:医学-临床术语的系统化命名支持向量机:支持向量机。gydF4y2Ba
查看此图gydF4y2Ba

案例研究:探索现实世界的证据,深度表型EHRs可以更新指南中的知识gydF4y2Ba

利用模式识别算法,我们可以有效地构建中文电子病历中的表型信息。为了证明深度表型的潜在应用,我们进行了一个通过电子病历信息检索更新临床指南的案例研究。在病例研究中,我们选择了最新的中国慢性支气管炎临床指南和300份中国EHRs。为了从指南和EHRs中识别PhenoSSU实例,我们使用了前面提到的优化的混合策略。gydF4y2Ba

分别从临床指南和慢性支气管炎的EHRs中确定了9例和29例PhenoSSU病例(详情见中表S5-S7)gydF4y2Ba多媒体附件1gydF4y2Ba).临床指南中确定的9例PhenoSSU病例出现在电子病历中,这意味着电子病历中的另外20例PhenoSSU病例没有包括在临床指南中。例如,“咳嗽:慢性”和“咳嗽:复发性”都出现在临床指南和电子病历中。然而,目前的指南并不能对偶尔咳嗽或严重咳嗽患者准确诊断为慢性支气管炎提出建议(gydF4y2Ba图6gydF4y2Ba).这一现实世界的证据暗示了通过大规模电子病历的深度表型来更新临床指南知识的可行性。gydF4y2Ba

‎gydF4y2Ba
图6。从慢性支气管炎临床指南和电子健康记录中提取的PhenoSSU病例的比较。PhenoSSU:表型的语义结构单位。gydF4y2Ba
查看此图gydF4y2Ba

主要研究结果gydF4y2Ba

在本研究中,我们开发了一种简单而有效的策略来对中国电子病历进行深度表型分析。该策略的核心是使用生物信息学领域的motif发现工具学习PhenoSSU实例的语言模式。本研究认为,生物序列母序发现工具可以有效识别医学文献中表型描述的语言模式,并将其编码为dna样序列。同时,识别语言模式的过程不需要太多的注释数据;因此,我们的策略适用于低资源的深度表型中国电子病历。gydF4y2Ba

本研究是利用生物信息学工具解决医学信息学问题的初步尝试。通过将自然语言建模为单字母序列,其他用于分析生物序列的高级工具也可能用于处理自然语言。例如,NLP领域的一些研究人员应用了一种经典的信息学算法,称为基本局部对齐搜索工具(BLAST), [gydF4y2Ba33gydF4y2Ba]到文本重用检测任务[gydF4y2Ba34gydF4y2Ba].在Vesanto的作品中[gydF4y2Ba35gydF4y2Ba],计算出数据集中23个最常用的英文字母,形成英文字母与任意氨基酸之间的简单一对一映射。通过这种方式,文本被编码成BLAST可以处理的单字母序列,以计算文本之间的相似性。相信未来生物信息学和医学信息学之间的交流将变得更加频繁[gydF4y2Ba36gydF4y2Ba].gydF4y2Ba

从本研究可以得出结论,中国电子病历的表型叙述存在一定规律的语言模式。这些语言模式的起源可能是临床医生的共同写作习惯,他们试图用尽可能少的单词忠实地记录临床信息,以节省时间[gydF4y2Ba37gydF4y2Ba].我们的策略不需要大量注释样本的原因是它使用了语言模式的内部知识。如我们所知,机器学习和深度学习等数据饥渴策略需要许多训练样本才能有效地从数据中识别模式。然而,在实践中有许多低资源的场景,缺乏足够的注释样本用于机器学习或深度学习。这也许就是为什么医学领域的大多数(60%)NLP研究继续使用基于知识的方法,而不是基于机器学习的方法的原因[gydF4y2Ba4gydF4y2Ba].近年来,研究人员越来越关注将机器学习与人类知识整合在一起[gydF4y2Ba38gydF4y2Ba],有望成为应对医疗信息学中资源不足情况的新范式[gydF4y2Ba39gydF4y2Ba].gydF4y2Ba

限制gydF4y2Ba

本研究的一个局限性是,语言模式是从呼吸系统疾病的电子病历中学习的,这可能不适用于其他疾病。此外,受限于数据量,我们研究中的语言模式可能不完整。未来,我们将利用更多中国医院不同科室的电子病历继续改进算法。gydF4y2Ba

结论gydF4y2Ba

我们开发了一种简单但有效的策略,可以用有限的细粒度注释数据对中国电子病历进行深度表型分析。我们的工作将推动中国电子病历的二次使用,并为其他非英语国家带来启示。gydF4y2Ba

致谢gydF4y2Ba

本工作得到国家重点研发计划项目(资助号:2021YFC2302000)、中国医学科学院医学科学创新基金项目(资助号:2021-1-I2M-051和2021-I2M-1-001)、国家自然科学基金项目(资助号:31671371)和广州实验室应急重点项目(资助号:EKPG21-12)的支持。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba
多媒体附件1gydF4y2Ba

补充材料。gydF4y2Ba

DOCX文件,902 KBgydF4y2Ba

  1. 洪c, Rush E,刘敏,周丹,孙杰,Sonabend A, VA百万老兵计划。基于稀疏嵌入回归(KESER)的多中心大规模电子病历数据临床知识提取。NPJ数字医学2021年10月27日;4(1):151 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  2. Katzan IL, Rudick RA。是时候整合临床和研究信息了。科学翻译医学2012 11月28日;4(11):162fs41。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. 李志强,李志强,李志强,等。使用人工智能与自然语言处理结合电子健康记录的结构化和自由文本数据来识别非瓣膜性房颤以减少中风和死亡:评估和病例对照研究J Med Internet Res 2021 11月09;23(11):e28946 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  4. 王勇,王琳,Rastegar-Mojarad M, Moon S,沈飞,Afzal N,等。临床信息提取应用:文献综述。J Biomed Inform 2018年1月;77:34-49 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. Chiu P, Hripcsak G.基于ehr的表型:批量学习和评估。J Biomed Inform 2017 Jun;70:35-51 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. Shickel B, Tighe PJ, Bihorac A, Rashidi P. Deep EHR:深度学习技术在电子健康记录(EHR)分析中的最新进展。IEEE生物医学健康通报2018年9月;22(5):1589-1604 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. 田玉琪,卓宁,毕比,刘红,科伊尔,帕克CG,等。SHARPn联盟中的临床要素模型。美国医学信息协会2016年3月23日(2):248-256 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. 石旭,易勇,熊勇,唐波,陈强,王旭,等。联合深度学习提取临床文本中具有属性的实体。J Am Med Inform association 2019年12月01日;26(12):1584-1591 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  9. Hripcsak G, Albers DJ。高保真表型:丰富性和无偏见。美国医学信息学会2018年3月01日;25(3):289-294 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. 张晓霞,叶芝,刘志刚,张志刚,等。来自电子健康记录的临床实验室测试语义集成,用于深度表型和生物标志物发现。NPJ数字医学2019;2:32 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. 欺骗厘米。深层表型:疾病的细节。自然杂志2015年11月05日;527(7576):S14-S15。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. Weng C, Shah NH, Hripcsak G.深度表型:拥抱复杂性和时间性——面向可伸缩性、可移植性和互操作性。J Biomed Inform 2020年5月;105:103433 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  13. 罗宾逊PN。精准医疗的深度表型。Hum Mutat 2012 May;33(5):777-780。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  14. 江刚,刘慧,陈建军,刘浩。HL7 FHIR编码临床问题的语料库驱动标准化框架。J Biomed Inform 2020 10月;110:103541 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  15. Aronson AR, Lang F. MetaMap概述:历史视角和最新进展。中国医学信息杂志2010;17(3):229-236 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. Ayaz M, Pasha MF, Alzahrani MY, Budiarto R, Stiawan D.快速健康互操作性资源(FHIR)标准:实施、应用、挑战和机遇的系统文献综述。JMIR Med Inform 2021年7月30日;9(7):e21929 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. 徐健,李志,魏强,吴勇,向勇,李华,等。应用基于深度学习的序列标记方法检测临床文本中的医学概念属性。BMC Med Inform Decis Mak 2019 Dec 05;19(Suppl 5):236 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  18. 陶C,姜光,TA Oniki, Freimuth RR,朱q, Sharma D,等。电子健康记录数据二次使用的临床元素模型的面向语义web表示。美国医学信息学会2013年5月01日;20(3):554-562 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  19. 卢震,沈杰,王建新,Forrest CB, Krull KR, Srivastava D,等。自然语言处理和机器学习方法来描述非结构化患者报告的结果:验证研究。J Med Internet Res 2021年11月03日;23(11):e26777 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  20. 叶春春,王勇,杨华,白凯,王宏,李玉军。基于人工智能的肺癌风险预测:使用非成像电子病历:深度学习方法J Med Internet Res 2021 Aug 03;23(8):e26256 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. 邓磊,陈磊,杨涛,刘敏,李松,姜涛。基于细粒度语义信息模型的传染病高保真表型知识图构建:开发与可用性研究。J Med Internet Res 2021 6月15日;23(6):e26892 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  22. Fard MJS, Namin PA。基于Apriori的大数据频繁项集挖掘方法综述。见:第六届国际网络研究会议论文集,2020年发表于:第六届国际网络研究会议;2020年4月22日至23日;伊朗德黑兰,第157-164页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  23. Zainol Z, Wani S, Nohuddin PNE, Noormanshah WMU, Marzukhi S.基于Apriori算法的社交媒体网络欺凌关联分析。中国机械工程学报,2018;29 (3):344 - 344 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  24. 张晓明,李志强,李志强,等。生物技术与应用[J]; 2011;gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  25. 陈文杰,陈志伟,陈志伟,等。合成数据上的经典DNA基序发现工具的比较基准。Brief Bioinform 2021年11月05日;22(6):bbab303。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  26. Iiyi。URL:gydF4y2Bahttps://bingli.iiyi.com/gydF4y2Ba[2022-05-25]访问gydF4y2Ba
  27. 蒋凯,杨涛,吴超,陈琳,毛林,吴勇,等。LATTE:一种基于知识的中国电子健康档案自由文本中各种检验结果表达的规范化方法。J Biomed Inform 2020年2月;102:103372 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  28. Stenetorp P, Pyysalo S, topic G, Ohta T, Ananiadou S, Tsujii J. brat:基于web的nlp辅助文本注释工具。2012年第13届计算语言学协会欧洲分会会议论文集,发表于:第13届计算语言学协会欧洲分会会议;2012年4月23-27日;阿维尼翁,法国,第102-107页。gydF4y2Ba
  29. Bailey TL, Johnson J, Grant CE, Noble WS。MEME套件。Nucleic Acids Res 2015 july 01;43(W1):W39-W49 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  30. 大规模替换或检索文档中的关键字。出来了。预印本于2017年11月9日在网上发布[gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  31. 张娟,李娟,焦铮,闫娟。CCKS 2018任务1:中国电子病历中的命名实体识别综述。第四届中国知识图与语义计算学术会议论文集,2019,第四届中国知识图与语义计算学术会议论文集。2019年8月24日至27日;中国杭州,p. 158-164。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  32. Elhadad N, Pradhan S, Gorman S, Manandhar S, Chapman W, Savova G. SemEval-2015任务14:临床文本分析。发表于:第九届语义评价国际研讨会论文集。20152015年6月4-5日;丹佛,CO . 303-310网址:gydF4y2Bahttps://aclanthology.org/S15-2051.pdfgydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  33. Johnson M, Zaretskaya I, Raytselis Y, Merezhuk Y, McGinnis S, Madden TL. NCBI BLAST:一个更好的网页界面。Nucleic Acids Res 2008 july 01;36(Web Server issue):W5-W9 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  34. 魏thaler P, Gelein M.一个基于blast的,语言不相关的文本重用算法与MARKUS实现和序列对齐优化的大型中文语料库。中国宗教杂志2019;4(2):1-25 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  35. Vesanto A.用BLAST检测和分析文本重用[硕士论文]。芬兰图尔库:图尔库大学;2018.URL:gydF4y2Bahttps://www.utupub.fi/bitstream/handle/10024/146706/Vesanto_Aleksi_opinnayte.pdf?isAllowed=y&sequence=1gydF4y2Ba[2022-05-21]访问gydF4y2Ba
  36. 欧阳哲,张志刚,张志刚,张志刚,等。对动物健康和兽医医学文献中的“大数据”、“信息学”和“生物信息学”进行范围审查。Anim健康Res Rev 2019年12月18日;20(1):1-18。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  37. 韩华,Lopp L.在电子健康记录中书写和阅读:一个全新的世界。医学教育在线2013 Feb 05;18:1-7 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  38. 邓超,季曦,Rainey C,张杰,陆伟。机器学习与人类知识的集成。iScience 2020 11月20日;23(11):101656 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  39. de Jong J, Cutcutache I, Page M, Elmoufti S, Dilley C, Fröhlich H,等。实现精准医疗愿景:基于人工智能的临床药物反应预测大脑2021 7月28日;144(6):1738-1750 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
答:gydF4y2Ba属性(在单字母序列上下文中)gydF4y2Ba
伯特:gydF4y2Ba来自变压器的双向编码器表示gydF4y2Ba
Bi-LSTM-CRF:gydF4y2Ba双向长短期记忆与条件随机场gydF4y2Ba
爆炸:gydF4y2Ba基本本地对齐搜索工具gydF4y2Ba
C:gydF4y2Ba标点符号(在单字母序列上下文中)gydF4y2Ba
cck:gydF4y2Ba中国知识图与语义计算学术会议gydF4y2Ba
杰姆:gydF4y2Ba临床要素模型gydF4y2Ba
电子健康档案:gydF4y2Ba电子健康记录gydF4y2Ba
FHIR:gydF4y2Ba快速医疗保健互操作性资源gydF4y2Ba
李:gydF4y2Ba分析物(在单字母序列上下文中)gydF4y2Ba
拿铁:gydF4y2Ba转换实验室测试结果gydF4y2Ba
MEME:gydF4y2BaMotif引出的多重期望最大值gydF4y2Ba
护士:gydF4y2Ba数字(在单字母序列上下文中)gydF4y2Ba
NLP:gydF4y2Ba自然语言处理gydF4y2Ba
O:gydF4y2Ba其他信息(在单字母序列上下文中)gydF4y2Ba
病人:gydF4y2Ba表型(单字母序列)gydF4y2Ba
PhenoSSU:gydF4y2Ba表型的语义结构单位gydF4y2Ba
接待员:gydF4y2Ba实验室检查结果(单字母序列情况下)gydF4y2Ba
史:gydF4y2Ba样本(在单字母序列的上下文中)gydF4y2Ba
SemEval:gydF4y2Ba语义评价gydF4y2Ba
snom CT:gydF4y2Ba医学临床术语系统化命名gydF4y2Ba
支持向量机:gydF4y2Ba支持向量机gydF4y2Ba
你:gydF4y2Ba单位(在单字母序列上下文中)gydF4y2Ba
白细胞:gydF4y2Ba白细胞gydF4y2Ba


A Mavragani编辑;提交11.02.22;同行评审:王洪辉,S Sakilay, H Liu;对作者09.03.22的评论;订正版本收到21.04.22;接受12.05.22;发表03.06.22gydF4y2Ba

版权gydF4y2Ba

©李士成,邓丽宗,张旭,陈鲁明,杨涛,齐一凡,蒋太娇。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2022年6月3日。gydF4y2Ba

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba


Baidu
map