JMIR医学信息学-中国医疗实体识别的多层次表示学习:模型开发和验证

原始论文

西北师范大学计算机科学与工程学院，兰州

通讯作者:

张志昌博士

计算机科学与工程学院“，

西北师范大学

安宁东路967号

兰州,

中国

电话:86 13038769329

电子邮件:zzc@nwnu.edu.cn

背景:医疗实体识别是支撑智能医疗发展的关键技术。现有的英语医学实体识别方法已经有了很大的发展，但在中文医学实体识别方面进展缓慢。由于中文和标注语料库的复杂性，这些方法都是基于简单的神经网络，不能有效提取电子病历的深层语义表征，也不适用于匮乏的医疗语料库。为此，我们开发了一种新的包含六种实体的中文EMR (CEMR)数据集，并提出了一种基于变压器双向编码器表示(BERT)的多层次表示学习模型，用于中医实体识别。

摘要目的:本研究旨在提高该语言模型的性能，使其学习多层次表示并识别中医实体。

方法:本文研究了预训练语言表示模型;研究发现，不仅利用最后一层的信息，而且利用中间层的信息，会影响中医实体识别任务的性能。为此，我们提出了一种用于中文电子病历实体识别的多层次表示学习模型。具体来说，我们首先使用BERT语言模型来提取语义表示。然后，利用多头注意机制自动从每一层提取更深层次的语义信息。最后，利用多层次表示提取的语义表示作为每个标记的最终语义上下文嵌入，并使用softmax对实体标签进行预测。

结果:实验在使用CEMR数据集时F1得分最高，达到82.11%，在使用CCKS (China Conference on Knowledge Graph and Semantic Computing) 2018基准数据集时F1得分进一步提高到83.18%。各种对比实验表明，我们提出的方法优于以往工作的方法，是一种新的最先进的方法。

结论:提出了一种多级表示学习模型来完成中文电子病历实体识别任务。在两个临床数据集上的实验证明了使用多头注意机制提取多层次表示作为语言模型的一部分的有效性。

JMIR Med Inform 2020;8(5):e17637

doi: 10.2196/17637

关键字

医疗实体识别；多层次表示学习；中国人；自然语言处理；电子病历；多头注意机制

背景

电子病历(EMRs)包含病人的健康信息。充分利用电子病历中的可用信息可以提高诊断的准确性。医学实体识别(ER)是医学自然语言处理(NLP)的基本任务，通常被视为序列标记问题[1］．如图1，其中疾病、药物和治疗三个预定义的实体类别，当使用BIO(名词短语开头、名词短语中间、非名词短语)标签模式标记中文emr时，候选标签集包含7种类型:B-Dis(疾病)、I-Dis、B-Med(药物)、I-Med、B-Tre(治疗)、I-Tre和O。

一般来说，ER的方法可以分为两类。第一类利用规则和字典来表示语言特征和领域知识来识别临床实体[2］．第二类是基于传统的机器学习和神经网络[3.-8];这种方法极大地提高了ER模型的性能，但在模型参数训练过程中需要大量的标记数据。在医学领域，标注数据集的创建受到专业知识和法律法规的限制，缺乏标注语料库成为最大的技术挑战之一。目前，为了提高现有方法的表示学习能力，ER受到了业界的广泛关注。研究表明，使用嵌入技术可以帮助解决NLP任务中缺少监督数据的问题，包括全局向量(GloVe)的因式分解方法[9]， word2vec的神经方法[10fastText [11]，以及最近考虑到上下文的动态方法，如来自语言模型的嵌入(Embeddings from Language Models, ELMo) [12]和OpenAI生成预训练变压器(GPT) [13］．这些嵌入技术可以在无监督数据中捕获语义的上下文，并在不同的上下文情况下生成相同单词的不同向量表示。

其中，变压器双向编码器表示法(BERT) [14]集成了许多语言模型的顶级思想，并给出了特别突出的性能。Transform-block是一个特征提取器，学习不同类型的抽象粒度信息。对多层信息进行层层迭代，生成嵌入表示。在实际的训练过程中，大多数下游任务都将BERT的最后一个嵌入向量作为模型的输入。然而，研究发现不同的NLP任务具有不同的需求特征。因此，将任务特征组合到语言模型中，可以减少特征提取器提取信息的损失，提高语言模型的利用率。例如，彼得斯等人[12]明确表明，下层适合局部语义关系，上层适合较长范围的关系，最后一层专门用于语言模型。彼得斯等[15]也表明，结合所有语义内部状态模型，使用加权和方法表示单词的向量，可以丰富单词在学习深度上下文化嵌入表示时的特征。由于中文ER任务侧重于字粒度信息，因此这是使用从底层表示中提取的信息的一种直接方式。

在这项工作中，我们使用BERT语言模型处理表示法。我们的目标是使用特征提取器提取每一层语义信息。为了实现信息的最优整合，我们构建了一个多层次表示学习模型。我们的贡献可归纳如下:

针对ER任务，我们手工标注了一个新的中文EMR语料库。此外，我们提出了一个多层次表示学习模型来挖掘隐藏表示。
所提出的模型利用多头注意力机制来整合来自每一层的更合适的信息，并且可以在两个临床文本数据集上作为最先进的方法执行。
实验在CEMR语料库上取得了82.11%的最佳F1分数，在CCKS (China Conference on Knowledge Graph and Semantic Computing) 2018基准数据集上取得了显著改善。

中文电子病案数据集:一个新构建的语料库

大型标记数据集并不总是容易获得。为促进我国emr的ER任务研究和未来相关课题的开展，我们构建了一个新的人工标注CEMR数据集。标注过程的规范化是指大量的标注指南[16］．所有病历均来自中国甘肃省三级甲等医院，14个科室共8万份病历。手工标注4000份病历，为ER实验提供数据。表1显示了14个医院科室的数据分布。CEMR语料库包含六种类型的实体:疾病(Dis)、症状(Sym)、测试、治疗(Tre)、药物(Med)和异常检查结果(Abn)。分类定义如下:

疾病:指特定的异常病理状况。这种不正常的生活状态是由自我调节障碍引起的，如糖尿病。
症状:指患者所描述的主观感受或外界观察到的客观事实，如腹胀。
测试:包括检查程序、项目和设备，以收集和确认有关疾病或症状的更多信息，如心电图。
治疗:指治疗疾病或缓解症状的治疗方案或干预措施，如神经营养治疗。
医学:指用于预防和治疗疾病或增强身体和改善精神状态的化学物质，如胰岛素。
异常检查结果:是指医生或检查设备观察到的异常变化或检查结果，如痰声轻微。

在标记数据之前，emr中删除了私人信息，如患者姓名、地址和医院id。在标注样本的过程中，标注工具是专门针对ER任务开发的。此外，还开发了一些策略来创建高质量的带注释的数据。例如，注释样本将随时随机检查。

表1。电子病历(EMR)数据按科室分配。

部门	EMR计数，n (%)
神经外科	77 (1.93)
神经学	77 (1.93)
心脏病学	77 (1.93)
妇产科学	77 (1.93)
男科学	77 (1.93)
呼吸系统药物	77 (1.93)
心血管学	77 (1.93)
肝胆管的手术	77 (1.93)
眼科学	77 (1.93)
整形外科	77 (1.93)
妇科	101 (2.53)
儿科	232 (5.80)
内科医学	970 (24.25)
手术	1495 (37.38)
其他	432 (10.80)
总计	4000 (100)

概述

ER任务的目标是为模型提供EMR及其语义类型，以便它可以提取文本中的所有字符并对其进行分类。所提出的模型由三个堆叠层组成:输入层、特征提取层和输出层。

如图2，该模型首先使用BERT语言模型提取语义表示。然后，利用多头注意机制自动从每一层提取更深层次的语义信息。最后，利用多层表示提取的语义信息作为每个标记的最终语义上下文嵌入，并输入到softmax层预测实体标签。输入的句子记为C = (C₁c₂c_3.、……c_n)，其中c_n代表了n中文EMR的C句中的第一个字符。对应地，输出句子预测的标签序列记为Y = (Y₁y₂y_3..．.y_n)，其中y_n属于其中一个集合:B-Dis, I-Dis, B-Sym, I-Sym, B-Test, I-Test, B-Tre, I-Tre, B-Med, I-Med, B-Abn, I-Abn，或o。在下面的文本中，我们介绍了BERT语言模型，并描述了所提出的多层次表示学习模型。

图2。ER模型的多级表示学习。B-Sym:表示症状实体的名词短语的开头;B-Test:测试实体的名词短语的开头;C:输入句子;E:输入嵌入;I-Sym:名词短语的中间，表示症状实体;I-Test:测试实体的名词短语中间;O:不是名词短语;Trm: transform-block; y: output sentence’s predicted tag sequence.

来自变压器的双向编码器表示

BERT被设计为通过联合调节所有层中的左右上下文来学习深度双向表示。它基于多层双向编码器变压器，可用于不同的架构。当给定一个字符级序列C = (C₁c₂c_3.、……c_n)， BERT的公式如下:

h₁＝E_令牌+E_段+E_位置(1）

h_l＝Trm（h_{l - 1}) (2)

Y^伯特＝Softmax（w_Oh_l+b_O) (3)

在哪里h₁表示序列的输入嵌入，由E_令牌，E_段,E_位置，分别表示句子的标记、段和位置。BERT杠杆变压器是特征提取器。Trm是一个转换块，包括自我注意、全连接层和输出层。当前的l层隐藏状态来自上层l - 1层和l是最后一层。Y^伯特表示预测序列标签的输出层。在上式中，w_O表示函数权值和b_O是函数偏差。转换块的所有参数都是使用屏蔽语言模型在大型文档级语料库上预先训练的，并通过使用输出层预测特定于任务的标签进行微调，以最大限度地提高正确标签的log-概率。

实体识别的多级表示学习

基于ER的多级表示学习模型(Multi-Level Representation Learning for ER model, Multi-Level ER)能够自动整合特征提取器各层的更深层次语义信息，完成ER任务。该语言模型利用了多头注意机制。多头注意是一种特殊的注意类型，它使模型能够关注子空间表示信息的不同位置，并可以了解更多内部元素之间的联系。图3给出了多头注意机构在计算变换块输出知识权值时的计算过程。计算转换块中的查询(Q)、键(K)和值(V)。Q, K, V的获取过程可以写成:

H＝Concat（h₁，h₂，h_3.、……h_l) (4)

问＝w_问h_l+b_l(5)

K＝w_KH+b_K(6)

V＝w_VH+b_V(7）

在哪里h_l表示转换块的最后一层的隐藏状态。的参数w_问，w_K,w_V是权重矩阵。的参数b_l，b_K,b_V是偏倚矩阵。注意函数计算如下:

头_我＝Softmax（问_lK^T/√d）V（8）

在哪里头_我意味着我th头。问_l查询键值是最后一个吗l层。√d是用来控制计算结果的数量级和d捐赠的维度K向量。在这项工作中，我们使用了多头注意，如下式所示:

E＝Concat（头₁，头₂，头_3.、……头_l）w_h+b_h（9)

在哪里w_h是用来平衡头部重量的。对于网络的最后一层，我们用softmax函数将结果传递到全连接层，如下所示:

Y^{多层次的呃}＝Softmax（w_OE+b_O) (10)

在哪里w_O输出权值矩阵和b_O是输出层的偏置。

实验

该模型得到了多组对比实验的支持。每组实验重复三次，以排名居中的结果作为最终结果。

数据集和评价标准

我们在两个数据集上评估了所提出的模型:CCKS 2018数据集和CEMR数据集。CCKS 2018数据集采用CCKS中文EMR ER任务，包含1000份录取记录。在实验中，600条记录作为训练数据，其余为测试数据。在新CEMR语料库上进行了对比实验，共包含4000篇文献。我们进一步将语料库集分为60%、20%和20%，分别作为训练集、验证集和测试集。表2显示两个数据集中文档的分布。

表2。两个数据集的组成部分。

数据集	每组记录的数量
	总计	训练集	验证设置	测试集
CEMR^一个数据集	4000	2400	800	800
cck^b2018	1000	600	N/A^c	400

^一个CEMR:中国电子病历。

^bCCKS:中国知识图谱与语义计算会议。

^c不适用;因为比较方法没有划分CCKS数据集上的验证集，我们保持它与原始实验相同，以使比较公平。

为了公平地评价各种预测方法的性能，以精密度(P)、召回率(R)和F1分数(F1)作为评价模型识别效果的指标来验证结果;它们的定义如下:

P = tp /(tp + tf) (11)

R = tp /(tp + fn) (12)

F1 = (2 × t × p)/(p + r) (13)

当一个实体的类别和边界被完全正确地标记时，它就被注释为正确的。TP是显示与金标标签相同标签的实体标签的计数，FP是结果中标记错误的已识别实体的计数，FN是指标结果中未显示的金标实体的计数。

参数设置

超参数配置根据所述验证集的性能进行调整。我们使用了一个公开的预训练语言表示模型，即BERT_{BASE-Chinese-uncased}．该模型有12层，768个隐藏层，12个头部。采用多头注意机制自动整合各层信息。通过比较不同头数的实验结果，我们将头数设置为12。我们对模型进行了10个epoch的微调，批处理大小为32。最大训练句子长度为64句。使用AdamW优化器训练模型，学习率为le-5，辍学率为0.3。

概述

我们通过计算F1分数来总结整体表现;结果说明在表3．在CEMR数据集上，我们将多层次ER学习模型与之前的经典方法进行了比较，包括条件随机场(CRF)、卷积神经网络(CNN)+双向长短期记忆(BiLSTM)+CRF、晶格长短期记忆(LSTM)和BERT。我们发现，所提出的模型优于最先进的基线方法，F1分数为0.94%至4.9%。我们的多层次ER学习模型在其性能上提高了1.48%P与BERT模型相比，R值为0.47%，F1分数为0.94%。结果还表明，预训练多层次ER学习语言模型对于任务特定的中文EMR ER是非常有效的。

表3。基于中国电子病历数据集的方法性能比较。

方法	P值(%)	R值(%)	F1得分(%)
条件随机场(CRF)	88.57	68.43	77.21
美国有线电视新闻网^一个+ BiLSTM^b+ CRF	81.51	76.92	79.15
晶格长短期记忆(LSTM)	88.60	74.48	80.93
来自变压器的双向编码器表示(BERT)	83.73	78.76	81.17
面向实体识别的多级表示学习(多级ER)	85.21	79.23	82.11

^一个CNN:卷积神经网络。

^bBiLSTM:双向长短期存储器。

我们还将我们的模型应用于广泛使用的基准CCKS 2018数据集，并使用相同的数据分割进行比较。黄等[17]提出了序列标记的BiLSTM-CRF模型，Cai等[18基于自匹配注意机制(SM)，提出了命名ER任务的SM- lstm - crf模型设计。结果显示在表4．在不需要任何外部资源的情况下，所提出的多层次ER学习模型在F1分数上已经优于之前的SM-LSTM-CRF模型3.1%。

表4。2018年中国知识图谱与语义计算大会数据集上的方法性能比较。

方法	P值(%)	R值(%)	F1得分(%)
BiLSTM^一个crf^b［17］	65.68	69.04	67.32
SM^c-LSTM-CRF [18］	80.54	79.61	80.08
面向实体识别的多级表示学习(多级ER)	83.90	82.47	83.18

^一个BiLSTM:双向长短期存储器。

^bCRF:条件随机场。

^cSM:自我匹配注意机制。

装配方法的影响

我们比较了不同装配方法对模型性能的影响，验证了多头注意机制组合层次信息的能力。详见表5，我们首先应用指向水平级联张量的级联;F1得分为81.51%。然后采用和平均法，得到F1分数为81.11%。我们最终采用了多头注意力方法，因为与我们评估的其他几种方法相比，它的综合性能最好。结果表明，集成隐藏信息可以获得更合适的表示;利用多头注意机制可以从每一层自动提取更深层次的语义信息，是最有效的装配方法。

表5所示。装配方法的效果。

组装方法	P值(%)	R值(%)	F1得分(%)
连接	84.22	78.97	81.51
和平均	83.27	79.06	81.11
多头注意机制	85.21	79.23	82.11

提取层数的影响

为了检验提取层数对模型性能的影响，我们使用不同的提取层数进行了对比实验;结果显示在表6．结果表明，所有层的性能都优于其他层数，这为语言模型引入了多层次ER，提高了模型性能。总的来说，随着提取层数的增加，性能有提高的趋势。然而，我们也发现提取最后四层比提取最后六层或两层给出更高的F1分数。分析表明，结果与特定数据集密切相关。当然，随着层数的增加，神经网络所需的参数也显著增加。因此，当模型对速度要求较高时，我们可以选择包含后四层的结构来优化时间效率。

表6所示。提取层数的效果。

提取层数	P值(%)	R值(%)	F1得分(%)
总层	85.21	79.23	82.11
最后六层	85.15	78.65	81.77
最后四个图层	85.50	78.68	81.95
最后两层	84.51	78.68	81.49

数据集大小的影响

图4显示数据集大小对模型性能的影响。横坐标表示训练数据集的大小，纵坐标表示F1分数。在实验中，我们使用不同大小的语料库来训练CNN-LSTM-CRF、BERT和多层次ER模型。从图中可以看出，随着训练数据集的增加，模型的性能也有所提高。在现实中，我们的数据集数量有限，模型不太可能达到饱和。因此，数据集大小对性能的影响尤为重要。我们发现，当训练集从70%增加到100%时，CNN-LSTM-CRF模型的性能受到数据集大小的急剧影响。相反，BERT模型和多层次ER模型受训练数据集大小的影响较小，我们提出的多层次RE模型优于BERT模型。

案例研究

为了证明我们的模型能够解决集成表示信息的挑战，文中展示了三个比较多级ER模型与BERT模型的案例研究图5．对比实验中出现了几个明显的趋势。通常情况下，当“疾病”一词包含在病史中时，会被误认为是一种疾病。例如，案例研究1在图5说明“精神病史”是公认的一种疾病。案例分析2图5显示当“肛门”和“外生殖器”在检查前同时出现时，系统只会识别相邻的区域进行测试。在案例研究3中，带有明显“治疗”字样的描述被确定为治疗图5．

我们发现BERT模型的嵌入技术提高了中国EMRs中ER模型的性能;然而，在语言模型中仅使用特征提取器的最后一层信息并没有获得最佳的实验结果。我们提出的多层次ER模型结合了来自特征提取器各层的信息，并为ER任务选择最合适的、长期的、句法的、关系的信息，这大大提高了模型的性能。

结论

我们提出了一种新的、多层次的、表征学习模型——多层次ER模型。我们将我们的模型与最先进的模型进行了比较，并在没有任何外部语法工具的情况下观察到类似的性能。结果表明，使用多头注意机制可以有效地整合特征提取器各层的深层语义信息。在未来，我们计划将多层次ER应用于其他语言表示模型，以获得更大的改进。

致谢

国家自然科学基金项目(No. 61762081, No. 61662067, No. 61662068)和甘肃省重点研发计划项目(No. 17YF1GA016)资助。本研究中使用和分析的数据集可根据合理要求从第一作者处获得。支持本研究结果的CCKS 2018数据集取自CCKS 2018中名为ER任务的中国EMR，但这些数据的可用性受到限制，这些数据是在本研究的许可下使用的，不对外公开。

利益冲突

没有宣布。

赵红，杨勇，张强，司立。基于多任务数据选择和约束解码的神经实体识别方法。在:计算语言学协会北美分会2018年年会论文集:人类语言技术(NAACL-HLT 2018)。2018年发表于:计算语言学协会北美分会2018年年会:人类语言技术(NAACL-HLT 2018);2018年6月1日至6日;新奥尔良，洛杉矶p. 346-351网址:https://www.aclweb.org/anthology/N18-2056.pdf［CrossRef］
结合情境化嵌入和先验知识的临床命名实体识别:评价研究。JMIR Med Inform 2019年11月13日;7(4):e14850 [免费全文] [CrossRef] [Medline］
李国强，李国强。基于神经网络的命名实体识别方法。在:计算语言学协会2016年北美分会论文集:人类语言技术(NAACL-HLT 2016)。2016年发表于:2016年计算语言学协会北美分会:人类语言技术(NAACL-HLT 2016);2016年6月12日至17日;圣地亚哥，加州p. 260-270网址:https://www.aclweb.org/anthology/N16-1030.pdf［CrossRef］
马晓明，王晓明，王晓明。基于LSTM-CNNs-CRF的端到端序列标记。载于:计算语言学协会第54届年会论文集，2016年发表于:计算语言学协会第54届年会;2016年8月7日至12日;德国柏林p. 1064-1074网址:https://www.aclweb.org/anthology/P16-1101.pdf［CrossRef］
杨喆，Salakhutdinov R, William WC。基于递归网络的序列标记迁移学习。见:第五届学习表征国际会议论文集(ICLR 2017)。2017年发表于:第五届学习表征国际会议(ICLR 2017);2017年4月24-26日;土伦，法国p. 1-10网址:https://arxiv.org/pdf/1703.06345.pdf
李K，何林，李文杰，蔡特莫耶。端到端神经共参分辨率。2017年自然语言处理经验方法会议记录。2017年自然语言处理经验方法会议记录。2017年9月7-11日;哥本哈根，丹麦p. 188-197网址:https://www.aclweb.org/anthology/D17-1018.pdf［CrossRef］
陈旭，石哲，邱旭，黄霞。中文分词的对抗性多准则学习。见:第55届计算语言学协会年会论文集，2017年发表于:第55届计算语言学协会年会;2017年7月30日至8月4日;加拿大温哥华，p. 1193-1203网址:https://www.aclweb.org/anthology/P17-1110.pdf［CrossRef］
王晓明，王晓明，王晓明。基于多特征域的嵌入策略在临床实体识别中的应用。在:第57届计算语言学协会年会论文集:学生研究研讨会。2019年发表于:第57届计算语言学协会年会:学生研究研讨会;2019年7月28日至8月2日;意大利佛罗伦萨，页295-301网址:https://www.aclweb.org/anthology/P19-2041.pdf［CrossRef］
潘宁顿，索彻R，曼宁C.手套:字表示的全局向量。见:2014年自然语言处理经验方法会议论文集(EMNLP)。2014年发表于:2014年自然语言处理经验方法会议(EMNLP);2014年10月25-29日;卡塔尔多哈p. 1532-1543网址:https://www.aclweb.org/anthology/D14-1162.pdf
陈凯，陈志强，陈志强。基于向量空间的词表示估计算法。见:2013年学习表征国际会议论文集。2013年发表于:2013年国际学习表征会议;2013年5月2-4日;亚利桑那州斯科茨代尔p. 1-12 URL:https://arxiv.org/pdf/1301.3781.pdf
博雅诺夫斯基，格雷夫，朱林，米科洛夫。利用子词信息丰富词向量。Trans Assoc计算语言学家2017年12月;5:35 -146 [免费全文] [CrossRef］
Peters M, Neumann M, Zettlemoyer L, Yih W.剖析上下文词嵌入:架构和表示。2018年自然语言处理经验方法会议论文集，2018年发表于:2018年自然语言处理经验方法会议;2018年10月31日- 11月4日;比利时布鲁塞尔p. 1499-1509网址:https://www.aclweb.org/anthology/D18-1179.pdf［CrossRef］
Radford A, Narasimhan K, Salimans T, Sutskever I. OpenAI预印本。2018.通过生成式预训练提高语言理解https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf[2020-04-12]访问
张文杰，张文杰，李国强，张文杰。2018.Bert:深度双向转换器预训练，用于语言理解URL:https://arxiv.org/pdf/1810.04805.pdf[2019-10-18]访问
Peters M, Neumann M, Iyyer M, Gardner M, Clark C, Lee L，等。深度语境化的单词表示。在:计算语言学协会北美分会2018年年会论文集:人类语言技术(NAACL-HLT 2018)。2018年发表于:计算语言学协会北美分会2018年年会:人类语言技术(NAACL-HLT 2018);20188年6月1日-6日;新奥尔良，洛杉矶p. 2227-2237网址:https://www.aclweb.org/anthology/N18-1202.pdf［CrossRef］
Stubbs A, Uzuner Ö。糖尿病患者临床叙述中心脏病危险因素的注释J Biomed Inform 2015 12月;58增刊:S78-S91 [免费全文] [CrossRef] [Medline］
黄志，徐伟，于凯。2015.序列标记的双向LSTM-CRF模型https://arxiv.org/pdf/1508.01991v1.pdf[2019-10-18]访问
蔡旭，董帅，胡娟。一种融合词性和自匹配注意的中文电子病历命名实体识别深度学习模型。BMC Med Inform Decis Mak 2019 Apr 09;19(Suppl 2):65 [免费全文] [CrossRef] [Medline］
吴勇，姜敏，雷军，徐慧。基于深度神经网络的中文临床文本命名实体识别。种马健康技术信息2015;216:624-628 [免费全文] [Medline］
李建平，李志强，李志强。一种基于神经网络的嵌套命名实体识别方法。在:计算语言学协会北美分会2018年年会论文集:人类语言技术(NAACL-HLT 2018)。2018年发表于:计算语言学协会北美分会2018年年会:人类语言技术(NAACL-HLT 2018);2018年6月1日至6日;新奥尔良，洛杉矶p. 1446-1459网址:https://www.aclweb.org/anthology/N18-1131.pdf［CrossRef］
李敏，李志强。神经序列标记模型中的特征研究。第26届国际计算语言学会议论文集(COLING 2016):技术论文。2016发表于:第26届国际计算语言学会议(COLING 2016):技术论文;2016年12月11-17日;日本大阪p. 309-318网址:https://www.aclweb.org/anthology/C16-1030.pdf
李建平，李志强，李志强。2017.基于神经网络的命名实体识别迁移学习https://arxiv.org/pdf/1705.06273.pdf[2019-10-18]访问
彭东，王勇，刘超，陈哲。TL-NER:中文命名实体识别的迁移学习模型。Inf系统前沿2019年6月4:1。［CrossRef］
王志强，王志强，王志强，等。基于语音感知的语音实体识别方法研究。2016年自然语言处理经验方法会议论文集，2016年发表于:2016年自然语言处理经验方法会议;2016年11月1日至5日;奥斯汀，得克萨斯州p. 1462-1472网址:https://www.aclweb.org/anthology/D16-1153.pdf［CrossRef］
Takase S, Suzuki J, Nagata M.用于高阶语言模型的直接输出连接。2018年自然语言处理经验方法会议论文集，2018年发表于:2018年自然语言处理经验方法会议;2018年10月31日- 11月4日;比利时布鲁塞尔，p. 4599-4609网址:https://www.aclweb.org/anthology/D18-1489.pdf［CrossRef］
金子，小町。2019.多头多层关注深层语言表征语法错误检测URL:https://arxiv.org/pdf/1904.07334.pdf[2019-10-18]访问

‎

荷兰:检查结果异常

伯特:来自变压器的双向编码器表示

BiLSTM:双向长短期记忆

生物:名词短语的开头，名词短语的中间，以及不是一个名词短语

cck:中国知识图与语义计算学术会议

CEMR:中国电子病历

有线电视新闻网:卷积神经网络

CRF:条件随机场

说:疾病

埃尔莫:来自语言模型的嵌入

EMR:电子病历

呃:实体识别

外国游客1:F1的分数

手套:全球向量

GPT:生成式预训练变压器

凯西:关键

LSTM:长短期记忆

医疗:医学

多层次的ER:实体识别的多级表示学习

NLP:自然语言处理

病人:精度

问:查询

接待员:回忆

RNN:循环神经网络

SM:自我匹配注意机制

符号:症状

混乱关系:治疗

V:价值

编辑:T Hao;提交30.12.19;同行评议作者:宋w，李l;对作者14.02.20的评论;修订版本收到24.02.20;接受19.03.20;发表04.05.20

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，http://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

中医实体识别的多层次表示学习:模型开发与验证