JMIR医学信息学-基于嵌入技术的结构化电子病历的患者表示:开发和验证研究gydF4y2Ba

原始论文gydF4y2Ba

Yanqun黄gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba二元同步通信,gydF4y2Ba ；gydF4y2Ba
倪王gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba二元同步通信,gydF4y2Ba ；gydF4y2Ba
志强张gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba二元同步通信,gydF4y2Ba ；gydF4y2Ba
宏磊刘gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
小路范gydF4y2Ba^3.gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
局域网魏gydF4y2Ba^3.gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
回族陈gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba首都医科大学生物医学工程学院，北京gydF4y2Ba

^2gydF4y2Ba首都医科大学生物力学临床应用基础研究北京市重点实验室，北京gydF4y2Ba

^3.gydF4y2Ba首都医科大学宣武医院信息中心，北京gydF4y2Ba

通讯作者:gydF4y2Ba

陈慧博士gydF4y2Ba

生物医学工程学院gydF4y2Ba

首都医科大学gydF4y2Ba

丰台区友门外西头条10号gydF4y2Ba

北京,100069gydF4y2Ba

中国gydF4y2Ba

电话:86 1083911545gydF4y2Ba

电子邮件:gydF4y2Bachenhui@ccmu.edu.cngydF4y2Ba

背景:gydF4y2Ba由于数据表示的多样性、稀疏性和高维性，结构化电子病历(sEMR)数据的二次使用已经成为一个挑战。构建有效的sEMR数据表示对于后续的数据应用变得越来越重要。gydF4y2Ba

摘要目的:gydF4y2Ba我们旨在将自然语言处理领域的嵌入技术应用于sEMR数据表示，并探索基于嵌入的特征和患者表示在临床应用中的可行性和优越性。gydF4y2Ba

方法:gydF4y2Ba整个培训语料库包括104,752名住院患者的记录，其中包括疾病诊断、体格检查和程序、实验室测试、药物等13,757个医学概念。使用Skip-gram算法将每个医学概念嵌入到200维实数向量中，并从记录的20次洗刷医学概念中进行一些自适应更改。患者记录中所有医学概念的向量的平均值代表患者。对于基于嵌入的特征表示评估，我们使用医学概念向量之间的余弦相似性来捕获医学概念之间潜在的临床关联。我们进一步对脑卒中患者进行了聚类分析，以评估和比较基于嵌入的患者表征。无监督评价采用Hopkins统计量、Silhouette指数(SI)和Davies-Bouldin指数，有监督评价采用准确率、召回率和F1评分。gydF4y2Ba

结果:gydF4y2Ba采用基于嵌入的表征方法，将患者表征维数从13757降至200。所选疾病(蛛网膜下腔出血)与其15个临床相关医学概念的平均余弦相似度为0.973。脑卒中患者分为两类，SI最高(0.852)。采用嵌入表征法对患者进行聚类分析，结果表明，与采用参考表征法的患者相比，采用嵌入表征法的患者适用性更高(Hopkins统计量为0.931)，聚集性更高(SI为0.862)，离散性更低(Davies-Bouldin指数为0.551)。基于嵌入表示的患者聚类方案F1得分最高，分别为0.944和0.717。gydF4y2Ba

结论:gydF4y2Ba基于特征级嵌入的表征可以有效地反映医学概念之间潜在的临床关联。基于患者级嵌入的表示易于作为标准机器学习算法的连续输入，并且可以带来性能改进。预计基于嵌入的表示将有助于sEMR数据的广泛二次使用。gydF4y2Ba

中华医学杂志，2011;9(7):9905gydF4y2Ba

doi: 10.2196/19905gydF4y2Ba

关键字gydF4y2Ba

电子病历gydF4y2Ba；gydF4y2Ba Skip-gramgydF4y2Ba；gydF4y2Ba 特征表示gydF4y2Ba；gydF4y2Ba 患者表示gydF4y2Ba；gydF4y2Ba 中风gydF4y2Ba

在过去的十年中，电子病历(emr)中存储的数字信息量呈爆炸式增长，其中包含大量关于患者临床病史的信息。在各种临床应用中广泛使用这些信息已成为一种普遍趋势[gydF4y2Ba1gydF4y2Ba]，帮助做出诊断决定[gydF4y2Ba2gydF4y2Ba-gydF4y2Ba4gydF4y2Ba]，预测患者预后[gydF4y2Ba5gydF4y2Ba-gydF4y2Ba8gydF4y2Ba]，并提供治疗建议[gydF4y2Ba9gydF4y2Ba-gydF4y2Ba11gydF4y2Ba]。gydF4y2Ba

众所周知，数据表示方法对数据应用程序的性能变得越来越重要[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba13gydF4y2Ba]。近年来，许多研究者通过表示学习将不同类型的医学数据转换为向量进行了初步尝试。然后，他们将带有这些表征的电子病历数据应用于临床任务[gydF4y2Ba6gydF4y2Ba，gydF4y2Ba14gydF4y2Ba，gydF4y2Ba15gydF4y2Ba]，更有效地利用医疗数据，提高预测分析的性能。崔等[gydF4y2Ba6gydF4y2Ba比较了三种分布式表征方法(Skip-gram、Continuous Bag-of-Words和latent semantic analysis)在预测住院费用和住院时间(LOS)方面的性能。Ning等[gydF4y2Ba15gydF4y2Ba]通过Skip-gram训练了生物医学期刊文章中医学概念的向量表示，并提出了一种基于医学概念向量表示的全自动疾病表型特征提取方法。此外，一些研究者通过深度学习学习患者表征[gydF4y2Ba3.gydF4y2Ba，gydF4y2Ba5gydF4y2Ba，gydF4y2Ba12gydF4y2Ba]。王哲等[gydF4y2Ba5gydF4y2Ba设计了一种基于卷积神经网络的特征重排表示，用于心力衰竭死亡率预测。王磊等[gydF4y2Ba3.gydF4y2Ba]使用自动编码器(一种无监督深度学习算法)在各种预测任务中从EMR数据生成低维表示，如再入院预测和肺炎预测。一项类似的研究[gydF4y2Ba12gydF4y2Ba使用基于递归神经网络的去噪自编码器将患者记录编码为低维密集向量，用于心衰预测。gydF4y2Ba

然而，在包含高维和多样化特征的结构化EMR (sEMR)数据的表示方面仍然存在挑战。诸如人口特征、疾病诊断、体检和程序以及实验室测试等特征可能具有离散或连续的值，因此难以揭示它们之间的潜在关系。此外，由于不可避免的缺失值，很难充分利用每个可用的功能(例如实验室测试)。如何处理长度不等的病历是值得探讨的问题。gydF4y2Ba

因此，在本研究中，我们利用了一种源自自然语言处理(NLP)的分布式嵌入技术，即Skip-gram算法，通过一些自适应变化从sEMR数据中获得有效的表示。采用降维可视化方法和特征关联分析法对特征表示进行评价。我们进一步对用所提出的表征表示的患者进行聚类分析，以评估表征方案。我们的目的是探索基于嵌入的表示在sEMR数据挖掘任务中的可行性和优越性。gydF4y2Ba

研究数据和数据预处理gydF4y2Ba

收集2014年1月至2016年12月北京首都医科大学宣武医院104752例住院患者144375例的磁共振成像数据。将患者的特征分为7大类:人口统计学特征、入院和出院情况、医疗资源利用情况、疾病诊断(《国际疾病分类》第十版[ICD-10]代码确定)、检查和程序(《国际疾病分类》第九版《临床修改》[ICD-9-CM]代码确定)、实验室检查和药物(《国际疾病分类》第九版[ICD-9-CM]代码确定)gydF4y2Ba多媒体附录1gydF4y2Ba)。每次住院都要维持这些数据。如果患者多次住院或多次实验室检查，则仅包括第一次住院或实验室检查。在我们可以远程访问数据之前，患者的个人信息完全从数据集中删除，确保数据以匿名和安全的方式使用。该研究和数据的使用得到了医院人类研究伦理委员会的批准。gydF4y2Ba

集中于某一疾病的数据分析将更有针对性和针对性，因为某一组患者可能具有相似的特征。中风是一种发病率高、死亡率高、致残率高的严重疾病[gydF4y2Ba16gydF4y2Ba，gydF4y2Ba17gydF4y2Ba]。挖掘数据中隐藏的知识对脑卒中的诊断和治疗具有重要意义。因此，我们以脑卒中患者为研究对象进行表征评价。在数据集中，有8232条记录涉及初级诊断为卒中的成年患者(ICD-10代码I60 ~ I64、I66和I67.8) [gydF4y2Ba18gydF4y2Ba]）.其中，1397例患者初诊为出血性卒中(HS;ICD-10编码I60 ~ I62)和6835;ICD-10代码I63、I64、I66、I67.8)。gydF4y2Ba

由于Skip-gram算法需要离散输入，因此连续特征的值被分割成几个离散值。年龄分为<18岁、18-34岁、35-44岁、45-59岁和≥60岁。每个实验室检查项目根据临床实验室检查参考文献分为正常和异常2级或高、中、低3级。其他连续特征分组为4个百分位数箱(四分位数)，每个箱包含所有样本的四分之一gydF4y2Ba多媒体附录1gydF4y2Ba)。因此，一个特征具有几个称为医学概念的离散值。例如，特征“性别”有两个概念，男性和女性。如果将患者记录视为一个句子，则将记录中的医学概念视为句子中的单词。所有的记录组成了训练语料库。涉及的代表性特征包括人口特征、住院情况、医疗资源的利用、疾病诊断、体检和程序、实验室测试和药物。与患者预后相关的特征，包括LOS、医院费用和出院路线，被用来评估患者的陈述;因此，他们被排除在两个训练语料库之外。完整的语料库由来自104,752例患者记录的13,757个独特的医学概念组成，而子语料库由来自8232例中风患者记录的3769个独特的医学概念组成。gydF4y2Ba

医学概念最初是用单热向量编码的，其中单热向量的维度等于数据集中不同概念的数量。在单热编码方案中，首先生成语料库中所有不同医学概念的词汇表;然后，将每个医学概念表示为0-1向量，其中目标概念在词汇表中的索引设为1，其他所有概念均设为0。gydF4y2Ba

Embedding-Based表示gydF4y2Ba

我们使用Skip-gram算法[gydF4y2Ba19gydF4y2Ba来学习医学特征的表征。Skip-gram算法可以将单词映射到一个低维实数空间中，在这个实数空间中相关单词的位置很近。假设相似的词可能有相似的上下文，Skip-gram算法预测当前(目标)词的周围词。当目标单词移动到下一个单词时，重复相同的上下文预测。Skip-gram算法的目标是最大化以下平均对数概率:gydF4y2Ba

在哪里gydF4y2BaTgydF4y2Ba是包含目标单词的句子的长度，gydF4y2BacgydF4y2Ba(在本研究中设置为5)是训练环境的大小(称为窗口大小)，gydF4y2BawgydF4y2Ba_tgydF4y2Ba和gydF4y2BawgydF4y2Ba_{t + jgydF4y2Ba}表示目标词和gydF4y2BajgydF4y2Ba训练上下文窗口中目标词前后的相邻词，gydF4y2BavgydF4y2Ba代表了gydF4y2BadgydF4y2Ba维(gydF4y2BadgydF4y2Ba在本研究中设置为200)实数向量的单词，和gydF4y2BaWgydF4y2Ba(本研究中全语料库和笔划语料库分别为13,757和3769)为语料库中的总字数。gydF4y2Ba

与具有相对固定词序的自然语言句子不同，医学概念在记录中的位置是手动指定的。很难假设概念越相关，它们就越接近记录。因此，与目标概念相关的医学概念可能不会出现在式(1)中的训练上下文窗口中。为了减少概念序列对Skip-gram算法的影响，我们使用了洗牌机制[gydF4y2Ba14gydF4y2Ba]随机重新排列语料库中每条记录中医学概念的顺序。然后将洗牌后的语料库用于训练嵌入向量。洗牌训练过程进行20次，得到20个与一个医学概念对应的嵌入向量。这些向量的平均值被认为是概念的最终嵌入表示。由于患者对某一特征只能有一种医学概念，因此将该特征表示为嵌入向量。在使用Skip-gram算法进行训练后，一位患有gydF4y2BakgydF4y2Ba医学概念gydF4y2BakgydF4y2Ba功能会有gydF4y2BakgydF4y2Ba实数向量。这些向量的平均值被认为是患者的基于嵌入的表示。gydF4y2Ba

代表计划的评估gydF4y2Ba

特征表示的评价gydF4y2Ba

特征表示首先通过使用t分布随机邻居嵌入(t-SNE)算法将d维实数向量空间映射到二维空间来进行可视化评估[gydF4y2Ba14gydF4y2Ba，gydF4y2Ba20.gydF4y2Ba]。我们使用Python 3.7软件和sklearn.manifold.TSNE工具进行可视化。t-SNE算法的主要参数为:嵌入空间维数为2,perplexity为30，学习率为200，迭代次数为1000，梯度计算方法为Barnes-Hut，角度为0.5。比较了不同语料库下医学概念向量训练的约简可视化效果。为了清晰起见，在中风语料库中至少10条记录中出现的441个诊断概念被映射到二维空间中。根据临床分类软件代码[gydF4y2Ba21gydF4y2Ba]作进一步分析。gydF4y2Ba

然后评估基于嵌入的特征表示如何捕获特征之间的潜在关联。我们从诊断、实验室检查、体检和程序、药物和其他特征类别中确定了10个最接近的医学概念，在低维嵌入空间中为两个指标诊断概念:蛛网膜下腔出血(SAH)和大脑中动脉闭塞和狭窄(OSMCA)。指标诊断概念与其他概念之间的相似度采用余弦相似度度量，该方法适用于数值向量。gydF4y2Ba

病人代表的评估gydF4y2Ba

分布式嵌入技术具有揭示样本之间潜在相关性的优势[gydF4y2Ba19gydF4y2Ba]，而无监督聚类分析是一项机器学习任务，更多地依赖于样本相关性。因此，采用聚类分析来确定所提出的患者表示是否在揭示患者之间潜在的相关性方面具有一定的优势，从而使聚类方案更具聚集性。为了进行比较，我们采用了6种基于嵌入的患者表征方案和2种参考方案。使用初始完整语料库、初始笔画语料库、洗牌完整语料库和洗牌笔画语料库作为训练语料库，生成了四种基于嵌入的表示。此外，为了探索训练上下文中包含的特征数量对表征的影响，我们还设计了两种表征学习方案，分别使用最大窗口大小为255和224的初始完整和笔画语料库。最大窗口大小是语料库中具有最多医学概念的记录的长度。采用两种常用的数据表示方法作为参考方法;一种是多热表示，即所有特征的一热码按位求和;另一种是离散特征的多热码和连续特征的原始值的混合。在混合表示中，我们选择了至少90%的脑卒中患者的59项实验室检查。使用相应实验室测试的中位数插值实验室测试中的缺失值。 Figure S1 in多媒体附录1gydF4y2Ba用简单的例子描述本研究中使用的表示方案。gydF4y2Ba

我们对脑卒中患者进行k-means聚类分析，使用余弦距离作为基于嵌入的表示，Jaccard距离[gydF4y2Ba22gydF4y2Ba]用于多热表示，Jaccard距离(用于离散特征)加上余弦距离(用于连续特征)用于混合表示。我们评估了Hopkins统计的聚类解决方案[gydF4y2Ba23gydF4y2Ba]、廓形指数(SI) [gydF4y2Ba24gydF4y2Ba]和Davies-Bouldin指数(DBI) [gydF4y2Ba24gydF4y2Ba]。霍普金斯统计描述了聚类数据的一致性，而SI验证了聚类内部的一致性，DBI测量了每个聚类和最相似的聚类之间的平均相似度。Hopkins statistics和DBI的取值范围为0 ~ 1,SI的取值范围为−1 ~ 1。Hopkins统计值和SI值越高，DBI值越低，聚类结果越好。在本研究中，SI还用于比较不同k值下的k-means聚类解，以确定最优聚类数。对与患者预后相关的特征进行比较，以确定聚类之间的差异。还评估了聚类解决方案的临床特征，包括人口统计学特征、医疗资源利用、疾病诊断、实验室检查、程序和患者预后。通过统计检验比较聚类之间这些临床特征的差异，旨在证实聚类分析发现的知识是否与临床事实一致，还是医学领域的新知识。gydF4y2Ba

特征表示可视化gydF4y2Ba

图1gydF4y2Ba展示了在二维空间中用不同的语料库训练的疾病概念的嵌入向量。用中风语料库训练的疾病概念向量(gydF4y2Ba图1gydF4y2BaD和E)比满体组(gydF4y2Ba图1gydF4y2Ba此外，用洗牌全语料库训练的病媒(gydF4y2Ba图1gydF4y2BaA)与初始完整语料库训练的患者相比，显示出更强的疾病聚集性(gydF4y2Ba图1gydF4y2BaB)和使用最大窗口大小(gydF4y2Ba图1gydF4y2BaC)。gydF4y2Ba

图1所示。诊断概念在t分布随机邻居嵌入空间中的嵌入向量。采用Skip-gram算法对嵌入向量进行训练，从(a)洗牌完整语料库、(B)初始完整语料库、(D)洗牌笔画语料库和(E)初始笔画语料库中选取窗口大小为5的嵌入向量，从(C)初始完整语料库中选取窗口大小为255的嵌入向量，从(F)初始笔画语料库中选取窗口大小为224的嵌入向量。gydF4y2Ba

如图所示gydF4y2Ba图2gydF4y2BaB，出血性中风(红点)和心血管疾病(橙点)相关的疾病概念大部分分别集中在红色圆圈和橙色圆圈内，表明同一类别的疾病概念更容易在嵌入空间中聚集在一起。此外，嵌入空间中邻近的医学概念通常具有临床相关性。例如，在嵌入空间中，由不同ICD-10代码编码但属于相同粗略疾病类别的疾病概念能够聚集在一起(例如，循环系统疾病与ICD-10代码以Q2和I in开头)gydF4y2Ba图2gydF4y2BaA).此外，如图所示gydF4y2Ba图2gydF4y2BaC、与脑出血(I61.002、I61.005、I61.601、I61.902)和脑梗死(I63.905)相关的异常感知症状和体征疾病，如昏迷(ICD-10代码，R40.205)、四肢瘫痪(G82.501)、乏力(R53xx09)。这与临床事实是一致的[gydF4y2Ba25gydF4y2Ba]。gydF4y2Ba

图2。所选441个诊断概念在嵌入空间中的可视化。(A)和(C)是(B)的黑色矩形框中的局部放大区域，其中的嵌入向量是用洗牌的概念从完整的语料库中训练出来的，并通过t分布随机邻居嵌入技术投影到一个位置。gydF4y2Ba

特征相关性分析gydF4y2Ba

表1gydF4y2Ba列出了与两种脑血管疾病:SAH和OSMCA最接近的3个医学概念(来自不同的特征类别)。在不同类别的医学概念中，即使是异质的，临床相关的概念也可以通过概念向量之间的余弦相似度来识别。例如，与SAH最接近的实验室检测结果是脑脊液呈红色和浑浊，这与临床事实一致。此外，嵌入向量可以在同一粗糙类别中揭示更详细的医学概念信息。对于SAH和OSMCA这两个典型脑血管疾病的诊断概念，最接近的手术是动脉瘤夹持术和经皮药物洗脱支架植入术，临床通常分别用于治疗SAH和OSMCA。此外，与同一索引概念最接近的概念在用全语料库和中风语料库训练时并不完全相同，但两者都与索引概念具有临床相关性。我们还注意到，索引概念与其最接近的概念在stoke语料库中的余弦相似度大于完整语料库中的余弦相似度。例如，在全语料库和卒中语料库中，SAH及其15个最接近的医学概念的相似度平均值分别为0.910和0.973。表S2gydF4y2Ba多媒体附录1gydF4y2Ba显示了每个特征类别中最接近SAH和OSMCA的10个医学概念。gydF4y2Ba

表1。用疾病概念蛛网膜下腔出血和大脑中动脉闭塞狭窄的全语料库和脑卒中语料库对15个最接近的医学概念进行嵌入表征训练。gydF4y2Ba

类别gydF4y2Ba	大脑中动脉闭塞狭窄gydF4y2Ba			蛛网膜下腔出血gydF4y2Ba
	最近的概念gydF4y2Ba^{一个gydF4y2Ba}	相似gydF4y2Ba	最近的概念gydF4y2Ba^{一个gydF4y2Ba}		相似gydF4y2Ba	最近的概念gydF4y2Ba^bgydF4y2Ba	相似gydF4y2Ba
疾病gydF4y2Ba 诊断gydF4y2Ba	大脑前动脉闭塞狭窄gydF4y2Ba	0.964gydF4y2Ba	前交通动脉蛛网膜下腔出血gydF4y2Ba		0.932gydF4y2Ba	后交通动脉蛛网膜下腔出血gydF4y2Ba	0.976gydF4y2Ba
	多侧及双侧脑动脉闭塞狭窄gydF4y2Ba	0.962gydF4y2Ba	后交通动脉蛛网膜下腔出血gydF4y2Ba		0.929gydF4y2Ba	前交通动脉蛛网膜下腔出血gydF4y2Ba	0.975gydF4y2Ba
	大脑后动脉闭塞狭窄gydF4y2Ba	0.958gydF4y2Ba	支气管炎，非急性或慢性gydF4y2Ba		0.925gydF4y2Ba	动脉瘤gydF4y2Ba	0.971gydF4y2Ba
实验室测试gydF4y2Ba	浊度法血小板聚集试验:高gydF4y2Ba	0.915gydF4y2Ba	脑脊液颜色:红色gydF4y2Ba		0.933gydF4y2Ba	脑脊液透明:浑浊gydF4y2Ba	0.975gydF4y2Ba
	血浆蛋白C:高gydF4y2Ba	0.914gydF4y2Ba	脑脊液透明:浑浊gydF4y2Ba		0.904gydF4y2Ba	脑脊液颜色:血色gydF4y2Ba	0.959gydF4y2Ba
	浊度法血小板聚集试验:低gydF4y2Ba	0.910gydF4y2Ba	脑脊液颜色:橙色gydF4y2Ba		0.863gydF4y2Ba	脑脊液白细胞计数高gydF4y2Ba	0.958gydF4y2Ba
程序gydF4y2Ba	经皮药物洗脱支架植入术gydF4y2Ba	0.861gydF4y2Ba	颅内动脉瘤栓塞术gydF4y2Ba		0.985gydF4y2Ba	颅内动脉瘤栓塞术gydF4y2Ba	0.986gydF4y2Ba
	经皮锁骨下动脉药物洗脱支架植入术gydF4y2Ba	0.848gydF4y2Ba	动脉瘤剪裁gydF4y2Ba		0.974gydF4y2Ba	动脉瘤剪裁gydF4y2Ba	0.974gydF4y2Ba
	经颅血管成形术gydF4y2Ba	0.822gydF4y2Ba	颅内血管栓塞gydF4y2Ba		0.960gydF4y2Ba	颅骨钛板置入gydF4y2Ba	0.965gydF4y2Ba
药物gydF4y2Ba	航行的平板电脑gydF4y2Ba	0.938gydF4y2Ba	高渗氯化钠羟乙基淀粉40注射液gydF4y2Ba		0.938gydF4y2Ba	曲马多gydF4y2Ba	0.987gydF4y2Ba
	松龄血脉康胶囊gydF4y2Ba^cgydF4y2Ba	0.924gydF4y2Ba	NimodipinegydF4y2Ba		0.895gydF4y2Ba	FasudilgydF4y2Ba	0.983gydF4y2Ba
	御风宁心滴丸gydF4y2Ba^cgydF4y2Ba	0.920gydF4y2Ba	果糖二磷酸钠注射液gydF4y2Ba		0.894gydF4y2Ba	地佐辛注入gydF4y2Ba	0.982gydF4y2Ba
其他人gydF4y2Ba	二甲双胍过敏gydF4y2Ba	0.858gydF4y2Ba	神经外科重症监护室gydF4y2Ba^dgydF4y2Ba		0.924gydF4y2Ba	神经外科ICUgydF4y2Ba	0.976gydF4y2Ba
	对长春西汀过敏gydF4y2Ba	0.852gydF4y2Ba	呼吸机使用gydF4y2Ba		0.796gydF4y2Ba	出院科室:神经外科gydF4y2Ba	0.964gydF4y2Ba
	对碘丙胺过敏gydF4y2Ba	0.852gydF4y2Ba	出院科室:神经外科gydF4y2Ba		0.796gydF4y2Ba	入院科室:神经外科gydF4y2Ba	0.962gydF4y2Ba

^{一个gydF4y2Ba}用完整的语料库训练概念的嵌入向量。gydF4y2Ba

^bgydF4y2Ba用笔画语料库训练概念的嵌入向量。gydF4y2Ba

^cgydF4y2Ba中药。gydF4y2Ba

^dgydF4y2BaICU:重症监护病房。gydF4y2Ba

患者聚类分析gydF4y2Ba

在k-means聚类分析中，确定最优k为2，当k在每种表示方案中从2变为15时，对应的SI值最高(见图S2)gydF4y2Ba多媒体附录1gydF4y2Ba)。在以嵌入向量表示患者的聚类方案中，Hopkins统计量和SI值分别最大(0.931)和0.862,DBI值最小(0.551)。gydF4y2Ba表2gydF4y2Ba)，表明利用嵌入载体对患者进行聚类具有较高的均匀性和聚集性，分散性较低。gydF4y2Ba

表2。基于不同患者表征的区间评价指标的聚类性能。gydF4y2Ba

表示计划gydF4y2Ba	训练参数gydF4y2Ba				聚类评价指标gydF4y2Ba
	语料库使用gydF4y2Ba	洗牌语料库gydF4y2Ba	窗口大小gydF4y2Ba	霍普金斯统计gydF4y2Ba		轮廓指数gydF4y2Ba	Davies-Bouldin指数gydF4y2Ba
Embedding-basedgydF4y2Ba 表示gydF4y2Ba	完整的gydF4y2Ba	是的gydF4y2Ba	5gydF4y2Ba	0.922gydF4y2Ba		0.783gydF4y2Ba	1.067gydF4y2Ba
	中风gydF4y2Ba	是的gydF4y2Ba	5gydF4y2Ba	0.913gydF4y2Ba		0.862gydF4y2Ba^{一个gydF4y2Ba}	0.551gydF4y2Ba^bgydF4y2Ba
	完整的gydF4y2Ba	没有gydF4y2Ba	5gydF4y2Ba	0.903gydF4y2Ba		0.685gydF4y2Ba	1.711gydF4y2Ba
	中风gydF4y2Ba	没有gydF4y2Ba	5gydF4y2Ba	0.925gydF4y2Ba		0.672gydF4y2Ba	1.382gydF4y2Ba
	完整的gydF4y2Ba	没有gydF4y2Ba	255gydF4y2Ba	0.922gydF4y2Ba		0.783gydF4y2Ba	1.065gydF4y2Ba
	中风gydF4y2Ba	没有gydF4y2Ba	224gydF4y2Ba	0.931gydF4y2Ba^cgydF4y2Ba		0.790gydF4y2Ba	0.772gydF4y2Ba
Multi-hot表示gydF4y2Ba^dgydF4y2Ba	N/AgydF4y2Ba^egydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba	0.813gydF4y2Ba		0.233gydF4y2Ba	3.236gydF4y2Ba
混合表示法gydF4y2Ba^fgydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba	0.918gydF4y2Ba		0.141gydF4y2Ba	4.157gydF4y2Ba

^{一个gydF4y2Ba}剪影指数的最高值。gydF4y2Ba

^bgydF4y2Ba戴维斯-布尔丹指数的最低值。gydF4y2Ba

^cgydF4y2Ba霍普金斯统计的最高值。gydF4y2Ba

^dgydF4y2Ba多热表示:一热码组合的表示方法。gydF4y2Ba

^egydF4y2Ba-不适用。gydF4y2Ba

^fgydF4y2Ba混合表示:离散特征的多热码与连续年龄值和实验室试验的实数相结合的表示方法。gydF4y2Ba

在8个聚类方案中，聚类1平均包含6869例(范围6214-7704)患者，其中92.2%(范围85.5%-95.7%)的患者最初诊断为IS。聚类2平均包含1363例(范围528-2018)患者，其中63.1%(范围51.2%-74.5%)的初步诊断为HS。因此，我们使用IS作为聚类1患者的标签，HS作为聚类2患者的标签。在基于嵌入的表示中，用洗牌全语料库训练的表示在聚类1和聚类2上的F1得分最高，分别为0.944和0.717 (gydF4y2Ba表3gydF4y2Ba)。在该聚类方案中，95.0%(6495/6835)的IS患者和69.4%(970/1397)的HS患者分别被正确地分为聚类1和聚类2。第2类群中以IS为主诊断的患者(340/6835,5.0%)中以HS为继发诊断的占9.4%(32/340)。与此同时，在第1类中以HS为主诊断的患者中(427/1397,30.6%)，继发诊断为IS的患者占48.9%(209/427)。在这种情况下，集群性能可能会被低估。gydF4y2Ba

聚类1和聚类2脑卒中患者的死亡率差异有统计学意义(45/6922,0.65% vs 91/1310, 6.95%;gydF4y2BaPgydF4y2Ba<.001)、每次住院费用(17.7 vs 11.30万元人民币)、gydF4y2BaPgydF4y2Ba<.001)和LOS (9.8 vs 12.6天;gydF4y2BaPgydF4y2Ba<措施)。聚类2患者在呼吸机方面的医疗资源占用比聚类1患者多(544/ 1310,41.5% vs 105/ 6922,1.5%);gydF4y2BaPgydF4y2Ba<.001)和重症监护病房(1025/1310,78.2% vs 353/6922, 5.1%;gydF4y2BaPgydF4y2Ba<措施)。这可能部分与群集2的患者通常也患有肺炎等急性疾病有关(189/1310,14.4%对318/6922,4.6%，gydF4y2BaPgydF4y2Ba<.001)，而第1类患者有慢性疾病，如瘫痪(3735/6922,0.54.0% vs 119/1310, 9.1%;gydF4y2BaPgydF4y2Ba<措施)。表S3gydF4y2Ba多媒体附录1gydF4y2Ba描绘了更多的比较。gydF4y2Ba

表3。基于不同患者表征的区间评价指标的聚类性能。gydF4y2Ba

表示gydF4y2Ba	训练参数gydF4y2Ba				正确的标签gydF4y2Ba		第1组患者，n例gydF4y2Ba		第2组患者，n例gydF4y2Ba		评价指标gydF4y2Ba
	语料库使用gydF4y2Ba	洗牌gydF4y2Ba	窗口大小gydF4y2Ba							精度gydF4y2Ba		回忆gydF4y2Ba	F1的分数gydF4y2Ba
Embedding-basedgydF4y2Ba	完整的gydF4y2Ba	是的gydF4y2Ba	5gydF4y2Ba	是gydF4y2Ba^{一个gydF4y2Ba}		6495gydF4y2Ba		340gydF4y2Ba		0.938gydF4y2Ba		0.950gydF4y2Ba	0.944gydF4y2Ba^bgydF4y2Ba
Embedding-basedgydF4y2Ba	完整的gydF4y2Ba	是的gydF4y2Ba	5gydF4y2Ba	海关gydF4y2Ba^cgydF4y2Ba		427gydF4y2Ba		970gydF4y2Ba		0.740gydF4y2Ba		0.694gydF4y2Ba	0.717gydF4y2Ba^dgydF4y2Ba
	中风gydF4y2Ba	是的gydF4y2Ba	5gydF4y2Ba	是gydF4y2Ba		6530gydF4y2Ba		305gydF4y2Ba		0.928gydF4y2Ba		0.955gydF4y2Ba	0.942gydF4y2Ba
	中风gydF4y2Ba	是的gydF4y2Ba	5gydF4y2Ba	海关gydF4y2Ba		506gydF4y2Ba		891gydF4y2Ba		0.745gydF4y2Ba		0.638gydF4y2Ba	0.687gydF4y2Ba
	完整的gydF4y2Ba	没有gydF4y2Ba	5gydF4y2Ba	是gydF4y2Ba		6587gydF4y2Ba		248gydF4y2Ba		0.855gydF4y2Ba		0.964gydF4y2Ba	0.906gydF4y2Ba
	完整的gydF4y2Ba	没有gydF4y2Ba	5gydF4y2Ba	海关gydF4y2Ba		1117gydF4y2Ba		280gydF4y2Ba		0.530gydF4y2Ba		0.200gydF4y2Ba	0.291gydF4y2Ba
	中风gydF4y2Ba	没有gydF4y2Ba	5gydF4y2Ba	是gydF4y2Ba		6472gydF4y2Ba		363gydF4y2Ba		0.903gydF4y2Ba		0.947gydF4y2Ba	0.924gydF4y2Ba
	中风gydF4y2Ba	没有gydF4y2Ba	5gydF4y2Ba	海关gydF4y2Ba		699gydF4y2Ba		698gydF4y2Ba		0.658gydF4y2Ba		0.500gydF4y2Ba	0.568gydF4y2Ba
	完整的gydF4y2Ba	没有gydF4y2Ba	255gydF4y2Ba	是gydF4y2Ba		6305gydF4y2Ba		530gydF4y2Ba		0.927gydF4y2Ba		0.922gydF4y2Ba	0.925gydF4y2Ba
	完整的gydF4y2Ba	没有gydF4y2Ba	255gydF4y2Ba	海关gydF4y2Ba		493gydF4y2Ba		904gydF4y2Ba		0.630gydF4y2Ba		0.647gydF4y2Ba	0.639gydF4y2Ba
	中风gydF4y2Ba	没有gydF4y2Ba	224gydF4y2Ba	是gydF4y2Ba		6378gydF4y2Ba		457gydF4y2Ba		0.932gydF4y2Ba		0.933gydF4y2Ba	0.932gydF4y2Ba
	中风gydF4y2Ba	没有gydF4y2Ba	224gydF4y2Ba	海关gydF4y2Ba		467gydF4y2Ba		930gydF4y2Ba		0.671gydF4y2Ba		0.666gydF4y2Ba	0.668gydF4y2Ba
Multi-hotgydF4y2Ba^egydF4y2Ba	N/AgydF4y2Ba^fgydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba	是gydF4y2Ba		5874gydF4y2Ba		961gydF4y2Ba		0.938gydF4y2Ba		0.859gydF4y2Ba	0.897gydF4y2Ba
	N/AgydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba	海关gydF4y2Ba		388gydF4y2Ba		1009gydF4y2Ba		0.512gydF4y2Ba		0.722gydF4y2Ba	0.599gydF4y2Ba
混合物gydF4y2Ba^ggydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba	是gydF4y2Ba		5945gydF4y2Ba		890gydF4y2Ba		0.957gydF4y2Ba		0.870gydF4y2Ba	0.911gydF4y2Ba
	N/AgydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba	海关gydF4y2Ba		269gydF4y2Ba		1128gydF4y2Ba		0.559gydF4y2Ba		0.807gydF4y2Ba	0.661gydF4y2Ba

^{一个gydF4y2Ba}IS:缺血性中风。gydF4y2Ba

^bgydF4y2Ba集群1的最高F1分数。gydF4y2Ba

^cgydF4y2Ba出血性中风。gydF4y2Ba

^dgydF4y2Ba集群2的最高F1得分。gydF4y2Ba

^egydF4y2Ba多热:一热码组合的表示方法。gydF4y2Ba

^fgydF4y2Ba-不适用。gydF4y2Ba

^ggydF4y2Ba混合:离散特征的多热码和连续年龄值和实验室试验的实数组合的表示方法。gydF4y2Ba

主要研究结果gydF4y2Ba

结构化医疗数据的表示对于医疗领域的数据挖掘任务至关重要。gydF4y2Ba3.gydF4y2Ba，gydF4y2Ba5gydF4y2Ba，gydF4y2Ba6gydF4y2Ba，gydF4y2Ba14gydF4y2Ba]。单热码方案是一种简单而广泛使用的表示形式。然而，由于它的高维数和稀疏性，可能不适合复杂多样的EMR数据。对大量单热编码数据的分析可能需要更大的计算能力，因为它们不仅具有高维和稀疏的性质，而且数据的潜在相关性也不明确[gydF4y2Ba26gydF4y2Ba]。因此，许多研究都集中在有效和高效的数据表示上。在这项研究中，我们采用了一种源自NLP技术的基于嵌入的方法来表示结构化的患者数据。所提出的表示方法对医学概念之间的关联进行了深入而直观的洞察，并极大地提高了基于相似性的数据挖掘任务的性能。gydF4y2Ba

分布式嵌入表示具有维数低、能够揭示被表示对象之间的潜在关系等优点。gydF4y2Ba19gydF4y2Ba]。因此，基于嵌入或基于深度学习的表示已广泛应用于各种应用，特别是在临床NLP领域，用于表示非结构化医学文本，包括生物医学出版物[gydF4y2Ba27gydF4y2Ba]、临床记录[gydF4y2Ba28gydF4y2Ba]和放射学报告[gydF4y2Ba29gydF4y2Ba-gydF4y2Ba31gydF4y2Ba]。利用这些表征，研究人员可以以较少的专家努力进行特征工程，将原始文本转换为具有临床意义的低维密集向量，并进一步识别患者的隐含模式。受非结构化医疗数据表示学习的启发，研究人员将这些表示方法用于结构化医疗数据，包括诊断码、程序码、药物码等医疗代码[gydF4y2Ba5gydF4y2Ba，gydF4y2Ba32gydF4y2Ba]、化验[gydF4y2Ba12gydF4y2Ba]，以及与时间相关的数据，这些数据为患者提供了信息[gydF4y2Ba1gydF4y2Ba，gydF4y2Ba12gydF4y2Ba，gydF4y2Ba33gydF4y2Ba，gydF4y2Ba34gydF4y2Ba]。gydF4y2Ba

在这项研究中，我们借鉴了这种最初面向文本的技术的思想，并将其应用于具有不同患者特征的sEMR数据。我们使用Skip-gram算法将每个医学概念嵌入到一个低维实数向量中。可视化和定量分析均表明，基于嵌入的特征表示对医学概念之间的关联和联系有较清晰的认识，与医学知识和临床实践相一致。另一方面，用嵌入向量表示的患者聚类解比用多热向量表示的聚类解具有更好的聚类性。基于嵌入的表示具有降维、便于数值计算和关联挖掘等优点。gydF4y2Ba

信息表示通常来自不同的模式和医疗数据来源，如横断面和纵向数据，以及定量指标和叙述性说明。在本研究中，人口统计学特征、诊断、体检和程序、实验室检查、药物治疗、住院和出院都被纳入特征表征学习。实验室检查的一个特殊和不可避免的特点是，患者可能根据诊断和治疗的需要进行不同的实验室检查项目。这必然导致实验室测试的大量缺失值。连续值离散化与Skip-gram算法的结合解决了这一问题，使所有可用的特征得到充分利用。聚类分析表明，用嵌入载体表示的患者比用原始形式表示的患者更有可能聚在一起，在原始形式中，由于缺失值，大约四分之三的实验室检测被取消。这可能部分归因于所有特征的包含和连续特征的离散化。gydF4y2Ba

当使用Skip-gram算法对sEMR数据进行表示学习时，进行了一些自适应更改。首先，我们在构建训练语料库时采用了洗牌机制，以减少概念顺序对训练上下文覆盖的影响。Glicksberg等[gydF4y2Ba14gydF4y2Ba在一段时间内随机打乱了医学概念。我们进一步扩展了洗牌概念的思想。医学概念在患者记录中随机重新排列了20次。对每个医学概念用不同的洗牌语料库训练得到的20个嵌入向量进行平均，作为最终的嵌入向量。几个评估任务的结果表明，基于洗牌的表征在特征和患者水平上都比不基于洗牌的表征有更令人满意的表现。gydF4y2Ba

在Skip-gram算法中，训练上下文的范围也是影响算法性能的关键因素。出于与使用洗牌方法相同的原因，我们将窗口大小设置为最大值，以使训练上下文覆盖最多的相邻概念。然而，在聚类任务中没有明显的性能改进。这一发现与其他研究结果一致[gydF4y2Ba33gydF4y2Ba，gydF4y2Ba35gydF4y2Ba研究发现，随着窗口大小的增加，表现会变得更糟。研究表明，广泛的训练环境可能会给训练带来冗余信息甚至噪声。此外，Skip-gram算法中使用的语料库也与本研究中聚类任务的性能提升有关。使用包含所有病历的语料库训练表征的脑卒中患者与仅使用包含病历的语料库训练表征的脑卒中患者相比，具有更高的聚集性和更低的离散性。这一发现与王燕山等人的研究结果相似[gydF4y2Ba27gydF4y2Ba结果表明，基于嵌入的公共领域语料库表示在生物医学信息检索中比基于生物医学领域语料库表示的检索结果更令人满意。gydF4y2Ba

限制gydF4y2Ba

我们的研究有一些局限性。首先，我们没有使用对评估患者病程和预后至关重要的以时间为导向的患者记录。医疗事件的历史可能影响未来的医疗事件;这些医学序列数据对临床诊断和治疗至关重要。丰富的面向时间的数据，包括住院记录中的时间序列特征和多个住院记录之间的时间性，被一些针对序列数据的算法用于学习患者表征，如循环神经网络[gydF4y2Ba12gydF4y2Ba]、时效性注意法[gydF4y2Ba33gydF4y2Ba]，深度[gydF4y2Ba36gydF4y2Ba]和Patient2Vec [gydF4y2Ba37gydF4y2Ba]。这些与时间相关的表征，从纵向角度捕获患者的顺序信息，可用于监督预测任务[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba36gydF4y2Ba，gydF4y2Ba37gydF4y2Ba]，特征层面的无监督类任务疾病聚类分析[gydF4y2Ba33gydF4y2Ba]。相比之下，我们只是将具有不同特征类型的患者横断面数据，关注某一医院的静态特征，通过Skip-gram算法在特征和患者两个层面上进行有效表示。其次，患者表示只是对具有相同权重的特征的嵌入向量的简单平均。这可能与临床特征可能对特定疾病的诊断具有不同重要性的事实不完全一致。最后，我们仅用聚类分析评估了基于嵌入的患者表示的有效性。提出的患者代表需要在各种临床有意义的任务中得到更多的验证。gydF4y2Ba

结论gydF4y2Ba

在本研究中，我们应用嵌入技术从具有不同类型临床特征的sEMR数据中学习患者表征。通过原始Skip-gram算法的自适应变化，基于嵌入的表示可以在某种程度上反映特征和患者之间的潜在关联。在临床上有意义的聚类任务中的性能改善表明所提出的患者代表的有效性和效率。预计基于嵌入的表示将有助于EMR数据的广泛二次使用。gydF4y2Ba

致谢gydF4y2Ba

国家自然科学基金资助项目(81971707和81701792)。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附录1gydF4y2Ba

补充材料。gydF4y2Ba

DOCX文件，351 KBgydF4y2Ba

参考文献gydF4y2Ba

刘建军，刘建军，刘建军，等。基于深度学习的电子病历分析研究进展。生物医学学报，2018;22(5):1589-1604。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
黄忠，董伟，段宏，刘杰。基于电子病历的急性冠脉综合征临床风险预测的深度学习方法。生物医学工程学报，2018,31(5):956-968。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
王丽丽，佟丽，Davis D, Arnold T, Esposito T.基于电子健康记录的无监督深度学习预测模型的应用。中国医学杂志2020年2月26日;20(1):37 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
何军，胡勇，张欣，吴丽，Waitman LR，刘敏。基于电子病历的综合医院人群急性肾损伤多视角预测模型。2019年4月2日(1):115-122 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
王铮，朱勇，李东，尹勇，张杰。基于特征重排的深度学习系统预测心力衰竭死亡率。计算方法和程序生物学报2020年2月6日;191:105383。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
崔丽，谢霞，沈铮。电子病历中预测任务引导的医疗编码表征学习。[J]中国生物医学工程学报，2018;33 (4):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
肖晨，马婷，邓亚平，白立民，王峰。基于临床概念深度语境嵌入的再入院预测。科学通报，2018;13(4):e0195024 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
刘建军，刘建军，李建军，等。用于预测ICU再入院和描述高危患者的基准深度学习架构。科学通报2020;1 (1):1111 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
王Y, Y田,田L,李黔Y, j .电子医疗记录系统与基于患者相似的治疗建议。中华医学杂志;2015;39(5):55。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Kruser JM, Benjamin BT, Gordon EJ, Michelson KN, Wunderink RG, Holl JL等。在ICU治疗决策中的患者和家庭参与:电子健康记录的话语分析。中华危重医学杂志，2019;47(6):784-791。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Santoro SL, Bartman T, Cua CL, Lemle S, Skotko BG。唐氏综合症指南中电子健康记录集成的使用儿科学2018;9;142(3):2017-4119 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
阮涛，雷磊，周勇，翟军，张磊，何鹏，等。电子健康记录中临床时间序列预测任务的表示学习。BMC Med Inform Decis ma2019 Dec 17;19(增刊8):259 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Oh W, Steinbach MS, Castro MR, Peterson KA, Kumar V, Caraballo PJ等。评估数据表示对基于ehr的分析任务的影响。中华医学杂志2019年8月21日;26 (4):368 - 368 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李丽丽，陈荣，李丽丽，陈荣。基于词嵌入的疾病队列自动选择。太平洋生物计算学术研讨会2018;23:45 -156。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
宁伟，陈思，梁A，于敏，格瓦A，廖凯，等。基于语义和知识资源的表型特征提取。[J]中国生物医学工程学报(英文版);2009;31 (1):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
GBD 2016神经病学合作伙伴。1990-2016年全球、区域和国家神经系统疾病负担:2016年全球疾病负担研究的系统分析柳叶刀神经杂志2019;18(5):459-480 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Pana TA, Wood AD, Mamas MA, Clark AB, Bettencourt-Silva JH, McLernon DJ，诺福克和诺维奇中风和TIA登记指导委员会合作者。急性缺血性脑卒中后心肌梗死:发病率、死亡率和危险因素。神经科学学报，2019;140(3):219-228。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
陈红，石磊，王宁，韩艳，林艳，戴敏，等。缺血性脑卒中患者住院死亡和血管内治疗的地理差异分析:中国的一项观察性横断面研究BMJ Open 2019 Jun 24;9(6):e029079 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
陈凯，陈建军，陈建军。基于分布式表征的词与短语组合研究[j]。2013年12月发表于:神经信息处理系统，26;2013;内华达州的太浩湖。gydF4y2Ba
使用t-SNE可视化数据。机器学习研究，2008;9(86):2579-2605。gydF4y2Ba
医疗保健研究和质量机构。ICD-9CM的HCUP临床分类软件(CCS)。URL:gydF4y2Bahttps://www.hcup-us.ahrq.gov/toolssoftware/ccs/ccs.jspgydF4y2Ba[2020-12-12]访问gydF4y2Ba
Hier DB, Kopel J, Brint SU, Wunsch DC, Olbricht GR, Azizi S，等。神经病学患者标准和语义增强距离指标的评价。中国医学杂志2020年8月26日;20(1):203 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
邱波，曹鑫。基于空间反演和Hopkins统计的高维空间聚类边界检测。信息科学与技术学报(英文版);16(4):551 - 557。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
王晓明，王晓明，王晓明，等。相对聚类有效性标准:比较概述。统计分析数据挖掘2010年6月30日;3(4):209-235。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
古贺M，井口Y, Ohara T，田原Y，福田T，野口T，等。急性缺血性脑卒中作为斯坦福a型急性主动脉夹层的并发症:综述和紧急诊断的临床建议。中华胸心外科杂志，2018;36(8):439-445。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军，等。基于多聚类的数据聚类方法研究。[j] .中国生物医学工程学报，2014,33(4):771 - 771。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
王勇，刘松，Afzal N, Rastegar-Mojarad M，王磊，沈飞，等。生物医学自然语言处理中的词嵌入比较。[J]中国生物医学杂志2018年9月11日［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
www, Wagholikar KB, McCray AT, Szolovits P, Chueh HC。使用基于机器学习的自然语言处理方法对临床记录进行医学子域分类。中国医学杂志2017年12月1日;17(1):155-155 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
刘辉，张震，徐勇，王宁，黄勇，杨震，等。利用基于BERT(双向编码器表示)的深度学习方法在中文放射学报告中提取证据:计算机辅助肝癌诊断框架的开发。[J] .中国医学信息学报，2009;23(1):889 - 889 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Pons E, Braun LMM, Hunink MGM, Kors JA。放射学中的自然语言处理:系统综述。中华放射学杂志;2016;29(2):329-343。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
刘辉，徐勇，张志，王宁，黄勇，胡勇，等。用于肝癌诊断的中文自由文本放射学报告自然语言处理管道。IEEE Access 2020;8:159110-159119。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
蔡勇，赵燕燕，宋涛。医学概念的低维表征学习。[j]中国科学:自然科学进展，2016;26 (1):61 - 61 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
蔡鑫，高军，英坚坚，黄BC，张勇，袁鑫。基于时间感知的医疗概念嵌入。2018年7月，发表于:第27届国际人工智能联合会议;2018;斯德哥尔摩,瑞典。gydF4y2Ba
范涛，陈涛，冯涛。基于深度学习的医疗记录预测方法。[J]中国生物医学工程学报，2017;39 (5):558 - 561 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
林伟，蔡维科夫，林连杰。不同语境下的词汇表征:不同注意力下的词汇表征。2015年9月发表于2015年自然语言处理经验方法会议;2015;葡萄牙里斯本。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
阮鹏，陈涛，张建军，张建军。基于卷积神经网络的医疗记录分析。生物医学学报，2017;21(1):22-30。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
张杰，kokowsari K, Harrison JH, Lobo JM, Barnes LE。Patient2Vec:纵向电子健康记录的个性化可解释深度表示。IEEE Access 2018;6:65333-65346。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba

‎gydF4y2Ba

DBI:gydF4y2BaDavies-Bouldin指数gydF4y2Ba

EMR:gydF4y2Ba电子病历gydF4y2Ba

海关:gydF4y2Ba出血性中风gydF4y2Ba

诊断结果:gydF4y2Ba国际疾病分类，第十版gydF4y2Ba

ICD-9-CM:gydF4y2Ba《国际疾病分类》第九版，临床修订gydF4y2Ba

是:gydF4y2Ba缺血性中风gydF4y2Ba

洛杉矶:gydF4y2Ba停留时间gydF4y2Ba

NLP:gydF4y2Ba自然语言处理gydF4y2Ba

OSMCA:gydF4y2Ba大脑中动脉闭塞狭窄gydF4y2Ba

长官:gydF4y2Ba蛛网膜下腔出血gydF4y2Ba

sEMR:gydF4y2Ba结构化电子病历gydF4y2Ba

如果:gydF4y2Ba轮廓指数gydF4y2Ba

t-SNE:gydF4y2Bat分布随机邻居嵌入gydF4y2Ba

C·洛维斯编辑;提交06.05.20;J Lei, S Barbieri同行评议;对作者26.10.20的评论;修订版本收到18.12.20;接受05.06.21;发表23.07.21gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

基于嵌入技术的结构化电子病历患者表示:开发与验证研究gydF4y2Ba