医疗互联网研究杂志-基于从电子病历中学习的嵌入表示提高急性心肌梗死住院患者结局预测的性能:开发和验证研究gydF4y2Ba

原始论文gydF4y2Ba

Yanqun黄gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba,废话gydF4y2Ba ；gydF4y2Ba
Zhimin郑gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba,废话gydF4y2Ba ；gydF4y2Ba
Moxuan马gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba女士gydF4y2Ba ；gydF4y2Ba
欣欣gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba女士gydF4y2Ba ；gydF4y2Ba
宏磊刘gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
小路范gydF4y2Ba^3.gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
局域网魏gydF4y2Ba^3.gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
回族陈gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba首都医科大学生物医学工程学院，中国北京gydF4y2Ba

^2gydF4y2Ba首都医科大学生物力学基础研究与临床应用北京市重点实验室，北京gydF4y2Ba

^3.gydF4y2Ba中国北京首都医科大学宣武医院信息中心gydF4y2Ba

通讯作者:gydF4y2Ba

陈辉博士gydF4y2Ba

生物医学工程学院gydF4y2Ba

首都医科大学gydF4y2Ba

丰台区友安门西头条10号gydF4y2Ba

北京,100069gydF4y2Ba

中国gydF4y2Ba

电话:86 01083911545gydF4y2Ba

电子邮件:gydF4y2Bachenhui@ccmu.edu.cngydF4y2Ba

背景:gydF4y2Ba电子病历的广泛二次使用促进了医疗质量的提高。表征学习能够自动从EMR数据中提取隐藏信息，已越来越受到人们的关注。gydF4y2Ba

摘要目的:gydF4y2Ba我们旨在提出一种具有更多特征关联和任务特异性特征重要性的患者表示，以提高急性心肌梗死(AMI)住院患者的预后预测性能。gydF4y2Ba

方法:gydF4y2Ba医学概念，包括患者的年龄、性别、疾病诊断、实验室测试、结构化放射特征、程序和药物，首先使用改进的skip-gram算法嵌入到实值向量中，其中上下文窗口中的概念是由关联规则置信度测量的特征关联强度选择的。然后，将每个患者表示为任务特定特征重要性加权的特征嵌入之和，用于从全局和局部角度进行预测模型预测。最后，我们将所提出的患者表示分别应用于3010名AMI住院患者和1671名AMI住院患者的死亡风险预测，并将其与几种参考表示方法在受试者工作特征曲线下面积(AUROC)、精度-回忆曲线下面积(AUPRC)和f1评分方面进行比较。gydF4y2Ba

结果:gydF4y2Ba与参考方法相比，所提出的基于嵌入式的表示在两个数据集上表现出一致的卓越预测性能，公共和私有数据集的平均auroc分别为0.878和0.973,AUPRCs分别为0.220和0.505,F1-scores分别为0.376和0.674，而参考方法中最大的auroc、AUPRCs和F1-scores分别为0.847和0.939,0.196和0.283，公共和私有数据集的auroc和AUPRCs分别为0.344和0.361。整合在患者表现中的特征重要性反映了在预测任务和临床实践中也至关重要的特征。gydF4y2Ba

结论:gydF4y2Ba特征关联和特征重要性的引入促进了有效的患者表示，并有助于预测性能的改进和模型解释。gydF4y2Ba

中国医学杂志，2018;24(8):e37486gydF4y2Ba

doi: 10.2196/37486gydF4y2Ba

关键字gydF4y2Ba

表示学习gydF4y2Ba；gydF4y2Ba skip-gramgydF4y2Ba；gydF4y2Ba 特征关联强度gydF4y2Ba；gydF4y2Ba 功能的重要性gydF4y2Ba；gydF4y2Ba 死亡风险预测gydF4y2Ba；gydF4y2Ba 急性心肌梗死gydF4y2Ba

电子病历(EMRs)包含各种不同的信息，如人口统计数据、疾病诊断、实验室检测、放射学结果、检查和程序以及药物。EMR数据不仅可以反映患者的健康状况和记录治疗轨迹，还可以帮助医生做出临床决策[gydF4y2Ba1gydF4y2Ba-gydF4y2Ba6gydF4y2Ba]和提高诊疗效率[gydF4y2Ba1gydF4y2Ba,gydF4y2Ba7gydF4y2Ba,gydF4y2Ba8gydF4y2Ba］．EMR数据二次使用的最普遍和最实际的任务之一是建立模型来预测疾病状况[gydF4y2Ba8gydF4y2Ba-gydF4y2Ba10gydF4y2Ba]和治疗结果[gydF4y2Ba11gydF4y2Ba-gydF4y2Ba17gydF4y2Ba]，使用机器学习算法。gydF4y2Ba

然而，EMR数据的高维性、稀疏性和异质性[gydF4y2Ba12gydF4y2Ba,gydF4y2Ba18gydF4y2Ba]为直接将原始数据输入基于机器学习的预测模型带来了许多障碍。一些手动和数据驱动的特征工程方法[gydF4y2Ba15gydF4y2Ba,gydF4y2Ba19gydF4y2Ba]，虽然费时费力，但用于为预测任务选择重要特征或提取有用信息。此外，预测模型的性能在很大程度上依赖于数据的表示。据报道，有效的表示方法可以使下游建模更简单、更灵活，并大大提高预测性能[gydF4y2Ba18gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba］．通过将原始特征转换为紧凑向量，表示学习可以在构建预测模型时更容易自动提取有用信息[gydF4y2Ba16gydF4y2Ba,gydF4y2Ba21gydF4y2Ba,gydF4y2Ba22gydF4y2Ba］．EMR数据的一种广泛使用的表示方法是跳图算法[gydF4y2Ba23gydF4y2Ba]，这是一种分布式嵌入方法，将患者记录视为句子，将医学概念视为单词。跳过图算法中一个不可避免的问题是，与句子中的单词相反，患者记录中的医学概念没有自然顺序，这使得学习具有潜在关联的概念的有意义的表示变得困难。这个问题的一个解决方案是在一个记录中随机洗牌概念，以学习概念嵌入[gydF4y2Ba12gydF4y2Ba,gydF4y2Ba24gydF4y2Ba-gydF4y2Ba26gydF4y2Ba］．它可以在一定程度上减少医学概念的无序属性对算法的影响，但仍未考虑这些概念之间的关联。gydF4y2Ba

急性心肌梗死(AMI)是一种急性缺血性心脏病，是导致死亡的第二大原因。每6例死亡中就有1例死于缺血性心脏病，其中AMI占死亡人数的大多数[gydF4y2Ba27gydF4y2Ba,gydF4y2Ba28gydF4y2Ba］．AMI患者死亡风险预测在临床工作中起着至关重要的作用，有助于医生识别潜在的临床因素，及时预警患者不良健康状况，及早采取干预措施，减少相关医疗费用的负担。因此，研究人员[gydF4y2Ba19gydF4y2Ba,gydF4y2Ba29gydF4y2Ba-gydF4y2Ba31gydF4y2Ba]专注于建立用于AMI患者结局预测的机器学习模型，其中大多数使用特定的临床特征，如实验室检测结果(如白蛋白)、合并症(如糖尿病)和人口统计学数据(如性别)。gydF4y2Ba

在本研究中，我们的目标是从EMR数据中提取的各种结构化特征表示为定长嵌入向量，然后用于提高AMI患者死亡风险预测模型的性能。具体来说，我们将关联强度引入到skip-gram算法中，以学习特征的更多信息表示。我们还介绍了Shapley加法解释(SHAP) [gydF4y2Ba32gydF4y2Ba技术，以促进患者水平的表示，并提高预测模型的可解释性。本文概述了我们所提出的表示学习框架及其应用gydF4y2Ba图1gydF4y2Ba．gydF4y2Ba

图1。患者死亡风险预测的拟表示学习方法概述。首先，使用自适应上下文窗口的跳过图算法学习特征表示。然后，基于特征重要性加权的特征表征构建患者表征。最后，将所提出的患者表征方法应用于急性心肌梗死住院患者的公共数据集和私人数据集死亡风险预测，并与参考方法进行比较。gydF4y2Ba

基于skip - gram的患者表示gydF4y2Ba

表征在概念、特征和患者三个层次上进行分层学习。在概念层面，我们采用了改进的skip-gram算法[gydF4y2Ba23gydF4y2Ba]来表示一个概念为嵌入向量。在自然语言处理领域，skip-gram的基本思想是最大化目标词和上下文词在预定义上下文窗口中出现的概率，使出现在同一个上下文窗口中的词在嵌入空间中更接近。与句子中有自然顺序的词语不同，医疗概念在某一住院患者记录中出现了无序现象。这使得很难确定包含与目标概念相关的概念的上下文窗口，特别是当记录中的概念数量远远大于上下文窗口的大小时。因此，对于记录中的概念，我们使用其与同一记录中的候选概念的关联强度来识别相关概念。关联强度定义为以一个候选概念作为唯一前因(或结果)的关联规则的置信度(公式1)。gydF4y2Ba

置信度(C1, C2) = |C1∩C2| / |C1|gydF4y2Ba(1)gydF4y2Ba

其中C1和C2分别是关联规则C1→C2的前项和后项概念，|C1|和|C1∩C2|分别是包含C1和同时包含C1和C2的患者记录的数量。置信度越大，两个概念之间的联系就越强。将置信度最高的前N个关联规则中的前因(或结果)概念纳入目标概念的上下文窗口。我们称之为上下文概念的选择方案gydF4y2Baantecedent-basedgydF4y2Ba(或gydF4y2Baconsequent-basedgydF4y2Ba)嵌入的。gydF4y2Ba图2gydF4y2Ba提供基于结果的上下文概念选择方案的示例。gydF4y2Ba

图2。使用关联强度的跳跃式图算法上下文概念选择的示例。所有记录由10个概念(C1, C2， ......和C10)组成。在置信度矩阵中，元素Cij为以Cj为前项，Ci为后项的关联规则置信度。患者1有6个概念(C1、C3、C6、C7、C8和C10)，从5个候选概念中选取C1的4个概念上下文窗口中的概念，其置信度分别为0.66(前项，C10)、0.62 (C3)、0.55 (C6)、0.53 (C8)和0.46 (C7)。因此，选择C10、C3、C6、C8构建C1的上下文窗口。gydF4y2Ba

此外，为了降低大量概念的高维性和稀疏性，同时尽可能保留临床信息，我们根据国际疾病分类第十版(ICD-10)代码和国际疾病分类第九版(ICD-9)代码，在临床专家的帮助下，将疾病诊断和程序概念聚合为几个有临床意义的特征组。如将1型糖尿病和2型糖尿病的疾病诊断归为糖尿病特征组。患者记录中来自同一特征组的所有概念嵌入向量的平均值被视为患者在特征级别的表示。gydF4y2Ba

患者层面的表征是特征层面表征的加权和。特征权重是在预测任务的指导下获得的，表明了患者表现中涉及的每个特征的重要性。在本研究中，我们使用SHAP值作为特征权重。SHAP框架是一种基于博弈论思想的机器学习解释技术。它用一个不同但简单的模型来近似一个训练好的预测模型，该模型可以很容易地以SHAP值的形式计算预测模型中每个特征的贡献，并执行添加性特征归因来解释特征的组合[gydF4y2Ba32gydF4y2Ba］．SHAP值为正或负表示对预测的影响为正或负。然后，一个特征的重要性被计算为所有样本中其绝对SHAP值的平均值。gydF4y2Ba

实验与评价gydF4y2Ba

数据集与数据预处理gydF4y2Ba

在这项研究中，我们使用了一个公共数据集，即免费访问的重症监护数据库重症监护III医疗信息集市(mimi -III数据集[gydF4y2Ba33gydF4y2Ba])，以及用于实验的私有数据集。gydF4y2Ba

mimi - iii数据集收集于2001年6月至2012年10月之间，涉及马萨诸塞州波士顿贝斯以色列女执事医疗中心重症监护室收治的46,520名患者。它包括患者的健康信息，如人口统计数据、生命体征、实验室检测结果、药物、程序、诊断代码和临床记录。信息丰富的MIMIC-III数据集被广泛应用于一些医疗机器学习建模和算法评估，为研究人员建立模型和评估算法提供了强有力的数据支持[gydF4y2Ba14gydF4y2Ba,gydF4y2Ba18gydF4y2Ba］．gydF4y2Ba

私人数据集来源于2014年1月至2016年12月中国北京首都医科大学宣武医院三级医院EMR系统。患者特征包括入院和出院信息、人口统计数据、疾病诊断、实验室检查、检查和程序、药物、胸部x线或彩色超声检查的放射学报告。gydF4y2Ba

我们分别从公共和私人数据集中提取了3010和1671名AMI患者的记录。通过ICD-9代码410.01至410.91或ICD-10代码I21和I22确认AMI诊断。来自公共和私人数据集的患者中，分别有254例(8.1%)和103例(6.2%)在医院死亡。gydF4y2Ba

我们保留了患者的首次住院数据来评估所提出的方法。两组数据均保留了人口统计学数据(年龄和性别)和以下ami相关特征:至少95%患者进行的ami相关实验室检查项目，从放射报告中提取的ami相关放射特征[gydF4y2Ba34gydF4y2Ba]， 7种常用处方药，以及所有记录在案的疾病诊断和程序。对于多次进行的实验室检查，只保留第一次检查的结果(通常在入院时)，这可以反映病人的健康状况和病情严重程度。gydF4y2Ba

自自然语言处理领域最初提出以来，跳过图算法被用于训练离散单词或符号的嵌入。因此，要使用跳跃式图算法对结构化数据进行嵌入表示，所有患者特征都应该是分类的，其中每个离散值都被视为一个概念。例如，男性和女性是性别的两个概念。与原始分类特征(如性别、疾病诊断、程序和药物)可能保持不变不同，年龄和实验室检测结果等连续变量必须离散成两个或多个概念。年龄离散为>60岁和≤60岁2个概念。每个实验室检测结果参照临床标准离散为2个概念(正常和异常)。总共识别出3326和1073个医学概念，并进一步在公共和私人数据集中分别聚合到104和108个特征组(gydF4y2Ba表1gydF4y2Ba)．私有数据集和公共数据集的所有特征组都列在gydF4y2Ba多媒体附件1gydF4y2Ba而且gydF4y2Ba多媒体附件2gydF4y2Ba,分别。gydF4y2Ba

表1。公共数据集和私有数据集的概念和特征组。gydF4y2Ba

功能分类gydF4y2Ba	公共数据集gydF4y2Ba			私有数据集gydF4y2Ba			概念的例子gydF4y2Ba
	特征组(n=104)， ngydF4y2Ba	概念(n=3326)， ngydF4y2Ba	特征组(n=108)， ngydF4y2Ba		概念(n=1073)， ngydF4y2Ba
年龄gydF4y2Ba	1gydF4y2Ba	2gydF4y2Ba	1gydF4y2Ba		2gydF4y2Ba	>60年和≤60年gydF4y2Ba
性别gydF4y2Ba	1gydF4y2Ba	2gydF4y2Ba	1gydF4y2Ba		2gydF4y2Ba	男性和女性gydF4y2Ba
实验室测试gydF4y2Ba	19gydF4y2Ba	38gydF4y2Ba	40gydF4y2Ba		80gydF4y2Ba	血清甘油三酯异常，血清肌酐正常gydF4y2Ba
辐射特性gydF4y2Ba	34gydF4y2Ba	34gydF4y2Ba	36gydF4y2Ba		36gydF4y2Ba	心脏图像增大，肋膈角明显gydF4y2Ba
疾病的诊断gydF4y2Ba	24gydF4y2Ba	2600gydF4y2Ba	15gydF4y2Ba		739gydF4y2Ba	高血压和脑干梗塞gydF4y2Ba
程序gydF4y2Ba	18gydF4y2Ba	643gydF4y2Ba	8gydF4y2Ba		207gydF4y2Ba	冠状动脉支架和心包穿刺术gydF4y2Ba
药物gydF4y2Ba	7gydF4y2Ba	7gydF4y2Ba	7gydF4y2Ba		7gydF4y2Ba	血管紧张素转换酶抑制剂和肝素gydF4y2Ba

表现评估gydF4y2Ba

为了评估所提出的表示的有效性和优势，我们使用了另外两种简单的参考表示方法，即带有学习的3层自编码器和不带学习的特征选择方法。gydF4y2Ba表2gydF4y2Ba描述所提议的和引用的表示方法的细节。gydF4y2Ba

首先在概念层面对所提出的表示方法进行了评估。采用聚类分析将实验室测试概念聚类为2个聚类进行定量评价。经调整的兰德指数[gydF4y2Ba35gydF4y2Ba](范围从−1到1)用于评估集群解决方案。ARI值越大，对不同真实标签(正常和异常)类别的区分能力越强。我们还应用t分布随机邻域算法将实验室测试概念的嵌入向量投影到二维空间中，以直观地观察嵌入的分布。gydF4y2Ba

提出的表示方法，然后评估在患者水平与下游预测任务使用逻辑回归模型。预测结果为AMI患者住院期间的住院死亡。用于预测的输入是来自中列出的整个特征集的患者表示gydF4y2Ba表1gydF4y2Ba．我们还从整个特征集中提取了一个无治疗特征子集，将药物和程序排除在外，试图阐明所提议的患者表征的表现与表征中涉及的特征相关，并且与治疗相关的特征在预测患者结局方面发挥着至关重要的作用，即使它们已被表示为嵌入向量。gydF4y2Ba

表2。描述所提出的和引用的表示方法。gydF4y2Ba

表示方法gydF4y2Ba	描述gydF4y2Ba	代表性的例子gydF4y2Ba
混合物gydF4y2Ba	原始离散特征的离散化代码和连续特征的原始值的混合。实验室试验中的缺失值用相应实验室试验的平均值进行插值。gydF4y2Ba	(0,1,1,0,0,0,0,1,12,8.5,3,8)对于有11个特征的患者gydF4y2Ba
离散化gydF4y2Ba	0-1向量，其中数字1表示具有特定疾病、程序、放射学特征和药物的患者，其他为0。年龄1为>60岁，0为≤60岁，性别1为男性，0为女性，实验室检测项目1为异常，0为正常。实验室测试的缺失值由相应的模式内插。gydF4y2Ba	(0,1,1,0,0,0,0,1,1,1,1,1)对于具有11个离散化特征的患者gydF4y2Ba
DIS_FSgydF4y2Ba^{一个gydF4y2Ba}	所选择的具有离散化表征的特征在标记为“死亡”和未标记为“死亡”的患者之间具有统计学差异。gydF4y2Ba	(0,0,1,0,0,1,0,1,0,1)对于具有8个选定特征的患者gydF4y2Ba
DIS_AEgydF4y2Ba^bgydF4y2Ba	以离散化向量作为输入和输出的三层自编码器的隐层向量。隐藏层的维数设置为64。gydF4y2Ba	(0.7,1.9,0.5，−1，−3.1,2.4)对于具有6维向量的患者gydF4y2Ba
RAN_EM_AVEgydF4y2Ba^cgydF4y2Ba	从跳过图算法中学习到的特征嵌入向量的平均值，使用随机选择方法确定上下文窗口。gydF4y2Ba	(1.6，−0.5,1.1,0.1，−1.3,0.6)对于6维嵌入向量的患者gydF4y2Ba
RAN_EM_WGTgydF4y2Ba^dgydF4y2Ba	从跳过图算法学习到的特征嵌入向量的加权和，使用随机选择方法确定上下文窗口。gydF4y2Ba	(1.2， - 0.9,1.3,0.4， - 1.9,1.0)对于6维嵌入向量的患者gydF4y2Ba
ANT_EM_AVEgydF4y2Ba^egydF4y2Ba	以目标概念的置信度为前提，从跳过图算法中学习到的特征嵌入向量的平均值。gydF4y2Ba	(0.9， - 0.6,1.2,1.4， - 1.9,0.6)对于6维嵌入向量的患者gydF4y2Ba
ANT_EM_WGTgydF4y2Ba^fgydF4y2Ba	以目标概念的置信度为前提，从跳过图算法中学习到的特征嵌入向量的加权和。gydF4y2Ba	(1.2，−1.5,1.1,0.1，−0.6,0.6)对于6维嵌入向量的患者gydF4y2Ba
CON_EM_AVEgydF4y2Ba^ggydF4y2Ba	利用目标概念作为结果的置信度，从跳过图算法中学习到的特征嵌入向量的平均值。gydF4y2Ba	(1.6，−0.8,2.1,1.6，−1.4,1.5)对于具有6维嵌入向量的患者gydF4y2Ba
CON_EM_WGTgydF4y2Ba^hgydF4y2Ba	使用目标概念作为结果的置信度，从跳过图算法中学习到的特征嵌入向量的加权和。gydF4y2Ba	(1.1，−0.4，−0.7,1.6，−0.3,0.9)对于具有6维嵌入向量的患者gydF4y2Ba

^{一个gydF4y2Ba}DIS_FS:带有特征选择的离散化表示。gydF4y2Ba

^bgydF4y2BaDIS_AE:基于自编码器表示的隐藏向量。gydF4y2Ba

^cgydF4y2BaRAN_EM_AVE:基于随机选择的嵌入表示的平均值。gydF4y2Ba

^dgydF4y2BaRAN_EM_WGT:基于随机选择的嵌入表示的加权和。gydF4y2Ba

^egydF4y2BaANT_EM_AVE:基于前项的嵌入表示的平均值。gydF4y2Ba

^fgydF4y2BaANT_EM_WGT:基于前项的嵌入表示的加权和。gydF4y2Ba

^ggydF4y2BaCON_EM_AVE:基于结果的嵌入表示的平均值。gydF4y2Ba

^hgydF4y2BaCON_EM_WGT:基于结果的嵌入表示的加权和。gydF4y2Ba

我们将样本按7:3的比例随机分成训练数据集和测试数据集。训练样本首先在离散化向量中表示，并用于构建一个预测模型，用于计算所有特征的SHAP值，以进一步对所有研究样本进行患者嵌入表示。将训练样本和测试样本表示为嵌入向量后，分别用于建立和验证基于逻辑回归的预测模型。受试者工作特征曲线下面积(AUROC)、精确召回曲线下面积(AUPRC)和f1评分是主要评价指标。来自混淆矩阵的其他相关性能指标包括精度、召回率和准确性。为了消除跳过图模型初始化和训练/测试数据集分割带来的性能偏差，我们进行了100次对比实验。在每一轮实验中，重复上述过程。报告了每个性能评估指标的95% CI平均值。gydF4y2Ba

在跳过图算法中，上下文窗口的大小和嵌入向量的维数是通过反复试验确定的。我们在公共数据集上进行了一组预测实验，使用窗口大小为5、10、15和20的可能组合，向量维度为50、100、200和300。实验结果(列于gydF4y2Ba多媒体gydF4y2Ba)表明，窗口大小为10，向量维数为300的跳跃图算法具有最高的表示性能。因此，上下文窗口的大小和嵌入向量的维数分别设置为10和300。我们采用负抽样机制(本研究中有20个负样本)来加速概念嵌入训练过程。其他参数如下:学习率，0.001;迭代次数，50;批大小为64。梯度计算方法为Adam。我们在Python 3.7和TensorFlow 2.0中实现了表示学习、SHAP值计算和预测建模。在患者表征的步骤中，我们使用L2正则化惩罚和“lilinear”求解器对logistic回归模型进行求解，正则化强度的倒数设为0.1。gydF4y2Ba

伦理批准gydF4y2Ba

本研究经首都医科大学宣武医院人体研究伦理委员会批准(批准文号:临床科研2020-070)。gydF4y2Ba

概念表征评价gydF4y2Ba

实验室测试概念的嵌入向量在平面空间(gydF4y2Ba图3gydF4y2Ba)．正常和异常实验室测试的概念(gydF4y2Ba图3gydF4y2Ba)当它们被基于结果的嵌入(gydF4y2Ba图3gydF4y2BaA和3D)比基于前项的嵌入(gydF4y2Ba图3gydF4y2BaB和3E)和基于随机选择的嵌入(gydF4y2Ba图3gydF4y2BaC和3F)。在实验室测试的聚类分析中，基于结果的嵌入比基于前因的嵌入(分别为0.112和0.149)和基于随机选择的嵌入(分别为0.043和0.028)获得了更高的ARIs(在公共和私有数据集上分别为0.317和0.520)。结果嵌入的聚类性能最好，表明结果嵌入可能包含更多的特征关联信息。gydF4y2Ba

图3。在跳过图算法中使用上下文概念的不同选择方案的嵌入实验室测试的可视化(使用t分布随机邻居嵌入算法)。红色和绿色的点分别代表异常和正常的实验室检测结果。对于公共数据集，A到C:目标概念的上下文概念由关联规则中的顺次概念(A)或前项概念(B)或随机选择的概念(C)组成。D到F是私有数据集上A到C的对应。gydF4y2Ba

预测性能gydF4y2Ba

表3gydF4y2Ba而且gydF4y2Ba多媒体附件4gydF4y2Ba分别列出在私有和公共数据集上使用各种表示方法的预测性能。所提出的表示方法，基于结果的嵌入表示的加权和(CON_EM_WGT)，显示出最高的预测性能，使用公共数据集的所有特征和私有数据集的全部特征集和免处理特征集的最大auroc分别为0.878,0.973和0.926。当用AUPRC和F1-score来衡量性能时，无论数据集和特征集如何，所提出的表示方法都优于所有其他方法。gydF4y2Ba

与参考表示法相比，两个数据集上大多数基于嵌入的表示法都表现出了性能改进。在包含整个特征集的公共数据集上，6种有嵌入的表示方法的平均AUROC、AUPRC和F1-score均大于4种没有嵌入的参考方法(分别为0.855 vs 0.831、0.203 vs 0.185和0.354 vs 0.328)。此外，在基于skip-gram算法的6种表示中，基于关联强度进行算法改进的表示的性能优于未进行算法改进的表示。gydF4y2Ba

当将特征表示组合成患者表示时，组装方法和涉及的特征确实很重要。基于加权和思想的表示优于基于平均思想的表示，无论是在具有整个特征集的公共数据集上(AUROC, 0.863至0.878 vs 0.834至0.850)还是在具有整个特征集的私有数据集上(0.967至0.973 vs 0.948至0.957)。另一方面，与未处理的特征集相比，在整个特征集的两个数据集上都实现了一致的优越预测性能。gydF4y2Ba多媒体gydF4y2Ba显示患者表示方法在具有和不具有治疗特征集的公共和私有数据集上的平均预测性能。gydF4y2Ba

表3。患者表示方法在私有数据集上的预测性能。gydF4y2Ba

特征集和表示方法gydF4y2Ba				AUROCgydF4y2Ba^{一个gydF4y2Ba}，平均值(95% CI)gydF4y2Ba		AUPRCgydF4y2Ba^bgydF4y2Ba，平均值(95% CI)gydF4y2Ba		f1得分，平均值(95% CI)gydF4y2Ba
整个功能集gydF4y2Ba
	基于嵌入的表示方法gydF4y2Ba
		CON_EM_WGTgydF4y2Ba^cgydF4y2Ba	0.973 (0.951 - -0.995)gydF4y2Ba		0.505 (0.278 - -0.732)gydF4y2Ba		0.674 (0.468 - -0.880)gydF4y2Ba
		CON_EM_AVEgydF4y2Ba^dgydF4y2Ba	0.957 (0.933 - -0.981)gydF4y2Ba		0.312 (0.159 - -0.465)gydF4y2Ba		0.479 (0.301 - -0.657)gydF4y2Ba
		ANT_EM_WGTgydF4y2Ba^egydF4y2Ba	0.972 (0.948 - -0.996)gydF4y2Ba		0.489 (0.258 - -0.720)gydF4y2Ba		0.658 (0.442 - -0.874)gydF4y2Ba
		ANT_EM_AVEgydF4y2Ba^fgydF4y2Ba	0.953 (0.929 - -0.977)gydF4y2Ba		0.310 (0.185 - -0.435)gydF4y2Ba		0.478 (0.329 - -0.627)gydF4y2Ba
		RAN_EM_WGTgydF4y2Ba^ggydF4y2Ba	0.967 (0.942 - -0.992)gydF4y2Ba		0.486 (0.263 - -0.709)gydF4y2Ba		0.660 (0.460 - -0.860)gydF4y2Ba
		RAN_EM_AVEgydF4y2Ba^hgydF4y2Ba	0.948 (0.923 - -0.973)gydF4y2Ba		0.287 (0.167 - -0.407)gydF4y2Ba		0.451 (0.306 - -0.596)gydF4y2Ba
	引用表示方法gydF4y2Ba
		DIS_AEgydF4y2Ba^我gydF4y2Ba	0.884 (0.845 - -0.923)gydF4y2Ba		0.207 (0.144 - -0.270)gydF4y2Ba		0.361 (0.279 - -0.443)gydF4y2Ba
		DIS_FSgydF4y2Ba^jgydF4y2Ba	0.938 (0.907 - -0.969)gydF4y2Ba		0.283 (0.167 - -0.399)gydF4y2Ba		0.452 (0.309 - -0.595)gydF4y2Ba
		离散化gydF4y2Ba	0.939 (0.908 - -0.970)gydF4y2Ba		0.283 (0.165 - -0.401)gydF4y2Ba		0.454 (0.307 - -0.601)gydF4y2Ba
		混合物gydF4y2Ba	0.904 (0.849 - -0.959)gydF4y2Ba		0.251 (0.135 - -0.367)gydF4y2Ba		0.417 (0.264 - -0.570)gydF4y2Ba
免处理功能集gydF4y2Ba
	基于嵌入的表示方法gydF4y2Ba
		CON_EM_WGTgydF4y2Ba	0.926 (0.883 - -0.969)gydF4y2Ba		0.282 (0.139 - -0.425)gydF4y2Ba		0.456 (0.282 - -0.630)gydF4y2Ba
		CON_EM_AVEgydF4y2Ba	0.915 (0.876 - -0.954)gydF4y2Ba		0.248 (0.156 - -0.340)gydF4y2Ba		0.413 (0.297 - -0.529)gydF4y2Ba
		ANT_EM_WGTgydF4y2Ba	0.919 (0.874 - -0.964)gydF4y2Ba		0.278 (0.133 - -0.423)gydF4y2Ba		0.455 (0.275 - -0.635)gydF4y2Ba
		ANT_EM_AVEgydF4y2Ba	0.912 (0.869 - -0.955)gydF4y2Ba		0.256 (0.162 - -0.350)gydF4y2Ba		0.423 (0.307 - -0.539)gydF4y2Ba
		RAN_EM_WGTgydF4y2Ba	0.915 (0.868 - -0.962)gydF4y2Ba		0.248 (0.119 - -0.377)gydF4y2Ba		0.416 (0.238 - -0.594)gydF4y2Ba
		RAN_EM_AVEgydF4y2Ba	0.897 (0.850 - -0.944)gydF4y2Ba		0.225 (0.133 - -0.317)gydF4y2Ba		0.385 (0.265 - -0.505)gydF4y2Ba
	引用表示方法gydF4y2Ba
		DIS_AEgydF4y2Ba	0.884 (0.845 - -0.923)gydF4y2Ba		0.207 (0.144 - -0.270)gydF4y2Ba		0.361 (0.279 - -0.443)gydF4y2Ba
		DIS_FSgydF4y2Ba	0.903 (0.862 - -0.944)gydF4y2Ba		0.214 (0.124 - -0.304)gydF4y2Ba		0.367 (0.236 - -0.498)gydF4y2Ba
		离散化gydF4y2Ba	0.905 (0.862 - -0.948)gydF4y2Ba		0.224 (0.122 - -0.326)gydF4y2Ba		0.381 (0.238 - -0.524)gydF4y2Ba
		混合物gydF4y2Ba	0.867 (0.806 - -0.928)gydF4y2Ba		0.202 (0.116 - -0.288)gydF4y2Ba		0.356 (0.227 - -0.485)gydF4y2Ba

^{一个gydF4y2Ba}AUROC:受试者工作特征曲线下的面积。gydF4y2Ba

^bgydF4y2BaAUPRC:精确召回曲线下的面积。gydF4y2Ba

^cgydF4y2BaCON_EM_WGT:基于结果的嵌入表示的加权和。gydF4y2Ba

^dgydF4y2BaCON_EM_AVE:基于结果的嵌入表示的平均值。gydF4y2Ba

^egydF4y2BaANT_EM_WGT:基于前项的嵌入表示的加权和。gydF4y2Ba

^fgydF4y2BaANT_EM_AVE:基于前项的嵌入表示的平均值。gydF4y2Ba

^ggydF4y2BaRAN_EM_WGT:基于随机选择的嵌入表示的加权和。gydF4y2Ba

^hgydF4y2BaRAN_EM_AVE:基于随机选择的嵌入表示的平均值。gydF4y2Ba

^我gydF4y2BaDIS_AE:带有特征选择的离散化表示。gydF4y2Ba

^jgydF4y2BaDIS_FS:基于自编码器的表示的隐藏向量。gydF4y2Ba

预测模型解释gydF4y2Ba

图4gydF4y2Ba说明了预测住院死亡风险时来自私人数据集中的前20个最重要特征的全球特征归因。治疗相关特征在死亡率预测中发挥了重要作用。这些特征包括其他手术(平均绝对SHAP值:0.413)、诊断性超声(0.279)、造影剂心血管造影(0.197)等(gydF4y2Ba图4gydF4y2Ba此外，高血压(平均绝对SHAP值:0.252)和心脏病并发症(0.236)等共病以及血清葡萄糖(0.188)和血清乳酸脱氢酶(0.139)等实验室检查与住院死亡有很强的相关性(gydF4y2Ba图4gydF4y2BaB).公共数据集中特征的SHAP值如gydF4y2Ba多媒体附件6gydF4y2Ba．gydF4y2Ba

除了特征在特定预测任务中的全局重要性外，SHAP值还有助于区分特征的局部重要性，即对单个样本的重要性。gydF4y2Ba图5gydF4y2Ba说明了如何用SHAP值预测在住院期间死亡的患者和另一名未死亡的患者的死亡风险。住院期间死亡患者的大多数特征的阳性SHAP值使总SHAP值从平均值−3.739增加到最终值−0.499 (gydF4y2Ba图5gydF4y2BaA和5C)，这意味着患者的住院死亡风险高于平均水平。在这个增量过程中，性别如女性贡献了+0.21的SHAP值(gydF4y2Ba图5gydF4y2BaC)。相反，活着出院的患者的大多数特征的阴性SHAP值使总SHAP值从−3.739降低到−6.169 (gydF4y2Ba图5gydF4y2BaB和5D)，表明死亡风险较低。在此递减过程中，男性贡献的SHAP值为−0.09 (gydF4y2Ba图5gydF4y2BaD).我们从公共数据集中展示了2个患者的例子gydF4y2Ba多媒体gydF4y2Ba．gydF4y2Ba

图4。整个特征集(A)和无处理特征集(B)中私有数据集的前20个特征的平均绝对Shapley相加解释(SHAP)值。gydF4y2Ba

图5。Shapley相加解释(SHAP)值为一名在住院期间死亡的患者(a和C)和另一名未死亡的患者(B和D)。这两名患者都是从具有整个特征集的私有数据集中选择的。A和B，所有特征及其SHAP值。C和D, 20个绝对SHAP值最大的特征。蓝色特征倾向于降低患者被分类为阳性(本研究中死亡)的可能性，而红色特征则相反。每个缩写特性名称的含义可以在gydF4y2Ba多媒体附件1gydF4y2Ba．gydF4y2Ba

主要研究结果gydF4y2Ba

随着EMR数据在构建基于机器学习的预测模型中的广泛采用，最基本的研究挑战之一是学习适当的患者表示，这可能会捕获医学概念之间隐藏的语义关联[gydF4y2Ba18gydF4y2Ba］．在本研究中，我们提出了一种改进的基于skip-gram的患者表示方法，该方法融合了医学概念之间的关联强度和任务特定特征的重要性。与其他表示方法相比，所提出的患者表示方法提高了AMI患者死亡风险预测的性能。gydF4y2Ba

在之前的研究中，深度学习模型[gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba,gydF4y2Ba12gydF4y2Ba,gydF4y2Ba25gydF4y2Ba,gydF4y2Ba36gydF4y2Ba]被用于训练嵌入医学概念表征，以用于后续的患者表征。在使用skip-gram算法时，与特征相关性无关的医学概念顺序阻碍了算法学习高质量的表示。之前的工作建议对患者记录中的医疗概念进行洗牌机制，以减少乱序特征对算法的影响[gydF4y2Ba12gydF4y2Ba,gydF4y2Ba24gydF4y2Ba-gydF4y2Ba26gydF4y2Ba］．在本研究中，我们引入了两个概念之间的关联强度，将其定义为仅涉及这两个概念的关联规则的置信度。从各个方面的实验表明，这种巧妙的改进可以有效地揭示医学概念之间的潜在关联，并进一步提高下游预测任务的性能。gydF4y2Ba

除了表示算法，用于表示患者的特征也很关键。以前的许多研究集中在原始形式的医疗代码中的一些特征，如疾病诊断、程序和药物[gydF4y2Ba1gydF4y2Ba,gydF4y2Ba11gydF4y2Ba,gydF4y2Ba14gydF4y2Ba,gydF4y2Ba37gydF4y2Ba］．对于包含大量患者诊断和预后相关信息的实验室检测，我们将实验室检测的正常状态纳入特征集，而不是简单地使用实验室检测和检测共发生的数量[gydF4y2Ba12gydF4y2Ba,gydF4y2Ba38gydF4y2Ba］．我们进一步从自由文本的放射报告中提取放射学特征。诚然，更丰富的特征可能会导致具有更多信息的特征表示，即使患者表示的维度保持不变。在这项研究中，使用更多特征来代表患者的预测模型确实反映了更多关于患者的信息，并且比使用较少特征的预测模型表现出更高的性能。我们的发现与其他研究的结果相似[gydF4y2Ba39gydF4y2Ba,gydF4y2Ba40gydF4y2Ba］．gydF4y2Ba

先前的研究使用神经网络利用EMR数据训练临床结果的预测模型[gydF4y2Ba2gydF4y2Ba,gydF4y2Ba16gydF4y2Ba,gydF4y2Ba22gydF4y2Ba］．他们专注于建立在大型数据集上的端到端预测模型，其中神经网络的最后一个隐藏层被视为患者表示。虽然基于深度端到端神经网络的患者表示提高了预测精度，但不可忽视的是可解释性的缺乏。一些研究[gydF4y2Ba26gydF4y2Ba,gydF4y2Ba41gydF4y2Ba]使用词嵌入方法学习到的概念表征的平均值构建患者表征，没有充分利用不同临床特征对患者的重要性。作为一种高级解释性方法，SHAP值[gydF4y2Ba32gydF4y2Ba]在之前的一些研究中成功地用于分析和解释预测模型[gydF4y2Ba40gydF4y2Ba,gydF4y2Ba42gydF4y2Ba-gydF4y2Ba44gydF4y2Ba］．我们将SHAP值作为特征重要性引入到患者表征中，并进一步解释了使用SHAP值的预测模型。利用SHAP值不仅可以对预测任务的整体重要性进行排序和确定重要因素，还可以探索预测特定患者死亡风险的关键因素。在我们对AMI患者的预测任务中，由SHAP值确定的最重要特征确实与AMI密切相关[gydF4y2Ba45gydF4y2Ba-gydF4y2Ba47gydF4y2Ba]，如血清葡萄糖和血清肌酸激酶，这是临床实践中诊断AMI和预后的两项关键实验室检测。gydF4y2Ba

在我们的预测任务中，采用所提出的患者表征方法所代表的所有可用患者特征作为输入的模型比以往研究中相同任务的其他模型表现出更高的性能(AUROC, 0.973 vs 0.905至0.935 [gydF4y2Ba19gydF4y2Ba,gydF4y2Ba29gydF4y2Ba-gydF4y2Ba31gydF4y2Ba,gydF4y2Ba48gydF4y2Ba])。这可能是因为嵌入表示包含了从一般EMR系统中提取的大量不同特征，而许多研究人员在临床专家的协助下选择了与ami相关的特征。例如，基本的人口统计学数据和少量的实验室检查，以及AMI的Killip分级和左室射血分数等几个具体特征[gydF4y2Ba19gydF4y2Ba,gydF4y2Ba30.gydF4y2Ba]被直接添加到机器学习模型中，以预测死亡风险。此外，与主成分分析等其他简单的特征提取方法相比[gydF4y2Ba29gydF4y2Ba]和3层自编码器模型，该方法考虑了关联强度和特征重要性，具有较高的预测性能。gydF4y2Ba

限制gydF4y2Ba

这项研究有一些局限性。首先，本研究只纳入患者住院期间的首次实验室检查，而很多患者进行了两次或两次以上的实验室检查。由于时间数据，特别是多个实验室检测，可能反映患者随时间变化的动态健康状态和治疗效果，因此患者表现中缺乏实验室检测的时间特征可能会导致下游任务的性能损失。未来的研究将集中于将这种不均匀和不规则的时间数据整合到当前的患者表现中。其次，采用跳图算法进行概念嵌入训练。该算法在自然语言处理领域很受欢迎，可能在表示结构化和无序EMR数据方面能力有限。基于变压器的训练前模型Med-Bert已被训练为表示最初以ICD-10和ICD-9编码表达的疾病诊断，在心力衰竭和胰腺癌预测任务中表现出更高的性能，auroc分别为85.39%和82.23% [gydF4y2Ba49gydF4y2Ba］．因此，未来将采用更复杂的深度学习方法，以提供更丰富的患者信息。最后，我们仅对基于所提出的患者表示的预测模型进行了内部验证。高质量的外部验证将更有说服力，并将有助于持续的算法改进。此外，选择的性能比较参考方法是简单的特征选择方法和3层自编码器。需要与最先进的方法进行比较，以评估我们提出的方法的性能和潜在用途。gydF4y2Ba

结论gydF4y2Ba

在本研究中，我们利用医学概念的关联强度和患者特征的重要性来改进基于嵌入的患者表征。经过进一步的训练和微调，基于所提出的患者代表性的模型有望用于辅助AMI住院患者的预后预测。本研究为利用EMR数据开发更有效、更高效的临床预测模型提供了有意义的方向。患者代表学习作为建立临床结果预测模型的重要组成部分是可取的。gydF4y2Ba

致谢gydF4y2Ba

国家自然科学基金(No. 81971707)资助。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附件1gydF4y2Ba

私有数据集中样本的患者特征。gydF4y2Ba

DOCX文件，35kbgydF4y2Ba

‎gydF4y2Ba

多媒体附件2gydF4y2Ba

公共MIMIC-III数据集中样本的患者特征。gydF4y2Ba

DOCX文件，34 KBgydF4y2Ba

‎gydF4y2Ba

多媒体gydF4y2Ba

基于skip-gram的嵌入表示的预测性能与上下文窗口的大小和嵌入向量的维度的不同组合。gydF4y2Ba

DOCX文件，24kbgydF4y2Ba

‎gydF4y2Ba

多媒体附件4gydF4y2Ba

患者表示方法在公共数据集上的预测性能。gydF4y2Ba

DOCX文件，21 KBgydF4y2Ba

‎gydF4y2Ba

多媒体gydF4y2Ba

患者表示方法在公共和私人数据集上的平均预测性能，有和没有治疗特征集。gydF4y2Ba

DOCX文件，22 KBgydF4y2Ba

‎gydF4y2Ba

多媒体附件6gydF4y2Ba

整个特征集(A)和无处理特征集(B)中公共数据集前20个特征的平均绝对Shapley相加解释(SHAP)值。gydF4y2Ba

DOCX文件，356 KBgydF4y2Ba

‎gydF4y2Ba

多媒体gydF4y2Ba

Shapley相加解释(SHAP)值为一个在住院期间死亡的患者(a和C)和另一个没有死亡的患者(B和D)来自具有整个特征集的公共数据集。gydF4y2Ba

DOCX文件，394 KBgydF4y2Ba

肖旭，魏刚，周琳，潘勇，景辉，赵娥，等。基于EHR映射PPD张量的卷积神经网络增强算法的治疗启动预测。J Biomed Inform 2021年8月;120:103840。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李玲，姜勇，黄波。基于transformer模型的季节性流感时间传播的长期预测。J Biomed Inform 2021年10月;122:103894。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
马红，盛伟，李娟，侯玲，杨娟，蔡杰，等。多科室医院获得性静脉血栓栓塞风险评估的新型分层机器学习模型。J Biomed Inform 2021 10月;122:103892 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
唐铮，于勇，吴凯，苏东，胡娟，梅娟。疾病网络描绘了心血管疾病的疾病进展特征。J Biomed Inform 2021 Mar;115:103686 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
陈鹏，董伟，陆旭，何凯，黄卓。基于深度表征学习的电子病历个性化治疗效果评估。J Biomed Inform 2019 12月;100:103303 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Dligach D, Afshar M, Miller T.迈向临床文本编码器:临床自然语言处理的预训练与应用于药物滥用。J Am Med Inform Assoc 2019年11月01日;26(11):1272-1278 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
张平，尹超，钱波，张平。基于模式关注的可解释医疗风险预测模型。BMC Med Inform Decis Mak 2020年12月30日;20(增刊11):307 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
张旭，周娟，梁娟，肖超，赵颖，Sarva H，等。使用纵向临床记录的帕金森病数据驱动分型:一项队列研究科学通报2019年1月28日;9(1):797 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
罗X，甘地P，张震，邵伟，韩震，钱德拉塞卡兰V，等。应用可解释的深度学习模型识别慢性咳嗽患者使用电子病历数据。计算方法程序生物科学2021年10月;210:106395。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李震，姜晓霞，龙强。基于多个EHR数据库的分布式学习:医疗事件的上下文嵌入模型。J Biomed Inform 2019 Apr;92:103138 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
张志强，张志强，张志强，等。对深度学习架构进行基准测试，用于预测再入院ICU和描述高危患者。科学通报2020年1月24日;10(1):1111 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
斯坦伯格E, Jung K, Fries JA, Corbin CK, Pfohl SR, Shah NH。语言模型是一种有效的电子病历数据表示学习技术。J Biomed Inform 2021年1月;113:103637 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
卡拉斯科-里贝尔斯LA，帕尔多-马斯JR，托尔塔哈达S, Sáez C，瓦尔迪维索B, García-Gómez JM。通过多尺度患者轨迹的局部相似性预测发病率。J Biomed Inform 2021年8月;120:103837。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
杨松，郑旭，季成，陈旭。多层表示学习及其在电子健康档案中的应用。神经过程学报2021;53(2):1417-1433 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
王震，王斌，周勇，李东，尹勇。基于权重的邻域判别约束多重经验核学习在心衰死亡率预测中的应用。J Biomed Inform 2020年1月;101:103340 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
杨晓东，杨晓东，王晓明，等。学习潜在空间表征以预测患者预后:模型开发和验证。J Med Internet Res 2020年3月23日;22(3):e16374 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
基于急诊分诊记录的高级自然语言处理技术预测患者的性格。新兴医学Australas 2021;33(3):480-484。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
司勇，杜俊，李震，姜旭，Miller T，王峰，等。电子健康记录(EHR)中患者数据的深度表示学习:一项系统综述。J Biomed Inform 2021 Mar;115:103671 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
权俊，全K，金敏，金MJ，林松，金K，等。基于深度学习的急性心肌梗死患者死亡风险分层。PLoS One 2019;14(10):e0224502 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
阮涛，雷磊，周勇，翟娟，张磊，何鹏，等。电子病历中临床时间序列预测任务的表征学习。BMC Med Inform Decis Mak 2019 12月17日;19日(增刊8):259 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
赵军，李志强，杨晓明，Boström H.基于时间序列的电子病历数据学习方法。J Biomed Inform 2017年1月;65:105-119 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Morid MA, Sheng ORL, Kawamoto K, Abdelrahman S.使用卷积神经网络从患者多元时间序列数据中学习隐藏模式:医疗成本预测的案例研究。J Biomed Inform 2020年11月;111:103565 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Mikolov T, Sutskever I, Chen K, Corrado G, Dean J.单词和短语的分布式表示及其组合。在:NIPS'13:第26届神经信息处理系统国际会议论文集-卷2。2013年发表于:第26届神经信息处理系统国际会议;2013年12月5-10日;太浩湖，内华达州，第3111-3119页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李丽丽，陈锐，李丽丽，等。利用电子健康记录中的词嵌入自动选择疾病队列。Pac Symp Biocomput 2018;23:145-156 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
崔玲，谢晓，沈哲。电子病历中医疗代码预测任务引导的表示学习。J Biomed Inform 2018 Aug;84:1-10 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
黄燕，王楠，张震，刘辉，费晓霞，魏林，等。基于嵌入技术的结构化电子病历患者表示:开发和验证研究。JMIR Med Inform 2021年7月23日;9(7):e19905 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
陈宏，石林，薛明，王宁，董霞，蔡勇，等。中国急性心肌梗死后住院死亡率和经皮冠状动脉介入治疗的地理差异:一项全国性横断面分析美国心脏学会2018年4月17日;7(8):52-62。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
GBD 2013年死亡原因合作者。1990-2013年全球、区域和国家240种死因的按年龄性别划分的全因和按原因划分的死亡率:2013年全球疾病负担研究的系统分析。柳叶刀2015年1月10日;385(9963):117-171 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Lee HC, Park JS, chojc, Ahn JH, Lee HW, Oh J，韩国急性心肌梗死登记处(KAMIR)韩国心肌梗死工作组(KorMI)调查人员。利用机器学习预测急性心肌梗死1年死亡率。Am J Cardiol 2020年10月15日;133:23-31。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Aziz F, Malek S, Ibrahim KS, Raja Shariff RE, Wan Ahmad WA, Ali RM，等。亚洲人急性st段抬高型心肌梗死(STEMI)后的短期和长期死亡率预测:机器学习方法PLoS One 2021;16(8):e0254894 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
王强，钱伟，孙智，朱伟，刘勇，陈旭，等。基于术前参数的nomogram预测急性心肌梗死患者有创治疗的短期死亡率。老龄化(纽约州奥尔巴尼)2020年12月11日;13(2):2184-2197 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
伦德伯格SM，李SI。解释模型预测的统一方法。在:NIPS'17:第31届神经信息处理系统国际会议论文集。2017发表于:第31届神经信息处理系统国际会议;2017年12月4日至9日;加利福尼亚州长滩，p. 4768-4777。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
重症监护医疗信息集市。URL:gydF4y2Bahttps://mimic.mit.edu/gydF4y2Ba[2022-07-23]访问gydF4y2Ba
王宁，王敏，周勇，刘华，魏林，费旭，等。基于序贯数据的患者相似度框架用于患者结局预测:算法开发。J Med Internet Res 2022 Jan 06;24(1):e30720 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
谢俊，高辉，谢伟，刘旭，格兰特。通过检测密度峰值和基于模糊加权k近邻分配点的鲁棒聚类。信息科学2016年8月;354:19-40。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
王玲，王强，白华，刘超，刘伟，张勇，等。基于自我注意机制的临床病历时间模式医学概念表征学习。前Genet 2020;11:630 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
白T, Chanda AK, Egleston BL, Vucetic S.通过联合嵌入医学概念和词汇到统一的向量空间的EHR表型。BMC Med Inform Decis Mak 2018 Dec 12;18(Suppl 4):123 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Miotto R, Li L, Kidd BA, Dudley JT。深度患者:从电子健康记录中预测患者未来的无监督表示。科学报告2016年5月17日;6:26094 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
张东，尹超，曾杰，袁晓霞，张平。基于深度学习的结构化与非结构化数据融合预测模型。BMC Med Inform Decis Mak 2020年10月29日;20(1):280 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
徐勇，刘旭，潘磊，毛旭，梁辉，王刚，等。可解释的动态多模态变分自编码器用于预测疑似中枢性性早熟患者。IEEE J.生物医学。卫生通报2022年3月26日(3):1362-1373。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
孙杰，李志强，李志强。基于电子病历的医学概念表征方法及其在心衰预测中的应用。出来了。2016.URL:gydF4y2Bahttps://arxiv.org/abs/1602.03686gydF4y2Ba[2022-07-19]访问gydF4y2Ba
Müller M, Gromicho M, de Carvalho M, Madeira SC. ALS疾病进展的可解释模型:使用循环神经网络和深度模型解释从纵向临床数据中学习。计算机方法与程序在生物医学更新2021;1:100 18。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
林德伯格，陈华，陈志强，陈志强，等。从局部解释到对树木的可解释人工智能的全球理解。Nat Mach Intell 2020年1月;2(1):56-67 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Lundberg SM, Nair B, Vavilala MS, Horibe M, Eisses MJ, Adams T，等。可解释的机器学习预测用于预防手术中低氧血症。生物医学工程2018年10月;2(10):749-760。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Pinto DS, Grandin EW。AMI休克的风险预测:金发女孩和“刚刚好”的寻找。J Am Coll cardil 2017 Apr 18;69(15):1921-1923 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
叶RW, Sidney S, Chandra M, Sorel M, Selby JV, Go AS。急性心肌梗死发病率和转归的人群趋势。中华外科杂志2010年6月10日;362(23):2155-2165。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Shroff GR, Frederick PD, Herzog CA.肾功能衰竭和急性心肌梗死:晚期慢性肾脏疾病患者的临床特征，透析和无慢性肾脏疾病。美国肾脏数据系统/国立卫生研究院和国家心肌梗死登记处的合作项目。Am Heart J 2012 Mar;163(3):399-406 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
D'Ascenzo F, De Filippo O, Gallone G, Mittone G, Deriu M, Iannaccone M，等。基于机器学习的急性冠状动脉综合征(PRAISE)后不良事件预测:汇总数据集的建模研究《柳叶刀》2021年1月;397(10270):199-207。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
谢震，陶晨，张晓明，张晓明。基于嵌入式的疾病预测方法研究。NPJ数字医学2021年5月20日;4(1):86 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba

‎gydF4y2Ba

AMI:gydF4y2Ba急性心肌梗死gydF4y2Ba

阿里:gydF4y2Ba调整兰德指数gydF4y2Ba

AUPRC:gydF4y2Ba精度-召回曲线下的面积gydF4y2Ba

AUROC:gydF4y2Ba接收机工作特性曲线下面积gydF4y2Ba

EMR:gydF4y2Ba电子病历gydF4y2Ba

ICD:gydF4y2Ba《国际疾病分类》gydF4y2Ba

世鹏科技电子:gydF4y2BaShapley加法解释gydF4y2Ba

G·艾森巴赫(G Eysenbach)编辑;提交22.02.22;M Nuutinen, L Jorm, B Qian同行评审;对作者20.04.22的评论;修订版本收到02.06.22;接受18.07.22;发表03.08.22gydF4y2Ba

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

基于电子病历学习的包埋表示提高急性心肌梗死住院患者预后预测性能:开发与验证研究gydF4y2Ba

基于电子病历学习的包埋表示提高急性心肌梗死住院患者预后预测性能:开发与验证研究gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

摘要gydF4y2Ba

关键字gydF4y2Ba

简介gydF4y2Ba

方法gydF4y2Ba

基于skip - gram的患者表示gydF4y2Ba

实验与评价gydF4y2Ba

数据集与数据预处理gydF4y2Ba

表现评估gydF4y2Ba

伦理批准gydF4y2Ba

结果gydF4y2Ba

概念表征评价gydF4y2Ba

预测性能gydF4y2Ba

预测模型解释gydF4y2Ba

讨论gydF4y2Ba

主要研究结果gydF4y2Ba

限制gydF4y2Ba

结论gydF4y2Ba

致谢gydF4y2Ba

利益冲突gydF4y2Ba

参考文献gydF4y2Ba

缩写gydF4y2Ba