卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v24i1e30720

34989682

10.2196/30720

原始论文

基于序贯数据的患者相似度框架的患者结局预测:算法开发

Kukafka

丽塔

Lei

简帛

程ydF4y2Ba

金鹰

李

Yikuan

王

倪

废话 1 2

https://orcid.org/0000-0002-8941-0457

王

木鱼

废话 1 2

https://orcid.org/0000-0002-1606-5058

周

杨

废话 3.

https://orcid.org/0000-0002-8788-0383

刘

宏磊

博士学位 1 2

https://orcid.org/0000-0001-5518-4749

魏

局域网

博士学位 4

https://orcid.org/0000-0002-4458-3215

范

小路

博士学位 4

https://orcid.org/0000-0001-7498-0249

程ydF4y2Ba

回族

博士学位 1

生物医学工程学院首都医科大学

丰台区友安门西头条10号

北京,100069

中国 86 010 8391 1545 chenhui@ccmu.edu.cn

https://orcid.org/0000-0002-0048-0193

1 生物医学工程学院首都医科大学

北京

中国 2 北京大数据精准医疗先进创新中心首都医科大学

北京

中国 3. 流行病学与生物统计学系“，中国医学科学院基础医学研究所基础医学院北京协和医学院

北京

中国 4 宣武医院信息中心首都医科大学

北京

中国

通讯作者:陈辉 chenhui@ccmu.edu.cn

1 2022

6 1 2022

24 1

e30720

26 5 2021 31 8 2021 8 10 2021 8 11 2021

©王妮，王木玉，周杨，刘红雷，魏兰，费晓璐，陈辉。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2022年01月06日。

2022

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

电子病历中的序贯信息对患者预后预测有重要价值和帮助，但由于其不均匀性、不规则性和异质性，很少用于患者相似度的测量。

客观的

我们的目标是开发一个患者相似度框架，用于患者结局预测，该框架利用了电子病历系统中的顺序和横断面信息。

方法

使用编辑距离从时间戳事件序列计算序列相似度，使用动态时间翘曲和Haar分解从时间序列计算趋势相似度。我们还提取了横断面信息，即人口统计学、实验室检测和放射报告数据，用于额外的相似性计算。我们通过构建k -最近邻分类器来预测急性心肌梗死患者的死亡率和再入院率，验证了该框架的有效性，使用来自(1)公共数据集和(2)私人数据集的数据，在入院、第7天和出院3个时间点提供早期预警患者结局。我们还构建了最先进的欧几里得距离k近邻、逻辑回归、随机森林、长短期记忆网络和循环神经网络模型，用于比较。

结果

在住院期间的所有可用信息中，使用相似模型的预测模型优于基于公共和私有数据集的基线模型。对于死亡率预测，除逻辑回归模型外，所有模型都显示随着时间的推移性能有所改善。在再入院预测的预测表现上没有这种增加的趋势。当使用入院后第一周的信息时，随机森林和逻辑回归模型分别在死亡率和再入院预测方面表现最佳。

结论

对于患者结局预测，患者相似度框架有助于对不均匀的电子病历数据进行顺序相似度计算，并有助于提高预测性能。

病人相似电子病历时间序列急性心肌梗死自然语言处理机器学习深度学习结果预测信息学健康数据

简介

近年来，个性化医疗和临床决策支持已成为热门问题和研究热点，如利用电子病历建模辅助临床医生诊断疾病[ 1- 3.]，以预测住院时间[ 4， 5]，并预测病人的死亡和其他结果[ 4， 6- 8］．由于电子病历数据积累速度快，有足够的数据进行数据驱动研究、大数据挖掘和构建预测模型。使用从电子病历数据中计算出的患者相似性度量来选择研究队列以构建个性化模型，提高了预测性能[ 9， 10］．

以往的研究[ 11- 14已经证明了个性化预测模型的有效性。王等[ 11， 12]使用基于相似性的模型来预测糖尿病和肝病的风险。李等[ 13]根据计算出的患者相似性，成功地识别出3个不同的2型糖尿病亚组。王等[ 14]导出了一种基于局部样条回归的方法，用于患者嵌入和患者相似性测量，以预测心血管疾病风险。然而，这些研究[ 11- 14仅仅基于横断面信息评估患者相似性，而不是使用存储在电子病历系统中的完整纵向信息。对于住院患者，纵向信息代表从入院到出院的临床轨迹;它可能包括在病人身上进行的一系列临床事件和多项实验室测试。由于纵向数据具有丰富的医疗行为和疾病进展信息，因此在预测患者预后方面应优于横断面数据。因此，我们可以假设纵向信息与患者相似性测量相结合将进一步改善结果预测，这将促进向个性化医疗的发展。

不幸的是，与典型的现实数据一样，电子病历数据通常是异构的、不规则的和不均匀的，这对建模和度量相似性提出了挑战[ 15］．这些问题对于顺序信息比对横断面信息更为严重。因此，许多研究者将纵向数据转换为静态数据。李等[ 16在重症监护病房的第一个24小时内提取了各种临床和生命体征。通过计算最小值和最大值，将这些纵向变量转换为静态数据，以便进一步基于余弦相似度度量进行患者相似度测量。吴恩达等[ 17]使用特征向量表示方法，通过计算分类变量(诊断、药物和程序)的计数和数值实验室测试数据的算术平均值来汇总纵向患者数据。孙等[ 18]表示每个患者2小时的时间数据，通过计算均值和方差或小波系数。

因为很少有分析[ 15- 18]已经将事件序列考虑到相似度测量，我们的目标是开发一个新的患者相似度测量框架，可以利用横断面信息和2种类型的顺序信息(一系列临床事件和多个实验室测试)来预测患者结果。

方法概述

在中国，急性心肌梗死患者数量预计将从2010年的800万增加到2030年的2300万[ 19]，在出院后，由于意外的急性心肌梗死，通常有很高的全因住院死亡或再入院的风险。对这些因素的准确预测有助于更好的预后和及时的干预。因此，我们重点预测急性心肌梗死患者在住院期间的3个时间点(入院时、第7天和出院时)的全因住院死亡率和意外急性心肌梗死-出院后再入院率。每个患者的临床轨迹包括一系列临床过程(时间戳事件序列)和来自电子病历数据的多项实验室检测(时间序列数据)。我们计算了序列和横截面信息的相似性，并为每个时间点构建了基于相似性的模型( 图1)．

图1

研究流程:(a)时间戳事件序列和时间序列数据的顺序相似度计算，(b)横断面信息的相似度计算，(c)基于a和b部分计算的相似度加权和的患者相似度测量，(d)验证。AMI:急性心肌梗死;kNN:基于患者相似度测量的k-最近邻;然而,_Eucli:基于欧氏距离的k近邻;LR: logistic回归;RF:随机森林;RNN:循环神经网络;LSTM:长短期记忆网络;DTW:动态时间扭曲。

序列信息的相似性

时间戳事件序列和实验室测试时间序列数据均用于计算序列相似性。实验室测试数据有助于序列相似性计算，同时从多个测试值计算趋势相似性。图2这是一个病人临床轨迹的例子。

图2

一个病人临床轨迹的案例研究。所有临床事件，包括实验室检查、放射检查和程序，均根据患者时间顺序列出。每项实验室测试的多重值组成时间序列数据，如图右侧折线图所示。

事件序列的相似性

事件是对患者进行的临床过程，如血糖测试、放射学检查(如彩色超声)或手术(如经皮冠状动脉介入)。对于一系列具有时间戳信息的临床事件，称为事件序列 r对于患者组成对( e_我， t_我 ), e_我是我病人的临床事件 t_我事件发生的时间点(天)。在事件序列中，事件e _我放在事件之前 e_j 如果 t_我早于 t_j 在病人的时间轴上。如果两个项目在同一天进行，则按字母顺序排列。

编辑距离用于计算两个事件序列之间的相似性，该相似性基于将一个序列转换为另一个序列所需的工作量[ 20.， 21］．操作——插入、删除和替换——被用来改变顺序 r₁ 成 r₂ ．对于事件时间对( e_我， t_我 ) r₁ 和(e _j t _j ) r₂ ，则使用插入或删除 e_我 ≠ e_j ；否则，使用替换(即改变事件的发生时间)。我们将插入和删除操作的编辑成本设置为1， c(Ins ( e)) = c(德尔( e)=1，代入代价为 c(子( e， t_我， t_j ) = 0.5 * | t_我 - - - - - - t_j |。假设我们可以改变顺序 r₁ 来 r₂ 通过不同的操作序列，取总代价最小的操作序列作为编辑距离[ 21］．

例如，为了序列 r₁ = {( 一个， 1)， ( B， 2)， ( C， 3)， ( D， 4)}和 r₂ = {( 一个， 2)， ( B， 5)， ( C， 8)}，其中( 一个， 1)表示该事件一个发生于入院后第一天，可能为手术系列操作系统₁ ={德尔( 一个， 1)， Del( B， 2)， Del( C， 3)， Del( D， 4)， Ins( 一个， 2)， Ins( B， 5)， in ( C， 8)}，总代价为7，或操作系统₂ ={子( 一个， 1, 2)， Sub( B， 2,5)， Sub( C， 3,5)， Del( D， 4)}，总成本为5.5;因此，第二个操作系列是最优的。我们使用动态规划算法[ 20.]来解决这个最小化问题( 多媒体附件1)．

对事件序列的序列相似度为

在哪里米（米， n)为编辑距离，和米而且 n是序列的长度吗 r₁ 而且 r₂ ．实验室测试项目年代_lab-edit 、放射检查年代_rad-edit ，及程序年代_pro-edit 由3个独立的事件序列表示。

时间序列相似性

在临床领域，时间序列可以定义为生物信号值的一致的单向变化，因此与患者状态的演变有关[ 22］．在本研究中，一个时间序列年代定义为在患者住院期间暂时排序的实验室测试的多个实值。这类时间序列通常长度不同，因为不同疾病患者的实验室检测项目数量不同。在这种情况下，传统的欧几里得距离或余弦距离不适合计算两个时间序列之间的相似性。我们使用了动态时间翘曲，它经常被用于评估时间序列数据之间的相似性[ 23， 24]，计算实验室测试时间序列之间的距离。动态时间扭曲算法采用动态规划算法，每个map的代价由2个时间序列之间的欧氏距离( 多媒体附件1)．通过动态时间翘曲算法，我们得到了两个时间序列映射到另一个时间序列时的最优对齐和累积距离[ 25］．

趋势相似度年代_DTW 为年代₁ 而且年代₂ 是

在哪里 D(年代 ₁ ,年代 ₂ )为最终的累积距离年代₁ 而且年代₂ ．所有成对距离的最小值和最大值记为 d_最小值而且 d_马克斯 ,分别。

我们还采用了Haar小波分解方法来评估相似度。基于Haar小波的方法高度依赖于时间序列长度;因此，线性插值可以保证时间序列满足长度要求。采用离散Haar小波分解，每个时间序列由多个Haar小波基表示(图S3) 多媒体附件1)，以及这些基底的系数，它们描述了时间序列的主要特征和变化趋势[ 26]，计算基于Haar小波的趋势相似度年代_哈雾，

在哪里 d（年代₁ ，年代₂ )为描述两组系数之间的欧氏距离年代₁ 而且年代₂ ．

使用动态时间翘曲或基于Haar小波分解计算实验室测试的多个测试值之间的趋势相似性。

截面信息的相似性

横断面信息包括人口统计学特征(年龄、性别、薪酬类型和婚姻状况)、仅在入院时进行的实验室检查以及胸部x光和彩色超声检查的免费文本报告。

人口学特征向量以0或1表示 u根据患者是否≥60岁，男性，已婚，有保险(特定医疗保险)。评估患者的人口学特征相似性我而且 j，我们使用Jaccard相似度

我们计算了仅在入院时进行的基于欧几里得距离的实验室测试的相似性。这些横断面实验室测试的特征相似性(S _实验室 )定义为1 -归一化欧氏距离，采用最小-最大归一化。

自由文本报告在公共数据集中是英文的，在私人数据集中是中文的。对于中文报告，我们进行了三个步骤来提取特征:兴趣语料库构建、分词和特征重建(图S4) 多媒体附件1)．对于用英文撰写的报告，我们直接确定了感兴趣的特征(发生频率高且与急性心肌梗死相关，例如“LVEF”，因为高LVEF患者通常有更好的心功能和预后)。如果患者的放射报告包含此特征，则文本特征变量设置为1，否则设置为0。最后，每个病人都有一套 h私有数据集中的“左室射血分数正常(左室射血分数(LVEF)正常)”和公共数据集中的“总体正常LVEF”等文本特征。我们使用Jaccard相似性来计算提取的文本特征的相似性( 年代_文本 )．

患者相似度计算

患者相似度评分为特征相似度加权和。我们确定了主要特征，并为其分配了更大的权重，并将其余特征的权重设置为0。死亡率或再入院风险预测任务分别分配权重。当使用在该特征上计算的相似性来确定死亡或再入院预测的最近邻居时，该特征的重要性由预测性能确定。性能越好，特性的重要性就越高。例如，根据权重确定的样本集，预测指标患者的死亡风险为其top中结局状态发生的概率 k最近的邻居。我们依次使用以下特征之一的相似性来选择近邻:实验室测试项目、放射检查和程序的事件序列;具有多个测试值的实验室测试时间序列;以及横截面特征。

我们通过多数投票方案确定了3个主要特征，它们具有最高的受试者工作特征曲线下面积(AUROC)值。我们优化了特征权重 w₁， w₂, w_3.，在约束条件下，误差为0.05步 w₁ + w ₂ + w_3.= 1和w ₁ ≥w ₂ ≥w_3.> 0 ( 多媒体附件1)．

预测模型基于相似性的模型配置

我们做了几个 k-最近邻分类器，根据患者相似性预测患者的结果。

我们比较了预测性能 k-仅使用序列相似度、仅使用趋势相似度和两者( 表1)．下标E, D和H表示 k-最近邻模型分别采用序列相似度、动态时间弯曲趋势相似度和Haar分解趋势相似度建立。下标ED表示 k-最近邻模型采用动态时间翘整法同时考虑序列相似度和趋势相似度，EH模型采用Haar分解法测量趋势相似度。

表1

基于不同患者相似度构建基于相似度的预测模型。

使用相似			k最近的邻居_艾德		k最近的邻居_嗯		k最近的邻居_E		k最近的邻居_D		k最近的邻居_H
序列相似性
	年代_lab-edit	是的		是的		是的		没有		没有
	年代_rad-edit	是的		是的		是的		没有		没有
	年代_pro-edit	是的		是的		是的		没有		没有
趋势相似
	年代_DTW	是的		没有		没有		是的		没有
	年代_哈雾	没有		是的		没有		没有		是的
横断面信息相似性( 年代_民主党，年代_实验室，年代_文本）			是的		是的		是的		是的		是的

比较模型配置

我们比较了每种方法的预测性能 k-最近邻模型与其他最先进的预测模型:欧几里得距离 k-最近邻、逻辑回归、随机森林、长短期记忆网络和循环神经网络模型，使用全组预测变量或一组统计特征，因为时间序列数据不能直接输入欧几里得距离 k-最近邻、逻辑回归或随机森林模型。横断面信息和所有扁平化时间序列(填充和拼接)输入欧几里得距离 k-最近邻模型、逻辑回归模型和随机森林模型，以及每个时间序列的一组6个统计特征(最小值、最大值、平均值、标准差、偏度和时间序列长度)输入到每个模型，并获得横截面信息。报告了上述两种策略的更高性能的模型，并与我们的基于相似的模型进行了比较(表S1) 多媒体附件1)．

模型Hyperparameters

我们通过试错的方法寻找模型的最优参数。最后，我们设置 k= 50 k随机森林模型的树数为200。对于逻辑回归、长短期记忆网络和循环神经网络模型的训练，我们将损失函数定义为具有l2调节项的交叉熵。采用带有sigmoid激活函数的自适应矩估计优化器对长短期记忆网络和循环神经网络进行训练。对于长短期记忆网络和循环神经网络模型，单元数设置为100个，批大小选择为128个，最大epoch数设置为30个。使用留一法来评估预测模型的性能，在每个验证轮中使用一名患者作为测试样本，其余患者用于训练。该方法充分利用了验证集，可用于不平衡数据集。

由于我们的目的是提供早期预警，以便及时干预和调整治疗，因此将入院、第7天和出院3个时间点作为指标时间点。每个指数时间点的所有可用信息用于确定患者相似性并建立预测模型。为了确保稳健性，我们独立地运行了100次预测过程，并平均了性能。如果模型A的表现优于模型B至少95倍，则认为模型之间的表现差异具有统计学意义。采用AUROC和f1评分作为主要指标，同时计算精密度、敏感性和特异性。

数据集及特征公共数据集

我们使用了可免费获取的重症监护数据库重症监护医疗信息集市(mimi -III) [ 27， 28］．mimi - iii数据集收集于2001年6月至2012年10月之间，来自马萨诸塞州波士顿贝斯以色列女执事医疗中心重症监护室的患者。它包括患者健康信息，如人口统计数据、生命体征、实验室检测结果、药物、程序、诊断代码以及临床记录。在本研究中，我们纳入了所有急性心肌梗死患者的记录。

本研究共纳入3010例主要诊断为国际疾病分类第九版修订代码410.01至410.91的患者。我们提取了入院时的年龄、性别、付款类型、婚姻状况、42项实验室检查(23个离散时间序列和19个横断面项目)、程序和放射报告(34个文本特征;表S2 多媒体附件1)。

私有数据集

本研究使用的电子病历数据来自中国北京某三级医院2014年至2016年的出院住院患者记录。个别住院记录被识别并作为唯一记录保存。总的来说，1846名主要诊断符合国际疾病分类(第十版)代码I21和I22的患者被纳入研究。在实验室检测中，103项实验室检测被用作横断面信息(入院时)。到第7天，27个实验室测试有2个或更多的测试值，其余的被用作横断面信息。在放电时，分别将63和40个实验室测试项目作为时间序列和横截面信息处理。对于放射报告，一组36个文本特征(表S2) 多媒体附件1)。

包含和排除条款

对于两组数据，很少有患者在入院后第一周进行胸部x线或彩色超声检查;因此，在使用入院后第一周之前的信息时，没有从放射报告中提取文本特征进行进一步的相似度计算。包括放射检查的事件序列也被排除在序列相似性计算之外，因为入院时发生的事件很少。此外，当对第7天进行预测时，共有164名住院时间少于7天的患者被排除在训练样本集中。使用住院期间的患者信息，将任何住院时间的患者包括在预测中。在私人数据集中，分别只有33名和52名患者在30天和90天内再次入院。因此，不需要时间来确定再入院。

结果一般

表2介绍研究人群的特点和主要结果。

表2

急性心肌梗死患者在MIMIC-III数据集和私人数据集的基本特征。

特征		mimi - iii数据集(n=3010)， n (%)	私有数据集(n=1846)， n (%)
人口
	年龄≥60岁	2408 (80.0)	1131 (61.3)
	男性的性别	1855 (61.6)	1343 (72.8)
	结婚了	1583 (52.6)	1815 (98.3)
医疗保险
	城镇职工基本	N/A^一个	1422 (77.0)
	医疗保险	2030 (67.4)	N/A
住院期间的事件数，n(每位患者的事件数)
	实验室测试	1044886 (347)	349563 (189)
	放射学检查	19171 (6)	5827 (3)
	过程	19630 (7)	13049 (7)
结果
	急性心肌梗死再入院病例n (%)	554 (18.4)	100 (5.4)
	全因住院死亡率，n (%)	245 (8.2)	132 (7.2)
	住院天数，平均(标准差)	10.0 (6.24)	11.4 (5.85)

^一个N/A:不适用。

公共数据集

在预测死亡率时，所有 k-建立在患者相似事件基础上的最近邻模型表现最佳( k最近的邻居_E: auroc 0.878; k最近的邻居_嗯: auroc 0.882;而且 k最近的邻居_艾德: AUROC 0.883)，并显著优于所有其他模型(随机森林: P= .02点;所有其他型号: P<措施)( 表3而且图3A).为了预测急性心肌梗死引起的再入院， k最近的邻居_E， k最近的邻居_嗯而且 k最近的邻居_艾德AUROC值也最高( 表3)，以及3 k-最近邻模型在用f1评分评估死亡率和再入院预测方面也表现最佳。之间无显著差异 k-涉及死亡率事件的最近邻模型( k最近的邻居_E而且 k最近的邻居_嗯： P=无误; k最近的邻居_艾德而且 k最近的邻居_E： P= .24点; k最近的邻居_嗯而且 k最近的邻居_艾德： P=.41)和再入院预测( k最近的邻居_E而且 k最近的邻居_嗯： P=点; k最近的邻居_艾德而且 k最近的邻居_E： P= =收; k最近的邻居_嗯而且 k最近的邻居_艾德： P= .59) ( 图3)．

表3

在MIMIC-III数据集上进行100轮独立结果预测的预测性能^一个．

模型	死亡率		重新接纳
	AUROC^b	F1-score	AUROC	F1-score
欧氏距离 k最近的邻居	0.756 (0.022)	0.280 (0.030)	0.592 (0.019)	0.332 (0.019)
逻辑回归	0.796 (0.024)	0.336 (0.037)	0.608 (0.022)	0.347 (0.019)
随机森林	0.834 (0.015)	0.362 (0.033)	0.579 (0.015)	0.327 (0.020)
长短期记忆网络	0.809 (0.022)	0.356 (0.043)	0.595 (0.020)	0.339 (0.017)
循环神经网络	0.814 (0.018)	0.338 (0.039)	0.590 (0.018)	0.337 (0.018)
k最近的邻居_D	0.816 (0.023)	0.373 (0.047)	0.566 (0.022)	0.315 (0.027)
k最近的邻居_H	0.746 (0.026)	0.295 (0.035)	0.536 (0.026)	0.295 (0.048)
k最近的邻居_E	0.878 (0.017)	0.386 (0.041)	0.623 (0.019)	0.350 (0.018)
k最近的邻居_嗯	0.882 (0.016)	0.401 (0.044)	0.620 (0.018)	0.350 (0.018)
k最近的邻居_艾德	0.883 (0.015)	0.406 (0.050)	0.620 (0.019)	0.351 (0.019)

^一个均值:标准差。

^bAUROC:受试者工作特征曲线下的面积。

图3

热图显示了基于公共数据集(A和B)和私人数据集(C和D)的预测死亡率(A和C)和再入院率(B和D)模型之间的成对比较。每个单元格中的数字是在100次实验后，行中的模型比列中的模型性能更高的次数的百分比。如果数值大于或等于0.95，则认为性能显著提高，并且相应的单元格用颜色高亮显示。然而,_Eucli:欧氏距离k -最近邻;然而,_D:基于动态时间翘曲(DTW)的趋势相似度(即k -最近邻)的kNN_D）;然而,_H:基于haar趋势相似度(即k-nearest neighbor)的kNN_H）;然而,_E: kNN建立在序列相似度(即k-nearest neighbor)上_E）;然而,_嗯: kNN建立在序列相似度和基于haar的趋势相似度(即k-nearest neighbor)的基础上_嗯）;然而,_艾德:基于序列相似度和基于dtw的趋势相似度(即k-nearest neighbor)的kNN_艾德）;LR: logistic回归;RF:随机森林;RNN:循环神经网络;LSTM:长短期记忆。

私有数据集

在预测死亡率时， k最近的邻居_艾德,同时使用基于编辑距离的序列相似度和基于动态时间扭曲的趋势相似度的方法具有最好的效果(AUROC 0.954;F1-score 0.603)时，使用从入院到出院的所有可用信息。它明显优于所有其他最先进的模型(欧几里得距离 k最近的邻居: P<措施;循环神经网络: P<措施;逻辑回归: P= .03点;长短期记忆网络: P=.02)，除了随机森林(入院时:AUROC 0.795;第7天前:AUROC 0.849; P= . 07)。（图3C和图4A).所有模型的预测性能随着时间点(入院时、第7天和出院时)的提高而提高，除了逻辑回归模型( 图4一个)。

对于再入院预测， k最近的邻居_E(AUROC 0.651), k最近的邻居_嗯(AUROC 0.645)，和 k最近的邻居_艾德(AUROC 0.648)在使用从入院到出院的所有可用信息时表现最佳;然而，logistic回归在入院时(AUROC 0.589)和第7天之前表现最佳(AUROC 0.577) ( 图4B).所有模型的精密度、灵敏度和特异性结果见表S3 ( 多媒体附件1)．

图4

所有预测住院患者死亡率(A和C)和再入院率(B和D)的模型的预测性能，根据受试者工作特征曲线(A和B)下的面积和f1评分(C和D)。星级(☆)表示最高的预测性能。入院时未对LSTM、RNN、KNN进行预测_H,然而,_D,然而,_嗯，和KNN_艾德因为当时没有可用的时间信息。然而,_Eucli:欧氏距离k -最近邻;然而,_D:基于动态时间翘曲(DTW)的趋势相似度(即k -最近邻)的kNN_D）;然而,_H:基于haar趋势相似度(即k-nearest neighbor)的kNN_H）;然而,_E: kNN建立在序列相似度(即k-nearest neighbor)上_E）;然而,_嗯: kNN建立在序列相似度和基于haar的趋势相似度(即k-nearest neighbor)的基础上_嗯）;然而,_艾德:基于序列相似度和基于dtw的趋势相似度(即k-nearest neighbor)的kNN_艾德）;LR: logistic回归;RF:随机森林;RNN:循环神经网络;LSTM:长短期记忆。

讨论

预计基于电子病历数据的预测建模将推动个性化医疗和提高医疗质量，许多研究人员试图预测患者的临床结果，如死亡[ 4， 6， 7， 16， 22];护理质量，如再入院[ 4， 7， 29， 30.];资源利用情况，例如住院日长短[ 4， 6， 31]，并诊断[ 6， 32］．基于电子病历数据计算的患者相似性改善了预测模型的性能[ 9， 10］．

电子病案数据中的纵向信息包括有时间戳的事件序列和实验室检测时间序列，由于其丰富的医疗行为和疾病进展信息，对于预后预测具有丰富的信息和价值。然而，这两种类型的序列信息通常都是异构的、不规则的和不均匀的，这在数据预处理、特征提取和相似度测量方面提出了巨大的挑战。因此，我们使用两种策略分别计算时间戳事件序列和实验室测试时间序列的相似度。编辑距离，在分析文本字符串时已被广泛用于测量距离[ 33]、生物序列[ 34]，以及耐心的痕迹[ 31]，用于计算时间戳事件序列的相似度。

对于时间序列，相似性计算主要有两类算法:时域算法和基于变换的方法[ 22］．前者直接处理原始时间序列，后者降低原始数据维数进行进一步相似度计算[ 22］．我们同时使用时域(动态时间翘曲)和基于变换的(Haar小波分解)来计算时间序列的趋势相似度。基于两个数据集的结果，动态时间扭曲在趋势相似度计算中比Haar小波分解工作得更好。基于Haar小波的趋势相似度方法可能不适用于电子病历系统中的时间序列。因为在降维过程中丢失的信息比动态时间翘曲中丢失的信息要多。我们的研究发现，时变特征的动态时间扭曲增加了预测性能，这与之前的研究相似[ 35］．最常选择的特征是基于程序的序列、血清肌酐水平和基于放射检查的序列。这一发现启发我们进一步研究事件序列和特定的临床变量，这有助于识别相似的患者，提高下游的个性化预测。通常，动态时间翘曲和编辑距离可以用于具有不同长度的序列信息，有助于克服不均匀电子病历数据序列相似性评估的挑战。

经典的时间序列处理模型，如循环神经网络和长短期记忆网络，无法使用事件序列信息，为了处理不同长度的时间序列，不可避免地要进行截断或0填充。然而, k-基于所提出的患者相似度测量的最近邻模型可以利用2种序列信息，在本研究的结果预测中表现最好。据我们所知，这是第一个将两种类型的序列信息集成并应用于患者相似性测量的研究。此外，预测机制 k-对于临床医生来说，最近邻模型比随机森林、循环神经网络和长短期记忆网络等黑箱模型更具可解释性和透明度[ 16］．总的来说，我们的模型有助于提高预测性能。

先前的一些研究评估了模型的性能，并将其与在MIMIC-III数据集上进行的其他实验进行了比较。张等[ 4]提出了一种融合模型，利用序列临床记录、时间序列和静态信息(AUROC 0.871)，在死亡率预测方面优于基线模型。郭等[ 36]构建了预测心肌梗死患者住院死亡率的nomogram (AUROC 0.803)。蒋等[ 37]使用机器学习预测脓毒症幸存者的住院死亡率(脓毒症:AUROC 0.732;非脓毒症:AUROC 0.830)。苏雷什等[ 38]开发了一个多任务死亡率预测模型(AUROC 0.869)，优于全局模型和单独模型。范等[ 39]通过建立logistic回归、决策树、极限梯度增强、随机森林等模型，预测急性心肌梗死患者住院死亡率;其中，logistic回归模型表现最好(AUROC 0.870)。在本研究中，基于序列相似度的模型(对MIMIC-III数据集AUROC 0.883)对死亡率的预测性能优于上述模型。该模型成功地测量了患者之间的亲密度，有助于选择相似研究队列，并协助建立个性化预测模型。此外，我们发现序列相似性在识别最近邻居方面比趋势相似性更好。这一发现与患者的临床痕迹具有信息量的结论相吻合，相似的患者痕迹可能具有相似的终点[ 31］．

早期发现高危患者的终点是了解和改善预后的关键[ 5］．在我们的研究中，我们选择了住院期间的3个时间点:入院时、第7天和出院时。在每个时间点，所有可用的数据，包括顺序信息，用于预测急性心肌梗死患者的结局。对于死亡率的预测，除逻辑回归外，所有预测模型的性能都随着3个时间点的提高而提高。这一发现表明，序列数据有助于提高模型的性能。所涉及的顺序信息越多，预测性能就越好。这一发现验证了我们最初的假设，即纵向信息与患者相似度测量相结合将有助于更准确的结果预测。

为了预测非计划再入院，当使用整个住院期间的所有数据时，我们的模型在两个数据集上表现最好。这一发现充分表明，患者相似性可以显著提高再入院预测的性能。然而，在我们的研究中发现，再入院预测的预测结果并不令人满意，在其他研究中也发现了这一结果[ 4， 6］．原因可能是再入院情况是多因素的、复杂的，与患者的医疗保险、经济状况、个人因素等有关，很难预测[ 4］．此外，我们注意到所有模型在入院时和第7天的死亡率和再入院预测的表现都显著低于出院时的表现，可能是因为从出院开始的较长时间间隔的信息对结局预测没有用处。

这项研究有一些局限性。首先，趋势相似度也可以基于时间序列以异常状态的形式计算。这种方法需要在将来进行验证。第二，本研究中使用的患者信息不充分。心电图捕捉急性心肌梗死患者的生命体征和一种可以进行时间相似性计算的纵向信息。但是，私有数据集中没有此信息。因此，在进一步的研究中，应该收集心电图并用于相似度的测量。

在这项研究中，我们提出了一个完整的框架来衡量患者的相似性，使用序列和横断面信息。该方法成功地评估了序列相似性，帮助解决了不均匀电子病历数据相似性计算的挑战，并提高了预测患者结局的性能。

多媒体附件1

补充材料。

缩写

AUROC

接收机工作特性曲线下面积

MIMIC-III

重症监护医疗信息集市三

国家自然科学基金(81971707、81671786)和北京市基于大数据的精准医疗先进创新中心(PXM2021_014226_000026)资助。我们非常感谢侯银晶医生(首都医科大学附属同仁医院，中国北京)的临床建议。

没有宣布。

邱

余

王

姚

问

吴

年代

阴

傅

朱

张

兴

邓

杨

Lei

年代

电子健康记录驱动的妊娠早期糖尿病预测

Sci代表 2017 11 27 7 1 16417 13

10.1038 / s41598 - 017 - 16665 - y

29180800

10.1038 / s41598 - 017 - 16665 - y

PMC5703904

巴尔

米

,22

Yedidia

Locascio

新泽西

余

雷曼兄弟

高危乳腺病变:机器学习模型预测病理升级和减少不必要的手术切除

放射学 2018 03 17 286 3. 810 818

10.1148 / radiol.2017170549

29039725

锁

问

妈

元

淮河

米

钟

高

张

一个

面向个性化医疗的深度患者相似学习

IEEE Trans纳米生物科学 2018 7 17 3. 219 227

10.1109 / tnb.2018.2837622

张

阴

曾

元

张

为预测模型结合结构化和非结构化数据:一种深度学习方法

BMC Med通知Decis Mak 2020 10 29 20. 1 280 11

10.1186 / s12911 - 020 - 01297 - 6

33121479

10.1186 / s12911 - 020 - 01297 - 6

PMC7596962

Harutyunyan

Khachatrian

羽衣甘蓝

直流

版本Steeg

Galstyan

一个

利用临床时间序列数据进行多任务学习和基准测试

科学数据 2019 06 17 6 1 96 18

10.1038 / s41597 - 019 - 0103 - 9

31209213

10.1038 / s41597 - 019 - 0103 - 9

PMC6572845

Rajkomar

一个

奥伦

程ydF4y2Ba

戴

我

Hajaj

NgydF4y2Ba

哈特

米

刘

马库斯

太阳

米

桑德博格

绮

张

弗洛勒斯

达根

通用电气

欧文

勒

问

Litsch

Mossin

一个

Tansuwan

王

Wexler

威尔逊

路德维希

Volchenboum

周

皮尔森

米

Madabushi

年代

沙阿

孤峰

豪厄尔

医学博士

崔

柯拉

迪安

可扩展和精确的深度学习与电子健康记录

NPJ数字医院 2018 5 8 1 1 18 10

10.1038 / s41746 - 018 - 0029 - 1

31304302

PMC6550175

楚

越南盾

黄

使用电子健康记录预测心力衰竭的终点

J生物医学信息 2020 09 109 103518

10.1016 / j.jbi.2020.103518

32721582

s1532 - 0464 (20) 30146 - 5

埃斯特万

Staeck

Baier

年代

杨

Tresp

利用循环神经网络结合静态和动态信息预测临床事件

2016 11 8

IEEE医疗保健信息学国际会议

10月4 - 7

美国伊利诺伊州芝加哥市

93 101

10.1109 / ichi.2016.16

Parimbelli

马里尼

年代

萨基

Bellazzi

精准医疗的患者相似性:系统综述

J生物医学信息 2018 07 1 83 87 96

10.1016 / j.jbi.2018.06.001

29864490

s1532 - 0464 (18) 30107 - 2

Sharafoddini

一个

杜宾

晶澳

李

基于健康数据的预测模型中的患者相似性:范围回顾

JMIR Med Inform 2017 03 03 5 1 e7

10.2196 / medinform.6730

28258046

v5i1e7

PMC5357318

王

NgydF4y2Ba

黄

刘

张

魏

范

程ydF4y2Ba

基于半监督学习的异构电子病历患者相似度研究

BMC Med通知Decis Mak 2021 07 30. 21 增刊2 58 13

10.1186 / s12911 - 021 - 01432 - x

34330261

10.1186 / s12911 - 021 - 01432 - x

PMC8323210

王

NgydF4y2Ba

黄

刘

范

魏

赵

程ydF4y2Ba

基于电子病历的个性化预测建模中患者相似度的测量与应用

生物医学工程在线 2019 10 11 18 1 98 15

10.1186 / s12938 - 019 - 0718 - 2

31601207

10.1186 / s12938 - 019 - 0718 - 2

PMC6788002

李

程

Glicksberg

废话

戈特斯曼

的taml

程ydF4y2Ba

借钱

达德利

通过患者相似性拓扑分析鉴定2型糖尿病亚组

科学翻译医学 2015 10 28 7 311 311年ra174 15

10.1126 / scitranslmed.aaa9364

26511511

7/311/311ra174

PMC4780757

王

胡

太阳

基于患者相似度和专家反馈的医疗预后

第21届模式识别国际会议论文集 2013 2 14

第21届模式识别国际会议

11月11 - 15号

日本筑波

1799 1802

吴

罗伊

斯图尔特

使用电子病历数据的预测建模:挑战、策略和机器学习方法的比较

医疗保健 2010 06 48 6 5 S106 13

10.1097 / MLR.0b013e3181de9e17

20473190

李

Maslove

杜宾

晶澳

由电子医疗数据和患者相似度度量驱动的个性化死亡率预测

《公共科学图书馆•综合》 2015 5 15 10 5 e0127428

10.1371 / journal.pone.0127428

25978419

玉米饼- d - 14 - 53961

PMC4433333

太阳

胡

王

利用患者相似性进行个性化预测建模和风险因素识别

AMIA世界传播科学峰会 2015 2015 132 6

26306255

PMC4525240

太阳

播种

胡

Ebadollahi

年代

基于时间生理数据的局部监督度量学习

第20届模式识别国际会议论文集 2010 10 7

第20届模式识别国际会议

8月23日

土耳其伊斯坦布尔

4149 4152

10.1109 / icpr.2010.1009

常

刘

太阳

1987 - 2014年中国急性心肌梗死死亡率:长期趋势和年龄-时期-队列效应

国际J心脏 2017 01 15 227 229 238

10.1016 / j.ijcard.2016.11.130

27839815

s0167 - 5273 (16) 33590 - 2

20.

Mannila

摩恩

序列中事件类型之间的相似性

1999

第一届数据仓库和知识发现国际会议

9月1日

意大利的佛罗伦萨

271 280

10.1007 / 3 - 540 - 48298 - 9 - _29

摩恩

用于数据挖掘的属性、事件序列和事件类型相似度概念

赫尔辛基大学 2021-12-14

https://www.cs.helsinki.fi/u/ronkaine/phdthesis.pdf

戴安娜

卡瓦略

裴瑞兹

年代

罗查

Habetha

安图内斯

米

莫莱斯

远程监测数据趋势分析预测心力衰竭失代偿事件

IEEE生物医学健康信息 2015 9 19 5 1757 1769

10.1109 / jbhi.2014.2358715

黄金

Sharir

米

动态时间扭曲和几何编辑距离

ACM传输算法 2018 10 13 14 4 1 17

10.1145 / 3230734

勒姆

一个

Dittberner

米

Sintsova

一个

布罗德贝克

克劳萨默

米

纵向健康数据的患者相似性分析

ArXiv 预印本于2020年5月14日在线发布。

Giorgino

在R: dtw包中计算和可视化动态时间扭曲对齐

J Stat Soft 2009 31 7 1 25

10.18637 / jss.v031.i07

Panahiazar

米

Taslimitehrani

佩雷拉

NgydF4y2Ba

帕沙克

使用EHRs进行心衰治疗建议，使用多维患者相似性分析

种马健康技术通知 2015 210 369 73

25991168

PMC4899831

MIMIC-III

重症监护医疗信息集市 2020-06-20

https://mimic.physionet.org/

约翰逊

波拉德

沈

雷曼兄弟

韩

冯

米

Ghassemi

米

喜怒无常的

医学信息学

附加评论

狮子座安东尼

马克

这是一个免费访问的重症监护数据库

科学数据 2016 05 24 3. 160035

10.1038 / sdata.2016.35

27219127

sdata201635

PMC4878278

Shadmi

Flaks-Manov

NgydF4y2Ba

Hoshen

米

高盛

Bitterman

Balicer

运行维

利用入院前电子健康记录数据预测30天内的再入院情况

医疗保健 2015 03 53 3. 283 9

10.1097 / MLR.0000000000000315

25634089

30.

阮

Tran

Wickramasinghe

NgydF4y2Ba

马纳尔

年代

Deepr:用于医疗记录的卷积网络

IEEE生物医学健康信息 2017 1 21 1 22 30.

10.1109 / jbhi.2016.2633963

黄

华瑞兹市

段

李

利用时间相似性预测临床治疗过程的住院时间

专家系统应用 2013 11 40 16 6330 6339

10.1016 / j.eswa.2013.05.066

戈特利布

一个

斯坦

孔侑

Ruppin

奥特曼

夏朗

一种根据病人的相似性来推断医学诊断的方法

BMC医学 2013 09 02 11 1 194 9

10.1186 / 1741-7015-11-194

24004670

1741-7015-11-194

PMC3844462

陆

杜

Hadjieleftheriou

米

Ooi认为

公元前

使用b -树有效地支持基于编辑距离的字符串相似度搜索

IEEE反式。"。数据中 2014 12 1 26 12 2983 2996

10.1109 / tkde.2014.2309131

姜

林

妈

张

RNA结构之间的一般编辑距离

计算生物学 2002 04 9 2 371 88

10.1089 / 10665270252935511

12015887

例如

米

Hassouni

一个

Mok

Ghassemi

米

医学信息学

使用患者比较与建模的预测:死亡率预测的案例研究

2016

第38届IEEE医学与生物工程学会国际年会

8月16 - 20

佛罗里达州奥兰多市

2464 2467

10.1109 / embc.2016.7591229

郭

问

吴

米

李

宏伟

欧阳

Huijun

太阳

Runlu

王

俊杰

刘

Zhaoyu

王

Jingfeng

张

玉玲

重症监护病房心肌梗死患者预后nomogram的开发和验证:一项回顾性队列研究

BMJ开放 2020 12 17 10 12 e040291

10.1136 / bmjopen - 2020 - 040291

33334835

bmjopen - 2020 - 040291

PMC7747593

姜

薄

徐

首歌

王

温

王ydF4y2Ba

杨

邓

扁

一种可解释的机器学习算法，用于ICU再入院的败血症幸存者住院死亡率的风险因素分析

计算方法程序生物医学 2021 06 204 106040

10.1016 / j.cmpb.2021.106040

33780889

s0169 - 2607 (21) 00115 - 2

苏雷什

龚

Guttag

多任务学习的学习任务

第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集 2018

第24届ACM SIGKDD知识发现与数据挖掘国际会议

8月19号

英国伦敦

802 810

10.1145/3219819.3219930

风扇

赵

宇卓

李

Peiyao

刘

小丽

贾

丽江

李

开

冯

琮

锅

范

李

Tanshi

张

Zhengbo

曹

德森

【重症医疗信息市场III数据库疾病分布分析】

中华卫中兵集九义学 2018 06 30. 6 531 537

10.3760 / cma.j.issn.2095-4352.2018.06.006

30009726