JMIR医学信息学-人工智能架构下使用医疗索赔数据预测心血管疾病患者死亡率:验证研究

原始论文

¹澳大利亚伯伍德迪肯大学信息技术学院

²澳大利亚拉筹伯大学计算机科学与信息技术系

通讯作者:

迟联华，博士

计算机科学与信息技术系

拉筹伯大学

贝丝格里森大厦2楼242号

拉筹伯大学

Bundoora 3086

澳大利亚

电话:61 94792454

电子邮件:l.chi@latrobe.edu.au

背景:心血管疾病(CVD)是澳大利亚最大的健康问题，它导致的死亡人数超过任何其他疾病，并为医疗保健系统带来巨大的成本。在这项研究中，我们提出了各种人工智能(AI)架构的基准比较，用于使用结构化医疗索赔数据预测心血管疾病患者的死亡率。与临床文献中的其他研究相比，我们的模型更有效，因为我们使用的特征数量更少，这项研究可以帮助卫生专业人员准确地选择AI模型来预测CVD患者的死亡率，仅使用门诊就诊前的索赔数据。

摘要目的:本研究旨在支持健康临床医生准确预测心血管疾病患者的死亡率，仅使用门诊就诊前的索赔数据。

方法:该数据集来自澳大利亚卫生部于2016年发布的2004年至2014年期间的医疗保险福利计划和药品福利计划服务信息。包括346201条记录，对应346201名患者。本研究共开发并比较了五种人工智能算法，包括四种经典机器学习算法(逻辑回归[LR]、随机森林[RF]、额外树[ET]和梯度增强树[GBT])和一种深度学习算法(即密集连接神经网络(DNN))。此外，由于少数的已故的在数据集中的患者中，使用合成少数过采样技术(SMOTE)进行单独实验以丰富数据。

结果:在模型性能方面，GBT和RF是接收者工作特征曲线下面积最大的模型(分别为97.8%和97.7%)，其次是ET(96.8%)和LR(96.4%)，而DNN的鉴别能力最低(95.3%)。在可靠性方面，与其他四种算法相比，LR预测是最少校准的。在本研究中，尽管增加了训练时间，但SMOTE被证明可以进一步提高LR的模型性能，而其他算法，特别是GBT和DNN，可以很好地处理类不平衡数据。

结论:与临床文献中涉及使用索赔数据预测患者健康结果的人工智能模型的其他研究相比，我们的模型更高效，因为我们使用的特征数量更少，但仍然达到了高性能。这项研究可以帮助卫生专业人员准确地选择人工智能模型，仅使用门诊就诊前的索赔数据来预测心血管疾病患者的死亡率。

中国生物医学工程学报;2011;29 (4):888 - 888

doi: 10.2196/25000

关键字

死亡率；心血管；医疗索赔数据；不平衡数据；机器学习；深度学习

背景

在澳大利亚，心血管疾病(CVD)是最令人担忧的健康问题，它导致的死亡人数超过任何其他疾病，并因巨大的成本给卫生保健系统带来沉重负担，并因由此导致的残疾给个人和社区带来沉重负担。1997年，心血管疾病是澳大利亚人死亡的主要原因，造成52,641人死亡，占所有死亡人数的41% [1]。根据澳大利亚统计局2017-2018年全国健康调查的自我报告数据，2017-2018年，估计有120万(5.6%)18岁及以上的澳大利亚成年人患有一种或多种与心脏或血管疾病相关的疾病，包括中风。2017-2018年按年龄组和性别分列的心血管疾病患病率见表1．

表1。2017-2018年按年龄组和性别分列的心血管疾病患病率。

年龄组别(岁)	男人,n^一个	女性,n^一个	总n^一个	男性，% (95% CI)^b	女性，% (95% CI)^b	总数，% (95% CI)^b
18-44	31400年	56600年	88000年	0.7 (0.3 - -1.1)	1.2 (0.7 - -1.8)	1.0 (0.7 - -1.3)
45 - 54	50600年	42300年	92900年	3.3 (2.4 - -4.2)	2.6 (1.7 - -3.5)	3.0 (2.4 - -3.6)
55 - 64	136700年	114700年	251500年	10.0 (7.6 - -12.4)	7.9 (6.0 - -9.9)	8.9 (7.4 - -10.5)
65 - 74	208900年	135600年	344500年	19.8 (17.2 - -22.4)	12.2 (10.0 - -14.4)	15.9 (14.3 - -17.5)
75 +	213200年	160100年	373300年	32.1 (27.1 - -37.0)	20.3 (17.5 - -23.1)	25.7 (23.1 - -28.2)
人数/年龄标准化率^c）	640800年	509300年	1150200年	6.5 (5.9 - -7.0)	4.8 (4.3 - -5.3)	5.6 (5.2 - -5.9)

^一个由于四舍五入，组成项目的总和和总数之间可能会出现差异。

^bCI是一个统计术语，描述我们可以“确信”真实值所在的值范围(区间)，通常是因为它有95%或更高的机会这样做。

^c年龄标准化为2001年澳大利亚标准人口(来源:AIHW对ABS 2019的分析)。

心血管疾病的主要危险因素是吸烟、高血压、高胆固醇、超重、运动不足、大量饮酒和2型糖尿病[1]。心血管疾病治疗通常与其他药物联合使用，如抗糖尿病药、抗高血压药、降脂药、抗凝血药和抗血小板药[2]。对于被诊断为心脏病的患者来说，除了健康饮食和定期体育锻炼外，药物使用是一个重要的管理因素。药物治疗可以减轻症状，降低病情恶化的风险，提高生活质量。

通过使用多种算法和预测变量，已经开发了许多方法来预测心血管疾病患者的死亡率。预测死亡率有三种主要方法:解释、期望和外推[3.]。其中，预测死亡率最常见的基础是外推法，它假设未来的状态与过去高度相关。在临床文献中，历史电子健康记录(EHRs)被广泛用于开发可以预测患者健康结果的人工智能(AI)模型。通常从电子病历中提取的信息作为人工智能模型的输入，包括患者人口统计、健康指数、医疗条件、生物医学图像或临床记录，而很少使用结构化医疗索赔数据。虽然医疗索赔数据不能充分说明患者的健康状况，但这一信息来源对于反映患者获得医疗保健的频率和参与疾病预防或治疗的程度至关重要，这对患者的健康结果有很大影响。

在这项研究中，我们对不同的人工智能架构的性能进行了基准比较:4种经典的机器学习(ML)算法(逻辑回归[LR]、随机森林[RF]、额外树[ET]和梯度增强树[GBT])和一种深度学习算法，该算法是一个密集连接的神经网络(DNN)，它使用来自历史索赔数据的医疗调度和药物分配信息来预测心血管疾病患者的死亡率。与临床文献中涉及使用索赔数据预测患者健康结果的人工智能模型的其他研究相比，我们的模型更高效，因为我们使用的特征数量更少，但仍然达到了高性能。此外，我们还提出了合成少数派过采样技术(SMOTE)，这是一种丰富训练数据和处理类不平衡的技术，作为提高所开发的人工智能模型性能的工具。

目标

本研究的主要目的是支持健康临床医生在门诊就诊前仅使用索赔数据准确预测心血管疾病患者的死亡率。与临床文献中涉及使用索赔数据预测患者健康结果的人工智能模型的其他研究相比，我们的模型更高效，因为我们使用的特征数量更少，但仍然达到了高性能。本研究应用于支持健康临床医生准确预测心血管疾病患者的死亡率，仅使用门诊就诊前的索赔数据。

人工智能架构

在这项研究中，使用了4种经典的ML算法架构，即LR、RF、ET和GBT，以及一种称为DNN的深度学习算法来开发死亡率预测模型。MBS和PBS数据集结构良好，信息丰富，允许简单的算法更好地学习。由于我们的研究是一个概率预测问题，所以我们更重视模型性能的判别和校准。通过最初的实验，我们发现LR、RF、ET和GBT是经典的机器学习算法，在这两个标准方面产生了最好的性能。另一方面，我们对最先进的深度学习算法在数据集上的表现感到好奇。我们开发了最简单的神经网络，DNN，用于进一步的比较和洞察。我们选择不开发更复杂的深度学习架构，如RNN或CNN，因为这些算法对于这种结构化数据集的良好表现不是必需的。在本节中，描述了这些实验算法并提出了它们的架构。

逻辑回归

LR是一种监督式机器学习算法。对于二元分类问题，它是一种强大而成熟的方法[22]。LR在线性回归的基础上进行了扩展，可以通过给一些预测变量(特征)分配权重来计算具有两种可能结果的事件的概率。给定一组自变量

x₁, x₂, x_3.x、…_n （1）

因变量y，它取0到1之间的值，首先，LR被设计为找到一组权重

b₁b₂b_3.b、…_n (2)

对于每一个自变量，使下面的线性方程输出一个logit分数:

Logit = b₀+ b₁x₁+ b₂x₂+ b_3.x_3.+……+ b_nx_n （3）

由这个logit分数，概率y由下式得到:

要使用LR作为二元分类器，必须分配一个阈值来区分两个类。通常情况下，LR会对P>的输入实例进行分类。50为阳性班级;否则，它被归类为负类。根据问题的不同，0和1可以被翻译成不同的含义。

随机森林

在描述RF算法之前，理解决策树算法的概念是很重要的[23]。DT是最简单、最早的机器学习算法之一。它将决策逻辑结构为树状模型。DT树中的节点被划分为不同的层次，其中最上面的节点称为根节点，而至少有一个子节点的其他节点表示对输入变量/特征的测试[24]。根据测试的某些准则，向叶节点重复地将较高的节点分成较低的节点[25]，它们根本没有子代，并与决策结果相对应。中给出了一个简单DT的示例图1．根据图1，三个圆圈-性别，年龄和A10-是在相应的输入变量上进行测试，而最后的菱形是分类结果(已故的或活着)．

RF是由许多dt组成的集成分类器，类似于有许多树的森林[26]。RF中的不同dt使用训练数据集的不同部分进行训练，并在输入变量的不同子集上进行测试。为了对一个新实例进行分类，实例的输入向量被推入林中的每个DT。每个DT对输入向量的不同部分做出决策，并提供分类结果。然后，在分类问题中，森林通过多数投票进行最终预测，在回归问题中，森林通过算术平均进行最终预测。由于RF算法汇总了来自许多不同DT的结果来做出决策，因此与考虑同一数据集的单个DT相比，结果具有较小的方差。此外，与其他基于树的集成类似，RF中每棵树的变量都是随机的，而节点分裂切割点根据准则进行局部优化[26]。图2说明了射频算法。如图所示图2，训练数据集被随机分成森林中所需数量的树，然后使用每个随机子样本来训练决策树，该决策树在随机选择的输入变量子集上进行测试。

额外的树

极端随机树或ET算法也是由许多类似于RF的单个dt组成的集成分类器。ET方法还使用随机的特征子集来训练每个基估计器[27]。然而，RF与其他基于树的集成方法的两个主要区别在于，RF通过完全随机选择切割点(或随机选择阈值)来分割节点，并且RF使用整个学习样本来生长集成中的每个树，而不是训练数据的子集[28]。最终产生的预测是所有训练树的预测的总和，分别由分类问题或回归问题中的多数投票或算术平均产生。在偏倚方差方面，ET能够比其他集成方法使用的弱随机化方案更有效地减小方差。另一方面，使用完整的训练样本而不是bootstrap批次来训练每个基估计器，以尽量减少偏差[28]。ET模型的简单说明见图3．

梯度增强树

GBT是另一种流行的ML算法，它使用基于树的集成方法，由Friedman首先提出[29]。该方法通过最小化损失函数来训练学习者(决策树)，损失函数是使用梯度下降法计算的[30.]。为了训练一个GBT，该算法首先从学习样本中选择一个非常简单的决策树，具有相等的权重。在这个弱学习器的结果基础上，它尝试创建一个新的学习器，该学习器为更难分割的节点分配更高的权重，为更容易分割的节点分配更低的权重[30.]。通过这样做，新的学习者能够将以前的学习者的错误最小化。随着这一过程的进行，损失函数得到优化[29]，使得每个新模型与观测数据的拟合度更好。图4说明了GBT算法的原理。

密集连接神经网络

人工神经网络(ANN) [3.是一种深度学习架构，可以复制人脑中的神经元系统。麦卡洛克和皮茨[31]首先提出了人工神经网络，后来Rumelhart等人的研究工作使这一概念得到推广[32]。在人脑中，神经元通过无数的轴突连接连接在一起[33并负责适应、处理和存储信息(输入)和(输出)从大脑。同样，人工神经网络有数百甚至数千个被称为处理单元的人工神经元，它们通过节点相互连接。在人工神经网络体系结构中，根据节点在数据上实现的激活，将节点分组为层。在人工神经网络中，一个节点的输出是另一个节点的输入。随后，输入节点在接收到来自前一个输出节点的信息后，基于内部加权系统，尝试产生下一个输出。通过反复训练，权重系统可以放大或削弱节点之间的通信水平。经过成熟的训练，优化权值系统，训练后的人工神经网络可以预测测试数据。由于人工神经网络可以由许多层和神经元组成，因此该方法被认为是一种深度学习算法。目前文献中使用了许多类型的人工神经网络，包括前馈神经网络、递归神经网络、卷积神经网络和模块化神经网络。在本研究中，由于我们的输入数据结构良好，允许神经网络有效地学习，我们提出了最简单的ANN形式，即DNN。图5如图所示，所提出的深度神经网络具有3个隐藏层。

基准数据

2016年8月1日，卫生部在data.gov.au上发布了约10亿行匿名历史健康数据，涉及约300万澳大利亚人。公布的信息包括卫生专业人员向澳大利亚人提供的医疗服务的细节，以及补贴信息的细节。研究机构、卫生专业人员和大学可以获得随机抽取的10%澳大利亚人的索赔数据。数据发布包括历史医疗数据(从1984年)和PBS数据(从2003年)到2014年。该版本包括2个文件，对应于2种类型的服务信息(MBS和PBS)和一个单独的患者人口统计文件。本研究使用的数据集根据患者id从MBS和PBS服务信息和患者人口统计数据中获得。它最初包括346201条记录，对应346201名患者;然而，19名信息不充分的患者被剔除。排除后，最终数据集共包括346,182名患者。

数据集包括四类变量(即特征):

人口统计变量:出生年份、性别、年龄(计算至2015年1月1日)。
数值变量:数据集中共有13项连续测量，包括MBS记录数、州数、收取的医疗费用总额、医保计划费用总额、支付的医疗回扣总额、MBS服务总数、患者接受医疗服务的总时间、PBS记录数、患者的PBS编码数、政府支付的用药费用总额、自付的用药费用总额、处方总数和获得PBS服务的患者总持续时间。
分类变量:这是根据解剖治疗化学代码和患者状态分类的3种相关药物。所提供的药物是用于糖尿病的药物(代码:A10)，用于心血管系统和高血压的药物(代码:C0)，以及用于高胆固醇患者的脂质调节剂或药物(代码:C10)。
日期变量:4个日期变量包括第一个医疗时间表的日期、最后一个医疗时间表的日期、第一个PBS索赔的日期和最后一个PBS索赔的日期。

在这些变量中，除出生年份、年龄、数值变量保持不变外，其余变量转换为:将性别、用药变量映射为二值，将患者状态转换为6个二值变量对应6种状态。使用出生年份、第一次医疗计划日期和第一次PBS索赔日期分别计算患者第一次医疗计划和第一次PBS索赔的年龄，然后将其删除。关于预测目标变量，由于PBS和MBS索赔数据本身不包括有关患者健康结果的信息，因此必须推断标签。在最后一次医疗计划日期和最后一次PBS索赔日期之间，后者用于计算患者在2015年1月1日之前停止PBS和MBS服务的持续时间。根据这个计算，任何停止PBS和MBS超过180天(6个月)的患者都被标记已故的,否则活着．预处理后的数据集有26个特征和1个用于模型开发的标签。

在特征缩放方面，对每个特征值进行标准化，使其以单位标准差的均值为中心。这意味着该属性的平均值变为零，所得分布具有单位标准差[34]。这一步允许算法有效地学习，因为它消除了对跨越不同程度的幅度、范围和单位的多个特征的敏感性。

在分类分布方面，在346182名患者中，只有93164名患者被归为已故的组，而其余的都是活着病人。这反映了班级分布的高度不平衡，这可能会影响不频繁班级的学习表现[35因为缺少样品。为了解决这个问题，我们使用SMOTE进行了一个单独的实验，以丰富训练集。

评价指标

描述性统计用于了解研究人群的特征，按健康结果状态(即活着或死亡)分层。从训练集中得到模型，然后在测试集上通过计算传统的准确率、精度和召回分数来评估模型，并添加brier loss。此外，报告歧视和校准对于评估预测模型很重要[36]。还计算了受试者工作特征曲线(AUROC)评分下的面积和绘制的可靠性图(校准曲线)，以评估人工智能模型的性能。

scikit-learn的Brier loss通过计算分配给可能类别的预测概率与实际类别之间的均方差来衡量概率预测的准确性。它由精化损失和校准损失组成，因此一组预测的Brier分数越低，预测校准越好或模型越好。
AUROC评分用于衡量该模型在死亡率方面将随机死亡患者排名高于随机存活患者的概率。AUROC分数越高，意味着该模型区分死亡种群和活着种群的能力越强。
校准曲线，一种可靠性图，是观察到的相对频率与预测概率频率的线形图。从左下到右上沿主对角线的点越接近，预测的校准就越好，模型就越可靠[37]。

Hyperparameters

为了建立模型，将研究人群分层为训练集和测试集，训练集导出死亡风险算法，测试集应用和测试算法。训练集占研究数据集的90.00%(311,564/346,182)，测试集占剩余的10.00%(34,618/346,182)。训练集和测试集在患者水平上按类别比例进行分层，使患者不同时出现在训练集和测试集中，患者标签的比例(已故的或活着)与研究人群的相同。分层分配后，通过使用5倍交叉验证的网格搜索来确定超参数，以确定导致最佳精度的值。在网格搜索之后，将每个算法调整到具有最佳超参数的训练集，从而得到最终模型。表2给出了4种算法的参数搜索空间和网格结果。

表2。网格搜索的超参数。

算法及参数名称			搜索空间		最优
逻辑回归
	点球 ‎ C ‎ 托尔 ‎ 解算器 ‎ multi_class ‎	(' l1 '， ' l2 '， ' none ') ‎ (0.01, 0.1, 1.0) ‎ (0.0001, 0.001, 0.01) ‎ (' lbfgs ', ' liblinear ',“凹陷”,“传奇”)(“汽车”、“表达”,“多项”) ‎		l2 ‎ 1．0 ‎ 0.0001 ‎ lbfgs ‎ 汽车 ‎
随机森林
	n_estimators ‎ max_depth ‎ max_features ‎ min_samples_splitmin_samples_leaf ‎	(5、10、50、100、150) ‎ (1,2,3,5，无) ‎ ('汽车',“√”) ‎ (2,5,10) ‎ (1,2,4) ‎		One hundred. ‎ 没有一个 ‎ 汽车 ‎ 2 ‎ 1 ‎
额外的树
	n_estimators ‎ max_depth ‎ max_features ‎ min_samples_splitmin_samples_leaf ‎	(5、10、50、100、150) ‎ (1,2,3,5，无) ‎ ('汽车',“√”) ‎ (2,5,10) ‎ (1,2,4) ‎		One hundred. ‎ 没有一个 ‎ 汽车 ‎ 2 ‎ 1 ‎
梯度增强树
	损失 ‎ n_estimators ‎ max_depth ‎ learning_rate ‎ 标准 ‎	(“异常”、“指数”) ‎ (5、10、50、100、150) ‎ (1,2,3,5) ‎ (0.001, 0.01, 0.1) ‎ (' friedman_mse '， ' mse '， ' mae ') ‎		异常 ‎ One hundred. ‎ 3. ‎ 0.1 ‎ friedman_mse ‎

经过网格搜索，发现LR具有L2正则化，也称为Ridge回归[38]，在交叉验证中产生最准确的预测，其C值和容忍率分别为1.0和0.0001。这可以解释为我们的数据集特征较少，进行了L1正则化，这是Lasso回归，可以很好地用于高维数据集的特征选择[39，不太有利。其次，利用max_depth进行网格搜索，RF和ET均获得了最优精度没有一个计划。根据scikit-learn团队的说法，在这个方案中，节点被扩展，直到所有叶子都是纯的，或者直到所有叶子包含的样本都少于min_samples_split，在这两种情况下，min_samples_split样本都被优化为2。此外，两种算法中生长的树的数量是相同的，都是100 (n_estimators)。最后，利用偏差损失函数最小化GBT中的误差;还有100棵树，最大节点数为3。

为了建立DNN模型，研究人群被分层为训练集和测试集，比例分别为90%和10%。然后以相同的比例将训练集分解为训练集和验证集。验证集的目的是在调整模型权重的同时提供对模型的无偏评估[40]。输入层有26个单位对应于特征的数量，而输出层有一个单位。在最后一步，使用sigmoid作为激活函数，返回最终输出的sigmoid值。所使用的深度神经网络架构由3个完全连接的隐藏层组成。每个隐藏层神经元数分别为128、64和32，采用整流线性单元作为激活函数。在训练过程中，采用均匀初始化方法初始化DNN的参数[41]。对于每一批训练数据，逐步修改深度神经网络的参数，降低损失函数的交叉熵。设置回调，当模型达到AUROC的最大值时，在10次循环后停止训练过程。

训练过程结束后，使用holdout(10%)测试集对所有模型进行评估。最后的结果进行比较，并用于提出建议。

模型的性能

在我们的实验中，我们使用原始学习样本对模型进行训练，然后应用SMOTE进一步提高模型的性能。

无SMOTE时的性能

没有SMOTE的模型性能细节见表3．在调整多重比较后，RF(98.5%)、GBT(98.4%)、LR(97.8%)、ET(97.9%)和DNN(97.1%)的准确率无显著差异。在歧视方面，GBT和RF的AUROC最高(分别为97.8%和97.7%)，其次是LR和ET(分别为96.4%和96.8%)，而DNN的歧视程度最低(95.3%)。就brier损失而言，GBT和RF在分配给预测类别的概率与实际类别的概率之间产生的差异最小(均为0.012)，而DNN预测显示的差异最大(0.024)。

表3。没有合成少数派过采样技术的机器学习模型的性能指标。

算法	精度	接收机工作特性曲线下的面积	精度	回忆	荆棘损失
逻辑回归	97.8	96.4	98.5^一个	93.4	0.016
随机森林	98.5^b	97.7	98.1	96.1	0.012^c
额外的树	97.9	96.8	98.1	94.2	0.016
梯度增强树	98.4	97.8^d	97.5	96.5^e	0.012^c
人工神经网络	97.1	95.3	96.6	91.8	0.024

^一个最高精度。

^b精度最高。

^c最小的Brier损失。

^d接收机工作特性曲线下的最高面积。

^e最高的回忆。

根据表4从训练时间来看，LR优于其他训练时间小于1 min的模型。然而，深度神经网络的训练时间长达30分钟。这可以用两种算法的复杂程度来解释;LR是一个基于线性回归方程的非常简单直接的模型，而DNN是一个由许多神经元、层和更复杂的激活函数组成的体系结构。

显然，我们所有的模型都显示了这两个类的非常相似的行为(图6-10)．根据混淆矩阵，RF和GBT设法识别已故的患者比其他算法准确率更高。与其他模型相比，DNN分类的数量更多已故的病人活着．

表4。无合成少数派过采样技术的机器学习模型的训练时间。

算法	训练时间(秒)
逻辑回归	6.6^一个
随机森林	106.8
额外的树	46.8
梯度增强树	186
人工神经网络	1277.4

^一个最少的训练时间。

在预测信度方面，中5个模型的校准曲线图11-20.与其他4种算法相比，LG的校准程度最低，在所有概率水平上都高度高估了患者的死亡风险。对于死亡率较低的患者，RF得到了很好的校准，当风险概率超过50%时，RF高估了死亡风险。ET的拟合优度仅在30%的死亡概率中出现，而它分别低估和高估了死亡概率较低和较高的患者的风险。GBT和DNN的预测是最准确的，而DNN略微高估了患者的死亡概率，分别大于10%和小于90%。

使用SMOTE的性能

使用SMOTE的模型性能细节见表5，其校正图显示于图8．可以看出在表5， SMOTE略微提高了5个型号的性能(斜体)。然而，它有助于显著校准LR的预测。上采样后，LR模型不再高估患者的死亡风险，其预测更接近完美校准线。与此同时，ET现在被认为在预测死亡风险在50%到60%之间的患者时具有拟合优度，但仍然分别低估和高估了低和高死亡风险的患者。另一方面，射频预测从对小于50%的死亡风险概率进行良好校准并高估较高的死亡风险概率变为对大于80%的死亡风险概率进行良好校准并低估其余的死亡风险概率。更有趣的是，DNN和GBT受到上采样技术的对抗效应的影响，通常低估了风险。

表5所示。基于合成少数派过采样技术的机器学习模型性能指标。

算法	精度	接收机工作特性曲线下的面积	精度	回忆	荆棘损失
逻辑回归	98.2	97.4	97.3^一个	95.9	0.015
随机森林	98.4^b	98.0^c	96.8	97.3	0.012^d
额外的树	98.1	97.4	97.1	95.8	0.016
梯度增强树	98.1	97.9	95.2	97.7^e	0.014
人工神经网络	96.7	96.2	93.0	95.1	0.026

^一个最高精度。

^b精度最高。

^c接收机工作特性曲线下的最高面积。

^d最小的Brier损失。

^e最高的回忆。

总之，SMOTE只有助于进一步提高LG的模型性能和预测校准。同时，使用或不使用SMOTE并不影响RF和ET在预测CVD患者死亡率方面的表现。最后，SMOTE在GBT和DNN模型中引入了一个对抗效应，使它们的预测不那么可靠，这两个模型已经可以很好地处理类不平衡数据。

在培训时间方面，如表6，使用SMOTE需要更多的算法计算时间。然而，即使应用SMOTE, LR仍然是最省时的模型，与使用原始数据的LR相比，它在AUROC、召回率和brier loss方面具有更高的准确性和更好的预测性能。此外，SMOTE帮助LR优于ET，成为仅次于RF的第二优算法。显然，在将SMOTE引入表中时，ET和LR值得考虑用于该数据集。

表6所示。基于合成少数派过采样技术的机器学习模型的训练时间。

算法	训练时间(秒)
逻辑回归	292.9^一个
随机森林	497.9
额外的树	347.5
梯度增强树	648.1
人工神经网络	5480.3

^一个最少的训练时间。

主要研究结果

这项研究表明，结构化的医疗和制药索赔数据可以用作人工智能模型的输入，以准确预测心血管疾病患者的死亡风险。本研究训练的LR、RF、ET、GBT和ANN模型在预测死亡率方面具有较高的准确率(97.0% ~ 98.0%)和判别性(AUROC 95.0% ~ 98.0%)，远高于Cox比例风险模型等传统统计模型[42]或使用传统电子健康记录训练的模型[43-45]。

虽然5种实验算法的准确率没有统计学差异，但RF模型比其他模型有优势。此外，RF模型在召回和短暂损失方面优于其他模型。在识别和校准方面，GBT被证明是最优越的。如果没有SMOTE, LR无法进行高度校准的预测，而使用SMOTE可以显著提高模型预测的可靠性。所有具有SMOTE的模型都具有非常高的精确度(93.0%-97.0%)和召回率(95.0%-97.0%)，特别是与文献中发表的其他未处理类别不平衡的LR和RF预测模型相比[44，45]。另一方面，尽管在实验算法中，人工神经网络的性能是最中等的，但即使在类不平衡的数据下，它也被证明是有效的。研究还表明，如果应用更多的特征工程技术，人工神经网络能够比其他ML算法更准确地预测心血管疾病死亡率[46，47这表明这是一个非常有前途的进一步研究领域。

据我们所知，这是第一项比较人工智能算法使用医疗和制药索赔数据来预测大型普通心脏病人群死亡率的研究。与先前开发的基于ml的心脏病学预后工具不同，该工具使用患者的临床信息，包括临床特征[43-45]，我们的模型仅接受心血管疾病患者索赔数据的训练。这些索赔数据主要提供有关患者医疗计划和药物配药历史的信息，这些信息反映了患者的疾病治疗费用、访问模式和药物，但不反映患者的健康状况或其他临床指标。此外，与之前发表的心脏病学分类器相比，我们的模型使用了更少的特征，并且比之前在普通心脏病学环境中训练的模型相对更有效。

限制

尽管有很高的精度和很强的辨别能力，一些模型，包括射频、ET和人工神经网络，仍然没有产生最佳的校准。这意味着预测概率的分布和行为与训练数据中观察到的概率的分布和行为不相似。为了提高人工智能算法的可靠性，应该研究其他技术来更好地校准和提高这些模型的性能，尤其是人工神经网络。

结论

我们开发、验证并比较了5种人工智能架构来预测心血管疾病患者的死亡率。根据评估结果，我们可以得出以下结论或见解，有助于人工智能模型的选择:(1)在没有健康指标或健康状况信息的情况下，人工智能架构仅使用医疗计划和药品调剂索赔数据就可以准确预测CVD患者就诊前的死亡率;(2)虽然不同人工智能实验算法的准确率差异无统计学意义，但基于树的模型，即RF和GBT模型相对于其他模型具有优势;(3)虽然基于回归的LR方法由于缺乏少数类样本而产生的预测具有最低的校准水平，但上采样技术(即SMOTE)有助于显著提高该算法预测的可靠性;(iv)基于树的算法和密集连接的神经网络在处理类不平衡数据时表现良好。最后，本研究显示了基于结构化医疗调度和药物调剂索赔数据的不同人工智能架构在识别有死亡风险的心血管疾病患者方面的可行性和有效性;人工智能算法可以成为精确决策的有用工具。考虑到人工神经网络的巨大潜力，未来的研究应该着重于提高该算法的预测性能。这表明，如果应用更多的特征工程技术，人工神经网络能够比其他ML算法更准确地预测心血管疾病死亡率，这表明它们是一个非常有前途的进一步研究领域。

致谢

作者要感谢拉筹伯大学的Dennis Wollersheim博士和Shaun Purkiss博士帮助他们准备了本研究中使用的数据集。

利益冲突

没有宣布。

AIHW。心血管疾病:澳大利亚事实2011。: AIHW;猫。no: CVD 53。澳大利亚:AIHW;2011:53。
刘建军，刘建军，刘建军，刘建军，等。心血管预防治疗的联合处方模式:阿拉贡工人健康研究的横断面研究(西班牙)。英国医学杂志2019年4月14日;9(4):e023571 [j]免费全文] [CrossRef] [Medline］
李建军，李建军，李建军，等。中国人口寿命预测的实证研究——以中国人口为例。2013年8月27日;29:323-354。［CrossRef］
Booth H, Tickle L.死亡率模型和预测:方法综述。精算师学报，2011,31(1):1- 3。［CrossRef］
Mortazavi BJ, Bucholz EM, Desai NR, Huang C, Curtis JP, Masoudi FA，等。机器学习方法与国家心血管数据登记模型预测经皮冠状动脉介入术后出血风险的比较JAMA Netw Open 2019 july 03;2(7):e196835 [j]免费全文] [CrossRef] [Medline］
克利奥帕斯TJ，兹温德曼AH。机器学习和未解决的问题。In:医学中的机器学习。多德雷赫特:施普林格;2013:205 - 214。
Weng SF, Reps J, Kai J, Garibaldi JM, Qureshi N. .机器学习能提高心血管风险预测吗?PLoS One 2017; 4 (4):e0174944 [j]免费全文] [CrossRef] [Medline］
苏明，李建军，李建军，李建军，等。基于神经网络的放射性肺炎发病预测研究。中华医学杂志2005;32(2):318-325。［CrossRef] [Medline］
王铮，朱勇，李东，尹勇，张杰。基于特征重排的深度学习系统预测心力衰竭死亡率。计算机工程学报(英文版);2009;31(1):553 - 553。［CrossRef] [Medline］
洪振宇，陈万成，Lal PT, Lee CC.深度神经网络与其他机器学习算法在基于大规模人口的电子医疗索赔数据库中的脑卒中预测比较。见:第39届IEEE医学与生物工程学会(EMBC)国际年会论文集。2017年发表于:在基于大规模人口的电子医疗索赔数据库中比较深度神经网络和其他机器学习算法用于中风预测，第九届IEEE医学与生物工程学会(EMBC)国际年会上;2017年7月11日至15日;济州岛，韩国(南)页3110-3113。［CrossRef］
Nirschl JJ, Janowczyk A, Peyster EG, Frank R, Margulies KB, Feldman MD，等。科学通报，2018;13(4):e0192726 [j]免费全文] [CrossRef] [Medline］
Martin-Isla C, Campello VM, Izquierdo C, raisi - establragh Z, Baebler B, Petersen SE，等。基于图像的心脏诊断与机器学习:综述。前沿心血管医学2020年1月24日;7:1 [免费全文] [CrossRef] [Medline］
Kilic A.人工智能和机器学习在心血管健康护理中的应用。中华外科杂志;2009;31(5):1323-1329。［CrossRef] [Medline］
Small AM, Kiss DH, Zlatsin Y, Birtwell DL, Williams H, Guerraty MA等。文本挖掘应用于电子心血管手术报告，以识别患有三瓣主动脉狭窄和冠状动脉疾病的患者。[J]中国生物医学工程学报，2017,28 (2):591 - 591 [J]免费全文] [CrossRef] [Medline］
褚健，董伟，何凯，段宏，黄铮。基于神经注意网络的电子病历不良事件检测。[J]中国生物医学工程学报，2018;37 (1):391 - 391 [J]免费全文] [CrossRef] [Medline］
马晓东，王晓东，王晓东，等。介入心脏病患者死亡风险预测模型的识别与校正。中华生物医学杂志2005;38(5):367-375 [J]免费全文] [CrossRef] [Medline］
马西尼·梅，李建军，李建军，等。支持向量机参数优化对PCI术后死亡率判别和校正的影响。中华生物医学杂志2007;40(6):688-697 [J]免费全文] [CrossRef] [Medline］
李建军，李建军，李建军，等。基于概率损失函数的心衰风险预测模型的研究。中国生物医学工程学报(英文版);2016;26 (3):391 - 391 [J]免费全文] [CrossRef] [Medline］
克利奥帕斯TJ，兹温德曼AH。机器学习和未解决的问题。In:医学中的机器学习。多德雷赫特:施普林格;2013:205 - 214。
Roth C, Payne PR, Weier RC, Shoben AB, Fletcher EN, Lai AM，等。心血管健康的地理分布在卒中预防的医疗服务环境(SPHERE)研究。[J]中国生物医学工程学报，2016;30 (2):391 - 391 [J]免费全文] [CrossRef] [Medline］
潘建军，张建军，张建军，等。通过对患者的教育，提高患者的健康水平。中华医学杂志(英文版)2017年1月11日;30(1):112-113 [j]免费全文] [CrossRef] [Medline］
霍斯默Jr DW, Lemeshow S, Sturdivant RX。应用逻辑回归，第三版。在:Wiley在线图书馆。新泽西州霍博肯:威利在线图书馆;2013.
Friedl MA, Brodley CE。基于遥感数据的土地覆盖决策树分类。遥感与环境，1997,61(3):399-409。［CrossRef］
Uddin S, Khan A, Hossain ME, Moni MA。比较不同的监督机器学习算法用于疾病预测。中国医学杂志2019 Dec 21;19(1):281 [j]免费全文] [CrossRef] [Medline］
昆兰。决策树的归纳。马赫学习1986年3月1(1):81-106。［CrossRef］
机器学习。随机森林;2001;1(5):45。［CrossRef］
John V, Liu Z, Guo C, Mita S, Kidono K.基于深度特征和额外树回归的实时车道估计。图像与视频技术2015:733。［CrossRef］
Geurts P, Ernst D, Wehenkel L.极端随机树。马赫学习2006年3月2日;63(1):3-42。［CrossRef］
弗里德曼JH。随机梯度增强。统计与数据学报，2002;38(4):367-378。［CrossRef］
Rahman S, Irfan M, Raza M, Moyeezullah Ghori K, Yaqoob S, wawam .增强分类器在日常生活活动识别中的性能分析。国际环境与卫生杂志2020年2月8日;17(3):1082 [J]免费全文] [CrossRef] [Medline］
麦卡洛克，皮茨，w。神经活动中内在思想的逻辑演算。1943.数学学报，1990;52(1):99-115。［Medline］
Rumelhart DE, Hinton GE, Williams RJ。通过反向传播错误学习表征。Nature 1986 Oct;323(6088):533-536。［CrossRef］
从功能架构到功能连接组学。中国生物医学工程学报(英文版);17 (2):389 - 391 [j]免费全文] [CrossRef] [Medline］
sklearn.preprocessing.StandardScaler。scikit-learn。URL:https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html[2021-02-04]访问
《阶级失衡问题:一个系统的研究》。国际开发协会2002年11月15日;6(5):429-449。［CrossRef］
Steyerberg EW, Vickers AJ, Cook NR, Gerds T, Gonen M, Obuchowski N，等。评估预测模型的性能。流行病学2010;21(1):128 - 138。［CrossRef］
J.如何及何时使用scikit-learn的校准分类模型。URL:https://machinelearningmastery.com/calibrated-classification-model-in-scikit-learn/[2021-02-23]访问
Hoerl AE, Kannard RW, Baldwin KF。脊回归:一些模拟。共同体，1975年1月;4(2):105-123。［CrossRef］
王志强，王志强，王志强。中国生物医学工程学报，2018,31(1):369 - 369。［CrossRef］
测试和验证数据集之间的区别是什么?URL:https://machinelearningmastery.com/difference-test-validation-datasets/[2021-02-23]访问
何凯，张翔，任胜，孙杰。深度研究整流器:超越人类水平的图像分类性能。参见:IEEE计算机视觉国际会议论文集。2015年发表于:IEEE计算机视觉国际会议;2015;科孚岛，希腊1026-1034页［CrossRef］
Hata J, Nagai A, Hirata M, Kamatani Y, Tamakoshi A, Yamagata Z，生物银行日本合作医院集团，等。心血管疾病患者死亡率的风险预测模型:日本生物银行项目。流行病学杂志2017;27(3):71-76 [J]免费全文] [CrossRef] [Medline］
权健，金坤，全坤，李世生，李海，赵海，等。预测急性心力衰竭患者死亡率的人工智能算法。PLoS One 2019, 7 (7):e0219302 [j]免费全文] [CrossRef] [Medline］
机器学习可以仅从血清肌酐和射血分数预测心力衰竭患者的生存。BMC Med Inform Decis ma2020 Feb 03;20(1):16 [j]免费全文] [CrossRef] [Medline］
李德生，Austin PC, Rouleau JL, Liu PP, Naimark D，屠金泉。预测心力衰竭住院患者的死亡率:临床模型的推导和验证。中华医学杂志，2003,11(3):391 - 391。［CrossRef] [Medline］
王铮，朱勇，李东，尹勇，张杰。基于特征重排的深度学习系统预测心力衰竭死亡率。计算机工程学报(英文版);2009;31(1):553 - 553。［CrossRef] [Medline］
张建军，张建军，张建军。基于自编码器的电子病历表征学习的比较研究。URL:https://arxiv.org/abs/1908.09174[2021-02-23]访问

‎

安:人工神经网络

AUROC:接收机工作特性曲线下的面积

心血管疾病:心血管病

电子健康档案:电子健康记录

等:额外的树

GBT:梯度增强树

LR:逻辑回归

MBS:医疗保险福利表

ML:机器学习

PBS:药物福利计划

射频:随机森林

杀:合成少数派过采样技术

C·洛维斯编辑;提交14.10.20;张伟、张欣等同行评议;对作者07.11.20的评论;修订版本收到17.11.20;接受05.12.20;发表01.04.21

©Linh Tran, Lianhua Chi, Alessio Bonti, Mohamed Abdelrazek, Yi-Ping Phoebe Chen。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com)， 2021年1月4日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到http://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

人工智能架构下使用医疗索赔数据预测心血管疾病患者死亡率:验证研究