这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒体上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Cardio上的原创作品。必须包括完整的书目信息,https://cardio.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
许多机器学习方法仅限于结果分类,而不是纵向预测。在临床风险预测中使用机器学习的一种策略是在给定的时间范围内对结果进行分类。然而,如何确定风险预测的最佳时间范围并不为人所知。
在这项研究中,我们的目标是利用机器学习方法,随着时间范围的增加,确定事件心肌梗死(MI)分类的最佳时间范围。此外,我们试图将这些模型的性能与传统的弗雷明汉心脏研究(FHS)冠心病性别特异性Cox比例风险回归模型进行比较。
我们分析了5201名心血管健康研究参与者的单次临床访问数据。我们检查了从基线检查中收集的61个变量,包括人口统计学和生物学数据、病史、药物、血清生物标志物、心电图和超声心动图数据。我们比较了几种机器学习方法(如随机森林、L1回归、梯度增强决策树、支持向量机和k-最近邻),以预测在500-10,000天的随访时间范围内发生的心肌梗死事件。使用受试者工作特征曲线下面积(AUROC)在20%保留测试集上比较模型。随机森林和L1回归模型跨时间点的变量重要性被执行。我们将结果与FHS冠心病性别特异性Cox比例风险回归函数进行比较。
有4190名参与者被纳入分析,其中2522名(60.2%)女性参与者,平均年龄为72.6岁。随访1万多天,共发生813例心肌梗死事件。机器学习模型在中等程度的随访时间范围内(即1500-2500天)最有预测性。总体而言,L1 (Lasso)逻辑回归在所有时间范围内显示出最强的分类准确性。该模型在1500天随访时最具预测性,AUROC为0.71。最具影响力的变量因随访时间和模型而异,在所有时间框架内,性别是L1回归和随机森林模型权重的最重要特征。与Framingham Cox函数相比,L1和随机森林模型在超过1500天的所有时间框架上表现更好。
在无冠心病的人群中,机器学习技术可用于在不同时间范围内以合理的准确性预测心肌梗死,在中等随访期预测准确性最强。需要在其他人群中验证,以确认这种方法在风险预测中的有效性。
心血管疾病(CVD)是美国和世界范围内发病率和死亡率的主要原因。美国成年人心血管疾病的患病率已达48%,预计到2035年,美国将有超过1.3亿成年人患有心血管疾病,总费用预计将达到1.1万亿美元[
历史上,风险预测模型是通过将传统的统计模型(即基于回归的模型和Cox)应用于队列数据而开发的[
机器学习作为一种处理大量数据的新方法被引入,主要关注于准确预测,而不是理解风险因素对疾病的相对影响。在一些应用中,机器学习方法被发现可以改进传统的回归模型来预测各种心血管结果[
通过这项调查,我们检查了不同时间范围对心肌梗死事件预测的影响。使用来自心血管健康研究(CHS)的数据[
数据由心血管健康研究政策和程序委员会批准使用,并附有数据和材料分发协议。
我们使用了来自CHS的匿名数据[
我们从队列中排除了有心肌梗死基线史的患者。我们检查了从基线检查中收集的61个变量,包括人口统计学和生物学数据(表S1)
使用事件MI的终点,我们在不同的时间范围内应用了多种机器学习方法来定义最佳风险预测。在基线人口统计和实验室数据中,变量数据缺失的情况相当少见。虽然总体上不常见,但心电图变量的缺失数据更常见。在这些数据缺失的情况下,使用中值替换连续变量和最常见的替换类别变量(
分析流程图。心血管健康研究。
数据集被随机分为训练集(80%)和测试或验证集(20%)。利用训练数据集构建5种机器学习模型:随机森林、L1 (LASSO)回归、支持向量机、k-近邻和梯度增强决策树。使用验证集执行超参数调优,以确定在训练过程中未学习到的参数的最优值。然后将这些模型应用于测试集,以检查模型性能,使用接受者工作特征曲线(AUROC)下的面积进行评估。此外,我们使用FHS冠心病Cox比例风险回归模型与机器学习模型进行比较(表S2)
从500天开始,我们在500天的时间范围内循环每个模型,以确定到10,000天的随访时间的最佳预测范围。对于每个时间范围,变重要度算法应用于L1回归和随机森林模型。在L1回归模型中,对模型帮助较小的系数被缩小为零,从而完全删除了不需要的变量。剩下的系数是选定的变量。由于模型使用归一化的输入,可以根据每个输入的平均系数的绝对值进行系数的直接比较。在随机森林算法中,我们执行了“置换”特征选择,通过测量给定变量在模型中基本无效时精度的下降来测量每个变量的预测强度。
初步分析确定了与在保留的分割样本中选择的案例相关的高度偏倚,因此我们使用不同的随机种子进行了50次分析,并为每个模型、时间范围和种子数量存储了单独的结果(每种类型的模型总共有1000个独立模型)。根据每个模型的平均AUROC、系数值(L1回归)和杂质或准确性(随机森林)编译结果。采用种子数为随机效应,非结构化协方差矩阵模式的线性混合效应模型进行模型比较。
所有建模都使用R软件(版本1.1.463;统计计算R基金会)。中提供了用于分析的代码
研究参与者的基线特征显示在
研究参与者的基线特征。
特征 | 值(N = 4190) |
年龄(年),平均值(SD) | 72.6 (5.6) |
性别(男性),n (%) | 1668 (39.8) |
烟草消费量,n (%) | 2201 (53) |
高血压,n (%) | 2300 (55) |
糖尿病,n (%) | 389 (9.3) |
总胆固醇(mg/dL),平均值(SD) | 211 (38) |
BMI,平均值(SD) | 26.4 (1.9) |
中显示了机器学习方法与FHS模型的相对性能
除了检查AUROC,我们还检查了精度-召回曲线下的面积(
L1逻辑回归在所有时间点上的总体预测能力最强(
与FHS模型相比,L1模型在500天的随访中表现较差,但在所有后续随访时间中预测精度较高。随机森林模型在1500天的随访中比FHS模型表现更好。其余的机器学习模型在所有时间框架上的预测能力都不如FHS模型(
在不同时间范围内的预测准确性。FHS:弗雷明汉心脏研究;KNN: k-最近邻;RF:随机森林;ROC:受试者工作特征;支持向量机:支持向量机。
利用精度-召回曲线下面积的预测精度。KNN: k-最近邻;公关:precision-recall;RF:随机森林;支持向量机:支持向量机。
所有时间范围的预测精度。AUC:曲线下面积;KNN: k-最近邻;RF:随机森林;支持向量机:支持向量机。
一些机器学习算法允许分析模型的变量贡献。对于本分析,在L1回归和随机森林模型的所有时间点上执行特征重要性(
特征选择(顶部特征)。
模型 | 短期随访(500-1000天) | 中期随访(1500-2500天) | 长期随访(>2500天) |
L1回归 |
性别(0.90) 钙通道阻滞剂(0.47) IVCD一个通过心电图b(0.40) 糖尿病(0.32) 吸烟(0.22) 收缩压(0.21) |
性别(1.03) 糖尿病(0.33) 钙通道阻滞剂(0.42) 高血压(0.27) 酒精(每周)(-0.21) |
性别(0.50) 钙通道阻滞剂(0.33) 糖尿病(0.20) |
随机森林 |
重量 残c 身体质量指数 高度 低密度d |
重量 残 身体质量指数 高度 性别 |
重量 总胆固醇 身体质量指数 高度 低密度 |
一个IVCD:脑室传导延迟。
b心电图:心电图。
cFEV1: 1秒用力呼气量。
dLDL-C:低密度脂蛋白胆固醇。
对于L1回归,短期随访间隔(即<1000天)中最重要的变量(基于应用于归一化输入的系数绝对值)是性别、糖尿病史、使用钙通道阻滞剂或β-阻滞剂以及心电图显示是否有心室传导缺陷。在中期随访间隔(1500-2500天),最重要的变量是性别、钙通道阻滞剂的使用、糖尿病史和高血压史。在较长的随访时间(即>2500天)中,最重要的变量是性别、钙通道阻滞剂的使用和糖尿病史。
在基于准确性的随机森林变量选择中,短期随访间隔(即<1000天)最重要的变量是体重、肺功能检测的用力呼气量(FEV)、BMI、身高和低密度脂蛋白(LDL)胆固醇。在中间随访期(1500-2500天),最重要的变量是体重、FEV、BMI、身高和性别。在较长的随访时间(即>2500天)中,最重要的变量是体重、身高、BMI、LDL胆固醇和总胆固醇。
这项研究证明了在队列数据的不同时间范围内使用机器学习方法预测突发心肌梗死的能力。使用AUROC作为模型性能的主要指标,所有模型的预测在中等随访期(即1500-2500天)最为准确。L1正则化回归在所有时间框架内提供了最准确的预测,其次是随机森林算法。这两个模型与FHS冠心病预测变量相比较,特别是在较长的随访间隔中。应用排序变量重要性算法演示了所选择的变量如何随时间和不同模型而不同。
在中度随访期预测最为准确。我们怀疑这是由于积累了足够多的事件,同时仍然接近基线数据收集的平衡。在时间上与结果更接近的预测器更有可能与预测相关,随着时间的推移,越来越多的事件积累,识别预测模型的能力也会增强。先前的研究着眼于机器学习在短期和中期随访时间对冠心病的预测;然而,据我们所知,这是第一个将模型应用于从短期到长期随访的年度时间范围的研究[
L1正则化回归通常在所有时间框架内提供最准确的预测。这些正则化回归模型通过在拟合回归模型之前在所有变量中搜索预测因子的最佳子集来扩展传统回归模型。L1 (Lasso)回归与其他正则化回归模型的不同之处在于,它可以将许多变量的重要性缩小到零,除了防止过拟合外,还允许特征选择。因此,它在使用许多变量时非常有用,例如在队列或电子健康记录数据中。先前的研究发现,这些模型可与更先进的机器学习方法相媲美,用于预测临床结果[
在机器学习模型中,任何一个变量和结果之间的关系都不像标准回归模型那样清晰。但是,有些方法可以提供每个变量对模型创建的相对重要性。我们对L1回归和随机森林模型进行了排序变量分析。我们发现,一般来说,模型发现传统的风险因素是最重要的;然而,这些最重要的变量随着时间的推移而变化。
随机森林变量重要性发现,体重、身高、低密度脂蛋白胆固醇和BMI在时间框架内非常重要。FEV在中短期随访中很重要,但在长期随访中不太重要。对于L1回归,性别、糖尿病史和钙通道阻滞剂的使用是所有时间范围内的重要变量。虽然这些关联很有趣,但因果关系不能应用于这些分析,它只能建议进一步研究这些变量的重要性。
这项研究有一些明显的局限性。首先,CHS [
在无冠心病的人群中,机器学习技术可用于准确预测不同时间范围内心肌梗死的发展。考虑到接近基线数据和允许大量事件发生之间的平衡,适度的随访时间范围似乎具有最准确的预测。未来的研究需要在更多的人群中验证这项技术。
用于模型分析的表和代码。
接收机工作特性曲线下面积
心血管健康研究
心血管病
用力呼气量
弗雷明汉心脏研究
心肌梗死
这项研究得到了75N92021D00006, HHSN268201200036C, HHSN268200800007C, N01HC55222, N01HC85079, N01HC85080, N01HC85081, N01HC85082, N01HC85083和N01HC85086的支持,以及来自国家心脏,肺和血液研究所(NHLBI)的U01HL080295和U01HL130114的资助,以及国家神经疾病和中风研究所(NINDS)的额外贡献。国家老龄化研究所(NIA)的R01AG023629提供了额外的支持。主要CHS调查员和机构的完整名单可在CHS- nhlbi.org网站上找到。这项工作也得到了国家卫生研究所/NHLBI (MAR: 5K23 HL127296, R01 HL146824)的资助。
没有宣布。