发表在第22卷第6期(2020年):6月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/16213,首次出版
多病脆弱指数的假设和数据驱动方法的比较:一种机器学习方法

多病脆弱指数的假设和数据驱动方法的比较:一种机器学习方法

多病脆弱指数的假设和数据驱动方法的比较:一种机器学习方法

原始论文

1国立阳明大学老化与健康研究中心,台北市

2国立阳明大学医学院老年医学系,台北市

3.台北市荣民总医院老年病学中心,台北市

4国立台湾大学医学院临床药学研究所,台北市

5国立台湾大学医学院药学院,台北市

6国立台湾大学医院药学部,台北市

7台北市荣民总医院元山分院家庭医学科,台湾宜兰

*这些作者贡献相同

通讯作者:

陈良功,医学博士

老年病学和老年学中心

台北市退伍军人总医院

石牌路二段201号

台北,11217年

台湾

电话:886 2 28757830

电子邮件:lkchen2@vghtpe.gov.tw


背景:利用大数据和累积缺陷理论编制多病脆弱指数(mFI)已成为公共卫生和卫生保健服务领域普遍接受的方法。然而,在临床实践中,使用最关键的决定因素构建mFI和用剂量-反应关系对不同的风险组进行分层仍然是主要的挑战。

摘要目的:本研究旨在通过使用基于模型的最佳适应度选择变量的机器学习方法来开发mFI。此外,我们的目标是使用机器学习方法进一步建立4个风险实体,以实现各组之间的最佳区分,并演示剂量-反应关系。

方法:在这项研究中,我们使用台湾的国民健康保险研究数据库,利用个体老年人的累积疾病/缺陷理论,开发了机器学习多病脆弱指数(ML-mFI)。与传统的mFI(疾病/缺陷的选择基于专家意见)相比,我们采用随机森林方法来选择预测老年人不良结果的最具影响力的疾病/缺陷。为确保生存曲线在随访过程中呈剂量-反应关系且重叠,我们制定了距离指数和覆盖指数,可在任何时间点将所有受试者的ML-mFI分为适合、轻度脆弱、中度脆弱和重度脆弱。进行生存分析以评估ML-mFI预测不良结局的能力,如非计划住院、重症监护病房(ICU)入院和死亡率。

结果:最终的ML-mFI模型包含38种疾病/缺陷。与传统mFI相比,两种指数在年龄和性别上的分布规律相似;然而,在65岁至69岁的人群中,平均mFI和ML-mFI分别为0.037 (SD 0.048)和0.0070 (SD 0.0254)。这种差异可能是由于mFI和ML-mFI中所选择的疾病/缺陷存在差异。本研究共纳入86,133名65 - 100岁的受试者,根据ML-mFI分为4组。Kaplan-Meier生存曲线和Cox模型均显示ML-mFI可显著预测所有相关结局,包括随访1年、5年和8年的全因死亡率、意外住院和全因ICU住院(P< . 01)。特别是,4个ML-mFI组与不良结果之间显示出剂量-反应关系。

结论:ML-mFI由38种疾病/缺陷组成,这些疾病/缺陷可以成功地对与老年人全因死亡率、意外住院和全因ICU入院相关的风险群体进行分层,这表明在老龄化社会中,以患者为中心的精确医疗护理可以成为现实。

中国医学杂志,2020;22(6):e16213

doi: 10.2196/16213

关键字



人口老龄化是一个全球性现象,对社会构成各种挑战[1].老年人的健康特征及其对保健服务的利用与青年人有很大差异[2],而虚弱在老年人的健康中起着关键作用[3.-5].虚弱已被广泛认为是一种老年综合症,大大增加了疾病的复杂性和护理负担[3.-5].此外,虚弱被认为是介于健康和不健康状态之间的一种中间状态,其性质的潜在可逆性突出了在旨在维持老年人健康时考虑虚弱的重要性[6].此外,虚弱涉及多种共病的共存,如多重用药、抑郁、认知障碍、跌倒和营养不良[7].因此,早期发现虚弱和适当的干预仍然是老年人保健服务的核心。

尽管衰弱具有临床意义,但在各个研究中,衰弱的概念和操作定义并不一致[8].目前,两种最被广泛接受的方法包括身体虚弱的表型方法和基于累积缺陷理论的虚弱指数[9].虽然两种方法对脆弱的定义在一定程度上有重叠,但主要的差异在于脆弱组,例如身体脆弱的受试者在脆弱指数上表现出很大的差异。然而,这两个定义仍然是最被广泛接受的[10].累积缺陷理论提出,衰老的特征可能是在健康的各个领域(如多种疾病、功能评估和心理社会观点)存在累积缺陷[9].在变量数量足够的情况下,脆弱性指数的各个分量被认为具有相同的权重来构成脆弱性指数。研究人员将累积缺陷理论应用于各种数据集,并验证了虚弱指数(FI)预测不良临床结果的能力[49].在国际上,记录在案的卫生保健服务数据集已被广泛用于制定预测健康结果的FI,来自不同国家的研究均显示了最佳结果[51112].在英国,研究人员利用电子医疗记录开发了电子FI (eFI),它可以显著预测老年人的死亡率[1314].使用类似的原则,我们使用台湾的国民健康保险数据集开发了多病FI (mFI),并显著预测了死亡率、住院率和重症监护病房入院率[4].然而,使用具有大量研究样本和许多变量的数据集来选择合适的变量来构建FI并将FI最佳地分类为风险类别始终具有挑战性。eFI和mFI在变量选择上均采用专家建议,然后将eFI和mFI分为四分位数进行组比较,这是一种被广泛接受的方法。然而,根据专家建议选择变量可能会导致无法识别先前未识别的关联。此外,四分位法用于风险组分类可能成功地构建预测模型,但生存分析中的组间比较可能重叠,无法建立明确的区分。

因此,本研究旨在利用基于模型最佳适应度选择变量的机器学习方法来开发mFI。此外,我们的目标是使用机器学习方法进一步建立4个风险实体,并确保剂量-反应关系和组间的最佳区分。


研究设计和参与者

这是一项回顾性队列研究,使用台湾国家健康保险研究数据库(NHIRD)的数据。有关NHIRD的详情已公布[15].简单地说,NHIRD是一个由门诊和住院患者索赔组成的全国性数据库,它覆盖了台湾99%以上的人口。数据由台湾卫生福利部数据科学中心进行质量检查和维护。我们使用了NHIRD的一个子集,其中包含2005年从NHIRD受益人登记处随机选择的100万受益人的索赔数据。该研究队列包括86,133名65岁至100岁的老年人,他们在2005年1月1日至2005年12月31日期间拥有完全的国民健康保险(NHI)。提取了2005年至2013年100万受益人的索赔数据,组成了一个9年(2005年至2013年)的索赔小组进行分析。研究方案由国立台湾大学附属医院研究伦理委员会批准(NTUH-REC-201403069W)。

基于机器学习的多病脆弱指数的构建

mFI是按照标准程序建造的[16],该方法已在台湾人群中得到验证[45].2005年1月1日至12月31日,NHIRD门诊和住院患者索赔中的疾病诊断(国际疾病分类,第九次修订,临床修改[ICD-9-CM])被用于确定累积缺陷以构建mFI。我们采用了一种在以NHIRD为数据源的研究中广泛使用的算法来验证NHIRD中指定缺陷的诊断代码;也就是说,对于指定的诊断代码,只有那些至少有3个门诊索赔记录或1个住院索赔记录的人才被认为具有指定的赤字。例如,根据我们的定义,老年人必须至少有3个糖尿病门诊索赔记录或1个糖尿病住院索赔记录[ICD-9-CM: 250],才能被定义为患有糖尿病。

采用随机森林方法,通过种植树木集合并让它们投票选出最受欢迎的类别,可以显著提高分类精度[17].随机森林的变重要度使用平均递减精度来确定基于机器学习的多病态脆弱指数(ML-mFI)的具体条件。ML-mFI的适构数为38个,当模型精度达到最高时,为0.602 (图1而且多媒体附件1).ML-mFI是计算一个人在一年内遇到的38种情况中的数量。

图1。疾病数量对比随机森林模型的准确性,以确定足够数量的脆弱指数。
查看此图

ML-mFI法测定脆弱状态

所有受试者根据其风险状况进一步分为4个实体(健康、轻度脆弱、中度脆弱和严重脆弱);以前的一项研究使用了这种分类方法[4].风险分层的基本规则包括:(1)个体风险组之间存在显著差异,(2)各组健康风险呈剂量-反应关系(即在第一年之后的任何随访时间点,重度虚弱组风险高于中度虚弱组,中度虚弱组风险高于轻度虚弱组,以此类推)。为此,我们制定了距离指数和覆盖指数两个指标,确保了所有生存曲线的区分和剂量-反应关系。

距离指数测量了每条生存曲线之间的距离和组内这些距离的稳定性。在任意时间点,距离指标定义为.因此,距离指数越大,组内距离越宽,越稳定(多媒体附件2).相反,覆盖指数旨在评估每条生存曲线的置信区间的长度。置信区间的总长度表示分组方法的总体估计误差。在多媒体时,覆盖指数定义为在任意单个时间点,其中L_total测量了健康组与严重虚弱组估计生存概率的差值,L_error测量了4组内估计误差的总和。覆盖指数越小,组内估计误差越小。结合距离指标和覆盖指标,根据ML-mFI值将脆弱程度分为4类:拟合度为0≤ML-mFI<0.026;轻度虚弱为0.026≤ML-mFI<0.105;中度虚弱为0.105≤ML-mFI<0.157;重度虚弱为0.157≤ML-mFI。在生存分析中,分组策略在随访期间成功地将所有受试者分为4组,且组间差异显著。换句话说,生存曲线之间没有重叠,各组之间的剂量-反应关系清晰可见。

兴趣结果

本研究涉及的结果包括全因死亡率、非计划住院和重症监护病房(ICU)入院。死亡日期被确定为从NHIRD注销的日期,这已在以前的研究中得到验证[4].计划外住院是指急诊就诊后发生的任何意外住院。ICU入院是指任何使用ICU服务的医院入院。从2006年1月1日起,所有研究对象都被持续跟踪,直到每个结果出现或2013年底,以先到者为准。对于计划外住院和ICU入院的结果,如果先发生意外住院,则在受试者死亡时进行审查。进行了预先计划的分析,以评估ML-mFI在预测1年、5年和8年预后方面的有效性。

统计分析

数值变量表示为平均值(SD),分类变量表示为数字或百分比。随机森林方法不仅确定了包含ML-mFI的疾病项目的数量,而且还确定了ML-mFI的潜在条件,具有预测精度和可变重要性。采用最小-最大和最大-最小准则的距离指数和覆盖指数,自动确定切口点,并对脆弱群进行ML-mFI分类。使用Kaplan-Meier生存曲线和log-rank检验检验ML-mFI类别(适合、轻度虚弱、中度虚弱和严重虚弱)与8年死亡率和住院率之间的相关性。Cox比例风险模型用于估计ML-mFI和mFI估计后1年、5年和8年死亡率和住院率的风险比(HRs)和95% ci(基于先前的研究[4]),认为两者都是自变量。我们进一步将年龄和性别作为协变量纳入所有调整模型。进行性别特异性分析。

所有分析均使用R Version 3.4.4 (R Foundation for Statistical Computing)进行。一个双边P的值。05被认为有统计学意义。生存包中的coxph函数不违反比例危险假设,对数危险与各协变量之间呈线性关系。随机森林包中的随机森林和重要性函数分别显示了预测结果发生的模型建立和变量重要度,并组成ML-mFI。


ML-mFI的构建

最终模型精度最高的ML-mFI(0.6022061)包含38个条件(多媒体附件1).ML-mFI和mFI合成条件的收敛性和发散性的细节显示在多媒体附件4表1比较了ML-mFI组和传统mFI组的年龄和性别。mFI和ML-mFI有两种相似的分布模式。ML-mFI随年龄增长而增加,但在80岁及以上达到平稳期。男性的这两项指数都较高,这与台湾男性的预期寿命较短相吻合。然而,mFI是根据一个人在一年内可能出现的32种选定情况计算的,而ML-mFI是根据一个人在一年内可能出现的38种选定情况计算的;因此,mFI和ML-mFI上的实际数字是非常不同的。在65岁至69岁的人群中,平均mFI和ML-mFI分别为0.037 (SD 0.048)和0.0070 (SD 0.0254)。这种差异可能是由于在mFI和ML-mFI上选择的条件不同造成的。例如,一些条件仅在ML-mFI上选择,但在mFI上不选择(例如,ICD-9-CM: 250[糖尿病],反之亦然,ICD-9-CM: 374 [entropion])。这些差异已在多媒体附件1

表1。mFI和ML-mFI按年龄和性别比较。a、b
年龄(年) 所有受试者(N=86,133) 男性(n = 42914) 女(n = 43219)
mFI,平均值(SD) ML-mFI,平均值(SD) mFI,平均值(SD) ML-mFI,平均值(SD) mFI,平均值(SD) ML-mFI,平均值(SD)
65 - 69 (n = 28480) 0.037 (0.048) 0.0070 (0.0254) 0.038 (0.049) 0.0076 (0.0264) 0.037 (0.046) 0.0065 (0.0246)
70 - 74 (n = 23700) 0.050 (0.056) 0.0106 (0.0322) 0.053 (0.060) 0.0115 (0.0339) 0.046 (0.053) 0.0096 (0.0304)
75 - 79 (n = 18765) 0.062 (0.065) 0.0150 (0.0400) 0.067 (0.070) 0.0160 (0.0417) 0.056 (0.059) 0.0138 (0.0379)
80 - 84 (n = 9934) 0.070 (0.071) 0.0201 (0.0473) 0.076 (0.075) 0.0212 (0.0490) 0.064 (0.065) 0.0190 (0.0455)
≥85 (n = 5254) 0.070 (0.074) 0.0234 (0.0505) 0.077 (0.080) 0.0245 (0.0531) 0.064 (0.069) 0.0224 (0.0483)
总(N = 86133) 0.052 (0.060) 0.0122 (0.0359) 0.056 (0.064) 0.0132 (0.0376) 0.048 (0.056) 0.0113 (0.0341)

一个mFI:多病脆弱指数。

bML-mFI:机器学习多病脆弱指数。

生存分析

总体而言,86133名年龄在65岁至100岁之间的受试者被纳入这项研究。平均随访6.57年(SD 2.37年),在研究期间,研究队列中发生30136例死亡(34.99%)。图2总结Kaplan-Meier生存曲线的结果,估计ML-mFI在全因死亡率、非计划住院和ICU住院方面的4个水平,并表明ML-mFI显著预测所有这些感兴趣的结果。

表2显示ML-mFI组和mFI组在1年、5年和8年随访期间的全因死亡率、非计划住院和ICU住院的风险比。在所有三个结果中,ML-mFI比mFI具有更高的危险。例如,那些被mFI或ML-mFI归类为严重虚弱的患者,1年全因死亡率分别增加4.97倍(调整后HR 4.97, 95% CI 4.49-5.50)和11.4倍(调整后HR 11.40, 95% CI 10.32-12.59)。5年和8年全因死亡率也观察到类似的模式。

图2。8年Kaplan-Meier生存曲线的结果(A)全因死亡率,(B)计划外住院,(C)重症监护病房收治不同的虚弱类别。
查看此图
表2。ML-mFI组和mFI组在1年、5年和8年随访期间的全因死亡率、意外住院和重症监护病房入院的危险比。a, b, c所有值均以风险比(95% CI)表示。
随访期间的不良结果 轻度脆弱 中度脆弱 严重的弱点
小额信贷机构(n = 14244) ML-mFI (n = 9366) 小额信贷机构(n = 4741) ML-mFI (n = 2522) 小额信贷机构(n = 2498) ML-mFI (n = 1488)
1年全因死亡率HRd

未经调整的 2.21 (2.04 - -2.39) 3.66 (3.38 - -3.97) 4.09 (3.72 - -4.50) 8.81 (8.00 - -9.71) 7.52 (6.81 - -8.30) 16.62 (15.08 - -18.32)

调整 1.86 (1.71 - -2.01) 3.13 (2.89 - -3.39) 3.08 (2.80 - -3.39) 6.79 (6.15 - -7.49) 4.97 (4.49 - -5.50) 11.40 (10.32 - -12.59)
5年全因死亡率HR

未经调整的 1.76 (1.70 - -1.82) 2.57 (2.48 - -2.67) 2.85 (2.72 - -2.99) 5.27 (5.00 - -5.55) 5.00 (4.74 - -5.28) 9.02 (8.49 - -9.58)

调整 1.46 (1.41 - -1.52) 2.19 (2.11 - -2.27) 2.14 (2.04 - -2.25) 4.04 (3.83 - -4.26) 3.28 (3.11 - -3.46) 6.15 (5.79 - -6.54)
8年全因死亡率HR

未经调整的 1.69 (1.64 - -1.74) 2.32 (2.25 - -2.39) 2.65 (2.55 - -2.76) 4.72 (4.54 - -4.94) 4.50 (4.29 - -4.71) 8.05 (7.61 - -8.51)

调整 1.41 (1.37 - -1.45) 1.99 (1.93 - -2.05) 2.01 (1.93 - -2.09) 3.70 (3.53 - -3.88) 2.98 (2.84 - -3.12) 5.52 (5.22 - -5.84)
1年计划外住院

未经调整的 2.08 (1.97 - -2.20) 2.86 (2.70 - -3.02) 3.30 (3.07 - -3.54) 5.21 (4.82 - -5.64) 5.29 (4.88 - -5.73) 7.65 (6.99 - -8.38)

调整 1.91 (1.80 - -2.01) 2.63 (2.49 - -2.79) 2.85 (2.65 - -3.06) 4.53 (4.18 - -4.90) 4.28 (3.94 - -4.64) 6.20 (5.66 - -6.80)
5年计划外住院

未经调整的 1.78 (1.73 - -1.83) 2.28 (2.21 - -2.36) 2.51 (2.40 - -2.62) 3.79 (3.59 - -4.00) 3.85 (3.65 - -4.06) 5.43 (5.07 - -5.83)

调整 1.61 (1.57 - -1.66) 2.09 (2.02 - -2.16) 2.14 (2.05 - -2.24) 3.23 (3.06 - -3.41) 3.05 (2.89 - -3.23) 4.33 (4.04 - -4.65)
8年计划外住院

未经调整的 1.67 (1.63 - -1.71) 2.11 (2.05 - -2.17) 2.32 (2.24 - -2.41) 3.53 (3.36 - -3.71) 3.53 (3.36 - -3.71) 5.03 (4.69 - -5.38)

调整 1.51 (1.48 - -1.55) 1.93 (1.87 - -1.99) 1.98 (1.91 - -2.06) 3.01 (2.86 - -3.17) 2.79 (2.65 - -2.94) 3.98 (3.72 - -4.27)
1年重症监护室住院

未经调整的 2.34 (2.18 - -2.52) 3.23 (3.00 - -3.48) 4.32 (3.95 - -4.72) 6.70 (6.08 - -7.38) 7.04 (6.38 - -7.76) 12.16 (10.98 - -13.46)

调整 2.09 (1.94 - -2.25) 2.91 (2.70 - -3.13) 3.59 (3.28 - -3.92) 5.64 (5.11 - -6.23) 5.35 (4.84 - -5.91) 9.41 (8.49 - -10.44)
5年重症监护病房入院HR

未经调整的 1.86 (1.79 - -1.93) 2.39 (2.30 - -2.48) 2.92 (2.78 - -3.07) 4.75 (4.48 - -5.04) 4.84 (4.56 - -5.14) 7.84 (7.30 - -8.42)

调整 1.64 (1.58 - -1.70) 2.14 (2.06 - -2.23) 2.42 (2.30 - -2.54) 3.96 (3.74 - -4.21) 3.65 (3.43 - -3.87) 6.00 (5.58 - -6.44)
8年重症监护病房入院HR

未经调整的 1.74 (1.69 - -1.79) 2.20 (2.12 - -2.28) 2.69 (2.58 - -2.81) 4.35 (4.12 - -4.59) 4.28 (4.05 - -4.52) 7.10 (6.63 - -7.60)

调整 1.54 (1.49 - -1.59) 1.98 (1.92 - -2.05) 2.23 (2.14 - -2.34) 3.68 (3.49 - -3.89) 3.24 (3.06 - -3.42) 5.46 (5.10 - -5.85)

一个对于所有结果,比较对象为拟合类别的研究对象(n=64,650)。所有数据都根据年龄和性别进行了调整。

bML-mFI:机器学习多病脆弱指数。

cmFI:多病脆弱指数。

dHR:风险比。

对于非计划住院,被mFI或ML-mFI归类为严重虚弱的患者1年非计划住院率分别增加4.28倍(调整后HR 4.28, 95% CI 3.94-4.64)和6.20倍(调整后HR 6.20, 95% CI 5.66-6.80)。在5年和8年的全因非计划住院中观察到类似的模式。

对于ICU入院,被mFI或ML-mFI归类为严重虚弱的患者1年ICU入院率分别增加4.28倍(调整后HR 5.35, 95% CI 4.84-5.91)和9.41倍(调整后HR 9.41, 95% CI 8.49-10.44)。在5年和8年全因ICU入院病例中观察到类似的模式。

性别特异性分析显示,在各种结果和随访期间,男性的这两项指标均高于女性(表3而且4分别为男性和女性)。例如,严重虚弱组(由ML-mFI定义)中的男性与1年死亡风险增加12.64倍相关,而严重虚弱组(由mFI定义)中的女性与1年死亡风险增加10.37倍相关。

表3。在1年、5年和8年随访期间,ML-mFI和mFI的男性全因死亡率、意外住院和重症监护病房入院的风险比。a, b, c
不良结果及随访时间 轻度脆弱 中度脆弱 严重的弱点
小额信贷机构(n = 14244) ML-mFI (n = 9366) 小额信贷机构(n = 4741) ML-mFI (n = 2522) 小额信贷机构(n = 2498) ML-mFI (n = 1488)
全因死亡率

1年 1.83 (1.65 - -2.04) 3.71 (3.37 - -4.09) 2.70 (2.37 - -3.07) 7.67 (6.76 - -8.69) 4.84 (4.26 - -5.49) 12.64 (11.20 - -14.27)

5年 1.41 (1.35 - -1.48) 2.53 (2.42 - -2.65) 1.93 (1.82 - -2.06) 4.60 (4.29 - -4.93) 3.07 (2.86 - -3.28) 6.92 (6.40 - -7.48)

8年 1.35 (1.30 - -1.41) 2.29 (2.21 - -2.38) 1.85 (1.75 - -1.95) 4.19 (3.94 - -4.47) 2.77 (2.61 - -2.94) 6.27 (5.83 - -6.74)
意外住院

1年 1.87 (1.73 - -2.01) 2.83 (2.64 - -3.04) 2.73 (2.48 - -3.00) 4.90 (4.41 - -5.45) 4.24 (3.83 - -4.71) 6.34 (5.63 - -7.14)

5年 1.58 (1.51 - -1.64) 2.25 (2.16 - -2.35) 2.05 (1.93 - -2.17) 3.49 (3.25 - -3.76) 3.00 (2.80 - -3.21) 4.59 (4.19 - -5.03)

8年 1.48 (1.43 - -1.53) 2.07 (1.99 - -2.15) 1.91 (1.81 - -2.01) 3.30 (3.08 - -3.54) 2.76 (2.59 - -2.95) 4.29 (3.92 - -4.69)
重症监护病房入院

1年 2.02 (1.83 - -2.23) 3.35 (3.06 - -3.67) 3.28 (2.91 - -3.69) 5.91 (5.18 - -6.74) 4.85 (4.27 - -5.51) 9.50 (8.31 - -10.86)

5年 1.58 (1.50 - -1.66) 2.42 (2.31 - -2.55) 2.24 (2.10 - -2.40) 4.33 (4.00 - -4.69) 3.39 (3.15 - -3.66) 6.28 (5.72 - -6.89)

8年 1.48 (1.42 - -1.54) 2.22 (2.13 - -2.32) 2.05 (1.94 - -2.18) 4.04 (3.75 - -4.35) 2.99 (2.79 - -3.21) 5.80 (5.30 - -6.35)

一个对于所有结果,比较器为符合类别的受试者(n=64,650)。所有数据都根据年龄和性别进行了调整。

bML-mFI:机器学习多病脆弱指数。

cmFI:多病脆弱指数。

表4。在1年、5年和8年随访期间,ML-mFI和mFI的女性全因死亡率、意外住院和重症监护病房入院的风险比。a, b, c
不良结果及随访时间 轻度脆弱 中度脆弱 严重的弱点
小额信贷机构(n = 14244) ML-mFI (n = 9366) 小额信贷机构(n = 4741) ML-mFI (n = 2522) 小额信贷机构(n = 2498) ML-mFI (n = 1488)
全因死亡率

1年 1.88 (1.66 - -2.13) 2.56 (2.28 - -2.87) 3.73 (3.22 - -4.32) 5.95 (5.19 - -6.82) 5.29 (4.46 - -6.27) 10.37 (8.97 - -12.00)

5年 1.54 (1.46 - -1.62) 1.87 (1.77 - -1.97) 2.52 (2.34 - -2.71) 3.51 (3.25 - -3.78) 3.79 (3.46 - -4.15) 5.52 (5.04 - -6.05)

8年 1.48 (1.42 - -1.55) 1.72 (1.65 - -1.80) 2.31 (2.17 - -2.46) 3.24 (3.04 - -3.46) 3.48 (3.22 - -3.76) 4.89 (4.49 - -5.32)
意外住院

1年 1.95 (1.80 - -2.11) 2.45 (2.26 - -2.65) 3.03 (2.72 - -3.38) 4.17 (3.72 - -4.66) 4.36 (3.81 - -4.98) 6.19 (5.40 - -7.09)

5年 1.66 (1.59 - -1.73) 1.94 (1.86 - -2.03) 2.28 (2.14 - -2.44) 2.98 (2.77 - -3.21) 3.16 (2.89 - -3.46) 4.12 (3.71 - -4.58)

8年 1.56 (1.50 - -1.62) 1.81 (1.74 - -1.88) 2.10 (1.98 - -2.22) 2.74 (2.55 - -2.94) 2.85 (2.62 - -3.11) 3.71 (3.34 - -4.12)
重症监护病房入院

1年 2.18 (1.95 - -2.44) 2.48 (2.22 - -2.76) 4.09 (3.56 - -4.70) 5.39 (4.71 - -6.16) 6.44 (5.49 - -7.55) 9.73 (8.40 - -11.27)

5年 1.73 (1.64 - -1.82) 1.88 (1.77 - -1.99) 2.70 (2.50 - -2.91) 3.62 (3.33 - -3.93) 4.21 (3.82 - -4.65) 5.89 (5.29 - -6.56)

8年 1.62 (1.55 - -1.70) 1.77 (1.69 - -1.86) 2.54 (2.37 - -2.71) 3.34 (3.10 - -3.61) 3.79 (3.47 - -4.15) 5.27 (4.76 - -5.85)

一个对于所有结果,比较器为符合类别的受试者(n=64,650)。所有数据都根据年龄和性别进行了调整。

bML-mFI:机器学习多病脆弱指数。

cmFI:多病脆弱指数。


在这项研究中,我们成功地使用机器学习方法来定义ML-mFI。具体而言,我们采用随机森林方法选择疾病/赤字项目,并相应地对每个疾病的重要性进行排序。这些疾病/缺陷项目的选择构建ML-mFI完全由数据驱动,而传统的mFI包括基于专家建议的疾病/缺陷项目。此外,联合使用距离指数和覆盖指数成功区分了4组不良结局的剂量反应风险。在流行病学研究中,研究人员在选择合适的变量进行分析和将连续变量优化分类为类别变量以便进一步比较时,也经常遇到类似的挑战。传统上,研究人员需要搜索文献支持或采用通用方法来开发数据解释的最佳统计模型[18-20.].研究问题的假设驱动方法在科学发展中具有重要意义;然而,在分析中可能会忽略之前未知或未识别的因素,这可能会降低对现象解释的统计力。与我们之前的工作相比,我们使用假设驱动的方法来构建mFI [4],机器学习模型选择显著不同的疾病/缺陷项目进行ML-mFI构建。传统方法根据选择标准选择老年人的疾病/赤字,而机器学习方法识别出更多的疾病/赤字项目,包括慢性病、传染病,甚至一些癌症,但这些项目并不占疾病/赤字项目的大部分。

由Rockwood等人开发的FI [18]假设,在各个健康领域的累积缺陷可能代表了生物衰老的过程,这一FI已被广泛验证,可预测不同国家的不良健康事件和死亡率[51112].理论上,FI可以由尽可能多的变量组成,因此不存在变量选择的问题。然而,为了满足繁忙的临床环境的需要,mFI是由FI的概念衍生出来的;选择与年龄相关的慢性疾病是用于构建预测模型的关键变量。现有研究表明,这些先前开发的mfi可以显著预测老年人的死亡率[13.14]。然而,为了使预测模型的有效性最大化,使用数据驱动方法构建ML-mFI可能提供更好的预测精度。此外,在生存分析中,当将连续测量分为与结果相关的不同风险组时,通常期望剂量-反应关系。然而,即使整个模型达到了统计显著性,来自连续测量的各个组之间的差异并不总是具有统计学意义。例如,在台湾的一项研究中,发现发达的FI可以预测老年人的不良结果,这与大多数相关研究一致[5].然而,在该研究中,基于FI织物分类的不同风险组导致中高危组的生存曲线重叠;它未能实现风险群体的分层。结合使用本研究开发的距离指数和覆盖指数,可以解决生存曲线的重叠现象。

虽然我们开发的mFI充分预测了老年人的不良结果,但ML-mFI对所有健康结果的风险比均高于mFI。总的来说,数据驱动的ML-mFI可能比假设驱动的mFI识别不同的风险人群。数据驱动的方法可以揭示整个数据集的现象[21-23],但假设驱动方法可能为观测结果提供更好的解释[2425].数据驱动方法可能并不优于假设驱动方法,因为研究目的和研究问题可能有很大差异。虽然数据驱动的方法通常可以建立精度较高的预测模型,但很难对观测到的现象实施干预方案。运用累积赤字理论构建预测模型可能需要使用大量的变量,但在大量变量的情况下如何进一步利用预测模型就成为了一个挑战。因此,研究人员试图在保持最佳预测精度的同时减少变量的数量。我们之前的研究通过因子分析将125个选定变量缩减为35个因素,以提高临床应用[5].然而,本研究中的机器学习方法可能在减少变量的选择数量和优化预测精度方面发挥类似的作用。本研究的主要优势在于展示了处理大型数据集以选择适当变量构建预测模型的方法学进步,并确保以剂量-反应关系区分不同的风险组。这种方法上的进步可以促进公共卫生或社会科学研究,或使用具有广泛数据特征的大型数据集的跨学科研究。特别是距离指数和覆盖指数对于未来研究将连续变量的结果分类为具有不同健康风险的不同实体非常重要。利用距离指数和覆盖指数避免不同危险组的生存曲线重叠,对加强观察现象和危险组分类具有重要意义。

因此,这个ML-mFI展示了一种自动预测老年人不良结果的方法,它可以应用于不同国家的不同人群。使用相同的方法,可以选择不同的疾病在另一个人群中构建新的ML-mFI,以预测相应人群的不良结果。例如,我们进一步将研究人群分层为3个亚队列,包括65 - 75岁、76 - 85岁和85岁及以上的人群,并且根据相同的自动机器学习方法和模型选择标准,我们为每个年龄组构建了三种ML-mFI。我们发现ML-mFI的总缺陷数和组成缺陷数,以及不同虚弱状态的分界点在不同年龄组中存在很大差异。例如,65岁至75岁、76岁至85岁、85岁及以上人群的ML-mFI总赤字分别为59、47和39。此外,合成缺陷也不同,如多媒体.虽然不同年龄组的ML-mFI构成缺陷不同,但这些ML-mFI均能成功预测全因死亡率(C指数>0.6)。这些发现是鼓舞人心的,因为它们表明,同样的机器学习方法可以用来构建自己的ML-mFI来实现这一目的。由于诊断、治疗和护理质量的不同,个别疾病在不同国家可能产生不同的临床影响。因此,本研究的结果可以适用于不同的国家和人群,使用相同的方法构建自己的ML-mFI来满足他们的需求。

因此,我们的ML-mFI可能在公共卫生或卫生保健管理中具有临床意义。例如,在大型长期护理设施管理中,管理部门需要通过估计所有住院患者的死亡率来优化入院等候名单。另一方面,在公共卫生环境中,政府能够准确估计某一地理区域居民的健康风险,并提供最佳的医疗保健或姑息治疗服务。传统上,这些决定是基于现有的医学知识做出的,但数据驱动的方法可能更好地预测结果并优化政府的公共卫生政策。在临床实践中,ML-mFI可以使医生和家庭量化健康风险,以制定最佳的护理计划。因此,使用现有的电子医疗记录,ML-mFI可以自动生成并集成为医疗记录的一部分,以促进护理计划中的某些形式的决策。

尽管在这项研究中付出了所有的努力,但仍有一些局限性。首先,像所有数据驱动的研究一样,由于机器学习的性质,这项研究的结果无法提供或验证一个完善的假设框架。其次,基于机器学习识别的诊断实体开发进一步的干预程序仍然困难。第三,需要另一个数据集来检验机器学习模型中是否存在过拟合。最后,与之前的大多数虚弱指数研究一样,尽管我们在Cox模型中将年龄和性别作为协变量进行了调整,但我们无法访问一些未在索赔数据库中常规捕获的残留混杂因素,如疾病严重程度或生活方式因素(如身体活动和饮食)。

总之,ML-mFI显著预测老年人的不良健康结果,由距离指数和覆盖指数组合定义的风险组以剂量-反应关系和明确的区别区分不同的风险组。本研究的方法学进步也对具有相似数据和研究问题的研究有进一步的研究意义。数据驱动方法可能比假设驱动方法具有更好的预测精度,但数据驱动方法的优越性需要进一步研究来证实。

致谢

作者感谢国家健康保险协会和国家健康研究所提供本研究中使用的数据库;台湾科学技术部(MOST 107-2634-F-010-001, MOST 108-2634-F-010-001, MOST 109-2634-F-010-001)资助本项目;蔡宗贤、陈培正和ACER支持数据分析。但是,本文不代表国民健康保险协会、国民卫生研究院、科学技术部和ACER的任何官方立场。作者可以完全访问研究中的所有数据,并对数据的完整性和数据分析的准确性负责。

利益冲突

获台湾科学技术部资助课题(MOST 107-2634-F-010-001)。所有作者均声明没有任何组织支持其所提交的工作;在过去3年内,与任何可能与所提交作品有利益关系的组织没有经济关系;没有其他关系或活动似乎影响了提交的工作。

多媒体附件1

模型精度与不同数量的复合疾病。

DOCX文件,14kb

多媒体附件2

4个脆弱组的生存曲线描述距离指数的计算。

DOCX文件,125 KB

多媒体

4个脆弱组的生存曲线描述覆盖指数的计算。

DOCX文件,143 KB

多媒体附件4

mFI和ML-mFI之间的收敛和分歧。

DOCX文件,15 KB

多媒体

65 ~ 75岁、76 ~ 85岁、> ~ 85岁三个亚队列的ML-mFI缺陷总数及构成缺陷。

DOCX文件,20kb

  1. 陈丽龙,井上华,元长武,林春华,林凯峰,蔡顺丰,等。台湾城市老龄化的挑战:城市老龄化论坛综述。临床老年学与老年病学杂志2013年12月4日(4):97-101。[CrossRef
  2. 卢文华,李文杰,陈丽龙,肖飞。台湾老年人与普通人群年医疗保健利用、药物消费及医疗支出之比较。临床老年学与老年病学杂志2016年6月;7(2):44-47。[CrossRef
  3. 李文杰,彭丽兰,林春春,林惠萍,陆春春,陈丽龙。城市化、多病和心理健康对衰弱对残疾的协同作用:对公共卫生和医疗保健的影响。科学通报2018年9月20日;8(1):14125 [免费全文] [CrossRef] [Medline
  4. 温玉春,陈丽龙,肖飞。用多病虚弱指数预测老年人死亡率和住院率。PLoS One 2017 11月16日;12(11):e0187825 [免费全文] [CrossRef] [Medline
  5. 林雪云,李文杰,周美玲,彭丽兰,邱雪云,陈丽龙。衰弱指数预测中老年人全因死亡率:对积极老龄化计划的启示。PLoS One 2016 Aug 18;11(8):e0161456 [免费全文] [CrossRef] [Medline
  6. Van der Elst M, Schoenmakers B, Duppen D, Lambotte D, Fret B, ves B, D- scope Consortium。一项系统回顾和荟萃分析:对社区居住的虚弱老年人的干预对不良结果没有显著影响。BMC Geriatr 2018 10月20日;18(1):249 [免费全文] [CrossRef] [Medline
  7. 陈丽龙,黄昌昌,刘丽龙,李文杰,彭丽兰。虚弱是一种以多发性损伤为特征的老年综合征:需要一种综合的方法。中国机械工程学报,2016;5(4):208-213。[CrossRef] [Medline
  8. Lee L, Patel T, Hillier LM, Maulkhan N, Slonim K, Costa A.识别初级保健中的脆弱性:一项系统综述。老年医学杂志2017年10月12日;17(10):1358-1377。[CrossRef] [Medline
  9. 洛克伍德·K,米特尼茨基·A.与赤字积累相关的脆弱性。《老年医学杂志》2007年7月1日;62(7):722-727。[CrossRef] [Medline
  10. Blodgett J, Theou O, Kirkland S, Andreou P, Rockwood K. NHANES的脆弱性:比较脆弱性指数和表型。老年医学杂志2015年5月;60(3):464-470。[CrossRef] [Medline
  11. Hoogendijk EO, Rockwood K, Theou O, Armstrong JJ, Onwuteaka-Philipsen BD, Deeg DJH,等。在整个晚年生活中追踪衰弱的变化:来自荷兰17年纵向研究的结果。2018年9月1日;47(5):727-733。[CrossRef] [Medline
  12. 唐智,王超,宋旭,史杰,Mitnitski A,方旭,等。在北京老龄化纵向研究中,中国老年人心脏代谢疾病和虚弱的共同发生。2013年5月;42(3):346-351。[CrossRef] [Medline
  13. Clegg A, Bates C, Young J, Ryan R, Nichols L, Ann Teale E,等。利用常规初级保健电子健康记录数据开发和验证电子虚弱指数。年龄老龄化2016年5月03日;45(3):353-360 [免费全文] [CrossRef] [Medline
  14. Boyd PJ, Nevard M, Ford JA, Khondoker M, Cross JL, Fox C.电子虚弱指数作为老年人口社区医疗服务利用的指标。2019年3月1日;48(2):273-277。[CrossRef] [Medline
  15. 肖飞,杨春林,黄奕婷,黄伟峰。利用台湾健康保险研究资料库进行药物流行病学研究。中华食品药品杂志2007年7月15日;15(2):99-108。
  16. Searle SD, Mitnitski A, Gahbauer EA, Gill TM, Rockwood K.创建脆弱指数的标准程序。BMC Geriatr 2008 Sep 30;8(1):24 [免费全文] [CrossRef] [Medline
  17. 随机森林。机器学习2001;45(1):5-32。[CrossRef
  18. 罗克伍德K,宋X, MacKnight C, Bergman H, Hogan DB, McDowell I,等。老年人健康和虚弱的全球临床测量。CMAJ 2005 Aug 30;173(5):489-495 [免费全文] [CrossRef] [Medline
  19. 罗克伍德·K, Blodgett JM, Theou O, Sun MH, Feridooni HA, Mitnitski A,等。基于缺陷累积的虚弱指数量化了人类和小鼠的死亡风险。科学通报2017 Feb 21;7(1):43068 [免费全文] [CrossRef] [Medline
  20. 洛克伍德K, Mitnitski A.虚弱定义的赤字积累和老年医学定义的虚弱。临床老年医学2011 Feb;27(1):17-26。[CrossRef] [Medline
  21. Shin EK, Mahajan R, Akbilgic O, Shaban-Nejad A.社会标志物和生物标志物:识别儿童哮喘患者医院复诊风险的预测模型。NPJ数字医学2018年10月2日;1(1):50 [免费全文] [CrossRef] [Medline
  22. 莫塔扎维,张志强,张志强,张志强,等。机器学习方法与国家心血管数据注册模型预测经皮冠状动脉介入术后出血风险的比较2019年美国医学会网络公开赛7月03日;2(7):e196835 [免费全文] [CrossRef] [Medline
  23. Zador Z, Landry A, Cusimano MD, Geifman N.多病状态与器官功能障碍和败血症的高死亡率相关:重症监护中的数据驱动分析。重症监护2019 07月08日;23(1):247 [免费全文] [CrossRef] [Medline
  24. 杨晓东,李志强,李志强,等。NHANES 2007-2012中假设驱动和数据驱动哮喘表型的比较:综合数据可用性的重要性。临床Transl过敏2019年3月13日;9(1):17 [免费全文] [CrossRef] [Medline
  25. Previdelli AN, de Andrade SC, Fisberg RM, Marchioni DM.使用两种不同的方法评估饮食模式:假设驱动和数据驱动分析。2016年9月23日;8(10):593 [免费全文] [CrossRef] [Medline


eFI:电子脆弱指数
FI:脆弱指数
ICD-9-CM:国际疾病分类,第九版,临床修订
加护病房:重症监护室
人力资源:风险比
小额信贷机构:多病虚弱指数
ML-mFI:机器学习多病脆弱指数
简介:国民健康保险
NHIRD:全国健康保险研究数据库


G·艾森巴赫(G Eysenbach)编辑;提交11.09.19;H Arai, CC Hsu, L Lera同行评审;对作者15.10.19的评论;订正版本收到17.12.19;接受24.01.20;发表11.06.20

版权

©彭丽宁,肖飞远,李伟菊,黄世松,陈良功。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2020年6月11日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map