这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba
随着心血管疾病在世界范围内的发病率不断上升,早期预测和准确评估心力衰竭(HF)风险对于满足临床需求至关重要。gydF4y2Ba
我们的研究目标是开发基于真实世界电子健康记录的机器学习(ML)模型,以预测1年住院死亡率、正性肌力药物的使用和1年全因再入院率。gydF4y2Ba
在本单中心研究中,我们招募了2010年12月至2018年8月在大连医科大学第一附属医院(中国辽宁省)住院的新诊断HF患者。在第一次住院期间,使用79个变量为人口集(90:10将数据集分为训练集和测试集)构建模型。研究了逻辑回归、支持向量机、人工神经网络、随机森林和极端梯度增强模型来预测结果。gydF4y2Ba
在纳入研究的13602例心衰患者中,537例(3.95%)在1年内死亡,2779例(20.43%)有使用正性肌力药物的历史。ML算法改善了1年住院死亡率(曲线下面积[AUCs] 0.92-1.00)、正性肌力药物使用(AUCs 0.85-0.96)和1年再入院率(aus 0.63-0.96)预测模型的性能。根据高敏感性心肌肌钙蛋白I (<0.068 μg/L)、淋巴细胞百分比(<14.688%)和中性粒细胞计数(4.870×10)的单变量,建立死亡风险决策树并对其进行分层gydF4y2Ba9gydF4y2Ba/ L)。gydF4y2Ba
基于大量临床变量的ML技术可以改善心衰患者的预后预测。死亡率决策树可能有助于指导更好的临床风险评估和决策。gydF4y2Ba
心力衰竭(HF)综合征是一种危及生命的慢性疾病,由于人口老龄化、疾病谱的变化以及各种心血管疾病患者生存率的提高,在全球范围内流行,近几十年来一直在持续上升[gydF4y2Ba
在过去的几十年里,预测模型作为一种重要的风险评估工具被开发出来,并用于各种医疗保健领域。人们已经认识到,它有助于早期识别有疾病或事件风险的患者,并能够对那些可能从识别特定风险因素中获益最多的人进行有效干预[gydF4y2Ba
此外,通过电子病历的自动挖掘,结合机器学习(ML)方法,已经在各个医疗保健领域构建了预测模型,并取得了一定程度的成功[gydF4y2Ba
在我们的研究中,我们探索了使用传统的方法-逻辑回归(LR)和四种新的ML方法-支持向量机(SVM)、人工神经网络(ANN)、随机森林(RF)和极端梯度增强(XGBoost)来预测真实环境中HF受试者的预后结果。我们展示了基于ehr模型的发展,以预测一年内住院死亡率、正性肌力药物的使用和全因再入院率。gydF4y2Ba
我们收集了2010年12月至2018年8月7年间大连医科大学第一附属医院(中国辽宁省)确诊为HF住院患者的EHR数据。所有HF患者均根据机构指南进行诊断和治疗。由于电子病历诊断术语已根据《国际疾病及相关健康问题统计分类第十版》(ICD-10 [gydF4y2Ba
该平台整合了患者日常保健的全面和详细数据。通过自然语言处理、ML技术和定义良好的逻辑规则对常见变量和心血管特定变量进行结构化和规范化。考虑到EHR数据规模大,ML技术的优势,本研究收集了已知临床意义且通过传统病历无法获得的候选变量。我们排除了缺失值大于20%的变量。最后,从大数据智能平台中提取出与第一次住院相关的79个变量。特征如下:人口统计学(年龄和性别)、个人病史(吸烟和饮酒)、病史(共病和手术)、病因学、生命体征、常规实验室检查、干预措施和入院时药物使用情况(gydF4y2Ba
我们分别使用5种算法建立模型来预测主要结局:1年内的全因住院死亡率。次要结果为(1)心衰患者使用正性肌力药物和(2)全因再入院。死亡率定义为住院患者在住院1年内的明确死亡记录。我们的研究选择了以下临床常用的正性肌力性药物:多巴胺、多巴酚丁胺、米力农、左西孟旦、地斯拉诺苷。再入院定义为从最后一次出院到下一次入院间隔超过1天的患者;无再入院患者在住院1年内死亡。因此,入选的患者被标记为“死亡”或“幸存者”。gydF4y2Ba
首先采用合成少数群体过采样技术来解决数据集的不平衡,死亡患者和幸存者之间的比例为1:1。通过衍生新的“合成”样本来缓解不平衡,少数人被过度采样是很常见的[gydF4y2Ba
使用保留方法将数据集分为训练/验证数据集(90%)和保留测试集(10%)。通过10次交叉验证探索了五种方法来构建模型和调整参数:LR, RF, SVM, ANN和XGBoost。保留测试集用于评估用训练集创建的最佳表现模型。受试者工作特征(ROC)曲线下面积(AUC)被选为我们模型的主要评估指标,包括准确性、精密度和召回率。Brier评分(范围为0到1)——预测值与实际值之间的平均平方误差——也通常表示为整体测量的“校准”。采用Shapley加性解释(SHAP)值来评价特征的重要性。gydF4y2Ba
LR是进行分类决策的最基本的二分线性模型选择方法。LR在测量连续或分类变量中基于二元分类关系的“0”和“1”之间的概率方面更胜一筹[gydF4y2Ba
RF是一种集成了多个决策树分类器的算法。决策树的每个节点代表一个预测变量,通过设置最优阈值来分离结果类。特征的重要性也可以通过分类器节点的权值之和得到[gydF4y2Ba
SVM作为一种二分类监督算法,可以应用于高维特征空间。最好的超平面可以使用基于内核的函数以最大间隔分离两个类[gydF4y2Ba
利用sklearn实现了多层感知器(MLP)分类器。神经网络模块开发模型[gydF4y2Ba
XGBoost是一种增强方法;该算法旨在以迭代的方式将弱分类器集成为单个健壮分类器[gydF4y2Ba
所有ML算法都使用Python(3.6.5版本;Python Software Foundation),并使用Python(3.6.3)的开源Scipy(版本1.3.0)数据库进行统计分析。所有分类数据均以百分比表示。所有符合正态分布的连续数据均以均值(SD)表示;反之为中位数(IQR)。学生gydF4y2Ba
本研究共纳入13602例新诊断心衰的住院患者,其中3.95% (n=537)在1年内住院死亡。正性肌力药使用率为20.43% (n=2779)。HF患者30天、60天和1年的总全因再入院率分别为4.83%、14.77%和21.16% (n=657, n=2009, n=2878,共13602例)。根据生存状况比较两组符合条件人群的基线特征(gydF4y2Ba
死亡和幸存者组的人口学和临床变量(N=13,602)。gydF4y2Ba
变量gydF4y2Ba | 已故的组gydF4y2Ba | 幸存者团体gydF4y2Ba |
|
||||||||
患者总数,n (%)gydF4y2Ba | 537 (3.9)gydF4y2Ba | 13065 (96.1)gydF4y2Ba |
|
||||||||
|
|
|
|
||||||||
|
年龄(年),中位数(IQR)gydF4y2Ba | 77.0 (66.5 - -83.0)gydF4y2Ba | 72.0 (63.0 - -80.0)gydF4y2Ba | .003gydF4y2Ba | |||||||
|
性别(男性),n (%)gydF4y2Ba | 282 (52.5)gydF4y2Ba | 6860 (52.5)gydF4y2Ba | .997gydF4y2Ba | |||||||
|
吸烟史,n (%)gydF4y2Ba | 115 (21.4)gydF4y2Ba | 3282 (25.1)gydF4y2Ba | 0。gydF4y2Ba | |||||||
|
饮酒史,n (%)gydF4y2Ba | 64 (11.9)gydF4y2Ba | 1820 (13.9)gydF4y2Ba | .19gydF4y2Ba | |||||||
|
|
|
|
||||||||
|
糖尿病gydF4y2Ba | 202 (37.6)gydF4y2Ba | 3593 (27.5)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
高血压gydF4y2Ba | 338 (62.9)gydF4y2Ba | 7073 (54.1)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
血脂异常gydF4y2Ba | 313 (58.2)gydF4y2Ba | 8449 (64.7)gydF4y2Ba | .003gydF4y2Ba | |||||||
|
慢性阻塞性肺病gydF4y2Ba一个gydF4y2Ba | 3 (0.5)gydF4y2Ba | 50 (0.4)gydF4y2Ba | 票价gydF4y2Ba | |||||||
|
慢性肾病gydF4y2Ba | 13 (2.4)gydF4y2Ba | 144 (1.1)gydF4y2Ba | .005gydF4y2Ba | |||||||
|
肿瘤gydF4y2Ba | 46 (8.6)gydF4y2Ba | 534 (4.1)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
|
|
|
||||||||
|
冠心病gydF4y2Ba | 349 (65.0)gydF4y2Ba | 7810 (59.8)gydF4y2Ba | 02gydF4y2Ba | |||||||
|
心肌病gydF4y2Ba | 22日(4.1)gydF4y2Ba | 1207 (9.2)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
心脏瓣膜病gydF4y2Ba | 91 (16.9)gydF4y2Ba | 2389 (18.3)gydF4y2Ba | 点gydF4y2Ba | |||||||
|
心律失常gydF4y2Ba | 193 (35.9)gydF4y2Ba | 5780 (44.2)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
心血管外科病史gydF4y2Ba | 115 (21.4)gydF4y2Ba | 2519 (19.3)gydF4y2Ba | 口径。gydF4y2Ba | |||||||
|
|
|
|
||||||||
|
|
|
|
|
|||||||
|
|
舒张压gydF4y2Ba | 77.0 (68.0 - -84.0)gydF4y2Ba | 80.0 (70.0 - -90.0)gydF4y2Ba | <措施gydF4y2Ba | ||||||
|
|
收缩压gydF4y2Ba | 130.0 (115.0 - -150.0)gydF4y2Ba | 140.0 (120.0 - -152.0)gydF4y2Ba | <措施gydF4y2Ba | ||||||
|
心率(次/分)gydF4y2Ba | 84.0 (72.0 - -99.0)gydF4y2Ba | 76.0 (68.0 - -90.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
呼吸频率(次/分钟)gydF4y2Ba | 19.0 (18.0 - -20.0)gydF4y2Ba | 18.0 (17.0 - -19.0)gydF4y2Ba | 点gydF4y2Ba | |||||||
|
温度gydF4y2Ba | 36.2 (36.0 - -36.5)gydF4y2Ba | 36.2 (36.0 - -36.4)gydF4y2Ba | .003gydF4y2Ba | |||||||
|
|
|
<措施gydF4y2Ba | ||||||||
|
4gydF4y2Ba | 113 (21.0)gydF4y2Ba | 1424 (10.9)gydF4y2Ba |
|
|||||||
|
3gydF4y2Ba | 96 (17.9)gydF4y2Ba | 4006 (30.7)gydF4y2Ba |
|
|||||||
|
2gydF4y2Ba | 22日(4.1)gydF4y2Ba | 1738 (13.3)gydF4y2Ba |
|
|||||||
|
我gydF4y2Ba | 0 (0)gydF4y2Ba | 12 (0.1)gydF4y2Ba |
|
|||||||
|
没有一个gydF4y2Ba | 297 (55.3)gydF4y2Ba | 5291 (40.5)gydF4y2Ba |
|
|||||||
|
|
|
|
||||||||
|
法国巴黎gydF4y2BacgydF4y2Ba | 1053.5 (399.5 - -2383.3)gydF4y2Ba | 322.9 (106.6 - -845.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
hs-cTnlgydF4y2BadgydF4y2Ba | 0.4 (0.1 - -5.2)gydF4y2Ba | 0.03 (0.01 - -0.11)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
肌酸激酶MB (U/L)gydF4y2Ba | 2.8 (1.4 - -8.0)gydF4y2Ba | 1.5 (0.8 - -2.6)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
血红蛋白(g / L)gydF4y2Ba | 115.0 (94.0 - -133.0)gydF4y2Ba | 131.0 (117.0 - -144.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
血小板gydF4y2Ba | 180.5 (125.8 - -242.0)gydF4y2Ba | 193.0 (155.0 - -235.0)gydF4y2Ba | 措施gydF4y2Ba | |||||||
|
白细胞(×10gydF4y2Ba9gydF4y2Ba/ L)gydF4y2Ba | 9.5 (6.4 - -14.0)gydF4y2Ba | 6.6 (5.3 - -8.2)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
红细胞gydF4y2Ba | 3.9 (3.2 - -4.4)gydF4y2Ba | 4.3 (3.9 - -4.8)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
淋巴细胞gydF4y2Ba | 1.1 (0.7 - -1.7)gydF4y2Ba | 1.6 (1.1 - -2.1)gydF4y2Ba | .59gydF4y2Ba | |||||||
|
中性粒细胞gydF4y2Ba | 7.1 (4.5 - -11.3)gydF4y2Ba | 4.1 (3.1 - -5.5)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
平均血小板体积(fL)gydF4y2Ba | 10.8 (10.0 - -11.7)gydF4y2Ba | 10.7 (10.0 - -11.4)gydF4y2Ba | 04gydF4y2Ba | |||||||
|
血细胞比容gydF4y2Ba | 34.1 (26.1 - -39.7)gydF4y2Ba | 38.7 (33.2 - -42.7)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
嗜碱粒细胞(×10gydF4y2Ba9gydF4y2Ba/ L)gydF4y2Ba | 0.02 (0.01 - -0.03)gydF4y2Ba | 0.02 (0.01 - -0.04)gydF4y2Ba | 55gydF4y2Ba | |||||||
|
单核细胞(×10gydF4y2Ba9gydF4y2Ba/ L)gydF4y2Ba | 0.6 (0.4 - -0.9)gydF4y2Ba | 0.5 (0.4 - -0.7)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
单核细胞(%)gydF4y2Ba | 6.7 (4.5 - -9.0)gydF4y2Ba | 7.9 (6.4 - -9.7)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
平均微粒体积(fL)gydF4y2Ba | 91.1 (87.8 - -94.2)gydF4y2Ba | 91.0 (87.9 - -94.2)gydF4y2Ba | .62gydF4y2Ba | |||||||
|
原降钙素gydF4y2Ba | 0.4 (0.1 - -1.9)gydF4y2Ba | 0.1 (0.1 - -0.3)gydF4y2Ba | .20gydF4y2Ba | |||||||
|
中性粒细胞(%)gydF4y2Ba | 78.3 (67.6 - -87.2)gydF4y2Ba | 63.1 (55.5 - -71.1)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
嗜碱粒细胞(%)gydF4y2Ba | 0.2 (0.1 - -0.4)gydF4y2Ba | 0.4 (0.2 - -0.5)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
嗜酸性粒细胞(%)gydF4y2Ba | 0.8 (0.2 - -1.9)gydF4y2Ba | 1.7 (0.9 - -2.9)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
嗜酸性粒细胞(×10gydF4y2Ba9gydF4y2Ba/ L)gydF4y2Ba | 0.1 (0.03 - -0.2)gydF4y2Ba | 0.1 (0.1 - -0.2)gydF4y2Ba | .002gydF4y2Ba | |||||||
|
淋巴细胞(%)gydF4y2Ba | 12.7 (6.7 - -21.4)gydF4y2Ba | 25.6 (18.2 - -32.7)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
总胆红素(µmol/L)gydF4y2Ba | 16.3 (11.2 - -27.3)gydF4y2Ba | 14.5 (10.5 - -20.5)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
直接胆红素(µmol/L)gydF4y2Ba | 5.4 (3.4 - -9.4)gydF4y2Ba | 4.6 (3.2 - -6.9)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
葡萄糖(更易/ L)gydF4y2Ba | 6.5 (5.1 - -9.3)gydF4y2Ba | 5.5 (4.9 - -6.8)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
脂蛋白(a)(毫克/升)gydF4y2Ba | 165.3 (84.7 - -307.5)gydF4y2Ba | 152.1 (83.0 - -277.0)gydF4y2Ba | 。08gydF4y2Ba | |||||||
|
高密度脂蛋白胆固醇(mmol/L)gydF4y2Ba | 1.3 (0.9 - -34.0)gydF4y2Ba | 1.5 (1.0 - -39.0)gydF4y2Ba | . 01gydF4y2Ba | |||||||
|
低密度脂蛋白胆固醇(mmol/L)gydF4y2Ba | 3.2 (2.2 - -80.0)gydF4y2Ba | 3.5 (2.3 - -90.0)gydF4y2Ba | 。08gydF4y2Ba | |||||||
|
总胆固醇(mmol/L)gydF4y2Ba | 5.3 (3.9 - -137.3)gydF4y2Ba | 5.8 (4.2 - -155.0)gydF4y2Ba | 03gydF4y2Ba | |||||||
|
甘油三酸酯(更易/ L)gydF4y2Ba | 1.8 (1.0 - -80.0)gydF4y2Ba | 2.1 (1.1 - -91.0)gydF4y2Ba | . 01gydF4y2Ba | |||||||
|
丙氨酸转氨酶(U/L)gydF4y2Ba | 27.0 (14.0 - -61.0)gydF4y2Ba | 20.0 (13.0 - -33.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
天门冬氨酸转氨酶(U/L)gydF4y2Ba | 36.0 (20.0 - -101.0)gydF4y2Ba | 21.0 (16.0 - -30.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
γ -谷氨酰转移酶(U/L)gydF4y2Ba | 46.0 (25.0 - -87.0)gydF4y2Ba | 35.0 (22.0 - -63.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
白蛋白(g / L)gydF4y2Ba | 35.0 (30.6 - -38.6)gydF4y2Ba | 39.3 (36.2 - -41.9)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
球蛋白(g / L)gydF4y2Ba | 28.6 (24.4 - -32.9)gydF4y2Ba | 26.7 (23.6 - -30.3)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
白蛋白/球蛋白比例gydF4y2Ba | 1.2 (1.0 - -1.5)gydF4y2Ba | 1.5 (1.3 - -1.7)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
总蛋白(g/L)gydF4y2Ba | 63.1 (58.1 - -69.3)gydF4y2Ba | 65.9 (61.5 - -70.4)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
肌酐(μ摩尔/升)gydF4y2Ba | 110.0 (77.0 - -201.0)gydF4y2Ba | 77.0 (62.0 - -98.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
钠(更易/ L)gydF4y2Ba | 138.5 (135.0 - -142.0)gydF4y2Ba | 141.0 (138.8 - -143.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
钾(更易/ L)gydF4y2Ba | 4.0 (3.7 - -4.5)gydF4y2Ba | 4.0 (3.7 - -4.3)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
钙(更易/ L)gydF4y2Ba | 2.1 (2.0 - -2.2)gydF4y2Ba | 2.2 (2.1 - -2.3)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
尿酸(μmol/L)gydF4y2Ba | 446.0 (321.8 - -611.3)gydF4y2Ba | 390.0 (311.0 - -489.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
尿素(更易/ L)gydF4y2Ba | 11.4 (7.4 - -19.3)gydF4y2Ba | 7.1 (5.6 - -9.5)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
碱性磷酸酶(U/L)gydF4y2Ba | 84.0 (69.0 - -116.0)gydF4y2Ba | 74.0 (62.0 - -92.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
乙酰胆碱酯酶(U / L)gydF4y2Ba | 210.5 (148.0 - -281.0)gydF4y2Ba | 292.0 (229.0 - -363.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
国际标准化比率gydF4y2Ba | 1.2 (1.1 - -1.4)gydF4y2Ba | 1.1 (1.0 - -1.21)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
凝血酶原时间(s)gydF4y2Ba | 13.2 (11.9 - -15.8)gydF4y2Ba | 11.9 (11.0 - -13.2)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
空腹血糖(g/L)gydF4y2Ba | 3.6 (2.7 - -4.5)gydF4y2Ba | 3.0 (2.5 - -3.7)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
活化部分凝血活酶时间(s)gydF4y2Ba | 31.7 (26.5 - -41.8)gydF4y2Ba | 26.8 (23.9 - -30.8)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
|
|
|
||||||||
|
心脏再同步疗法gydF4y2Ba | 2 (0.4)gydF4y2Ba | 42 (0.3)gydF4y2Ba | i =gydF4y2Ba | |||||||
|
ICDgydF4y2BaegydF4y2Ba植入gydF4y2Ba | 0 (0)gydF4y2Ba | 32 (0.2)gydF4y2Ba | .64点gydF4y2Ba | |||||||
|
永久心脏起搏器gydF4y2Ba | 3 (0.6)gydF4y2Ba | 350 (2.7)gydF4y2Ba | .002gydF4y2Ba | |||||||
|
临时起搏器gydF4y2Ba | 0 (0)gydF4y2Ba | 15 (0.1)gydF4y2Ba | >。gydF4y2Ba | |||||||
|
|
|
|
||||||||
|
ACEIgydF4y2BafgydF4y2Ba/ ARBgydF4y2BaggydF4y2Ba | 207 (38.5)gydF4y2Ba | 7967 (61.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
β-受体阻滞药gydF4y2Ba | 408 (76.0)gydF4y2Ba | 10199 (78.1)gydF4y2Ba | 二十五分gydF4y2Ba | |||||||
|
醛固酮拮抗剂gydF4y2Ba | 266 (49.5)gydF4y2Ba | 8364 (64.0)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
他汀类药物gydF4y2Ba | 310 (57.7)gydF4y2Ba | 8399 (64.3)gydF4y2Ba | .002gydF4y2Ba | |||||||
|
阿斯匹林gydF4y2Ba | 331 (61.6)gydF4y2Ba | 8255 (63.2)gydF4y2Ba | 票价gydF4y2Ba | |||||||
|
利尿剂gydF4y2Ba | 508 (94.6)gydF4y2Ba | 10927 (83.6)gydF4y2Ba | <措施gydF4y2Ba | |||||||
|
地高辛gydF4y2Ba | 73 (13.6)gydF4y2Ba | 2424 (18.6)gydF4y2Ba | 04gydF4y2Ba | |||||||
|
|
|
|
||||||||
|
|
|
|
|
|||||||
|
|
多巴胺gydF4y2Ba | 319 (59.4)gydF4y2Ba | 1407 (10.8)gydF4y2Ba | <措施gydF4y2Ba | ||||||
|
|
盐酸多巴酚丁胺gydF4y2Ba | 39 (7.3)gydF4y2Ba | 225 (1.7)gydF4y2Ba | <措施gydF4y2Ba | ||||||
|
|
药物gydF4y2Ba | 52 (9.7)gydF4y2Ba | 325 (2.5)gydF4y2Ba | <措施gydF4y2Ba | ||||||
|
|
左西孟旦gydF4y2Ba | 7 (1.3)gydF4y2Ba | 37 (0.3)gydF4y2Ba | .002gydF4y2Ba | ||||||
|
|
毛花甙CgydF4y2Ba | 129 (24.0)gydF4y2Ba | 1132 (8.7)gydF4y2Ba | <措施gydF4y2Ba | ||||||
|
|
|
|
|
|||||||
|
|
30天gydF4y2Ba | 53 (9.9)gydF4y2Ba | 604 (4.6)gydF4y2Ba | <措施gydF4y2Ba | ||||||
|
|
180天gydF4y2Ba | 129 (24.0)gydF4y2Ba | 1880 (14.4)gydF4y2Ba | <措施gydF4y2Ba | ||||||
|
|
1年gydF4y2Ba | 162 (30.2)gydF4y2Ba | 2716 (20.8)gydF4y2Ba | <措施gydF4y2Ba |
一个gydF4y2BaCOPD:慢性阻塞性肺病。gydF4y2Ba
bgydF4y2Ba纽约心脏协会:纽约心脏协会。gydF4y2Ba
cgydF4y2BaBNP: b型利钠肽。gydF4y2Ba
dgydF4y2Bahs-cTnI:高敏感性心肌肌钙蛋白I。gydF4y2Ba
egydF4y2BaICD:植入式除颤器。gydF4y2Ba
fgydF4y2Ba血管紧张素转换酶抑制剂。gydF4y2Ba
ggydF4y2Ba血管紧张素受体阻滞剂。gydF4y2Ba
采用5种算法建立了1年住院死亡风险评估的预测模型。gydF4y2Ba
受试者工作特征(ROC)曲线使用合成少数群体过采样技术进行逻辑回归、随机森林、支持向量机、人工神经网络(ANN)和极端梯度增强(XGBoost)模型来预测(A) 1年住院死亡率,(B)正性肌力药物的使用,(C) 1年全因再入院。AUC:曲线下面积。gydF4y2Ba
在预测(A) 1年住院死亡率、(B)正性肌力药物的使用和(C) 1年全因再入院时,使用合成少数超采样技术进行logistic回归、随机森林、支持向量机、人工神经网络(ANN)和极端梯度增强(XGBoost)模型的校准图。gydF4y2Ba
机器学习方法估计1年住院全因死亡率的性能。gydF4y2Ba
模型gydF4y2Ba | AUCgydF4y2Ba一个gydF4y2Ba | 精度gydF4y2Ba | 精度gydF4y2Ba | 回忆gydF4y2Ba | F1gydF4y2Ba | 野蔷薇的分数gydF4y2Ba |
LRgydF4y2BabgydF4y2Ba | 0.91gydF4y2Ba | 0.83gydF4y2Ba | 0.86gydF4y2Ba | 0.80gydF4y2Ba | 0.83gydF4y2Ba | 0.12gydF4y2Ba |
射频gydF4y2BacgydF4y2Ba | 1.00gydF4y2Ba | 0.97gydF4y2Ba | 0.96gydF4y2Ba | 0.98gydF4y2Ba | 0.97gydF4y2Ba | 0.03gydF4y2Ba |
支持向量机gydF4y2BadgydF4y2Ba | 0.99gydF4y2Ba | 0.94gydF4y2Ba | 0.93gydF4y2Ba | 0.96gydF4y2Ba | 0.94gydF4y2Ba | 0.16gydF4y2Ba |
安gydF4y2BaegydF4y2Ba | 0.99gydF4y2Ba | 0.97gydF4y2Ba | 0.96gydF4y2Ba | 0.98gydF4y2Ba | 0.97gydF4y2Ba | 0.03gydF4y2Ba |
XGBoostgydF4y2BafgydF4y2Ba | 0.99gydF4y2Ba | 0.94gydF4y2Ba | 0.91gydF4y2Ba | 0.98gydF4y2Ba | 0.94gydF4y2Ba | 0.05gydF4y2Ba |
一个gydF4y2BaAUC:曲线下面积。gydF4y2Ba
bgydF4y2Ba逻辑回归。gydF4y2Ba
cgydF4y2BaRF:随机森林。gydF4y2Ba
dgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba
egydF4y2BaANN:人工神经网络。gydF4y2Ba
fgydF4y2BaXGBoost:极端梯度增强。gydF4y2Ba
此外,我们通过应用RF和XGBoost方法探索了影响死亡率预测的特征的重要性(gydF4y2Ba
Shapley相加解释(SHAP)图用于机器学习模型在预测(A) 1年住院死亡率时使用随机森林(RF)方法,(B) 1年住院死亡率时使用极端梯度增强(XGBoost)方法,(C)使用正性肌力药物时使用RF方法,(D)使用正性肌力药物时使用XGBoost方法,(E) 1年全因再入院时使用支持向量机(SVM)方法,(F) 1年全因再入院,采用XGBoost方法。铝青铜:白蛋白;ALP:碱性磷酸酶;APTT:活化部分凝血活酶时间;AST:天门冬氨酸转氨酶;贝索:嗜碱粒细胞;BNP: b型利钠肽;ChE:胆碱酯酶:CK-MB:肌酸激酶MB;慢性阻塞性肺病:慢性阻塞性肺病; Crea: creatinine; DBIL: direct bilirubin; Fbg: fibrinogen; GGT: gamma-glutamyl transferase; GLO: globulin; Glu: glucose; Hct: hematocrit; HDL-C: high-density lipoprotein cholesterol; HGB: hemoglobin; hs-cTnI: high-sensitivity cardiac troponin I; INR: international normalized ratio; LDL-C: low-density lipoprotein cholesterol; Lymph(%): percentage of lymphocytes; Mono: monocytes; MPV: mean platelet volume; Na: sodium; Neut: neutrophils; NYHA: New York Heart Association; PT: prothrombin time; TC: total cholesterol; Systolic: systolic blood pressure; TG: triglycerides; TP: total protein; UA: uric acid; WBC: white blood cells.
机器学习方法估计正性肌力药物使用的性能。gydF4y2Ba
模型gydF4y2Ba | AUCgydF4y2Ba一个gydF4y2Ba | 精度gydF4y2Ba | 精度gydF4y2Ba | 回忆gydF4y2Ba | F1gydF4y2Ba | 野蔷薇的分数gydF4y2Ba |
LRgydF4y2BabgydF4y2Ba | 0.85gydF4y2Ba | 0.78gydF4y2Ba | 0.77gydF4y2Ba | 0.79gydF4y2Ba | 0.78gydF4y2Ba | 0.16gydF4y2Ba |
射频gydF4y2BacgydF4y2Ba | 0.96gydF4y2Ba | 0.87gydF4y2Ba | 0.85gydF4y2Ba | 0.91gydF4y2Ba | 0.88gydF4y2Ba | 0.10gydF4y2Ba |
支持向量机gydF4y2BadgydF4y2Ba | 0.91gydF4y2Ba | 0.85gydF4y2Ba | 0.83gydF4y2Ba | 0.88gydF4y2Ba | 0.84gydF4y2Ba | 0.17gydF4y2Ba |
安gydF4y2BaegydF4y2Ba | 0.90gydF4y2Ba | 0.83gydF4y2Ba | 0.78gydF4y2Ba | 0.94gydF4y2Ba | 0.84gydF4y2Ba | 0.12gydF4y2Ba |
XGBoostgydF4y2BafgydF4y2Ba | 0.96gydF4y2Ba | 0.84gydF4y2Ba | 0.79gydF4y2Ba | 0.94gydF4y2Ba | 0.86gydF4y2Ba | 0.11gydF4y2Ba |
一个gydF4y2BaAUC:曲线下面积。gydF4y2Ba
bgydF4y2Ba逻辑回归。gydF4y2Ba
cgydF4y2BaRF:随机森林。gydF4y2Ba
dgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba
egydF4y2BaANN:人工神经网络。gydF4y2Ba
fgydF4y2BaXGBoost:极端梯度增强。gydF4y2Ba
有趣的是,BNP、国际标准化比值(INR)、脉搏率、hs-cTnI和AST是RF法预测正性肌力药物使用的前5个指标。在XGBoost模型中,BNP也被确定为预测正性肌力剂使用的关键标志物,其次是嗜碱性粒细胞计数、脉搏率、INR和hs-cTnI (gydF4y2Ba
以auc为代表的1年全因再入院的不同模型的差别见gydF4y2Ba
机器学习方法估计1年全因再入院的性能。gydF4y2Ba
模型gydF4y2Ba | AUCgydF4y2Ba一个gydF4y2Ba | 精度gydF4y2Ba | 精度gydF4y2Ba | 回忆gydF4y2Ba | F1gydF4y2Ba | 野蔷薇的分数gydF4y2Ba |
LRgydF4y2BabgydF4y2Ba | 0.63gydF4y2Ba | 0.57gydF4y2Ba | 0.57gydF4y2Ba | 0.59gydF4y2Ba | 0.58gydF4y2Ba | 0.24gydF4y2Ba |
射频gydF4y2BacgydF4y2Ba | 0.91gydF4y2Ba | 0.82gydF4y2Ba | 0.83gydF4y2Ba | 0.81gydF4y2Ba | 0.82gydF4y2Ba | 0.13gydF4y2Ba |
支持向量机gydF4y2BadgydF4y2Ba | 0.96gydF4y2Ba | 0.90gydF4y2Ba | 0.86gydF4y2Ba | 0.96gydF4y2Ba | 0.91gydF4y2Ba | 0.16gydF4y2Ba |
安gydF4y2BaegydF4y2Ba | 0.82gydF4y2Ba | 0.74gydF4y2Ba | 0.74gydF4y2Ba | 0.75gydF4y2Ba | 0.74gydF4y2Ba | 0.18gydF4y2Ba |
XGBoostgydF4y2BafgydF4y2Ba | 0.92gydF4y2Ba | 0.83gydF4y2Ba | 0.82gydF4y2Ba | 0.84gydF4y2Ba | 0.83gydF4y2Ba | 0.12gydF4y2Ba |
一个gydF4y2BaAUC:曲线下面积。gydF4y2Ba
bgydF4y2Ba逻辑回归。gydF4y2Ba
cgydF4y2BaRF:随机森林。gydF4y2Ba
dgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba
egydF4y2BaANN:人工神经网络。gydF4y2Ba
fgydF4y2BaXGBoost:极端梯度增强。gydF4y2Ba
在分析的79个变量中,使用支持向量机方法,糖尿病的存在被确定为预测1年全因再入院的最重要标志,而使用XGBoost算法,嗜碱性粒细胞计数是再入院的重要预测因素。两种方法得出的其他特征的排名似乎存在一定的差异(gydF4y2Ba
根据使用XGBoost算法获得的各种变量的截断值(gydF4y2Ba
使用极限梯度增强(XGBoost)算法预测1年住院死亡率和风险分层。AST:天冬氨酸转氨酶;格瓦拉:胆碱酯酶;HF:心力衰竭;hs-cTnI:高敏心肌肌钙蛋白I;淋巴%:淋巴细胞百分比;中性:中性粒细胞计数;RR:呼吸频率。gydF4y2Ba
在我们的研究中,我们开发了基于5种不同ML算法的EHR数据驱动预后模型,用于预测中国单一三级综合医院HF患者1年内的住院死亡率、正性肌力药物的使用以及1年内的全原因再入院率。与传统线性方法相比,这些ML模型通过增加可解释性对预后结果产生更好的预测价值。此外,新型ML技术可以利用大量复杂的高维变量,扩大与预后结果相关的HF预测指标的范围。gydF4y2Ba
一个集成的电子病历系统包括各种数据资源,包括患者的人口统计数据、诊断信息、实验室检测结果和处方。然而,许多专家透露,ehr衍生数据的可用性是促进现实世界研究的先决条件[gydF4y2Ba
已经建立了几种传统的预后模型来估计住院HF患者的死亡率。我们的结果与之前的1年死亡率预测研究一致,同时显示出更好的预测能力。我们的研究使用79个预测变量预测了13602例HF患者的结局,表明ML方法在预测死亡率方面优于EFFECT方法(AUC 0.77),平均AUC为0.81 [gydF4y2Ba
再入院率是用于评估患者群体医疗保健服务质量的常用指标。目前大多数医院和机构仍采用传统的再入院风险模型和某些变量来推断再入院概率[gydF4y2Ba
正性肌力药物是一类能增加心肌收缩力和心排血量的药物,常用于治疗心衰患者。在我们研究的药物中,多巴胺和多巴酚丁胺主要具有肌力性作用,而米力农、大麻苷C和左西孟旦具有额外的血管舒张作用[gydF4y2Ba
本研究的优势在于,我们还开发了一种分层风险评估工具,用于使用XGBoost算法预测1年住院死亡率。更多的特征,包括hs-cTnl、淋巴细胞百分比、中性粒细胞百分比、胆碱酯酶、尿素、呼吸频率和ast,首次使用ML方法进行死亡率预测。据报道,中性粒细胞增多与急性心肌梗死患者急性失代偿性心衰(ADHF)发生率增加有关,而淋巴细胞减少与心衰患者预后不良有关[gydF4y2Ba
我们的研究有几个局限性值得一提。首先,这是一项基于回顾性使用ehr衍生数据的院内结局预测研究。虽然我们的模型本身的表现是相当可观的,但预测能力可以进一步调整,并与已建立的参考工具进行比较。其次,与存活的受试者相比,死亡患者的数量较少;虽然临床变量丰富,但不平衡的问题仍然存在。第三,本研究未在外部队列中进行验证,但计划在后续分析中进行。第四,在进一步的模型开发中,应该考虑到HF患者的不同表型。gydF4y2Ba
使用新型ML算法的ehr驱动模型被开发用于预测HF住院患者1年的住院死亡率、正性肌力药物的使用以及1年的全因再入院。我们的模型的辨别能力和性能也优于使用传统技术构建的现有工具。此外,确定更大范围的变量可以进一步改善心衰患者的风险评估决策。gydF4y2Ba
功能概述完整的数据集。gydF4y2Ba
血管紧张素转换酶抑制剂gydF4y2Ba
急性失代偿性心力衰竭国家登记gydF4y2Ba
急性失代偿性心力衰竭gydF4y2Ba
人工神经网络gydF4y2Ba
醛固酮受体拮抗剂gydF4y2Ba
天冬氨酸转氨酶gydF4y2Ba
曲线下面积gydF4y2Ba
b型利钠肽gydF4y2Ba
血尿素氮gydF4y2Ba
有效心脏治疗的强化反馈gydF4y2Ba
电子健康记录gydF4y2Ba
心脏衰竭gydF4y2Ba
高敏感性心肌肌钙蛋白IgydF4y2Ba
《国际疾病分类》第十版gydF4y2Ba
国际标准化比率gydF4y2Ba
逻辑回归gydF4y2Ba
机器学习gydF4y2Ba
多层感知器gydF4y2Ba
机械辅助治疗充血性心力衰竭的随机评价gydF4y2Ba
随机森林gydF4y2Ba
接收机工作特性gydF4y2Ba
收缩压gydF4y2Ba
Shapley加法解释gydF4y2Ba
西雅图心脏衰竭模型gydF4y2Ba
支持向量机gydF4y2Ba
极端梯度增强gydF4y2Ba
我们非常感谢易都云(北京)科技有限公司在数据提取和模型开发方面提供的技术支持。gydF4y2Ba
国家自然科学基金(No. 81700245, 81900439, 81970286)和辽宁省自然科学基金(No. 2019-MS-081)资助。gydF4y2Ba
没有宣布。gydF4y2Ba