发表在9卷第11名(2021): 11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/30079,首次出版
股骨颈骨折后股骨头坏死的预测模型:基于机器学习的开发和验证研究

股骨颈骨折后股骨头坏死的预测模型:基于机器学习的开发和验证研究

股骨颈骨折后股骨头坏死的预测模型:基于机器学习的开发和验证研究

原始论文

1同济大学医学院医学统计系,上海,中国

2上海东方医院脊柱外科,上海,中国

3.上海市第十人民医院骨科,中国上海

4同济大学医学院杨浦医院骨科,上海,中国

5上海市第九人民医院病案科,中国上海

6上海东方医院放射科,中国上海

通讯作者:

艾子生,博士

医疗统计部

同济大学医学院

新平路1239号

上海,200092年

中国

电话:86 1 377 438 0743

传真:86 021 65986270

电子邮件:azs1966@126.com


背景:股骨颈骨折(FNFs)的绝对数量正在增加;然而,外伤性股骨头坏死的预测仍然困难。对于外伤性股骨头坏死的预测,机器学习算法具有优于传统预测方法的潜力。

摘要目的:本研究的目的是利用机器学习构建FNF患者内固定后股骨头骨坏死(ONFH)的危险因素分析和预测模型。

方法:我们回顾性收集了上海4家医院FNF患者的术前、术中、术后临床资料,随访时间超过2.5年。本研究共纳入259例患者43个变量。数据随机分为训练集(181/259,69.8%)和验证集(78/259,30.1%)。外部数据(n=376)来自其他3家医院FNF患者的回顾性队列研究。采用最小绝对收缩选择算子回归和支持向量机算法进行变量选择。使用逻辑回归、随机森林、支持向量机和极限梯度增强(XGBoost)在训练集上建立模型。利用验证集对模型超参数进行调优,确定最终的预测模型,利用外部数据对模型性能进行比较和评价。我们比较了模型的准确性、甄别力和校准,以确定预测ONFH的最佳机器学习算法。采用Shapley加性解释和局部可解释模型不可知解释来确定黑盒模型的可解释性。

结果:模型共选取了11个变量。XGBoost模型在验证集和外部数据上表现最好。模型在验证集上的准确性、灵敏度和受试者工作特征曲线下面积分别为0.987、0.929和0.992。模型对外部数据的准确性、敏感性、特异性和受试者工作特征曲线下面积分别为0.907、0.807、0.935和0.933,log-loss为0.279。校准曲线表明,预测概率与实际风险之间具有良好的一致性。利用Shapley加性解释和局部可解释模型未知解释算法实现特征和个体预测的可解释性。此外,XGBoost模型被转化为一个自制的基于网络的风险计算器,以估计个体发生ONFH的概率。

结论:机器学习在预测FNF内固定后的ONFH方面表现良好。6变量XGBoost模型较好地预测了ONFH的风险,对外部数据具有较好的泛化能力,可用于FNF内固定后ONFH的临床预测。

JMIR Med Inform 2021;9(11):e30079

doi: 10.2196/30079

关键字



背景

世界范围内髋部骨折的发病率正在发生变化。在大多数西欧和北欧国家,发病率正在下降,新加坡也是如此[1-5]。中国和美国的发病率正趋于稳定。67],而德国、日本和韩国仍在增长[8-10]。尽管在一些国家,经年龄调整后的髋部骨折发病率正在下降或趋于稳定,但髋部骨折的绝对数量和相关医疗费用仍在增加。股骨颈骨折(FNFs)约占髋关节骨折的48.22%至52.26% [91112], 23%的年轻患者内固定后出现股骨头骨坏死(ONFH) [13]。早期ONFH可在股骨头塌陷发生前进行髋关节保存手术,如游离腓骨移植和截骨术[14]。既往研究表明ONFH早期保臀治疗的中短期成功率为55% ~ 87% [1516]。

已发表的关于ONFH预测的论文主要是基于放射学研究中股骨头血液循环的变化,如单光子发射计算机断层扫描[17]/单光子发射计算机断层扫描[18],正电子发射断层扫描[19]/正电子发射断层扫描-计算机断层扫描[20.]、核磁共振成像[21]/动态对比增强磁共振成像[22]、数码减影血管造影术[23]。大多数研究样本量不够大,其预测结果在后续前瞻性研究中未得到证实。崔等[24]首次应用机器学习来预测ONFH的小样本。然而,基于朴素贝叶斯模型的准确率、灵敏度和接受者工作特征曲线(AUC)下面积均低于80%。郑等[25]和朱等[26在传统回归分析的基础上开发了股骨头坏死风险评估的nomogram。验证队列的auc分别为0.94和0.95。然而,这些研究缺乏外部验证。

使用机器学习的预测研究包括从样本数据中学习模型,并对新数据进行预测和决策。支持向量机(SVM)算法在处理小样本二元分类问题时表现出良好的预测性能和泛化能力[27]。随机森林(RF)和极限梯度增强(XGBoost)是集成学习算法,使用数据建立多个模型,然后集成所有模型的建模结果。目前,它们是业内最受欢迎的车型。

在机器学习中,黑盒描述了无法通过检查参数来理解的模型(例如,神经网络和XGBoost) [28]。可解释性被定义为用可理解的语言向人类解释或提供意义的能力。追求黑盒模型的可解释性有助于提高用户对机器学习模型的信任,为人类决策提供支持。阿列塔等人[29]总结并区分了透明模型和那些可以通过事后解释技术解释的模型。透明模型本身传达了某种程度的可解释性,例如逻辑回归(LR)和决策树。事后解释技术是模型不可知的方法,包括局部解释、简化解释和特征相关性解释技术。基于这些方法的进一步探索有助于克服与可解释性相关的困难,使机器学习模型更具说服力和可靠性。

目标

本研究旨在探讨和比较不同机器学习算法在FNF内固定后ONFH预测中的应用价值,并建立基于机器学习算法的ONFH预测模型。在本研究中,预测模型的开发和验证由预测模型风险偏差评估工具(PROBAST)指导[30.]并遵守《个体预后或诊断多变量预测模型透明报告》(TRIPOD) [31]报告声明。为了向临床提供合适的模型,设计、实施和报告还考虑了Vollmer等人提出的20个关键问题[32]关于研究的透明度、可重复性、伦理性和有效性。


研究人群

这项多中心回顾性随访研究对接受FNFs内固定的患者进行了至少30个月的随访。研究人群为2015年1月1日至2018年5月1日在上海市第九人民医院、东方医院、杨浦区中心医院及2017年1月1日至2018年5月1日在上海市第十人民医院出院的FNF合并内固定患者。通过查询住院电子病历系统、医学影像信息系统、实验室信息系统、病例手册阅读及随访,收集316例FNF患者47个临床特征。在排除失访或死亡的患者后,本研究纳入259例FNF患者及相关43个变量。外部数据(n=376)来自我们之前的回顾性队列研究[25],该研究收集了2013年5月至2017年1月上海第六医院、第十医院和同济医院一组FNFs患者的数据。排除2例年龄为> ~ 75岁的患者。

纳入标准如下:(1)年龄在18 - 75岁之间行内固定的FNF患者,(2)基线资料完整的FNF患者,(3)随访时间≥30个月,(4)美国麻醉医师学会麻醉风险约为I-III级,(5)骨折前受伤髋侧无中度或重度疼痛或活动受限。排除标准如下:(1)FNF合并病理性骨折或陈旧性骨折患者伤后2周入院>;(2)内固定手术失败的患者;(3)有恶性肿瘤、非创伤性骨折、同侧下肢或其他骨折史的患者;(4)有长期潜水、酗酒、氟喹诺酮类、抗血小板药物或激素使用史;(5)同部位多处骨折、对侧损伤或双下肢骨折患者6个月以上;(6)半年内发生过急性心肌梗死、脑血管意外、严重外伤或大手术的患者;(7)内固定期间行血管移植或游离腓骨移植的患者;(8)患者依从性差。ONFH的诊断基于协会研究循环骨性分级系统的更新版本[14],于2019年在中国大连举行的协会研究流通骨性会议上展示并获得批准,并与2015年在中国开发的ONFH中文分级系统同时使用[33]。

道德声明

本课题经同济大学医学与生命科学伦理委员会审定(2019tjdx285;日期2019年6月18日)。考虑到本研究的回顾性性质,放弃了知情同意的要求。

自变量(特征)

共收集47个临床特征,剔除缺失值为>20%的特征。总体而言,43个候选变量被纳入以下类别:(1)人口统计学信息:年龄、性别、吸烟、饮酒和年龄调整的Charlson共病指数[34];(2)骨折相关:损伤原因[35]、伤侧、骨折位置、嵌塞、术前移位、颈角垂直轴[36]、花园分类[37];(3)术前生化指标:总蛋白、白蛋白、白蛋白/球蛋白、总胆红素、丙氨酸转氨酶、天冬氨酸转氨酶、肌酐、尿酸、尿素氮;(4)术前常规血参数:红细胞、血红蛋白、白细胞、血小板、红细胞压积;(5)术前凝血参数:凝血酶原时间、纤维蛋白原、活化部分凝血活蛋白时间、国际标准化比值;(6)手术相关参数:美国麻醉学会分级、手术时间、麻醉类型、手术治疗、手术方法;(7)术后相关特点:复位质量[38]、Lowell曲线、Gotfried还原[39],以及股骨颈缩短[40];(8)随访信息:间隔至部分负重、间隔至负重、植入物移除、视觉模拟量表(VAS)评分[41]。变量的值和定义在多媒体附件1

数据预处理

对原始数据进行离群值检测。每一个异常值的来源都通过两次查阅病史来检查,这样我们就知道异常值的值是否真实。手工采集错误导致的错误得到纠正。在本研究中,缺失变量的比例<5%,用平均值代替。血液生化指标等原始数据为连续变量,根据临床意义转换为低、正常、高分类变量。根据建模要求,将分类变量转化为虚拟变量。连续变量的标准化不是预处理的必要步骤。虽然本研究中包含的连续变量很少,但我们在建模过程中比较了标准化与非标准化的影响。最后,将处理后的数据按7:3的比例随机分为训练集和验证集。

预测模型的开发

数据平衡

ONFH与非ONFH的比例为1:5,是不平衡的。当使用非平衡数据拟合模型时,分类界面会偏向少数,导致敏感性低,特异性高[42]。为了解决这个问题,我们使用了合成少数过采样技术(SMOTE)算法来平衡训练集。SMOTE算法的步骤[43(1)对于少数样本集中的每个样本X,以欧几里得距离为标准,计算与少数样本集中所有样本的距离,得到其K个最近邻;(2)根据样本不平衡率设定抽样比,确定抽样放大倍数n。对于每个少数样本X,从它的K个最近邻中随机选取若干个样本,假设所选最近邻为xn;(3)对于每一个随机选取的邻居xn,将原样本结合,按下式构造新样本:Xj是几个类中的样本用来合成新的样本,是最近的邻居。虽然相邻点的特征特征空间相似,新合成的样本集不会影响原始少数样本的空间边界。

变量的选择

收集到的大量临床数据必然包含冗余特征和噪声数据,导致建模过拟合,无法有效分类。变量选择是一个去除不相关和冗余特征的过程,在一定程度上降低噪声数据对分类器性能的影响[44]。我们使用最小绝对收缩和选择算子(LASSO)回归和支持向量机算法的组合进行变量选择。

建模与参数调整

采用LR、RF、SVM和XGBoost四种分类算法建立模型。采用参数学习曲线、网格搜索、交叉验证等方法对模型参数进行调整,通过检验模型在验证集上的精度、灵敏度和AUC,确定最佳参数组合。参数学习曲线是以不同参数值为横坐标,以不同参数值下模型得分为纵坐标的曲线。我们可以看到模型评价指标在不同参数值下的变化趋势,初步获得较小的参数搜索区间,或者选择模型性能最好的点作为最优参数值。网格搜索是指通过循环遍历选择所有候选参数。系统尝试各种可能性,表现最好的参数就是最终结果,这就是训练和比较的过程。交叉验证是指将数据集随机分为K个部分,不进行替换,K -1个部分用于训练模型,剩余部分用于性能评估。该过程重复K次,得到K个模型和性能评价结果。

模型拟合效果评价

参数调优的目的是使模型的泛化误差最小化。在机器学习中,利用泛化误差来衡量未知数据下模型的准确性。一个过于简单或过于复杂的模型会导致很高的泛化误差。如果模型太复杂,就会过拟合;如果模型太简单,就会欠拟合。通过对比训练的样本学习曲线和验证集,我们可以观察模型的拟合效果。以不同训练样本个数为横坐标,以样本个数下训练集或验证集的准确度为纵坐标绘制样本学习曲线。当训练集和验证集的误差收敛,但精度较低时,表明偏差较大。当曲线左上角的偏差很大,训练集和验证集的精度很低时,模型是欠拟合的。当训练集和验证集的误差较大时,方差较大; the variance in the upper right corner of the curve is high, the accuracy of the training and validation sets are too different, and the model is overfitted. If one of the biases and variances is large, this indicates that the generalization error is large.

模型评价与比较

混淆矩阵表示在不同标签(ONFH或非ONFH)下真实结果和预测的计数。使用混淆矩阵可以计算出一系列指标。模型的准确性是衡量模型质量的关键指标。根据PROBAST [30.],审稿人应评估模型的性能,包括辨别能力和校准能力。受试者工作特征(ROC)曲线反映了假阳性率(FPR)与敏感性(也称为召回率)之间的动态关系。通过对ROC曲线上每个点对应的不同预测值进行分类,得到不同的FPRs和敏感性。ROC曲线下的面积称为AUC,也被认为是事实发生的可能性灵敏度比FPR大。此外,精度-召回率(PR)曲线反映了精度与灵敏度之间的动态关系。PR曲线下的面积等于平均精度(AP),即所有阈值的AP。AP越大,识别能力越强,AUC越大。特别是,PR曲线可用于不平衡数据[45]。通过评估阳性预测和实际阳性(真实ONFH患者)中真阳性的比例,我们更恰当、更具体地说明了辨别能力。本研究采用敏感性、特异性、F1评分、ROC曲线、PR曲线评价辨别能力。

校准包括测井损失和校准曲线。对数损失是给定概率分类器在预测概率条件下,实际概率的概率的负对数。对数似然函数值越小,预测越准确。在本研究中,所有样本按照预测概率重新排序,分成10个相等的组。校准曲线显示了每组ONFH的预测概率与真实发病率之间的距离。曲线越接近理想直线(y=x),模型的标定能力越好。

模型的可解释性

黑盒模型通过全局和局部解释来解释。Shapley加法解释(Shapley additive explanation, SHAP)是基于理论上最优的Shapley值[28]。Shapley值通过计算每个特征对预测的贡献来解释实例x的预测。对于每个预测样本,模型产生一个预测值,所有个体的每个特征的Shapley绝对值之和或平均值即为总体特征重要度。具有较大绝对沙普利值的特征是非常重要的;因此,可以从全局角度根据Shapley的绝对值对特征的重要性进行排序。局部可解释模型不可知解释(local interpretable model-不可知论解释,LIME)算法通过在数据集中选择特定样本来获得每个类别的概率值,并解释分布概率的原因。LIME将样本空间分解为部分,并尝试使用易于解释的简单模型(如线性模型)来拟合不容易解释的复杂模型。LIME专注于训练局部替代模型来解释个体预测[28]。

统计分析

定性变量用比率或组成比率表示。采用Kolmogorov-Smirnov检验检验定量变量的正态性。符合正态分布的变量表示为平均值(SD),不符合正态分布的变量表示为中位数(第25百分位[P25和第75百分位[P75])。分别用Kendall相关系数和Spearman相关系数描述定性变量和定量变量之间的相关性。系数大于0.6说明两个变量之间存在相关关系。采用LASSO回归消除多重共线性。使用Python 3.7.4 (Anaconda 4.9.2)进行统计分析。中列出了用于建模的主要Python库和版本信息表1

研究的流程图见图1

表1。Python库和函数。
图书馆 版本 函数
scikit-learn 0.24.1 机器学习
NumPy 1.16.5 科学计算
熊猫 0.25.1 数据分析
Matplotlib 3.3.4 可视化
imblearn 0.0 不平衡数据集
statsmodels 0.12.2 统计计算
XGBoost一个 1.3.3 梯度增强框架
世鹏科技电子b 0.39.0 解释机器学习模型的输出
石灰c 0.2.0.1 解释机器学习模型的输出
1.1.1 Web开发
Gunicorn 20.1.0 HTTP服务器

一个XGBoost:极端梯度增强。

bSHAP: Shapley加法解释。

cLIME:局部可解释的模型未知解释。

图1所示。研究流程图。LASSO:最小绝对收缩和选择算子;LIME:局部可解释模型不可知解释;LR: logistic回归;ONFH:股骨头坏死;RF:随机森林;SHAP: Shapley相加解释;SMOTE:合成少数派过采样技术;支持向量机:支持向量机; XGBoost: eXtreme Gradient Boosting.
查看此图

病人的特点

本研究共纳入259例FNF患者,其中男性124例(47.8%),女性135例(52.1%)25P75)年龄为57(49,62)岁。共43例患者内固定术后发生ONFH, ONFH发生率为16.6%。所有数据随机分为训练集(181/259,69.8%)和验证集(78/259,30.1%),比例为7:3 (randomstate=420)。训练集中有29例ONFH患者和152例无ONFH患者。采用SMOTE算法对训练集中股骨头坏死组进行过采样后,ONFH组与非ONFH组数量达到平衡(每组152例)。在验证组中有14例ONFH患者和64例无ONFH患者。3个数据集的患者特征在多媒体附件2。总的来说,3个数据集中患者变量的组成是相同的。文中给出了特征相关分析的结果多媒体

变量的选择

首先,我们使用网格搜索和10倍交叉验证估计器(GridSearchCV)来探索LASSO回归正则化参数α (图2A).交叉验证结果表明,最佳α为0.0016。其次,我们使用LassoCV对象,通过内部交叉验证从数据中自动设置α参数,并使用外部交叉验证来评估α选择的可靠性。经过3次交叉验证,我们得到了不同数据子集的3个alpha值,分别为0.00646、0.00281和0.00281。然而,这些alpha的分数差异很大,分别为0.49697,0.76142和0。可见,LASSO选择变量的可靠性不是很高。

图2。探索最优特征子集的过程。(A)最小绝对收缩和选择算子回归正则化参数α的网格搜索和10倍交叉验证估计。y轴表示10个交叉验证的平均值和标准差。(B)支持向量机(SVM)在线性、多项式、径向基函数(RBF)和sigmoid 4种核函数下不同验证样本的预测结果。(C)最佳α,使SVM模型在验证集上具有最佳的准确性、灵敏度和受试者工作特征曲线下面积性能。(D)连续变量在不同支持向量机参数下标准化与非标准化结果的比较C(核=线性)。AUC:受试者工作特性曲线下面积;CV:交叉验证。
查看此图

因此,为了获得可靠的α并识别最优特征子集,首先将10倍交叉验证下的特征子集引入SVM分类器进行建模。使用不同的核函数确定SVM分类器在验证集上的性能(其他参数使用默认值)。图2B为支持向量机在线性、多项式、径向基函数和sigmoid 4种核函数下不同验证样本的预测结果。图2B表示线性核的性能最好。接下来,我们确定了一个介于0.001和0.02之间的α,这使得SVM模型在验证集上具有最佳的准确性、灵敏度和AUC性能。图2C表明,当α = 0.017时,总准确度、灵敏度和AUC最好。最佳特征亚组包括年龄、性别、手术时间、损伤原因、低能量、骨折位置、次椎、骨折位置、颈-头、Garden分类Ⅳ、复位质量、负重间隔、股骨颈缩短和VAS评分。

此外,我们比较了标准化和非标准化结果在不同支持向量机参数C (kernel=线性)。在图2D,实线是对连续变量未进行标准化处理的结果,虚线是标准化处理的结果。从图中可以看出,连续变量标准化后,模型的性能有所下降。因此,连续变量没有标准化。

建模和参数调优

在确定最优特征子集后,选择LR、RF、SVM和XGBoost算法对平衡训练集中的模型进行拟合。表2给出了调整参数前后验证集的准确性、灵敏度和AUC的比较。LR和SVM模型没有显著改善。然而,RF模型的精度、灵敏度和AUC分别提高了0.012、0.072和0.006,XGBoost模型的精度、灵敏度和AUC分别提高了0.025、0.072和0.003。在4个分类器中调优的超参数列在表3

表2。模型在验证集上的性能比较。
模型 前调优 后调优

精度 灵敏度 AUC一个 精度 灵敏度 AUC
LRb 0.962 0.929 0.982 0.962 0.929 0.984
射频c 0.962 0.857 0.985 0.974 0.929 0.991
支持向量机d 0.962 0.929 0.973 0.962 0.929 0.979
XGBooste 0.962 0.857 0.989 0.987 0.929 0.992

一个AUC:接收机工作特性曲线下的面积。

b逻辑回归。

cRF:随机森林。

d支持向量机:支持向量机。

eXGBoost:极端梯度增强。

表3。算法超参数配置。
算法及参数名称 初始值 调整范围 结果
LR一个

点球 L1 (L1, L2) L2

C 0.3 (0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 1) 0.5
射频b

n_estimators One hundred. 范围(0,200,10) 11

max_depth 8 (1,3,5,6,7,8,9,10,15,20) 8

max_features 3. (2,3,4,5,6,7,8) 5

min_samples_leaf 1 (1,2,3,4) 2
支持向量机c

内核 Rbf (线性,多项式,rbf, sigmoid) 线性

C 1 范围(0.01,20,20) 7.37
XGBoostd

n_estimators One hundred. 范围(0,200,10) 51

max_depth 6 范围(1,20,1) 8

min_child_weight 1 (2,3,4,5,6,7,8,9,10,15,20) 7

learning_rate 0.3 (0.3, 0.31, 0.32, 0.33, 0.335, 0.36, 0.38, 0.4) 0.335

γ 0 (0,1,2,3,4) 1

一个逻辑回归。

bRF:随机森林。

c支持向量机:支持向量机。

dXGBoost:极端梯度增强。

图3为4个模型训练集和验证集的ROC曲线。各算法的AUC值相似,在验证集中,XGBoost模型的AUC值最高。图4展示了4个模型的学习过程。除了RF模型在训练样本数量小于250时出现了轻微的过拟合外,其他模型均拟合良好。机器学习模型的参数配置如多媒体附件4

图3。在训练集和验证集上分别建立logistic回归、随机森林、支持向量机(SVM)和极限梯度Boosting (XGBoost)预测模型的受测者工作特征曲线,显示了识别能力。曲线左上角越凸越好。AUC:接收机工作特性曲线下的面积。
查看此图
图4。逻辑回归、随机森林、支持向量机(SVM)和极限梯度增强(XGBoost)预测模型在训练集和验证集上的学习曲线。逻辑回归、支持向量机和XGBoost模型的2条曲线在较高的精度水平上是一致的,说明该模型很适合训练。随机森林的2条曲线没有很好地合并,说明它们有轻微的过拟合。
查看此图

模型评价与比较

表4给出了4种模型在外部数据上分类结果的混淆矩阵。XGBoost生成ONFH的最大数目(67),SVM生成非ofnh的最大数目(278)。表5给出了4个模型对外部验证数据的评价结果。XGBoost模型表现出最高的精度(0.907)。XGBoost模型除特异性低于SVM(0.949)外,敏感性(0.807)、AUC(0.933)、F1评分(0.793)均高于其他模型。此外,XGBoost模型的log-loss最小(0.279)。4种模型的ROC曲线比较见图5A. 4个模型AUC均在0.9以上,其中XGBoost模型AUC最大。4种ROC曲线形状相似。4种模型的PR曲线比较如图所示图5B.当预测模型灵敏度大于0.7时,XGBoost模型的预测精度最高。LR模型的AP值最大,校准曲线如图所示图6, XGBoost模型曲线最接近理想校准线(y=x)。

表4。ONFH预测模型的混淆矩阵一个
模型与实际 预测

ONFH Non-ONFH
LRb

ONFH 64 19

Non-ONFH 21 272
射频c

ONFH 64 19

Non-ONFH 24 269
支持向量机d

ONFH 61 22

Non-ONFH 15 278
XGBooste

ONFH 67 16

Non-ONFH 19 274

一个股骨头坏死。

b逻辑回归。

cRF:随机森林。

d支持向量机:支持向量机。

eXGBoost:极端梯度增强。

表5所示。外部数据的性能比较。
模型 精度 歧视 校准


灵敏度 特异性 AUC一个 F1的分数 Log-loss
LRb 0.894 0.771 0.928 0.927 0.762 0.288
射频c 0.886 0.771 0.918 0.910 0.749 0.775
支持向量机d 0.901 0.735 0.949 0.904 0.767 0.327
XGBooste 0.907 0.807 0.935 0.933 0.793 0.279

一个AUC:接收机工作特性曲线下的面积。

b逻辑回归。

cRF:随机森林。

d支持向量机:支持向量机。

eXGBoost:极端梯度增强。

图5。(A)外部数据上4种模型的接受者工作特征曲线比较。越靠近左上角的曲线,整体辨别能力越强。(B) 4种模型在外部数据上的精度-召回曲线比较。靠近右上角的曲线也显示了将精度与灵敏度相结合的能力。AP:平均精度;AUC:受试者工作特性曲线下面积;ROC:受试者工作特征;支持向量机:支持向量机;XGBoost:极端梯度增强。
查看此图
图6。4种模型外部数据的校准曲线比较。模型的校准曲线与理想校准线(y=x)一致,说明模型的预测值接近结果的实际概率。支持向量机:支持向量机;XGBoost:极端梯度增强。
查看此图

预测模型的可解释性

基于以上比较,我们认为XGBoost模型是ONFH最好的预测模型。取各特征的SHAP绝对值的平均值作为该特征的重要性。XGBoost模型的预测变量及其重要性排序如下:复位质量(1.759)、VAS评分(1.483)、Garden分级(0.299)、手术时间(0.247)、损伤原因(0.127)、骨折位置(0.090)。图7显示了每个样本中每个特征的SHAP值的摘要。颜色代表特征值,颜色越红,特征值越大。因此,我们可以看到VAS评分、Garden分级IV、手术时间、骨折位置_subcapital都是ONFH的危险因素。复位质量好、伤因能量低是股骨头坏死的保护因素。

图7。基于Shapley加性解释(SHAP)值的极端梯度增强模型的全局解释。每个样本中每个特征的SHAP值的摘要。横坐标是SHAP值(对模型输出的影响),纵坐标是不同的特征,点代表一个样本,颜色代表特征值。特征值越大,颜色越红,特征值越小,颜色越蓝。视觉模拟量表。
查看此图

图8展示了单样本预测的决策过程。这些是基于SHAP和LIME的XGBoost模型的局部解释。第一个样本的真实结果为非onfh,预测结果为非onfh,如图所示图8A.第二个样本的真实结果为ONFH,预测结果为ONFH,如图图8B.左图和右图分别是SHAP和LIME算法局部解释的结果。从A1和A2可以看出,SHAP和LIME都显示了决定非onfh结局的特征,包括复位质量_good(1)、VAS评分(0)、手术时间(64)、Garden分类_iv(0)、损伤原因_low energy(1)。不同的是,LIME可以提供非onfh的预测概率为0.97。同样,B1和B2表明决定ONFH结局的特征,包括复位质量_good(0)、VAS评分(3)、骨折位置_subcapital(1)和手术时间(85)。LIME也表明,ONFH的预测概率为0.97。

图8。XGBoost模型的本地解释。(A)真实结果为股骨头非骨坏死(ONFH),预测结果为非股骨头非骨坏死。(B)真实结果为ONFH,预测结果为ONFH。A1和B1是Shapley相加解释实现的局部解释。蓝色变量决定样本归为non-ONFH类,红色变量决定样本归为ONFH类。A2和B2是由局部可解释模型不可知解释(LIME)实现的局部解释。LIME可以得到每个类别的概率值,并显示哪些变量决定了该样本归为类别non-ONFH(蓝色),哪些变量决定了该样本归为类别ONFH(橙色),具体列出了样本在这些特征中的数值大小。视觉模拟量表。
查看此图

主要研究结果

在本研究中,我们比较了不同机器学习算法在预测FNFs内固定后股骨头坏死中的应用,得到了一个6变量XGBoost模型,可用于临床预测外创伤性ONFH。该模型被转化为一个自制的基于网络的风险计算器,以估计个体发生ONFH的概率。预测因素包括复位质量、VAS评分、Garden分类、手术时间、损伤原因和骨折位置。该预测模型对外部数据具有较好的判别和标定能力,并具有较好的泛化性能。在内部验证集上的表现,准确度为0.987,灵敏度为0.929,AUC为0.992。对外部数据的分析结果显示,准确性为0.907,敏感性为0.807,特异性为0.935,AUC为0.933,F1评分为0.793,log loss为0.279。基于网络的风险计算器可在Herokuapp网站上找到[46]。

在构建预测模型的同时,我们还对FNF内手术后ONFH的预测变量进行了挖掘。在研究设计阶段,我们在整个临床过程中尽最大努力收集相关损伤和临床信息,如术前凝血指标、术前血常规检查等既往研究未分析的指标。但是,这些指标没有通过变量选择。英国一项新研究47]揭示了营养状况差与FNF患者的死亡率和较差的术后结果相关。术前生化检查未发现股骨头坏死相关指标。黄等[48]报道,与寻求解剖复位的开放性复位相比,积极支持可以提供合理的复位支持,减少血管坏死的发生。当Gotfried复位呈正扶壁模式时,骨折远端内侧皮质跨于股骨内颈支撑桥由于股骨头的滑动压迫。拱结构特殊的应力传递效应,能有效抵御断口间的纵向剪力,稳定断口。我们使用Gotfried reduction作为预测变量参与模型。然而,模型的整体性能下降了。这与Zhao等报道的结果相似[49]。其他有争议的可能与股骨头坏死相关的危险因素,如早期负重、内固定植入物移除、复位方法等,未被分类模型选择。

XGBoost模型的6个预测因素中,复位不良、骨折移位严重、手术时间延迟是FNF内固定后发生ONFH的明显危险因素。VAS疼痛评分在临床预后研究中应用广泛,具有较高的信度和效度。内固定后,患者一般在起、坐、体温突然下降时,会有轻微的酸痛感。当髋关节骨细胞发生组织学改变时,患者可能会感到疼痛。通过基于生物力学的有限元分析,Li等[50]报道,当发生坏死时,患者日常生活中髋关节机械负荷的增加,会使坏死病灶面积增加,尤其是股骨头前外侧区域的病变,更容易提前加速扩张塌陷。术后髋关节疼痛的原因和机制尚未充分探讨,需要进一步研究。骨下骨折表明骨折线完全位于股骨头底部。当股骨颈外侧骨折发生时,通常伴有旋股内侧动脉和旋股外侧动脉破裂,旋股内侧动脉的骺动脉为股骨头提供大部分血液。枢椎下骨折通常伴有旋股内侧和外侧动脉破裂。然而,旋股内动脉的骺动脉为股骨头提供大部分血液。股骨外骺动脉是股骨头的主要血管。损伤会导致股骨头的大部分血液供应中断。只有圆形韧带的内动脉供应血液。它的血管较细,在小范围内供应股骨头,但不能为整个股骨头提供必要的血容量。 Therefore, the necrosis rate of subcapital fractures is higher [51]。不同的创伤机制导致不同的骨折损伤。在高能外伤引起的FNFs中,如道路交通事故和高空坠落,骨折端移位通常较大,常撕裂旋动脉形成的动脉环供应的上行颈支,破坏股骨头的血供,引起骨折不愈合或并发症,如股骨头坏死[52]。损伤原因也被认为是股骨头坏死的危险因素[53]。

值得注意的是,分类变量在进入机器学习分类器拟合模型之前,根据类别转换为虚拟变量。花园分类是一个四类变量。XGBoost建模后,只有Garden分类IV成为预测变量。此时,园林分类不再是4类变量,而是园林分类的2类变量。

获得足够数量的训练样本对于预测FNF后股骨头坏死是困难和耗时的。LR, RF, SVM和XGBoost可以从有限的训练集中有效地学习。XGBoost作为一种强集成算法,在我们的研究中,它的性能不仅优于SVM和RF,而且比传统LR更准确可靠。

此外,我们利用机器学习模型的事后可解释性技术,打开了机器学习的黑匣子。通过基于SHAP的全局解释,我们可以理解XGBoot模型中预测因子与结果之间的关系。复位质量、损伤原因、低能量与转归呈负相关,为保护因素;VAS评分、Garden分级、手术时间、骨折位置与预后呈正相关,且为危险因素。SHAP和LIME都可以为单个样本提供局部解释。SHAP生成的解释图与LIME生成的解释图很接近,因为它显示了解释中使用的变量名称和贡献[54]。LIME方法的优点是解释是基于局部回归模型,医生可以对待解释患者特征的变化做出解释变化的陈述。缺点是解释的不稳定性不够。对于一个样本,如果你得到两次解释,你可能会得到两个不同的解释。相比较而言,SHAP方法的原理是在经典Shapley值估计方法的基础上严格改进的[55],因此SHAP算法的解释结果具有变量一致性和模型稳定性。

限制

这项研究有几个局限性。首先,ONFH病例数量不足。根据PROBAST对临床事件参与人数的要求,临床事件参与人数与候选预测因子数量之比至少为10。模型中有6个预测因子,只有43例患者有ONFH。但是,我们使用SMOTE算法来平衡训练集,并将ONFH的数量增加到152个。第二,外部数据的敏感性和F1评分约为0.8,与其他指标相比较低。当使用LIME算法解释个体预测时,我们发现大多数样本仅使用4个变量进行预测。因此,敏感性和F1评分低的原因可能包括:(1)ONFH数量不足;(2)仍有与ONFH相关的危险因素未被确定。未来,我们将基于该模型进行前瞻性验证,继续探索ONFH的重要危险因素,并对模型进行修改,进一步提高XGBoost预测模型的准确性。

与之前工作的比较

本研究中FNF患者来自上海6家医院,比较具有代表性。我们纳入了更广泛的候选变量。将LASSO方法集成到SVM中,取代了传统的单变量分析方法进行变量选择。我们的模型在验证集上的性能优于Cui等人提出的朴素贝叶斯预测模型[24],其准确性、灵敏度和AUC分别为0.744、0.742和0.746。我们的模型在验证集上的AUC高于Zhu等人基于LR的混合nomogram (0.948) [26]和Zheng等开发的基于Cox回归的nomogram (0.97) [25]。对外部数据也表现出较好的泛化能力,准确性、特异性、AUC和log loss值分别为0.907、0.935、0.933和0.279。

结论

机器学习在预测FNF内固定后的ONFH方面表现良好。6变量XGBoost模型较好地预测了ONFH的风险,对外部数据具有较好的泛化能力,可用于FNF内固定后ONFH的临床预测。

致谢

本研究得到国家自然科学基金(no . 81872718)、上海市卫生和计划生育委员会(no . 201840041)、上海市普东临床优秀学科项目(no . PWYgy2018-10)、上海市教委本科重点项目(no . 201965)的资助。

利益冲突

没有宣布。

多媒体附件1

变量和定义。

XLSX文件(Microsoft Excel文件),14kb

多媒体附件2

3组股骨颈骨折患者的特点。

DOCX文件,20kb

多媒体

相关系数矩阵热图。

DOCX文件,577 KB

多媒体附件4

机器学习模型参数。

DOCX文件,16kb

  1. Garofoli R, Maravic M, Ostertag A, Cohen-Solal M.法国髋部骨折的长期趋势:背景人群特征变化的影响。骨质疏松杂志2019 Feb;30(2):355-362。(CrossRef] [Medline]
  2. Kannus P, Niemi S, Parkkari J, Sievänen H.芬兰髋部骨折发病率持续下降:1970-2016年全国数据库分析。老年医学杂志2018;77:64-67。(CrossRef] [Medline]
  3. Søgaard AJ, Holvik K, Meyer HE, Tell GS, Gjesdal CG, Emaus N,等。挪威髋部骨折发病率持续下降:一项NOREPOS研究骨质疏松杂志2016 july;27(7):2217-2222。(CrossRef] [Medline]
  4. 李文杰,李志强,李志强,等。欧洲五个国家髋/股骨骨折的发病率和趋势:使用电子医疗记录数据库的比较钙化组织杂志2014年6月;94(6):580-589。(CrossRef] [Medline]
  5. 王勇,刘涛,李志强,等。新加坡髋部骨折:新千年的种族差异和时间趋势。骨质疏松杂志2019年4月30日(4):879-886。(CrossRef] [Medline]
  6. 莱赫托宁EJ, Stibolt RD, Smith W, Wills B, Pinto MC, McGwin G,等。老年人股骨颈骨折的手术治疗趋势。爱因斯坦(圣保罗)2018年9月06日;16(3):eAO4351 [免费全文] [CrossRef] [Medline]
  7. 张超,冯杰,王松,高鹏,徐林,朱军,等。中国城市成人髋部骨折的发病率和趋势:一项全国性回顾性队列研究。PLoS Med 2020 Aug 6;17(8):e1003180 [免费全文] [CrossRef] [Medline]
  8. Hagino H, Osaki M, Okuda R, Enokida S, Nagashima H.日本鸟取县髋部骨折发病率的最近趋势:32年来的变化。Arch osteoporosis 2020 Oct 02;15(1):152 [免费全文] [CrossRef] [Medline]
  9. 金斌,林杰,河燕。韩国髋部骨折的流行病学研究。2020 Sep;32(3):119-124 [免费全文] [CrossRef] [Medline]
  10. Muhm M, Amann M, Hofmann A, Ruffing T.[近十年来股骨近端骨折患者群体的变化:发病率、年龄、合并症和住院时间]。中国农业大学学报,2018年8月;21(8):649-656。(CrossRef] [Medline]
  11. 田F,太阳X,刘J,刘Z,梁C,张l .无法匹敌的性别改变臀部骨折的发生率在唐山,中国。Arch osteoporosis 2017 Dec;12(1):18。(CrossRef] [Medline]
  12. 张颖[股骨颈骨折的选择策略及治疗进展]。中国谷商2015年9月28日(9):781-783。(Medline]
  13. Damany DS, Parker MJ, Chojnowski A.年轻成人髋关节囊内骨折后并发症。对18项已发表的涉及564例骨折的研究进行荟萃分析。损伤2005年1月;36(1):131-141。(CrossRef] [Medline]
  14. 赵东,张峰,王波,刘波,李林,金松,等。成人股骨头坏死临床诊治指南(2019年版)。J Orthop Translat 2020年3月;21:100-110 [免费全文] [CrossRef] [Medline]
  15. 苏丹AA, Khlopas A, Surace P, Samuel LT, Faour M, Sodhi N,等。使用无血管蒂骨移植治疗股骨头坏死:适应证、技术和结果。Int Orthop 2019 Jun;43(6):1315-1320。(CrossRef] [Medline]
  16. 谢红,王波,田松,刘波,秦凯,赵东。带蒂带血管蒂髂骨移植治疗股骨头坏死的回顾性长期随访生存分析。关节成形术2019年8月;34(8):1585-1592。(CrossRef] [Medline]
  17. 卢俊华,李志勇,黄松,李克勤。股骨颈骨折后股骨头缺血性坏死的预测:金属固定后Tc-HDP针孔骨扫描“针道征”。Hip Int 2020 Sep;30(5):641-648 [免费全文] [CrossRef] [Medline]
  18. 袁慧,沈峰,张娟,史慧,顾勇,闫忠。单光子发射计算机断层扫描与计算机断层扫描对股骨颈骨折后骨坏死的预测价值:一项前瞻性研究。中华骨科杂志2015年7月;39(7):1417-1422。(CrossRef] [Medline]
  19. 久保田S,稻叶Y,小林N,立石U,池H,井上T,等。用18f -氟正电子发射断层扫描预测骨坏死患者股骨头塌陷。核医学杂志2015 Jun;36(6):596-603。(CrossRef] [Medline]
  20. Kumar MN, Belehalli P, Ramachandra P.股骨颈低能骨折后股骨头血流时间变化的PET/CT研究。骨科2014 Jun;37(6):e563-e570。(CrossRef] [Medline]
  21. Kamano M,成田S, Honda Y,福岛K,山野Y。股骨颈骨折的磁共振增强成像。临床矫形学杂志1998年5月(50):179-186。(Medline]
  22. Cionca D, Alexa O, Leka V.[早期增强磁共振成像对股骨颈骨折后股骨头生存能力的评估]。国际医学杂志,2007;29(4):349 - 349。(Medline]
  23. 赵东,杨小兵,王涛,王波,刘波,田丰德,等。数字减影血管造影在选择带血管蒂大转子植骨治疗股骨头坏死中的应用。显微外科2013年11月;33(8):656-659。(CrossRef] [Medline]
  24. 崔松,赵林,王勇,董强,马军,王勇,等。用朴素贝叶斯分类器预测股骨头空心螺钉固定后的骨坏死。2018年10月;49(10):1865-1870。(CrossRef] [Medline]
  25. 郑洁,王辉,高勇,艾铮。基于生存分析的股骨头坏死风险评分评估研究。关节置换术2021年1月;36(1):62-71。(CrossRef] [Medline]
  26. 朱伟,张旭,方松,王波,朱晨。利用患者和X线片混合变量,深度学习提高了股骨头内固定后骨坏死的预测。Front Med(洛桑)2020年10月7日;7:573522 [免费全文] [CrossRef] [Medline]
  27. 王晓明,王晓明,王晓明。一种基于支持向量机的分类方法。化学计量仪Intell实验室系统2002 10月28日;64(1):15-25。(CrossRef]
  28. 可解释机器学习。使黑盒模型可解释的指南。美国:Lulu.com;2020.
  29. Barredo Arrieta A, Díaz-Rodríguez N, Del Ser J, Bennetot A, Tabik S, Barbado A,等。可解释人工智能(XAI):负责任人工智能的概念、分类、机遇和挑战。Inf Fusion 2020 Jun;58:82-115。(CrossRef]
  30. 穆恩斯KG,沃尔夫RF,赖利RD,怀廷PF,韦斯特伍德M,柯林斯GS,等。PROBAST:评估偏倚风险和预测模型研究适用性的工具:解释和阐述。Ann实习医学2019年1月01日;170(1):W1-33 [免费全文] [CrossRef] [Medline]
  31. 穆恩斯KG, Altman DG, Reitsma JB, Ioannidis JP, Macaskill P, Steyerberg EW,等。个体预后或诊断(TRIPOD)的多变量预测模型的透明报告:解释和阐述。Ann实习医学2015年1月06日;162(1):W1-73 [免费全文] [CrossRef] [Medline]
  32. 王晓燕,王晓燕,王晓燕,等。Király为了病人利益的机器学习和人工智能研究:关于透明度、可复制性、伦理和有效性的20个关键问题。BMJ 2020 Mar 20;368:l6927 [免费全文] [CrossRef] [Medline]
  33. 中华医学会骨科分会关节外科研究组。股骨头坏死的诊断和治疗指南。骨科外科2015年8月;7(3):200-207 [免费全文] [CrossRef] [Medline]
  34. Koppie TM, Serio AM, Vickers AJ, Vora K, Dalbagni G, Donat SM,等。年龄调整后的Charlson共病评分与膀胱癌根治性膀胱切除术患者的治疗决策和临床结果相关。巨蟹座2008年6月;112(11):2384-2392 [免费全文] [CrossRef] [Medline]
  35. 朱勇,陈伟,辛霞,尹勇,胡健,吕华,等。2019年中国冠状病毒病暴发期间老年患者创伤性骨折的流行病学特征Int Orthop 2020 Aug;44(8):1565-1570 [免费全文] [CrossRef] [Medline]
  36. 张勇,张伟,张晨。三枚空心加压螺钉治疗股骨颈骨折早期固定失败的新角度及其关系。骨科创伤外科研究2017年4月;103(2):229-234 [免费全文] [CrossRef] [Medline]
  37. Collin PG, D'Antoni AV, Loukas M, Oskouian RJ, Tubbs RS.老年人髋部骨折的临床解剖学回顾。Clin Anat 2017 Jan;30(1):89-97。(CrossRef] [Medline]
  38. 股骨下部骨折的畸形复位和缺血性坏死。中华骨关节外科杂志,2001,23(2):319 - 319。(Medline]
  39. Gotfried Y, Kovalenko S, Fuchs D.移位的股骨下骨折非解剖复位(Gotfried复位)。中华骨科杂志2013年11月27日(11):e254-e259。(CrossRef] [Medline]
  40. Zlowodzki M, Ayeni O, Ayieni O, Petrisor BA, Bhandari M.多重松质螺钉骨折固定后股骨颈缩短:发生率和对功能的影响。中华创伤杂志2008年1月;64(1):163-169。(CrossRef] [Medline]
  41. Le May S, Ballard A, Khadra C, Gouin S, Plint AC, Villeneuve E,等。儿童急诊科使用的3种疼痛量表的心理测量特性比较:视觉模拟量表、面部疼痛量表修订版和颜色模拟量表。疼痛2018年8月;159(8):1508-1517。(CrossRef] [Medline]
  42. Bauder RA, Khoshgoftaar TM。不同类别分布对不平衡大数据医疗保险欺诈检测中学习者行为的影响。健康科学系统2018年9月3日;6(1):9 [免费全文] [CrossRef] [Medline]
  43. Fernandez A, Garcia S, Herrera F, Chawla NV. SMOTE从不平衡数据中学习:进步与挑战,纪念15周年。《艺术与艺术学报》2018年1月;61(1):863-905。(CrossRef]
  44. Guyon I, Elisseeff A.变量和特征选择的介绍。J Mach Learn Res 2003;3:1157-1182。
  45. Saito T, Rehmsmeier M.在不平衡数据集上评估二元分类器时,精度-召回图比ROC图更有信息。PLoS One 2015 3月4日;10(3):e0118432 [免费全文] [CrossRef] [Medline]
  46. 骨坏死计算器。网址:同济大学http://calculator-of-osteonecrosis.herokuapp.com/[2021-11-01]访问
  47. O’leary L, Jayatilaka L, Leader R, Fountain J.不良营养状况与股骨颈骨折患者死亡率和术后预后的相关性。骨关节杂志2021年1月;103-B(1):164-169。(CrossRef] [Medline]
  48. 方黄K, X,李G,曰j .评估Gotfried减少积极支持模式的影响在年轻的股骨颈骨折。J Orthop Surg Res 2020 Nov 07;15(1):511 [免费全文] [CrossRef] [Medline]
  49. 赵刚,刘超,陈凯,吕娟,陈娟,史娟,等。年轻患者(≤65岁)股骨颈骨折非解剖复位,采用三颗平行空心螺钉内固定。Biomed Res Int 2021年1月4日;2021:3069129 [免费全文] [CrossRef] [Medline]
  50. 李华,李峰,刘宁,李鹏。股骨头坏死的风险预测:基于骨折力学的有限元分析。Int J计算方法2019年04月04日;17(06):1950019。(CrossRef]
  51. Barney J, Piuzzi N, Akhondi H.股骨头缺血性坏死。金银岛:StatPearls Publishing;2021年1月。
  52. Kazley J, Bagchi K.股骨颈骨折。金银岛:StatPearls Publishing;2021.
  53. 刘bc,孙超,邢勇,周峰,田勇,季海峰,等。[中青年股骨颈骨折患者内固定术后股骨头坏死的危险因素分析]。北京大学报学刊2020年4月18日;52(2):290-297 [免费全文] [Medline]
  54. Elshawi R, Al-Mallah MH, Sakr S.基于机器学习的预测高血压模型的可解释性。BMC Med Inform Decis Mak 2019 7月29日;19(1):146 [免费全文] [CrossRef] [Medline]
  55. 杨宁,钱泽,张刚,是什么让在线评论更有帮助:一个使用XGBoost和SHAP值的解释框架。《理论应用电子学报》2020年11月20日;16(3):466-490。(CrossRef]


记者:平均精度
AUC:接收机工作特性曲线下面积
FNF:股骨颈骨折
玻璃钢:假阳性率
套索:最小绝对收缩和选择算子
石灰:局部可解释模型未知解释
LR:逻辑回归
ONFH:股骨头坏死
公关:precision-recall
PROBAST:风险偏差评估工具的预测模型
射频:随机森林
中华民国:接收机工作特性
世鹏科技电子:Shapley加法解释
杀:合成少数派过采样技术
支持向量机:支持向量机
血管:视觉模拟比例尺
XGBoost:极端梯度增强


R·库卡夫卡编辑;提交02.05.21;同行评审JL Domínguez-Olmedo, A Lamer;对作者28.06.21的评论;修订版本收到01.09.21;接受28.09.21;发表15.11.21

版权

©王欢,吴伟,韩春霞,郑佳琪,蔡新宇,常世民,史俊龙,徐楠,艾子生。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 17.11.2021。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map