这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Diabetes上的原创作品。必须包括完整的书目信息,https://diabetes.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
妊娠期糖尿病(GDM)患病率的增加令人担忧,因为患有GDM的女性在以后的生活中患2型糖尿病(T2D)的风险很高。这一风险的严重性凸显了早期干预预防GDM向T2D进展的重要性。产后筛查率并不理想,在亚洲国家通常只有13%。在一些卫生保健系统中,缺乏通过结构化产后筛查进行预防保健,公众意识不高是进行产后糖尿病筛查的主要障碍。
在本研究中,我们开发了一个机器学习模型,用于常规产前GDM筛查后早期预测产后T2D。在产前护理中早期预测产后T2D将有助于实施有效的糖尿病预防干预策略。据我们所知,这是第一个在亚洲裔产前人群中使用机器学习进行产后T2D风险评估的研究。
前瞻性多民族数据(中国、马来和印度民族)来自新加坡最深入表型的母亲-后代队列研究-在新加坡成长走向健康结果-中的561例妊娠用于预测建模。特征变量包括人口统计学、病史或产科史、体格测量、生活方式信息和GDM诊断。Shapley值与CatBoost树集合相结合进行特征选择。我们的预测分析博弈论方法为数据驱动的精确护理实现了人口子类型和模式发现。使用4种机器学习算法训练预测模型:逻辑回归、支持向量机、CatBoost梯度增强和人工神经网络。我们采用5次折叠分层交叉验证,以保持每次折叠中相同比例的T2D病例。构建了网格搜索管道来评估性能最佳的超参数。
建立了一个包含2个妊娠中期特征的产后T2D的高效预测模型——妊娠中期体重增加后的BMI和gdm诊断(BMI_GDM CatBoost模型:AUC=0.86, 95% CI 0.72-0.99)。仅孕前BMI不足以预测产后T2D风险(ppBMI CatBoost模型:AUC=0.62, 95% CI 0.39-0.86)。餐后2小时血糖试验(bmi_2小时CatBoost模型:AUC=0.86, 95% CI 0.76-0.96)显示,与空腹血糖试验(bmi_2小时CatBoost模型:AUC=0.76, 95% CI 0.61-0.91)相比,产后T2D风险预测效果更强。使用国际糖尿病和妊娠研究组协会(IADPSG) 2018年GDM诊断标准(BMI_GDM2 CatBoost模型:AUC=0.84, 95% CI 0.72-0.97)时,BMI_GDM模型也是稳健的。妊娠总增重与产后T2D结局呈负相关,与孕前BMI和GDM诊断无关(P=.02;或0.88,95% ci 0.79-0.98)。
妊娠中期体重增加的影响,结合妊娠期间GDM的代谢紊乱,预示着新加坡妇女未来的T2D风险。妊娠期代谢适应对产后孕产妇代谢健康结果的影响还需要进一步研究。最先进的机器学习模型可以作为产前护理期间的快速风险分层工具。
ClinicalTrials.gov NCT01174875;https://clinicaltrials.gov/ct2/show/NCT01174875
妊娠糖尿病(GDM)的患病率在全球范围内呈上升趋势,每6个妊娠中就有1个受到影响[
美国糖尿病协会指南建议患有GDM的妇女在产后4-12周使用75克口服葡萄糖耐量试验(OGTT)进行测试[
机器学习模型可以预测人口风险分层。在Allalou等人的前瞻性代谢组学研究中[
在产前护理中早期预测产后T2D将有助于实施有效的糖尿病预防干预策略。迄今为止,尚未有研究将机器学习用于亚洲裔产前人群的产后T2D风险评估。在新加坡的这项研究中,我们开发了一个机器学习模型,用于在常规产前GDM筛查中早期预测产后T2D。我们的机器学习模型是使用前瞻性GUSTO队列研究数据(NCT01174875)实现的。
本研究已由国家医疗保健集团领域特定审查委员会和SingHealth集中机构审查委员会(CIRB/E/2019/2655)进行伦理批准。
GUSTO是一项前瞻性的多民族(中国、马来和印度民族)母亲-后代队列研究。2009年6月至2010年10月期间,研究人员从新加坡两家主要公立妇产医院(国立大学医院和KK妇女儿童医院)招募了怀孕早期的母亲。
混合种族或招募时自我报告T2D的参与者被排除在模型训练之外。共有561名母亲拥有完整的人口统计学、病史或产科史、身体测量、生活方式信息、产前OGTT和产后4-8年的OGTT数据。世界卫生组织(卫生组织)1999年标准[
人口统计学信息(母亲年龄、母亲种族)和病史或产科史(自述的孕前体重、糖尿病家族史、高血压家族史、心血管疾病家族史、GDM家族史、妊娠高血压家族史和胎次)来源于妊娠前三个月的问卷调查。在妊娠中期记录收缩压和舒张压(中位26.7,IQR 26.1-27.6周),并从医院病例记录中获得。平均动脉血压是通过将舒张压加倍并加上收缩压,并将复合和除以3得出的。孕中期测量母体人体测量(中位数26.9,IQR 26.4-27.6周)。测量母亲的中上臂围至最近的0.1 cm,位于肩峰突和鹰嘴突之间(使用Seca 212)。测量产妇身高至0.1 cm(使用Seca 213)。孕妇妊娠中期体重测量至0.1 kg(使用Seca 803), BMI由体重除以身高的平方(kg/m)得出2).总妊娠增重由最后一次产前检查体重(中位数38.1,IQR 37.3-39.1周)减去第一次产前检查体重(中位数9.0,IQR 7.3-11.0周)得出。通过问卷收集有关自我报告吸烟、环境烟草烟雾暴露和饮酒的生活方式信息。GDM诊断基于产前OGTT评估(中位数26.9,IQR 26.4-27.7周)。
我们的方法新颖之处在于将联合博弈论概念与机器学习相结合。SHapley加法解释(SHAP)框架与CatBoost树集成相结合,用于特征选择和模型可解释性[
在JupyterLab计算环境中使用Python编程语言的Anaconda发行版(3.7.9版)构建监督机器学习模型。预测模型使用以下4种机器学习算法进行训练,以解决算法偏差:逻辑回归(广义线性模型)、支持向量机(线性支持向量分类)、CatBoost梯度增强(基于树)和人工神经网络(多层感知器)。我们使用5次分层交叉验证,以保持每次AGM/T2D病例的相同比例。使用最大绝对缩放器作为预处理器,在不破坏稀疏性的情况下对每个特征进行缩放。构建了网格搜索管道来评估每个机器学习模型的最佳性能超参数。采用95% CI的AUC对模型性能进行评估。其中包括机器学习算法的实现细节
利用妊娠中期临床特征的特征选择模型对AGM结局进行训练,将SHAP值幅度大于零的顶级预测因子纳入AGM/T2D预测模型。采用国际糖尿病和妊娠研究协会(IADPSG) 2018年修订的2点标准,进行敏感性分析,探讨诊断GDM的预测效果[
所有特征变量与产后AGM和T2D结局之间的关系以Pearson相关热图(
异常糖代谢(AGM) Pearson相关热图。GDM:妊娠期糖尿病。
2型糖尿病(T2D) Pearson相关热图。GDM:妊娠期糖尿病。
妊娠中期特征与产后糖代谢异常(AGM)或2型糖尿病(T2D)结局(分娩后4-8年)的相关性。
特征 | AGM (n = 139) | T2D (n = 32) | |||
|
或一个(95%置信区间) | P值 | 或(95% ci) | P值 | |
产妇年龄(年) | 1.05 (1.01 - -1.09) | 02b | 1.06 (0.99 - -1.14) | .10 | |
华人vs马来人vs印度人 | 0.81 (0.55 - -1.19) | 陈霞 | 0.71 (0.34 - -1.44) | 点 | |
马来人、华人和印度人 | 1.20 (0.79 - -1.83) | .40 | 1.64 (0.78 - -3.43) | .19 | |
印度人vs华人和马来人 | 1.12 (0.68 - -1.84) | 点 | 0.87 (0.33 - -2.31) | 尾数就 | |
糖尿病家族史 | 1.72 (1.15 - -2.56) | .008b | 1.55 (0.75 - -3.21) | 。 | |
有高血压家族史 | 0.88 (0.60 - -1.32) | 55 | 0.70 (0.33 - -1.51) | .37点 | |
心血管疾病家族史 | 1.04 (0.57 - -1.90) | .90 | 0.51 (0.12 - -2.19) | .37点 | |
既往有妊娠糖尿病史 | 5.96 (2.16 - -16.43) | 措施b | 7.98 (2.62 - -24.27) | <措施b | |
既往有妊娠高血压病史 | 1.86 (0.66 - -5.21) | 。 | 2.45 (0.53 - -11.29) | 二十五分 | |
奇偶校验 | 1.02 (0.69 - -1.50) | 公布 | 1.38 (0.66 - -2.89) | 点 | |
平均动脉血压(mm Hg) | 1.05 (1.03 - -1.07) | <措施b | 1.07 (1.03 - -1.11) | <措施b | |
中上臂围(厘米) | 1.18 (1.12 - -1.25) | <措施b | 1.23 (1.13 - -1.33) | <措施b | |
母亲身高(厘米) | 0.96 (0.92 - -0.99) | . 01b | 0.96 (0.90 - -1.02) | .10 | |
BMI(公斤/米2) | 1.14 (1.09 - -1.18) | <措施b | 1.16 (1.09 - -1.24) | <措施b | |
怀孕期间吸烟 | 1.14 (0.30 - -4.36) | .85 | N/Ac | N/A | |
家庭环境烟草烟雾暴露 | 1.07 (0.72 - -1.60) | 收 | 0.98 (0.46 - -2.08) | .96点 | |
工作场所的环境烟草烟雾暴露 | 0.76 (0.38 - -1.51) | 点 | 1.37 (0.46 - -4.06) | .57 | |
怀孕期间饮酒 | 1.14 (0.30 - -4.36) | .85 | 1.67 (0.21 - -13.50) | 点 | |
GDM的诊断d(他e1999标准) | 5.49 (3.51 - -8.58) | <措施b | 9.57 (4.45 - -20.55) | <措施b |
一个OR:优势比。
b表示具有统计学意义的值。
cN/A:不适用;由于变量对似然估计没有贡献,所以没有得到固定效应回归估计。
dGDM:妊娠期糖尿病。
e卫生组织:世界卫生组织。
特征选择模型的SHapley加性解释(SHAP)总结图。卫生组织:世界卫生组织。
虽然所有机器学习模型的详细训练参数和结果如表S1-S6所示(
虽然中上臂周长和BMI之间有很高的相关性(
学习率:[' 0 ' - 0.00001,
L2叶正规化:(0 - 1.0,' 1 ' - 2.0,' 2 ' - 3.0,3 - 4.0,
随机强度:[' 0 ' - 1.0,' 1 ' - 2.0,' 2 ' - 3.0,3 - 4.0,
CatBoost模型指定了1000次迭代,最大深度为6棵树,并采用对称树生长策略。使用网格搜索调优的超参数为学习率0.0001,L2叶正则化5.0,随机强度5.0。BMI_GDM CatBoost分类器在此优化配置下性能良好。
BMI_GDM模型的SHapley加性解释(SHAP)总结图。卫生组织:世界卫生组织。
提出的产后2型糖尿病预测模型,包括妊娠体重增加后的妊娠中期BMI和妊娠糖尿病(GDM)特征的诊断(基于世界卫生组织1999年标准)。
型号规格(BMI_GDM) | 使用网格搜索调优超参数 | 平均AUC一个(95%置信区间) |
逻辑回归(L2正则化惩罚,随机平均梯度下降求解器) |
正则化强度的倒数=1.0 |
0.85 (0.72 - -0.98) |
支持向量机(线性核,L2正则化惩罚) |
L2正则化惩罚=1.0 损失函数= '平方铰链' |
0.85 (0.72 - -0.98) |
神经网络(3个隐藏层,每层10个神经元,ReLU激活函数,Adam求解器,200次迭代) |
L2正则化惩罚=0.01 初始学习率=0.1 |
0.85 (0.73 - -0.97) |
CatBoostb(1000次迭代,最大6棵树深度,对称树生长策略) |
L2叶正则化=5.0 学习速率= 0.0001 随机强度= 5.0 |
0.86 (0.72 - -0.99)b |
一个AUC:接收机工作特性曲线下的面积。
b提出了本研究开发的主要预测模型。
妊娠总体重增加与产后糖代谢异常(AGM)或2型糖尿病(T2D)结局(分娩后4-8年)的相关性。
分析 | AGM (n = 128) | T2D (n = 31) | |||||||
|
或一个(95%置信区间) | P值 | 或(95% ci) | P值 | |||||
|
|||||||||
|
妊娠总增重(kg) | 0.87 (0.82 - -0.91) | <措施b | 0.79 (0.72 - -0.87) | <措施b | ||||
|
|||||||||
|
妊娠总增重(kg) | 0.93 (0.87 - -0.98) | . 01b | 0.88 (0.79 - -0.98) | 02b |
一个OR:优势比。
b表示具有统计学意义的值。
c根据母亲种族、年龄、胎次、糖尿病家族史、孕前BMI和妊娠糖尿病诊断进行调整。
CatBoost算法验证曲线-学习率变化。AUC:接收机工作特性曲线下的面积。
CatBoost算法验证曲线-可变L2叶正则化。AUC:接收机工作特性曲线下的面积。
CatBoost算法验证曲线-随机强度变化。AUC:接收机工作特性曲线下的面积。
当将产前血糖测量建模为连续特征时,餐后2小时血糖(AUC=0.86, 95% CI 0.76-0.96)与空腹血糖相比,显示出更强的产后T2D风险预测效果(AUC=0.76, 95% CI 0.61-0.91;表S6
我们将基于博弈论的特征选择与机器学习相结合,构建了一个有效的产后T2D预测模型。SHAP值恢复了预测建模特征,以获得最佳性能,使模型可解释性与人类直觉保持一致。我们的BMI_GDM模型在新加坡人群中获得了0.86的AUC,具有2个妊娠中期特征(根据世卫组织1999年标准,妊娠中期BMI和GDM诊断),用于早期预测产后T2D风险。当使用改进的2点IADPSG 2018 GDM诊断标准时,模型也具有鲁棒性(AUC=0.84)。在常规GDM筛查过程中,BMI_GDM机器学习模型可作为风险分层工具,以识别患T2D风险较高的亚洲女性,从而实现早期干预。如果GDM诊断特征对患者无效,bmi2小时模型(AUC=0.86)可作为临床实施期间的替代设计。经过训练的分类器可以使用web应用程序进行部署,允许临床医生识别有T2D风险的妇女,并制定产后管理计划。
双特征妊娠中期BMI模型(AUC=0.86)在产后T2D预测方面优于孕前BMI模型(AUC=0.62),这表明妊娠中期体重增加的影响与GDM和胎胎盘单位代谢紊乱相结合预示着未来T2D风险。由于怀孕对新陈代谢有诱发糖尿病的作用[
在我们的BMI_GDM模型敏感性分析中,我们观察到新加坡妇女产前2小时OGTT葡萄糖峰值(AUC=0.86)与空腹葡萄糖(AUC=0.76)相比,与产后T2D更强的预测相关。产后T2D风险在GDM诊断标准的不同糖耐量阈值间是否存在异质性,尚需进一步研究,以获得更强的统计力。
由于缺乏纵向数据,本研究存在一定的局限性。GUSTO研究没有在产后4-12周进行OGTT,以及每1-3年对产后OGTT正常的患者进行进一步检测,这可能在一定程度上低估了产后血糖异常的发生,并诱发了偏倚。然而,参与GUSTO的母亲在分娩2年后自我报告了T2D状况,没有自我报告T2D病例。我们的预测模型是在561例妊娠的有限队列中进行训练的,需要使用更大的队列(如电子健康记录数据库)进行进一步验证。个体种族的子队列分析可以用更大的数据集进行训练。
与现有的基于分子生物标志物的T2D风险预测算法相比,我们在产前护理期间早期实施T2D风险预测算法,可以早期参与患者并进行远程监测[
我们研究的关键优势在于在产前护理中应用基于机器学习的预测分析来早期预测产后T2D。这种机器学习模型可以作为预防性干预的风险分层工具。
机器学习算法的实现细节。
表S1-S6;所有机器学习模型的详细训练参数和结果。
葡萄糖代谢异常
接收机工作特性曲线下面积
妊娠期糖尿病
在新加坡成长,迈向健康
国际糖尿病和妊娠研究小组协会
空腹血糖受损
葡萄糖耐量降低
口服糖耐量试验
SHapley加法解释
2型糖尿病
世界卫生组织
我们感谢GUSTO研究团队在获取研究数据方面的帮助以及他们与参与者的重要工作。GUSTO出生队列研究由代谢疾病发育途径转化临床研究旗舰项目(授予NMRC/TCR/004-NUS/2008, NMRC/TCR/012-NUHS/2014)和开放基金-大型合作赠款(OFLCG/MOH-000504)项目支持,由新加坡国家研究基金会资助,由新加坡国家医学研究理事会(NMRC)管理。本研究由NMRC的开放基金-大型合作基金支持,题为“亚洲妇女及其儿童的代谢健康”(授予OFLCG19may-0033)。KMG由英国医学研究委员会支持(MC_UU_12011/4);国家卫生研究所(NIHR)、国家卫生研究所高级研究员(NF-SI-0515-10042)和国家卫生研究所南安普顿生物医学研究中心(IS-BRC-1215-20004);以及英国心脏基金会(RG/15/17/3174)。数据分析的额外资金由战略定位基金和IAF-PP基金(H17/01/a0/005)支持,该基金通过新加坡科学、技术和研究局(A*STAR)向朝鲜提供(SPF 002/2013)。
支持本研究结果的数据可根据合理要求从相应作者处获得。为再现这项研究而生成的代码可在GitHub [
产后T2D预测模型(CatBoost算法)已部署到web应用中[
作者JGE, MF和NK是本出版物的联合高级作者。
MK对研究设计、数据管理、机器学习建模、统计分析、结果解释和手稿写作做出了贡献。LTA和CH有助于临床数据的管理。SES和SYC有助于GUSTO队列表型数据的收集和手稿的批判性阅读。KHT、JKYC、KMG和YSC参与了GUSTO队列研究的设计、数据收集和手稿的批判性阅读。JGE参与了结果的解释、手稿的撰写和GUSTO队列数据的收集。MF对研究的监督、结果的解释和手稿的撰写做出了贡献。NK参与了研究的监督、结果的解释、手稿的撰写和GUSTO队列研究数据的收集。MF和NK对这项工作承担全部责任,可以访问数据,并控制论文发表的决定。
NK、KMG、SYC和YSC是一个学术联盟的一部分,该联盟获得了雅培营养、Nestec公司、BenevolentAI生物有限公司和达能的研究资金。MF得到了新加坡国家研究基金会AI新加坡项目(AISG-GC-2019-001-2A)的部分支持。其他作者宣称没有利益冲突。