卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR糖尿病

2371 - 4379

卡塔尔世界杯8强波胆分析

加拿大多伦多

v7i3e32366

35788016

10.2196/32366

原始论文

机器学习衍生的产前预测风险模型，以指导干预和预防妊娠糖尿病向2型糖尿病的进展:预测模型开发研究

Mizokami-Stout

喀拉海

陆

Ching-Liang

Hakemi

艾哈迈德

库马尔

Mukkesh

学士(荣誉一级) 1 2 3.

https://orcid.org/0000-0001-6640-4284

盎

李停

二元同步通信 1 2

https://orcid.org/0000-0003-2543-9055

何

辛迪

二元同步通信 1 2

https://orcid.org/0000-0002-5748-8022

全音阶

蜀E

博士学位 4

https://orcid.org/0000-0002-0790-4200

棕褐色

Kok大华

MBBS, MMed, MBA 5 6

https://orcid.org/0000-0003-1945-0266

陈

郭彦杰

荣誉学士，博士 7 8 9

https://orcid.org/0000-0002-0246-2159

戈弗雷

基思米

医学博士(荣誉) 10 11

https://orcid.org/0000-0002-4643-0618

陈

Shiao-Yng

黑带大师博士 1 7

https://orcid.org/0000-0002-3530-3023

庄

Yap生

MBBS, MMeD, MD 1 7

https://orcid.org/0000-0002-7232-8473

埃里克森

约翰G

医学博士DMSc 1 7 12 13

https://orcid.org/0000-0002-2516-2060

冯

Mengling

博士学位 3. 14

https://orcid.org/0000-0002-5338-6248

Karnani

Neerja

博士学位 1

新加坡临床科学研究所科学技术和研究局

布伦纳分子医学中心

医疗路30号

新加坡,117609年

新加坡 65 64074041 neerja_karnani@sics.a-star.edu.sg

2 15

https://orcid.org/0000-0002-5301-409X

1 新加坡临床科学研究所科学技术和研究局

新加坡

新加坡 2 生物信息学研究所科学技术和研究局

新加坡

新加坡 3. 见瑞福公共卫生学院新加坡国立大学全国大学卫生系统

新加坡

新加坡 4 儿科永洛林医学院新加坡国立大学

新加坡

新加坡 5 妇产科科 KK妇女儿童医院

新加坡

新加坡 6 妇产科学术临床课程“，杜克-新加坡国立大学研究生医学院

新加坡

新加坡 7 妇产科与人类潜能转化研究计划“，永洛林医学院新加坡国立大学

新加坡

新加坡 8 生殖医学系 KK妇女儿童医院

新加坡

新加坡 9 癌症与干细胞生物学杜克-新加坡国立大学医学院

新加坡

新加坡 10 MRC生命过程流行病学部门南安普顿大学

南安普顿

联合王国 11 国家卫生和保健研究所南安普顿生物医学研究中心南安普顿大学医院NHS基金会

南安普顿

联合王国 12 全科和初级保健司赫尔辛基大学

赫尔辛基

芬兰 13 Folkhälsan研究中心

赫尔辛基

芬兰 14 数据科学研究所新加坡国立大学

新加坡

新加坡 15 生物化学系永洛林医学院新加坡国立大学

新加坡

通讯作者:Neerja Karnani neerja_karnani@sics.a-star.edu.sg

Jul-Sep 2022

5 7 2022

7 3.

e32366

26 7 2021 9 10 2021 27 11 2021 21 3. 2022

©Mukkesh Kumar, Li Ting Ang, Cindy Ho, Shu E Soh, Kok Hian Tan, Jerry Kok Yen Chan, Keith M Godfrey, Shiao-Yng Chan, Yap Seng Chong, Johan G Eriksson，冯梦玲，Neerja Karnani。最初发表在JMIR Diabetes (https://diabetes.www.mybigtv.com)， 05.07.2022。

2022

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR Diabetes上的原创作品。必须包括完整的书目信息，https://diabetes.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

妊娠期糖尿病(GDM)患病率的增加令人担忧，因为患有GDM的女性在以后的生活中患2型糖尿病(T2D)的风险很高。这一风险的严重性凸显了早期干预预防GDM向T2D进展的重要性。产后筛查率并不理想，在亚洲国家通常只有13%。在一些卫生保健系统中，缺乏通过结构化产后筛查进行预防保健，公众意识不高是进行产后糖尿病筛查的主要障碍。

客观的

在本研究中，我们开发了一个机器学习模型，用于常规产前GDM筛查后早期预测产后T2D。在产前护理中早期预测产后T2D将有助于实施有效的糖尿病预防干预策略。据我们所知，这是第一个在亚洲裔产前人群中使用机器学习进行产后T2D风险评估的研究。

方法

前瞻性多民族数据(中国、马来和印度民族)来自新加坡最深入表型的母亲-后代队列研究-在新加坡成长走向健康结果-中的561例妊娠用于预测建模。特征变量包括人口统计学、病史或产科史、体格测量、生活方式信息和GDM诊断。Shapley值与CatBoost树集合相结合进行特征选择。我们的预测分析博弈论方法为数据驱动的精确护理实现了人口子类型和模式发现。使用4种机器学习算法训练预测模型:逻辑回归、支持向量机、CatBoost梯度增强和人工神经网络。我们采用5次折叠分层交叉验证，以保持每次折叠中相同比例的T2D病例。构建了网格搜索管道来评估性能最佳的超参数。

结果

建立了一个包含2个妊娠中期特征的产后T2D的高效预测模型——妊娠中期体重增加后的BMI和gdm诊断(BMI_GDM CatBoost模型:AUC=0.86, 95% CI 0.72-0.99)。仅孕前BMI不足以预测产后T2D风险(ppBMI CatBoost模型:AUC=0.62, 95% CI 0.39-0.86)。餐后2小时血糖试验(bmi_2小时CatBoost模型:AUC=0.86, 95% CI 0.76-0.96)显示，与空腹血糖试验(bmi_2小时CatBoost模型:AUC=0.76, 95% CI 0.61-0.91)相比，产后T2D风险预测效果更强。使用国际糖尿病和妊娠研究组协会(IADPSG) 2018年GDM诊断标准(BMI_GDM2 CatBoost模型:AUC=0.84, 95% CI 0.72-0.97)时，BMI_GDM模型也是稳健的。妊娠总增重与产后T2D结局呈负相关，与孕前BMI和GDM诊断无关(P=.02;或0.88,95% ci 0.79-0.98)。

结论

妊娠中期体重增加的影响，结合妊娠期间GDM的代谢紊乱，预示着新加坡妇女未来的T2D风险。妊娠期代谢适应对产后孕产妇代谢健康结果的影响还需要进一步研究。最先进的机器学习模型可以作为产前护理期间的快速风险分层工具。

试验注册

ClinicalTrials.gov NCT01174875;https://clinicaltrials.gov/ct2/show/NCT01174875

亚洲的人口糖尿病管理数字医疗妊娠期糖尿病机器学习预测模型产前护理公共卫生风险因素 2型糖尿病

简介

妊娠糖尿病(GDM)的患病率在全球范围内呈上升趋势，每6个妊娠中就有1个受到影响[ 1］．GDM具有长期影响，因为有GDM病史的女性患2型糖尿病(T2D)的风险比血糖正常妊娠的女性高10倍[ 2］．在新加坡的健康成长(GUSTO)研究中，患有GDM的女性在分娩后4-6年发生T2D的风险比没有患GDM的女性高12倍[ 3.］．从公共卫生的角度来看，对患有GDM的妇女进行早期干预有助于解决T2D日益加重的全球卫生负担。T2D疫情在东南亚尤其令人关切;目前有8800万成年人患有糖尿病，但预计到2045年这一数字将增加到1.53亿[ 1］．此外，东南亚57%的糖尿病患者未被确诊，这增加了心脏病和中风等并发症的风险[ 1］．

美国糖尿病协会指南建议患有GDM的妇女在产后4-12周使用75克口服葡萄糖耐量试验(OGTT)进行测试[ 4］．对于产后OGTT正常的患者，建议每1-3年进一步检测空腹血糖、血红蛋白A_{1 c}或HbA_{1 c}，或OGTT [ 4］．然而，随着妊娠后糖尿病的解决，全球卫生保健系统的产后血糖监测仍然很低。在亚洲国家，产后糖尿病筛查率可低至13% [ 5］．产后糖尿病筛查的障碍包括卫生保健系统缺乏结构化的产后预防保健，患者对未来T2D风险缺乏认识，以及由于产妇承诺而造成的时间限制[ 5， 6］．

机器学习模型可以预测人口风险分层。在Allalou等人的前瞻性代谢组学研究中[ 7]，在产后6-9周确定了21种代谢物，以预测女性从GDM到T2D的转变。使用决策树的代谢物模型表现良好，接受者工作特征曲线(AUC)下的面积为0.77。在Joglekar等人的另一项GDM到T2D过渡研究中[ 8]，在产后12周纳入循环microRNA (miR-369-3p)增强了临床模型(年龄、BMI、妊娠空腹血糖、产后空腹血糖、胆固醇和三酰甘油)的AUC预测，AUC从0.83提高到0.92 (logistic回归算法)。除了GDM妇女的产后检测依从性低之外，这两个机器学习模型在现实世界中实施的其他障碍包括在常规临床访问中代谢组学检测和microRNA聚合酶链反应的成本和可获得性。

在产前护理中早期预测产后T2D将有助于实施有效的糖尿病预防干预策略。迄今为止，尚未有研究将机器学习用于亚洲裔产前人群的产后T2D风险评估。在新加坡的这项研究中，我们开发了一个机器学习模型，用于在常规产前GDM筛查中早期预测产后T2D。我们的机器学习模型是使用前瞻性GUSTO队列研究数据(NCT01174875)实现的。

方法伦理批准

本研究已由国家医疗保健集团领域特定审查委员会和SingHealth集中机构审查委员会(CIRB/E/2019/2655)进行伦理批准。

研究设计

GUSTO是一项前瞻性的多民族(中国、马来和印度民族)母亲-后代队列研究。2009年6月至2010年10月期间，研究人员从新加坡两家主要公立妇产医院(国立大学医院和KK妇女儿童医院)招募了怀孕早期的母亲。

混合种族或招募时自我报告T2D的参与者被排除在模型训练之外。共有561名母亲拥有完整的人口统计学、病史或产科史、身体测量、生活方式信息、产前OGTT和产后4-8年的OGTT数据。世界卫生组织(卫生组织)1999年标准[ 9]用于诊断GDM, WHO 2006年标准[ 10]用于诊断产后糖耐量受损(IGT)、空腹血糖受损(IFG)和T2D。异常糖代谢(AGM)结果包括IGT、IFG和T2D诊断。

特征变量

人口统计学信息(母亲年龄、母亲种族)和病史或产科史(自述的孕前体重、糖尿病家族史、高血压家族史、心血管疾病家族史、GDM家族史、妊娠高血压家族史和胎次)来源于妊娠前三个月的问卷调查。在妊娠中期记录收缩压和舒张压(中位26.7,IQR 26.1-27.6周)，并从医院病例记录中获得。平均动脉血压是通过将舒张压加倍并加上收缩压，并将复合和除以3得出的。孕中期测量母体人体测量(中位数26.9,IQR 26.4-27.6周)。测量母亲的中上臂围至最近的0.1 cm，位于肩峰突和鹰嘴突之间(使用Seca 212)。测量产妇身高至0.1 cm(使用Seca 213)。孕妇妊娠中期体重测量至0.1 kg(使用Seca 803)， BMI由体重除以身高的平方(kg/m)得出²)．总妊娠增重由最后一次产前检查体重(中位数38.1,IQR 37.3-39.1周)减去第一次产前检查体重(中位数9.0,IQR 7.3-11.0周)得出。通过问卷收集有关自我报告吸烟、环境烟草烟雾暴露和饮酒的生活方式信息。GDM诊断基于产前OGTT评估(中位数26.9,IQR 26.4-27.7周)。

机器学习方法与统计分析

我们的方法新颖之处在于将联合博弈论概念与机器学习相结合。SHapley加法解释(SHAP)框架与CatBoost树集成相结合，用于特征选择和模型可解释性[ 11， 12］．SHAP框架使用合作博弈论中的经典Shapley值将最优信用配置与局部解释联系起来。伦德伯格和李[ 11]提出了SHAP作为唯一满足博弈论2个重要属性——可加性(局部准确性)和单调性(一致性)的可加性特征归因方法。在博弈论中，Shapley值是一个参与者在所有可能的参与者排列中的平均期望边际贡献(即团队成员组成和团队规模的平均影响)。Shapley值有助于确定所有游戏玩家在联盟合作时，每个玩家可能比其他玩家贡献更多或更少的回报。在机器学习中，游戏参与者是特征，集体支出是模型预测。SHAP框架基于精确的Shapley值提供局部解释，以理解全局模型结构。对于每种可能的特征排序，特征被一次引入一个模型输出的条件期望函数中，期望的变化归因于引入的特征，以公平的方式对所有可能的特征排序平均。SHAP值表示对数比值比的变化。我们的预测分析博弈论方法为数据驱动的精确护理实现了人口子类型和模式发现。

在JupyterLab计算环境中使用Python编程语言的Anaconda发行版(3.7.9版)构建监督机器学习模型。预测模型使用以下4种机器学习算法进行训练，以解决算法偏差:逻辑回归(广义线性模型)、支持向量机(线性支持向量分类)、CatBoost梯度增强(基于树)和人工神经网络(多层感知器)。我们使用5次分层交叉验证，以保持每次AGM/T2D病例的相同比例。使用最大绝对缩放器作为预处理器，在不破坏稀疏性的情况下对每个特征进行缩放。构建了网格搜索管道来评估每个机器学习模型的最佳性能超参数。采用95% CI的AUC对模型性能进行评估。其中包括机器学习算法的实现细节多媒体附件1．

利用妊娠中期临床特征的特征选择模型对AGM结局进行训练，将SHAP值幅度大于零的顶级预测因子纳入AGM/T2D预测模型。采用国际糖尿病和妊娠研究协会(IADPSG) 2018年修订的2点标准，进行敏感性分析，探讨诊断GDM的预测效果[ 9]而不是WHO 1999标准(GUSTO研究不包括1小时血糖测量)，以及连续禁食或2小时血糖测量和孕前BMI的预测效果。我们还评估了妊娠总增重与产后AGM和T2D结局之间的相关性。所有关联分析均使用Stata/MP软件(版本16.1;StataCorp LP)。

结果与T2D显著相关的特征与SHAP特征选择模型中的顶部特征对齐

所有特征变量与产后AGM和T2D结局之间的关系以Pearson相关热图( 图1而且 2)．诊断GDM、中上臂围、BMI是产后AGM/T2D机器学习模型构建的最佳特征。

表1展示了妊娠中期特征与产后AGM和T2D结局之间的单变量相关性。既往GDM病史、平均动脉血压、中上臂围、BMI和GDM诊断与T2D后期风险相关。影响SHAP模型输出的前4个特征是中臂围、平均动脉血压、BMI和GDM诊断( 图3)．身高的负SHAP值表明，母亲身高对AGM的预测没有贡献。

图1

异常糖代谢(AGM) Pearson相关热图。GDM:妊娠期糖尿病。

图2

2型糖尿病(T2D) Pearson相关热图。GDM:妊娠期糖尿病。

表1

妊娠中期特征与产后糖代谢异常(AGM)或2型糖尿病(T2D)结局(分娩后4-8年)的相关性。

特征	AGM (n = 139)			T2D (n = 32)
	或^一个(95%置信区间)	P值	或(95% ci)		P值
产妇年龄(年)	1.05 (1.01 - -1.09)	02^b	1.06 (0.99 - -1.14)		.10
华人vs马来人vs印度人	0.81 (0.55 - -1.19)	陈霞	0.71 (0.34 - -1.44)		点
马来人、华人和印度人	1.20 (0.79 - -1.83)	.40	1.64 (0.78 - -3.43)		.19
印度人vs华人和马来人	1.12 (0.68 - -1.84)	点	0.87 (0.33 - -2.31)		尾数就
糖尿病家族史	1.72 (1.15 - -2.56)	.008^b	1.55 (0.75 - -3.21)		。
有高血压家族史	0.88 (0.60 - -1.32)	55	0.70 (0.33 - -1.51)		.37点
心血管疾病家族史	1.04 (0.57 - -1.90)	.90	0.51 (0.12 - -2.19)		.37点
既往有妊娠糖尿病史	5.96 (2.16 - -16.43)	措施^b	7.98 (2.62 - -24.27)		<措施^b
既往有妊娠高血压病史	1.86 (0.66 - -5.21)	。	2.45 (0.53 - -11.29)		二十五分
奇偶校验	1.02 (0.69 - -1.50)	公布	1.38 (0.66 - -2.89)		点
平均动脉血压(mm Hg)	1.05 (1.03 - -1.07)	<措施^b	1.07 (1.03 - -1.11)		<措施^b
中上臂围(厘米)	1.18 (1.12 - -1.25)	<措施^b	1.23 (1.13 - -1.33)		<措施^b
母亲身高(厘米)	0.96 (0.92 - -0.99)	. 01^b	0.96 (0.90 - -1.02)		.10
BMI(公斤/米²）	1.14 (1.09 - -1.18)	<措施^b	1.16 (1.09 - -1.24)		<措施^b
怀孕期间吸烟	1.14 (0.30 - -4.36)	.85	N/A^c		N/A
家庭环境烟草烟雾暴露	1.07 (0.72 - -1.60)	收	0.98 (0.46 - -2.08)		.96点
工作场所的环境烟草烟雾暴露	0.76 (0.38 - -1.51)	点	1.37 (0.46 - -4.06)		.57
怀孕期间饮酒	1.14 (0.30 - -4.36)	.85	1.67 (0.21 - -13.50)		点
GDM的诊断^d(他^e1999标准)	5.49 (3.51 - -8.58)	<措施^b	9.57 (4.45 - -20.55)		<措施^b

^一个OR:优势比。

^b表示具有统计学意义的值。

^cN/A:不适用;由于变量对似然估计没有贡献，所以没有得到固定效应回归估计。

^dGDM:妊娠期糖尿病。

^e卫生组织:世界卫生组织。

图3

特征选择模型的SHapley加性解释(SHAP)总结图。卫生组织:世界卫生组织。

妊娠期间母亲肥胖和代谢紊乱是GDM信号未来T2D风险的基础

虽然所有机器学习模型的详细训练参数和结果如表S1-S6所示( 多媒体附件2)，我们重点描述了CatBoost机器学习模型的结果，因为该算法的整体性能最好。中表S1-S6给出了5次分层交叉验证各数据集的结果及交叉验证的平均值多媒体附件2．妊娠中期中上臂围(AUC=0.78, 95% CI 0.71-0.86)和妊娠中期BMI (AUC=0.74, 95% CI 0.53-0.96)的预测性能优于GDM诊断(AUC=0.73, 95% CI 0.51-0.95;表S2 多媒体附件2)．GDM诊断的加入改善了基线模型的性能(MUAC_GDM模型:AUC=0.88, 95% CI 0.79-0.96和BMI_GDM模型:AUC=0.86, 95% CI 0.72-0.99;表S4 多媒体附件2)．仅孕前BMI不足以预测产后T2D风险(AUC=0.62, 95% CI 0.39-0.86;表S6 多媒体附件2)．

虽然中上臂周长和BMI之间有很高的相关性( r=0.91)， BMI在临床环境中评估更可靠，也更常见，因此，基于BMI的妊娠模型是我们提出的解决方案( 图4)．表2总结了logistic回归、支持向量机、人工神经网络、CatBoost梯度增强算法的详细训练参数，以及提出的产后T2D预测模型(包括妊娠中期体重指数、妊娠增重后GDM特征诊断)的结果。妊娠总增重与产后AGM和T2D结局呈负相关，与孕前BMI和GDM诊断无关( 表3)．

图5- 7给出BMI_GDM CatBoost模型训练得到的验证曲线。CatBoost模型的候选超参数如下:

学习率:[' 0 ' - 0.00001， ' 1 ' - 0.0001' 2 ' - 0.001, 3 - 0.01, 4 - 0.03, 5 - 0.05, 6 - 0.1, - 0.2“7”,“8”- 0.3)

L2叶正规化:(0 - 1.0,' 1 ' - 2.0,' 2 ' - 3.0,3 - 4.0, ' 4 ' - 5.0， ' 5 ' - 6.0]

随机强度:[' 0 ' - 1.0,' 1 ' - 2.0,' 2 ' - 3.0,3 - 4.0, ' 4 ' - 5.0， ' 5 ' - 6.0]

CatBoost模型指定了1000次迭代，最大深度为6棵树，并采用对称树生长策略。使用网格搜索调优的超参数为学习率0.0001,L2叶正则化5.0，随机强度5.0。BMI_GDM CatBoost分类器在此优化配置下性能良好。

图4

BMI_GDM模型的SHapley加性解释(SHAP)总结图。卫生组织:世界卫生组织。

表2

提出的产后2型糖尿病预测模型，包括妊娠体重增加后的妊娠中期BMI和妊娠糖尿病(GDM)特征的诊断(基于世界卫生组织1999年标准)。

型号规格(BMI_GDM)	使用网格搜索调优超参数	平均AUC^一个(95%置信区间)
逻辑回归(L2正则化惩罚，随机平均梯度下降求解器)	正则化强度的倒数=1.0	0.85 (0.72 - -0.98)
支持向量机(线性核，L2正则化惩罚)	L2正则化惩罚=1.0 损失函数= '平方铰链'	0.85 (0.72 - -0.98)
神经网络(3个隐藏层，每层10个神经元，ReLU激活函数，Adam求解器，200次迭代)	L2正则化惩罚=0.01 初始学习率=0.1	0.85 (0.73 - -0.97)
CatBoost^b(1000次迭代，最大6棵树深度，对称树生长策略)	L2叶正则化=5.0 学习速率= 0.0001 随机强度= 5.0	0.86 (0.72 - -0.99)^b

^一个AUC:接收机工作特性曲线下的面积。

^b提出了本研究开发的主要预测模型。

表3

妊娠总体重增加与产后糖代谢异常(AGM)或2型糖尿病(T2D)结局(分娩后4-8年)的相关性。

分析			AGM (n = 128)				T2D (n = 31)
			或^一个(95%置信区间)		P值		或(95% ci)		P值
未经调整的分析
	妊娠总增重(kg)	0.87 (0.82 - -0.91)		<措施^b		0.79 (0.72 - -0.87)		<措施^b
调整分析^c
	妊娠总增重(kg)	0.93 (0.87 - -0.98)		. 01^b		0.88 (0.79 - -0.98)		02^b

^一个OR:优势比。

^b表示具有统计学意义的值。

^c根据母亲种族、年龄、胎次、糖尿病家族史、孕前BMI和妊娠糖尿病诊断进行调整。

图5

CatBoost算法验证曲线-学习率变化。AUC:接收机工作特性曲线下的面积。

图6

CatBoost算法验证曲线-可变L2叶正则化。AUC:接收机工作特性曲线下的面积。

图7

CatBoost算法验证曲线-随机强度变化。AUC:接收机工作特性曲线下的面积。

与空腹血糖相比，餐后两小时葡萄糖是产后T2D风险的更强预测因子

当将产前血糖测量建模为连续特征时，餐后2小时血糖(AUC=0.86, 95% CI 0.76-0.96)与空腹血糖相比，显示出更强的产后T2D风险预测效果(AUC=0.76, 95% CI 0.61-0.91;表S6 多媒体附件2)．在敏感性分析中，使用改进的2点IADPSG 2018标准时，BMI_GDM模型的预测性能也具有鲁棒性(AUC=0.84, 95% CI 0.72-0.97;表S6 多媒体附件2)．

讨论主要结果

我们将基于博弈论的特征选择与机器学习相结合，构建了一个有效的产后T2D预测模型。SHAP值恢复了预测建模特征，以获得最佳性能，使模型可解释性与人类直觉保持一致。我们的BMI_GDM模型在新加坡人群中获得了0.86的AUC，具有2个妊娠中期特征(根据世卫组织1999年标准，妊娠中期BMI和GDM诊断)，用于早期预测产后T2D风险。当使用改进的2点IADPSG 2018 GDM诊断标准时，模型也具有鲁棒性(AUC=0.84)。在常规GDM筛查过程中，BMI_GDM机器学习模型可作为风险分层工具，以识别患T2D风险较高的亚洲女性，从而实现早期干预。如果GDM诊断特征对患者无效，bmi2小时模型(AUC=0.86)可作为临床实施期间的替代设计。经过训练的分类器可以使用web应用程序进行部署，允许临床医生识别有T2D风险的妇女，并制定产后管理计划。

双特征妊娠中期BMI模型(AUC=0.86)在产后T2D预测方面优于孕前BMI模型(AUC=0.62)，这表明妊娠中期体重增加的影响与GDM和胎胎盘单位代谢紊乱相结合预示着未来T2D风险。由于怀孕对新陈代谢有诱发糖尿病的作用[ 13]，还需要进一步的研究来研究妊娠期的代谢适应和产后产妇代谢健康结果。

在我们的BMI_GDM模型敏感性分析中，我们观察到新加坡妇女产前2小时OGTT葡萄糖峰值(AUC=0.86)与空腹葡萄糖(AUC=0.76)相比，与产后T2D更强的预测相关。产后T2D风险在GDM诊断标准的不同糖耐量阈值间是否存在异质性，尚需进一步研究，以获得更强的统计力。

限制

由于缺乏纵向数据，本研究存在一定的局限性。GUSTO研究没有在产后4-12周进行OGTT，以及每1-3年对产后OGTT正常的患者进行进一步检测，这可能在一定程度上低估了产后血糖异常的发生，并诱发了偏倚。然而，参与GUSTO的母亲在分娩2年后自我报告了T2D状况，没有自我报告T2D病例。我们的预测模型是在561例妊娠的有限队列中进行训练的，需要使用更大的队列(如电子健康记录数据库)进行进一步验证。个体种族的子队列分析可以用更大的数据集进行训练。

与之前工作的比较

与现有的基于分子生物标志物的T2D风险预测算法相比，我们在产前护理期间早期实施T2D风险预测算法，可以早期参与患者并进行远程监测[ 7， 8]用于产后护理。从我们的机器学习工作流程中发现的2个妊娠中期临床特征(妊娠体重增加后的妊娠中期BMI和GDM诊断)在常规产前GDM筛查中成本低且易于获得。从我们的工作中确定的数字生物标志物将指导产前研究，防止GDM发展为T2D。

结论

我们研究的关键优势在于在产前护理中应用基于机器学习的预测分析来早期预测产后T2D。这种机器学习模型可以作为预防性干预的风险分层工具。

多媒体附件1

机器学习算法的实现细节。

多媒体附件2

表S1-S6;所有机器学习模型的详细训练参数和结果。

缩写

AGM

葡萄糖代谢异常

AUC

接收机工作特性曲线下面积

GDM

妊娠期糖尿病

由衷的高兴

在新加坡成长，迈向健康

IADPSG

国际糖尿病和妊娠研究小组协会

糖尿病前期

空腹血糖受损

糖耐量受损

葡萄糖耐量降低

OGTT

口服糖耐量试验

世鹏科技电子

SHapley加法解释

T2D

2型糖尿病

谁

世界卫生组织

我们感谢GUSTO研究团队在获取研究数据方面的帮助以及他们与参与者的重要工作。GUSTO出生队列研究由代谢疾病发育途径转化临床研究旗舰项目(授予NMRC/TCR/004-NUS/2008, NMRC/TCR/012-NUHS/2014)和开放基金-大型合作赠款(OFLCG/MOH-000504)项目支持，由新加坡国家研究基金会资助，由新加坡国家医学研究理事会(NMRC)管理。本研究由NMRC的开放基金-大型合作基金支持，题为“亚洲妇女及其儿童的代谢健康”(授予OFLCG19may-0033)。KMG由英国医学研究委员会支持(MC_UU_12011/4);国家卫生研究所(NIHR)、国家卫生研究所高级研究员(NF-SI-0515-10042)和国家卫生研究所南安普顿生物医学研究中心(IS-BRC-1215-20004);以及英国心脏基金会(RG/15/17/3174)。数据分析的额外资金由战略定位基金和IAF-PP基金(H17/01/a0/005)支持，该基金通过新加坡科学、技术和研究局(A*STAR)向朝鲜提供(SPF 002/2013)。

数据可用性

支持本研究结果的数据可根据合理要求从相应作者处获得。为再现这项研究而生成的代码可在GitHub [ 14］．

产后T2D预测模型(CatBoost算法)已部署到web应用中[ 15］．

作者JGE, MF和NK是本出版物的联合高级作者。

MK对研究设计、数据管理、机器学习建模、统计分析、结果解释和手稿写作做出了贡献。LTA和CH有助于临床数据的管理。SES和SYC有助于GUSTO队列表型数据的收集和手稿的批判性阅读。KHT、JKYC、KMG和YSC参与了GUSTO队列研究的设计、数据收集和手稿的批判性阅读。JGE参与了结果的解释、手稿的撰写和GUSTO队列数据的收集。MF对研究的监督、结果的解释和手稿的撰写做出了贡献。NK参与了研究的监督、结果的解释、手稿的撰写和GUSTO队列研究数据的收集。MF和NK对这项工作承担全部责任，可以访问数据，并控制论文发表的决定。

NK、KMG、SYC和YSC是一个学术联盟的一部分，该联盟获得了雅培营养、Nestec公司、BenevolentAI生物有限公司和达能的研究资金。MF得到了新加坡国家研究基金会AI新加坡项目(AISG-GC-2019-001-2A)的部分支持。其他作者宣称没有利益冲突。

IDF糖尿病地图集第9版

国际糖尿病联合会 2019

2022-05-24

https://diabetesatlas.org/atlas/ninth-edition/

Vounzoulaki

这样一则消息

押尼珥

棕褐色

汉堡王

戴维斯

乔丹

Gillies

已知妊娠糖尿病史的女性进展为2型糖尿病:系统回顾和荟萃分析

BMJ 2020 05 13 369 m1361

10.1136 / bmj.m1361

32404325

PMC7218708

陈

全音阶

色彩

米

阿来

狂吠

棕褐色

李

石

戈弗雷

公里

格拉克曼

埃里克森

詹

庄

陈

年代

联合分析妊娠糖尿病和孕妇孕前至产后体重状况对2型糖尿病未来发展的影响

Sci代表 2021 03 03 11 1 5021

10.1038 / s41598 - 021 - 82789 - x

33658531

10.1038 / s41598 - 021 - 82789 - x

PMC7930020

美国糖尿病协会

2.糖尿病的分类和诊断:糖尿病医疗保健标准-2020

糖尿病护理 2020 01 20. 43 增刊1 S14系列 S31

10.2337 / dc20-S002

31862745

43 / Supplement_1 S14

Nouhjah

年代

Shahbazian

Amoori

Jahanfar

年代

Shahbazian

Jahanshahi

一个

Cheraghian

有妊娠糖尿病病史的亚洲女性的产后筛查实践、糖耐量异常进展及其相关危险因素:一项系统回顾和荟萃分析

糖尿病代谢综合征 2017 12 11补充2 S703 S712

10.1016 / j.dsx.2017.05.002

28571777

s1871 - 4021 (17) 30133 - 9

桑德森

Loveman

科尔奎特

罗伊尔

沃

棕褐色

汉堡王

在普遍医疗保健环境中改善妊娠糖尿病妇女的产后血糖检查:一项系统综述

临床医学 2018 12 20. 8 1 4

10.3390 / jcm8010004

30577481

jcm8010004

PMC6352125

Allalou

一个

Nalla

一个

普伦蒂斯

刘

张

米

戴

宁

奥斯本

考克斯

甘德森

惠勒

妊娠期糖尿病向2型糖尿病转变的预测代谢特征

糖尿病 2016 09 23 65 9 2529 39

10.2337 / db15 - 1720

27338739

db15 - 1720

PMC5001181

Joglekar

黄

WKM

教育津贴

颗

乔治奥

嗯

Shub

一个

Hardikar

Lappas

米

产后循环microRNA增强了既往妊娠糖尿病妇女未来2型糖尿病的预测

Diabetologia 2021 07 23 64 7 1516 1526

10.1007 / s00125 - 021 - 05429 - z

33755745

10.1007 / s00125 - 021 - 05429 - z

妊娠期首次发现高血糖的诊断标准和分类

谁 2013

2022-05-20

https://apps.who.int/iris/handle/10665/85975

糖尿病和中期高血糖的定义和诊断:WHO/IDF会诊报告

谁 2006

2022-05-20

https://apps.who.int/iris/handle/10665/43588

Lundberg

不

陈

DeGrave

一个

Prutkin

奈尔

卡茨

Himmelfarb

邦萨尔

李

年代

从局部解释到对树木的可解释人工智能的全球理解

Nat Mach intel 2020 01 2 1 56 67

10.1038 / s42256 - 019 - 0138 - 9

32607472

PMC7326367

Prokhorenkova

卡西

Vorobev

一个

Veronika

达

Gulin

一个

CatBoost:带有分类特征的无偏置增强

出来了。预印本于2017年6月28日在线发布 2022

10.48550 / arXiv.1706.09516

曾

刘

李

年代

妊娠期代谢适应研究综述

安·纳特·梅塔布 2017 3. 16 70 1 59 65

10.1159 / 000459633

28297696

000459633

GUSTO_Type-2-Diabetes-Mellitus

GitHub 2022-05-31

https://github.com/mukkeshkumar/GUSTO_Type-2-Diabetes-Mellitus

机器学习衍生出产前预测风险模型，以指导干预和预防妊娠糖尿病向2型糖尿病的进展

组早晨好 2022-05-31

https://www.mornin-feng.com/all-projects-and-demos#gdm2