卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMI

JMIR Med Inform

JMIR医学信息学

2291 - 9694

卡塔尔世界杯8强波胆分析

加拿大多伦多

v8i7e16850

32720912

10.2196/16850

原始论文

使用机器学习技术预测澳大利亚大型队列中2型糖尿病的发展:纵向调查研究

Eysenbach

冈瑟

通用电气

Zongyuan

张

林

张

Lei

博士学位 1

中澳传染病联合研究中心公共卫生学院西安交通大学医学部

雁塔区雁塔西路76号

陕西西安710061

中国 86 15910593477 Lei.Zhang1@monash.edu

https://orcid.org/0000-0003-2343-084X

商

Xianwen

博士学位 2

https://orcid.org/0000-0002-2362-3222

Sreedharan

Subhashaan

医学博士 2

https://orcid.org/0000-0003-1246-7081

严

细细

博士学位 2

https://orcid.org/0000-0002-8387-1463

刘

建斌

医学博士 2

https://orcid.org/0000-0002-8783-0984

龙骨

斯图尔特

博士学位 2

https://orcid.org/0000-0001-6756-348X

吴

Jinrong

妈 2

https://orcid.org/0000-0001-8929-0611

彭

魏

博士学位 3.

https://orcid.org/0000-0002-0868-0974

他

明光

博士学位 2

https://orcid.org/0000-0002-6912-2810

1 中澳传染病联合研究中心公共卫生学院西安交通大学医学部

西安、陕西

中国 2 澳大利亚眼科研究中心;眼科学外科墨尔本大学

墨尔本

澳大利亚 3. 数据分析与认知研究中心拉筹伯大学

墨尔本

澳大利亚

通讯作者:张磊 Lei.Zhang1@monash.edu

7 2020

28 7 2020

8 7

e16850

30. 10 2019 6 12 2019 20. 2 2020 26 2 2020

©张磊，尚宪文，Subhashaan Sreedharan，闫熙熙，刘建斌，Stuart Keel，吴锦荣，彭伟，何明光。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com)， 28.07.2020。

2020

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，http://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

以前预测糖尿病的常规模型可以通过纳入现有的越来越多的健康数据和新的风险预测方法来更新。

客观的

我们的目标是使用复杂的机器学习算法开发一个显著改进的糖尿病风险预测模型，该模型基于2006-2017年期间参与研究的超过23万人的大型回顾性人群队列。

方法

我们收集了来自45岁及以上研究的超过236,684名无糖尿病参与者的2型糖尿病(T2DM)的人口统计学、医学、行为和发病率数据。基于三种机器学习方法和传统回归模型，我们预测并比较了这些参与者在3年、5年、7年和10年的糖尿病发病风险。

结果

总体而言，6.05%(14,313/236,684)的参与者在平均8.8年的随访期内患上了2型糖尿病。男性10年糖尿病发病率为8.30%(8.08%-8.49%)，显著高于女性6.20%(6.00%-6.40%)(优势比1.37,95% CI 1.32-1.41)。肥胖个体的T2DM发病率增加了一倍(男性:17.78% [17.05%-18.43%];女性:14.59%[13.99%-15.17%])。梯度助推机模型在四种模型中表现最好(3年预测曲线下面积为79%，10年预测曲线下面积为75%)。所有机器学习模型都预测BMI是导致糖尿病发病的最重要因素，这解释了糖尿病预测中12%-50%的方差。该模型预测，如果肥胖和超重参与者的BMI可以假设降低到健康范围，那么10年糖尿病发病概率将从8.3%显著降低到2.8% ( P<措施)。

结论

一次性的自我报告调查可以使用机器学习方法准确预测糖尿病的风险。达到健康的BMI可以显著降低患2型糖尿病的风险。

糖尿病机器学习风险预测队列研究

简介

糖尿病及其并发症是全球过早死亡的主要原因。据估计，2017年全球有4.51亿人患有糖尿病，预计到2045年，这一数字将增长35%，达到6.93亿[ 1］．除糖尿病的疾病负担外，目前估计每年与糖尿病相关的全球经济成本为1.3万亿美元[ 2］．

预测成人糖尿病风险一直是国际上许多卫生保健系统的主要关注点。在过去的20年里，许多糖尿病风险预测工具已经开发出来，并取得了不同的成功[ 3.- 12］．其中四份由国家政府机构出版(美国[ 10]、澳洲[ 11]、英国[ 9]，以及加拿大[ 8])，并可在网上免费查阅。这些工具绝大多数收集个人人口特征、病史、家族史、人体测量数据和生物标志物的信息，并根据回归模型生成“风险评分”。然而，这些传统模型都有一些共同的主要缺点。首先，所有这些工具都包括血糖水平作为预测指标，这导致了虚假的夸大预测精度，因为血糖水平本身就定义了糖尿病。基于定义结果的预测因子的预测将不可避免地获得较高的准确性。其次，这些工具是基于相对较小的样本量(通常为5200-6400人)开发的，并且只包括从特定社区招募的参与者。第三，所使用的数据集已经过时，因此是一个潜在的偏差来源。例如，美国糖尿病协会问卷是根据1999-2004年期间进行的全国健康和营养检查[ 10澳大利亚2型糖尿病风险评估工具基于1999-2000年澳大利亚糖尿病、肥胖和生活方式研究[ 11］．第四，所有这些工具都采用传统的回归模型进行风险预测。

因此，这些模型可以通过纳入现有的越来越多的健康数据和迄今可用的新的风险预测方法来更新。有趣的是，2014年EPIC-InterACT研究回顾并验证了基于27,779名欧洲个体的病例队列样本的12种传统预测模型[ 12］．结果表明，这些模型可以识别患有2型糖尿病(T2DM)的高危人群，但模型的表现因国家、年龄、性别和体重而有很大差异。最近，Hippisley-Cox等人领导的QDiabetes研究[ 13克服了许多缺点。基于1150万人的大型人口数据集，该模型提供了糖尿病10年风险预测，可选择包括或排除空腹血糖和糖化血红蛋白作为预测指标。尽管取得了这一进展，但该研究采用了传统的Cox比例风险模型，该模型存在一些主要的局限性，其假设预测因子对风险具有时间无关的线性影响。

机器学习是一种新兴的、被广泛接受的风险预测方法[ 14］．已经提出了各种机器学习算法，从传统的到更先进的集成机器学习方法[ 15］．然而，在大多数模型中，一个共同的特征是依赖生物标志物的存在。例如，血糖水平是几种机器学习模型中常用的生物标志物，其在受试者工作特征曲线(AUC)值下的估计面积在70%-80%范围[ 16- 18］．结合血糖水平和其他生物参数的信息已被证明可以提高机器学习的准确性[ 19]，但生物标志物的收集需要侵入性血液采样，并仅限于临床环境。因此，开发一种仅依赖于自我报告信息的准确预测工具，为资源有限的环境中更广泛地应用，以对抗日益增长的全球糖尿病流行提供了巨大的潜力。

我们认为需要一种新的风险预测工具来解决当前工具的缺点。为此，在本研究中，我们提出了一种基于机器学习的糖尿病风险预测工具，仅使用自我报告的信息。该模型基于2006-2017年期间收集的澳大利亚新南威尔士州(NSW) 23万多名居民的大型队列数据。更具体地说，该工具旨在解决两个问题。首先，基于没有任何生物标志物的一次性自我报告调查，能否预测糖尿病的短期和长期(3-10年)风险?第二，糖尿病发病的可改变的危险因素的影响能否用这样的工具进行评估?

方法 45岁及以上的研究

萨克斯研究所45岁及以上的研究是在澳大利亚进行的最大的前瞻性队列研究[ 20.］．这项研究在2006年至2009年期间从澳大利亚新南威尔士州招募了266,896名45岁及以上的居民，约占该年龄段新南威尔士州人口的11% [ 20.］．研究方法已在其他地方详细描述[ 20.］．从澳大利亚医疗保险登记数据库中随机抽取45岁及以上的合格参与者和新南威尔士州居民，并通过邮件收到邀请，其中包括一份研究问卷和一份书面知情同意书。所有参与者均同意将其信息与常规健康数据库连接。基线问卷收集了广泛的社会经济、健康和生活方式因素的信息。为了跟踪参与者接受的医疗程序和药物，45岁及以上的研究数据与2004年至2016年的医疗保险福利计划和药物福利计划索赔相关联，使用了人类服务部提供的唯一标识符。医疗保险福利计划代码是医疗程序的唯一标识代码，而药物福利计划是临床医生开的药物的标识代码。

道德的考虑

这项45岁及以上的研究获得了新南威尔士大学人类研究伦理委员会的伦理批准。皇家维多利亚眼耳医院人类研究伦理委员会已批准使用45岁及以上研究的数据进行当前研究。

纳入和排除标准

我们排除了基线时已确诊糖尿病的参与者，定义为:(1)对问题no有积极反应的参与者。24“有医生告诉过你你有糖尿病吗?”(2)基线调查前根据药物福利计划数据库使用的糖尿病药物[ 21];或(3)患有妊娠糖尿病，定义为在最后一次分娩之前诊断出糖尿病，但随后没有使用糖尿病药物。我们还排除了那些身体活动数据不完整的参与者，以及那些报告糖尿病诊断年龄大于基线调查年龄的参与者。在45岁及以上研究的266,896名参与者中，本研究共包括236,584名居民( 多媒体附件1)．

关键结果和预测变量

该研究的主要结果是首次出现针对2型糖尿病的任何一种药物处方(包括口服降糖药和胰岛素)。糖尿病药物的处方定义为详列于多媒体附件2．由于所有参与者的年龄为> ~ 45岁，我们假设所有使用新的糖尿病药物的病例都是针对2型糖尿病，而不是1型糖尿病。我们打算在基线时通过一次自我报告调查来预测糖尿病风险( 多媒体)，其中不包括血糖水平等生物标志物。四类共39个预测变量包括:人口统计学特征、病史和家族史、生活方式指标和饮食指标。我们承认，我们对T2DM的定义可能会忽略妊娠期糖尿病的病例。

传统回归模型

我们采用传统的逻辑回归模型来调查糖尿病的发病率及其与预测变量的关系。我们使用四个独立的模型调查了基线后3年、5年、7年和10年的糖尿病风险及其相关因素。对于每一种模型，只包括参与各自随访时间的参与者。我们使用传统的回归模型作为基准模型，因为它是调查二元结果和潜在相关因素之间关联的标准方法。

机器学习模型

为了与回归模型进行比较，我们应用了三种常用的机器学习模型，包括随机森林、实现深度学习方法的多层前馈人工神经网络和梯度增强机器方法。这三个模型代表了风险预测的主流机器学习模型。随机森林算法[ 22]是一种监督学习算法，它构建了决策树的集成。在本研究中，我们使用了基尼指数[ 23]来确定我们算法中每个树分裂的最佳预测变量和位置。我们使用代价复杂度参数来惩罚更复杂的树，并控制最终树的大小。通过5倍交叉验证确定复杂度参数的最佳值。深度学习方法基于人工神经网络的构建[ 24， 25]，我们通过带有反向传播的随机梯度下降对该方法进行端到端训练。梯度增强机采用增强集成方法，最小化错分类率的指数损失函数[ 26］．梯度提升机通过寻找损失函数负梯度最大的学习器(如决策树)在函数空间中进行优化[ 27， 28］．

数据集在模型中迭代500次(深度学习500次，随机森林和梯度增强机500棵决策树)。为每个超参数指定了一个值范围，并检查了所有可能的超参数组合;获得了具有最高交叉验证性能指标的组合。随机森林包含指定树的数量和每棵树的最大深度的超参数。深度学习的参数包括激活、隐藏层大小、L1和L2正则化以及作为超参数的输入dropout ratio。对于梯度助推机，以模型数量最多、每棵树深度最大、学习率、每棵树行采样率、列采样率为超参数进行网格搜索进行模型优化。

我们随机选择总参与者的70%组成训练数据集，其余30%作为测试数据集。训练数据集用于机器学习，而测试数据集用于评估完全训练的分类器的预测性能。基于训练数据集进行五次交叉验证。

模型的比较

采用AUC值来评估逻辑回归模型和机器学习模型在预定义时间点(3,5,7,10年)的性能。AUC是一种用于分类模型的鲁棒基准模型比较度量，量化了分类器区分随机积极观测与随机消极观测的概率。采用均方根误差对结果进行验证。所有分析均使用R 3.4.1统计软件(R Foundation for statistical Computing, Vienna, Austria)，使用机器学习工具箱h2o v 3.16.0.2 (h2o。ai公司，CA，美国)。我们在所有四个模型中列出了导致糖尿病发病率的十大最强因素。

危险因素的相对重要性由它们对糖尿病发病方差的贡献来排序。对于逻辑回归，方差等于标准化beta系数的平方。对于随机森林，方差是在变量上分裂产生的节点杂质的总减少量，对所有树进行平均。对于梯度提升机，基于每个属性分裂点改善性能度量的量，计算和平均每个决策树的重要性，并通过节点负责的观察数量进行加权。对于深度学习，重要性是通过识别感兴趣的节点之间的所有加权连接来确定的。

模型预测

我们使用最准确(最高AUC值)的验证模型，通过假设参与者BMI类别的假设变化，来确定糖尿病发病概率的潜在降低。我们调查了三种情况:(1)BMI属于“肥胖”类别(≥30)的所有个体都变成了“超重”(BMI=25.0-29.9);(2)除情景1外，BMI“超重”类别的所有个体都转移到BMI“健康”类别(18.5-24.9);(3) BMI指数属于“肥胖”和“超重”类别的所有个体都转移到了“健康”BMI类别。

结果参与者的特征

研究人群的基线人口学特征总结于多媒体．简而言之，在本次回顾性队列研究中纳入的236,684例患者中，大约6.05%(14,313/236,684)在平均8.8年的随访期间(范围7.0-11.5;2,006,194人年)。糖尿病患者年龄较大、男性、超重或肥胖、受教育程度较低、有糖尿病家族史、居住在大城市、收入和社会经济地位较低的可能性明显更高(卡方检验，都是如此) P<。)。此外，糖尿病患者更有可能在登记时自我报告高血压、心血管疾病和血脂异常(所有 P<。)。在生活方式因素方面，糖尿病患者明显更有可能是以前或现在的吸烟者，体育活动较少，每天坐着的时间较长，消费更多的加工肉类，牛奶摄入量较低(所有这些都是糖尿病患者的健康因素) P<。)。

按性别、年龄和BMI分组的糖尿病累积发病率

男性糖尿病的累积发病率明显高于女性( 图1)．10年结束时，男性糖尿病累积发病率为7.66%(7.23% ~ 8.12%)，显著高于女性(5.84%，5.49% ~ 6.20%;优势比1.37,95% CI 1.32-1.41)。

图1

糖尿病的累积发病率，男性和女性按年龄组分层，男性和女性按BMI组分层。

在男性和女性中，65-74岁的糖尿病累积发病率最高(10年发病率9.32%，8.34%-10.42%)，其次是45-54岁(6.37%，5.67%-7.16%)、55-64岁(8.68%，7.87%-9.57%)和≥75岁(5.84%，4.95%-6.88%)。年龄≥75岁的参与者糖尿病发病率的增长速度比其他年龄组慢得多，并在6-7年的随访后显著降低。这发生在老年群体接近澳大利亚人口平均预期寿命(84.6岁)的时间点[ 29］．

肥胖男性糖尿病发病率最高，3、5、7、10年累计发病率分别为3.61%(3.36% ~ 3.89%)、6.82%(6.47% ~ 7.19%)、11.84%(11.37% ~ 12.32%)、17.39%(15.87% ~ 19.05%)。这明显高于BMI在超重和健康范围内的男性的累积发病率。特别是肥胖男性10年糖尿病发病率比超重男性高2.76例(2.61 ~ 2.91例)，比健康体重男性高5.83例(5.41 ~ 6.28例)。女性糖尿病发病率也有类似的变化( 图1)．

利用机器学习技术预测糖尿病风险

机器学习方法对糖尿病风险的整体预测优于传统回归分析( 表1)．梯度助推机模型对3年风险预测的准确性在所有四个模型中最高。接下来是随机森林和深度学习模型。在所有三种机器学习模型中，由AUC测量的性能显著高于回归分析(Delong检验，所有 P<。)。其他随访时间也观察到类似的模式，但在10年随访时，模型预测的能力降低了5%-6%。均方根误差也是梯度提升机模型( 图2，表1)．

表1

逻辑回归模型与机器学习模型的性能比较。

持续时间	逻辑回归		梯度增压机		深度学习		随机森林
	AUC^一个(范围)	RMSE^b	AUC(范围)	RMSE	AUC(范围)	RMSE	AUC(范围)	RMSE
3年	0.7401 (0.7262 - -0.7541)	0.1203	0.7927 (0.7803 - -0.8051)	0.1197	0.7769 (0.7639 - -0.7899)	0.1244	0.7868 (0.7742 - -0.7993)	0.1198
5年	0.7192 (0.7084 - -0.7301)	0.1633	0.7769 (0.7673 - -0.7864)	0.1620	0.7610 (0.7566 - -0.7762)	0.1667	0.7769 (0.7612 - -0.7804)	0.1622
7年	0.6990 (0.6901 - -0.7077)	0.2087	0.7589 (0.751 - -0.7668)	0.2063	0.7526 (0.7446 - -0.7606)	0.2099	0.7531 (0.7452 - -0.761)	0.2066
10年	0.6885 (0.6801 - -0.6961)	0.2318	0.7491 (0.7426-0.7570)	0.2314	0.7374 (0.7339 - -0.7486)	0.2435	0.7439 (0.7365 - -0.7510)	0.2318

^一个AUC:接收机工作特性曲线下的面积。

^bRMSE:均方根误差。

图2

不同模型对糖尿病预测方差的贡献排序。(+增加风险;-降低风险;*与女性相比，男性会增加患病风险;#与在澳大利亚出生的人相比，在海外出生的人患糖尿病的风险更高;§与没有私人保险相比，拥有私人保险可以降低风险;与在区域内或区域外相比，在主要城市会增加风险;‡与澳大利亚血统相比，具有亚洲血统或其他血统的人患糖尿病的风险更高)。GBM:梯度升压机。

机器学习模型表明BMI是糖尿病发生的最重要预测因素( 图2)．在短期内(3年随访)，所有三种机器学习模型一致证明BMI单独对糖尿病预测方差的贡献为12%-24%。相比之下，BMI在长期(10年随访)中贡献了20%-50%的方差。

预测糖尿病风险降低

鉴于BMI是糖尿病最重要的预测因子，我们使用经过验证的梯度增强机模型探索了BMI降低对糖尿病发病风险的潜在影响。该模型预测，肥胖者在10年内患糖尿病的概率约为七分之一(13.4%)。表2)．在模拟情景1中，BMI水平从肥胖到超重显著降低糖尿病发病概率至6.2% ( 表2)．此外，如果肥胖和超重的个体都通过单一类别改善他们的BMI(情景2)，糖尿病的10年概率从8.3%(超重和肥胖亚组合并)降低到3.9%。当超重和肥胖个体的BMI提高到健康范围(情景3)时，观察到的下降幅度更大，10年患糖尿病的概率为2.8%。

表2

模型预测三种情况下糖尿病发病的概率与各自的现状情况进行比较。

场景		基线场景	假设BMI发生变化	t统计(df)	P价值
场景1^一个(N = 46645)
	三年级	3.04%	1.54%	6611.97 (93288)	<措施
	年5	5.81%	2.89%	7957.43 (93288)	<措施
	年7	10.62%	4.68%	12120 .59点(93288)	<措施
	年10	13.43%	6.22%	12732 .71 (93288)	<措施
场景2^b(N = 133830)
	三年级	1.93%	1.02%	15401 .27 (267658)	<措施
	年5	3.68%	1.94%	17086 .55 (267658)	<措施
	年7	6.41%	2.98%	23460 .63点(267658)	<措施
	年10	8.26%	3.93%	24604 .81点(267658)	<措施
场景3^c(N = 133830)
	三年级	1.93%	0.77%	20856 .85 (267658)	<措施
	年5	3.68%	1.50%	22630 .22 (267658)	<措施
	年7	6.41%	2.14%	31002 .83点(267658)	<措施
	年10	8.26%	2.79%	33214 .27 (267658)	<措施

^一个场景1:“肥胖”个体变成“超重”。

^b场景2:“肥胖”个体变成“超重”，“超重”个体达到“健康”的BMI。

^c场景3:所有“肥胖”和“超重”的人都达到了“健康”的BMI。

模型敏感性和特异性

我们确定了敏感性和特异性趋势与糖尿病风险的关系( 多媒体附件4)．随着糖尿病风险的增加，趋势曲线的特征是敏感性的急剧下降和特异性的增加。敏感性和特异性交叉表示两个指标相等的情况。模型指定的临界值始终低于曲线的交叉值，表明模型优先考虑更高的敏感性而不是特异性。

讨论主要研究结果

我们的研究是一项回顾性队列研究，对超过23万澳大利亚人进行了为期十年的随访。可以着重指出几个重要的发现。首先，我们证实机器学习模型在预测糖尿病发病风险方面的表现明显优于传统回归模型。值得注意的是，这些模型仅仅是基于在单个时间点确定的自我报告信息开发的，但在长达10年的时间里，预测糖尿病的准确率仍然达到了73%-80%。其次，所有机器学习模型一致表明BMI是导致T2DM发病的关键危险因素。

基于这些结果，我们认为复杂的机器学习模型是预测T2DM发病风险的关键。在我们的研究中，在基于人群的大型数据集中，机器学习模型被证明优于传统回归模型的糖尿病风险预测。此外，在没有任何生物标志物的情况下，我们的模型完全基于自我报告的信息，这表明个体自我评估和社区糖尿病风险初步监测的潜力。该模型在10年的时间里跟踪了23万多名澳大利亚人，并能够估计每个人患糖尿病的风险。值得注意的是，10个最强的影响因素解释了超过74%-89%的糖尿病风险差异。与同样基于自我报告信息的类似模型相比[ 30.， 31]，我们的模型在预测糖尿病的短期和长期风险方面始终表现得更好。这进一步证明，可以开发一种简单且易于使用的自我评估工具，在不需要卫生保健工作者的协助或生物标志物采样或测量的情况下，以较高的准确性预测糖尿病风险。在人口层面上，通过使用大数据平台，收集个人评估调查可为糖尿病流行趋势提供信息。这有可能形成一个廉价的用户驱动的在线监测平台，在大量人群中调查糖尿病危险因素，进而预测糖尿病发病率的趋势。这可能比被动的基于医院的糖尿病诊断病例报告更有利，后者不可避免地落后于昂贵且不可持续的流行病和人口研究。我们的研究结果提出了一种可行的方法，例如电子健康平台，用于个人糖尿病风险的自我评估和人群水平的糖尿病趋势监测。

我们发现BMI是T2DM风险的主要风险因素，这在所有机器学习模型中是一致的。先前的一项研究表明，BMI过度增加和超重/肥胖的早期发病与糖耐量受损和糖尿病发病有关[ 32］．莫克达德等[ 33进一步证明，超重使患糖尿病的风险增加2倍，而肥胖使患糖尿病的风险增加3-7倍。与以往报告一致[ 34]，我们发现BMI本身就占糖尿病风险方差的25%-50%。

我们进一步量化了BMI降低对几种假设情况下糖尿病发病风险的影响。我们预测，将一个人的BMI指数从“肥胖”降低到“超重”，从短期和长期来看，他们患糖尿病的风险会降低一半以上。此外，如果BMI指数可以从“肥胖和超重”改变到“健康”范围，相应的糖尿病风险可以降低近三分之二。这意味着预防糖尿病的干预措施应优先考虑控制体重，特别是对于60多岁和70多岁的人。根据世界卫生组织(世卫组织)非传染性疾病全球状况报告[ 35]， 2014年全球18岁或以上的成年人中分别有39%和12.9%超重和肥胖，全球肥胖患病率自1980年以来翻了一番。正如世卫组织糖尿病报告所倡导的，采取行动解决超重和肥胖问题对于预防2型糖尿病至关重要[ 2］．世卫组织《2013-2020年全球非传染性疾病行动计划》将遏制糖尿病和肥胖症的增长列为其自愿的全球目标之一[ 36］．我们的调查结果与世卫组织报告一致，并支持其主要建议。

优势与局限

当前研究的主要优势包括利用大型队列研究数据集(>23万参与者)进行长期随访，以及使用机器学习模型进行糖尿病风险预测的算法的稳健性能。还应注意到一些研究的局限性。首先，该分析基于一项大规模人口调查，其信息受到自我报告偏差的影响。其次，在我们的研究中，糖尿病的发病率并不是基于糖尿病的实际诊断，而是根据药物福利计划数据库中报告的糖尿病相关药物的新使用来推断的。这可能导致没有识别出没有服用糖尿病药物的早期糖尿病或前驱糖尿病参与者，因此可能低估了随访期间的真实糖尿病发病率。然而，一项基于45岁以上数据和相关临床数据的研究证明，基于药物福利计划数据库的糖尿病分类比临床数据更准确[ 21］．第三，45岁及以上研究中有关饮食习惯的问题过于简化，可能无法与标准的营养调查相比较。在我们的研究中，我们没有发现饮食习惯和糖尿病之间的任何联系。第四，我们的数据集中缺乏死亡率数据，这意味着在发病前死亡的参与者的T2DM风险无法确定。第五，与其他机器学习算法类似，梯度增强机模型很可能会出现过拟合问题，因为它在优化过程中会自动移除不太拟合的模拟。本研究利用正则化参数和过程，如网格搜索调整学习率和交叉验证来增强模型的通用性。未来的工作将集中于在正式部署之前在一个独立的现有数据集中进一步验证该模型。

结论

总之，我们提出了一个复杂而准确的机器学习模型，允许在单次自我报告调查后预测长达10年的T2DM发病率。该模型的研究结果强调了高BMI对糖尿病风险的显著影响，并加强了体重控制干预措施，以降低糖尿病的患病率。

多媒体附件1

种群选择流程图。

多媒体附件2

药物福利计划内的降糖药物代号一览表。

多媒体

45岁及以上研究的236584名参与者的人口统计学、医疗和家族史、生活方式和饮食指标。

多媒体附件4

通过logistic回归、深度学习、梯度增强机和随机森林模型分析糖尿病的敏感性和特异性趋势与糖尿病风险的关系。

缩写

AUC

曲线下面积

新南威尔士州

新南威尔士

2型糖尿病

谁

世界卫生组织

ME获得了墨尔本大学研究加速器计划和澳大利亚眼科研究中心(CERA)基金会的支持。CERA从维多利亚州政府获得运营基础设施支持。该项目由澳大利亚澳大利亚研究研究所(CERA)的澳大利亚中国研究加速器项目资助。国家自然科学基金眼科国家重点实验室基本科研基金(81420108008)资助。发起人或资助机构在本研究的设计或实施中没有任何作用。资助者在研究设计、数据收集和分析、发表决定或手稿准备中没有任何作用。国家自然科学基金(81950410639)资助;杰出青年学者基金(资助号:3111500001);西安交通大学基础研究与职业基金(项目编号:xtr022019003, xzy032020032);流行病学建模与风险评估(批准号:20200344)和西安交通大学青年人才支持基金(批准号:YX6J004)。 This research was completed using data collected through the 45 and Up Study and supplied by the Department of Human Services. The 45 and Up Study is managed by the Sax Institute in collaboration with the major partner Cancer Council NSW, and the following partners: the National Heart Foundation of Australia (NSW Division), NSW Ministry of Health, NSW Government Family & Community Services–Ageing, Carers and the Disability Council NSW, and the Australian Red Cross Blood Service. We thank the many thousands of people participating in the 45 and Up Study.

没有宣布。

赵

肖

Karuranga

年代

黄

罗恰·费尔南德斯

Ohlrogge

一个

Malanda

IDF糖尿病地图集:2017年全球糖尿病患病率估计和2045年预测

糖尿病治疗临床实践 2018 04 138 271 281

10.1016 / j.diabres.2018.02.023

29496507

s0168 - 8227 (18) 30203 - 1

物料清单

Sagalova

Heesemann

Manne-Goehler

Atun

Barnighausen

戴维斯

Vollmer

年代

成人糖尿病的全球经济负担:2015 - 2030年预测

糖尿病护理 2018 05 23 41 5 963 970

10.2337 / dc17 - 1962

29475843

dc17 - 1962

颖

Carstensen

Sandbaek

一个

Lauritzen

Jørgensen

Borch-Johnsen

Inter99研究

丹麦糖尿病风险评分的针对性筛查:Inter99研究

糖尿病护理 2004 03 26 27 3. 727 733

10.2337 / diacare.27.3.727

14988293

格里芬

小

黑尔斯

Kinmonth

艾尔

Wareham

新泽西

糖尿病风险评分:在一般实践中更早发现2型糖尿病

糖尿病Metab Res Rev 2000 16 3. 164 171

10.1002 / 1520 - 7560 (200005/06) 16:3 < 164:: aid-dmrr103 > 3.0.co; 2 r

10867715

10.1002 / 1520 - 7560 (200005/06) 16:3 < 164:: AID-DMRR103 > 3.0.CO; 2 r

林德斯特伦

Tuomilehto

糖尿病风险评分:预测2型糖尿病风险的实用工具

糖尿病护理 2003 03 01 26 3. 725 731

10.2337 / diacare.26.3.725

12610029

Schulze

霍夫曼

波音公司

Linseisen

Rohrmann

年代

Mohlig

米

普费弗

房颤

跳

tham

哈林

胡

Fritsche

一个

Joost

基于人体测量、饮食和生活方式因素的准确风险评分，以预测2型糖尿病的发展

糖尿病护理 2007 03 27 30. 3. 510 515

10.2337 / dc06 - 2089

17327313

30/3/510

拉赫曼

米

席梦思床品公司

哈丁

一个

Wareham

新泽西

格里芬

一个简单的风险评分可以识别出患2型糖尿病的高风险个体:一项前瞻性队列研究

Fam Pract 2008 06 30. 25 3. 191 196

10.1093 / fampra / cmn024

18515811

cmn024

阿加瓦尔

姜

罗杰斯·范·卡特维克

年代

Lemieux

Orpana

毛

汉利

戴维斯

Leuschen

莫里森

CANRISK工具在第一民族和加拿大Métis中识别血糖异常的有效性

健康促进慢性疾病预防 2018 02 38 2 55 63

10.24095 / hpcdp.38.2.02

29443485

PMC5833636

灰色的

陶布

这样一则消息

加德纳

边境

年代

韦伯

博士

Srinivasan

英国电信

戴维斯

乔丹

莱斯特风险评估评分用于检测未诊断的2型糖尿病和血糖调节障碍，适用于英国多民族环境

Diabet地中海 2010 08 27 8 887 895

10.1111 / j.1464-5491.2010.03037.x

20653746

DME3037

爆炸

爱德华兹

我

Bomback

作为

巴兰坦

厘米

Brillon

卡拉汉

妈

Teutsch

Mushlin

人工智能

克恩

糖尿病风险患者自我评估评分的开发和验证

实习医生 2009 12 01 151 11 775 783

10.7326 / 0003-4819-151-11-200912010-00005

19949143

151/11/775

PMC3633111

陈

麦格里亚诺

Balkau

Colagiuri

年代

Zimmet

东京

我

米切尔

菲利普斯

肖

我

AUSDRISK:一种基于人口统计学、生活方式和简单人体测量的澳大利亚2型糖尿病风险评估工具

医学J Aust 2010 02 15 192 4 197 202

20170456

che10062_fm

Kengne

美联社

Beulens

Peelen

卫星

公斤

范德肖

欧美

Schulze

Spijkerman

我

格里芬

Grobbee

德

Palla

Tormo

米

Arriola

Barengo

数控

Barricarte

一个

波音公司

莎·博内特

Clavel-Chapelon

Dartois

Fagherazzi

弗兰克斯

韦尔塔

Kaaks

关键

新加坡

李

Muhlenbruch

尼尔森

点

Overvad

特遣部队

Palli

Panico

年代

奎洛斯

小

Rolandsson

哈克。

萨塞尔多特

桑切斯

乔丹

Slimani

泰

Tjønneland

一个

Tumino

范德A

戴斯。莱纳姆:

Forouhi

锋利的

Langenberg

Riboli

Wareham

新泽西

预测2型糖尿病的无创风险评分(EPIC-InterAct):对现有模型的验证

《柳叶刀糖尿病内分泌》 2014 01 2 1 19 29

10.1016 / s2213 - 8587 (13) 70103 - 7

24622666

s2213 - 8587 (13) 70103 - 7

Hippisley-Cox

科普兰

QDiabetes-2018风险预测算法的开发和验证，以估计2型糖尿病的未来风险:队列研究

BMJ 2017 11 20. 359 j5019

10.1136 / bmj.j5019

29158232

PMC5694979

梁

艾尔

小羽

是

医疗保健领域的大数据和机器学习

《美国医学会杂志》 2018 04 03 319 13 1317 1318

10.1001 / jama.2017.18391

29532063

2675024

Kavakiotis

我

Tsave

Salifoglou

一个

Maglaveras

Vlahavas

我

Chouvarda

我

糖尿病研究中的机器学习与数据挖掘方法

计算结构生物技术 2017 15 104 116

10.1016 / j.csbj.2016.12.005

28138367

s2001 - 0370 (16) 30073 - 3

PMC5257026

Razavian

Blecker

年代

施密特

我

Smith-McLallen

一个

尼噶的

年代

桑塔格

从索赔数据和危险因素分析预测2型糖尿病的人群水平

大数据 2015 12 3. 4 277 287

10.1089 / big.2015.0020

27441408

安德森

摩根大通

帕瑞克豪

小

Shenfeld

伊万诺夫

标志着

教堂

拉勒米

Mardekian

风笛手

英航

维奇

Rublee

达

2型糖尿病进展预测模型的逆向工程和评估:使用电子健康记录的机器学习应用

糖尿病科技杂志 2015 12 20. 10 1 6 18

10.1177 / 1932296815620200

26685993

1932296815620200

PMC4738229

崔

某人

金

柳

公园

钟

李

康

西文

金

使用机器学习模型筛查前驱糖尿病

计算数学方法医学 2014 2014 618976 61898

10.1155 / 2014/618976

25165484

PMC4140121

Worachartcheewan

一个

Nantasenamat

Prasertsrithong

Amranan

Monnor

Chaisatit

Nuchpramool

Prachayasittikul

机器学习方法识别血液参数和血糖水平的相互关系，以确定糖尿病

EXCLI J 2013 12 885 893

27092034

PMC4827074

20.

45Up研究合作者银行

瑞德曼

年代

Jorm

阿姆斯特朗

鲍曼

一个

胡子

蓓拉尔

Byles

Corbett

年代

Cumming

哈里斯

米

悉

史密斯

泰勒

Wutzke

年代

Lujic

年代

队列概况:45岁及以上研究

流行病学 2008 10 19 37 5 941 947

10.1093 / ije / dym184

17881411

dym184

PMC2557061

Comino

Tran

哈斯

米

长颈瓶

Jalaludin

Jorm

哈里斯

曼氏金融

验证45岁及以上研究参与者使用糖尿病的自我报告:记录关联研究

BMC运行状况服务决议 2013 11 19 13 1 481

10.1186 / 1472-6963-13-481

24245780

1472-6963-13-481

PMC3893423

Breiman

随机森林

马赫学习 2001 45 1 5 32

库恩

米

约翰逊

应用预测建模 2013

纽约

施普林格

Rosenblatt

关于感知机中统计可分性的两个定理 1958

伦敦

女王陛下文具办公室

Widrow

神经元网络的泛化与信息存储，自组织系统，研讨会论文集 1962

华盛顿特区

斯巴达式的书籍

弗洛伊德

Schapire

再保险

在线学习的决策理论推广及其在升学中的应用

计算系统科学 1997 08 55 1 119 139

10.1006 / jcss.1997.1504

弗里德曼

贪心函数逼近:一种梯度提升机

安集权 2001 10 29 5 1189 1232

10.1214 /市场/ 1013203451

Natekin

一个

诺尔

一个

梯度提升机，教程

前面Neurorobot 2013 7 21

10.3389 / fnbot.2013.00021

24409142

PMC3885826

霍

肖

我

黄

哈丁

莱托

此人

一个

麦格里亚诺

澳大利亚糖尿病的负担:成人糖尿病患者的预期寿命和无残疾预期寿命

Diabetologia 2016 07 14 59 7 1437 1445

10.1007 / s00125 - 016 - 3948 - x

27075450

10.1007 / s00125 - 016 - 3948 - x

30.

哈比比

年代

艾哈迈迪

米

Alizadeh

年代

用决策树筛选2型糖尿病和危险因素:数据挖掘的结果

Glob J健康科学 2015 03 18 7 5 304 310

10.5539 / gjhs.v7n5p304

26156928

PMC4803907

孟

黄

饶

张

问

刘

问

通过危险因素预测糖尿病或前驱糖尿病的三种数据挖掘模型的比较

高雄市医学科学 2013 02 29 2 93 99

10.1016 / j.kjms.2012.08.016

23347811

s1607 - 551 x (12) 00217 - 3

权力

托马斯。

BMI、超重和肥胖持续时间以及葡萄糖代谢的变化:对出生队列45年的随访

糖尿病护理 2011 09 20. 34 9 1986 1991

10.2337 /飞机dc10 - 1482

21775760

飞机dc10 - 1482

PMC3161304

默克德

啊

福特

西文

鲍曼

英航

迪茨

Vinicor

包

标志着

肥胖、糖尿病患病率和与肥胖相关的健康风险因素，2001年

《美国医学会杂志》 2003 01 01 289 1 76 79

10.1001 / jama.289.1.76

12503980

jbr20304

澳大利亚

IOH

澳大利亚疾病负担研究澳大利亚疾病和死亡的影响和原因 2011

堪培拉

澳大利亚卫生和福利研究所

世界卫生组织

非传染性疾病全球状况报告 2014

日内瓦

世界卫生组织

《2013-2020年非传染性疾病预防控制全球行动计划》 2020

日内瓦

世界卫生组织