这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,http://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
以前预测糖尿病的常规模型可以通过纳入现有的越来越多的健康数据和新的风险预测方法来更新。
我们的目标是使用复杂的机器学习算法开发一个显著改进的糖尿病风险预测模型,该模型基于2006-2017年期间参与研究的超过23万人的大型回顾性人群队列。
我们收集了来自45岁及以上研究的超过236,684名无糖尿病参与者的2型糖尿病(T2DM)的人口统计学、医学、行为和发病率数据。基于三种机器学习方法和传统回归模型,我们预测并比较了这些参与者在3年、5年、7年和10年的糖尿病发病风险。
总体而言,6.05%(14,313/236,684)的参与者在平均8.8年的随访期内患上了2型糖尿病。男性10年糖尿病发病率为8.30%(8.08%-8.49%),显著高于女性6.20%(6.00%-6.40%)(优势比1.37,95% CI 1.32-1.41)。肥胖个体的T2DM发病率增加了一倍(男性:17.78% [17.05%-18.43%];女性:14.59%[13.99%-15.17%])。梯度助推机模型在四种模型中表现最好(3年预测曲线下面积为79%,10年预测曲线下面积为75%)。所有机器学习模型都预测BMI是导致糖尿病发病的最重要因素,这解释了糖尿病预测中12%-50%的方差。该模型预测,如果肥胖和超重参与者的BMI可以假设降低到健康范围,那么10年糖尿病发病概率将从8.3%显著降低到2.8% (
一次性的自我报告调查可以使用机器学习方法准确预测糖尿病的风险。达到健康的BMI可以显著降低患2型糖尿病的风险。
糖尿病及其并发症是全球过早死亡的主要原因。据估计,2017年全球有4.51亿人患有糖尿病,预计到2045年,这一数字将增长35%,达到6.93亿[
预测成人糖尿病风险一直是国际上许多卫生保健系统的主要关注点。在过去的20年里,许多糖尿病风险预测工具已经开发出来,并取得了不同的成功[
因此,这些模型可以通过纳入现有的越来越多的健康数据和迄今可用的新的风险预测方法来更新。有趣的是,2014年EPIC-InterACT研究回顾并验证了基于27,779名欧洲个体的病例队列样本的12种传统预测模型[
机器学习是一种新兴的、被广泛接受的风险预测方法[
我们认为需要一种新的风险预测工具来解决当前工具的缺点。为此,在本研究中,我们提出了一种基于机器学习的糖尿病风险预测工具,仅使用自我报告的信息。该模型基于2006-2017年期间收集的澳大利亚新南威尔士州(NSW) 23万多名居民的大型队列数据。更具体地说,该工具旨在解决两个问题。首先,基于没有任何生物标志物的一次性自我报告调查,能否预测糖尿病的短期和长期(3-10年)风险?第二,糖尿病发病的可改变的危险因素的影响能否用这样的工具进行评估?
萨克斯研究所45岁及以上的研究是在澳大利亚进行的最大的前瞻性队列研究[
这项45岁及以上的研究获得了新南威尔士大学人类研究伦理委员会的伦理批准。皇家维多利亚眼耳医院人类研究伦理委员会已批准使用45岁及以上研究的数据进行当前研究。
我们排除了基线时已确诊糖尿病的参与者,定义为:(1)对问题no有积极反应的参与者。24“有医生告诉过你你有糖尿病吗?”(2)基线调查前根据药物福利计划数据库使用的糖尿病药物[
该研究的主要结果是首次出现针对2型糖尿病的任何一种药物处方(包括口服降糖药和胰岛素)。糖尿病药物的处方定义为详列于
我们采用传统的逻辑回归模型来调查糖尿病的发病率及其与预测变量的关系。我们使用四个独立的模型调查了基线后3年、5年、7年和10年的糖尿病风险及其相关因素。对于每一种模型,只包括参与各自随访时间的参与者。我们使用传统的回归模型作为基准模型,因为它是调查二元结果和潜在相关因素之间关联的标准方法。
为了与回归模型进行比较,我们应用了三种常用的机器学习模型,包括随机森林、实现深度学习方法的多层前馈人工神经网络和梯度增强机器方法。这三个模型代表了风险预测的主流机器学习模型。随机森林算法[
数据集在模型中迭代500次(深度学习500次,随机森林和梯度增强机500棵决策树)。为每个超参数指定了一个值范围,并检查了所有可能的超参数组合;获得了具有最高交叉验证性能指标的组合。随机森林包含指定树的数量和每棵树的最大深度的超参数。深度学习的参数包括激活、隐藏层大小、L1和L2正则化以及作为超参数的输入dropout ratio。对于梯度助推机,以模型数量最多、每棵树深度最大、学习率、每棵树行采样率、列采样率为超参数进行网格搜索进行模型优化。
我们随机选择总参与者的70%组成训练数据集,其余30%作为测试数据集。训练数据集用于机器学习,而测试数据集用于评估完全训练的分类器的预测性能。基于训练数据集进行五次交叉验证。
采用AUC值来评估逻辑回归模型和机器学习模型在预定义时间点(3,5,7,10年)的性能。AUC是一种用于分类模型的鲁棒基准模型比较度量,量化了分类器区分随机积极观测与随机消极观测的概率。采用均方根误差对结果进行验证。所有分析均使用R 3.4.1统计软件(R Foundation for statistical Computing, Vienna, Austria),使用机器学习工具箱h2o v 3.16.0.2 (h2o。ai公司,CA,美国)。我们在所有四个模型中列出了导致糖尿病发病率的十大最强因素。
危险因素的相对重要性由它们对糖尿病发病方差的贡献来排序。对于逻辑回归,方差等于标准化beta系数的平方。对于随机森林,方差是在变量上分裂产生的节点杂质的总减少量,对所有树进行平均。对于梯度提升机,基于每个属性分裂点改善性能度量的量,计算和平均每个决策树的重要性,并通过节点负责的观察数量进行加权。对于深度学习,重要性是通过识别感兴趣的节点之间的所有加权连接来确定的。
我们使用最准确(最高AUC值)的验证模型,通过假设参与者BMI类别的假设变化,来确定糖尿病发病概率的潜在降低。我们调查了三种情况:(1)BMI属于“肥胖”类别(≥30)的所有个体都变成了“超重”(BMI=25.0-29.9);(2)除情景1外,BMI“超重”类别的所有个体都转移到BMI“健康”类别(18.5-24.9);(3) BMI指数属于“肥胖”和“超重”类别的所有个体都转移到了“健康”BMI类别。
研究人群的基线人口学特征总结于
男性糖尿病的累积发病率明显高于女性(
糖尿病的累积发病率,男性和女性按年龄组分层,男性和女性按BMI组分层。
在男性和女性中,65-74岁的糖尿病累积发病率最高(10年发病率9.32%,8.34%-10.42%),其次是45-54岁(6.37%,5.67%-7.16%)、55-64岁(8.68%,7.87%-9.57%)和≥75岁(5.84%,4.95%-6.88%)。年龄≥75岁的参与者糖尿病发病率的增长速度比其他年龄组慢得多,并在6-7年的随访后显著降低。这发生在老年群体接近澳大利亚人口平均预期寿命(84.6岁)的时间点[
肥胖男性糖尿病发病率最高,3、5、7、10年累计发病率分别为3.61%(3.36% ~ 3.89%)、6.82%(6.47% ~ 7.19%)、11.84%(11.37% ~ 12.32%)、17.39%(15.87% ~ 19.05%)。这明显高于BMI在超重和健康范围内的男性的累积发病率。特别是肥胖男性10年糖尿病发病率比超重男性高2.76例(2.61 ~ 2.91例),比健康体重男性高5.83例(5.41 ~ 6.28例)。女性糖尿病发病率也有类似的变化(
机器学习方法对糖尿病风险的整体预测优于传统回归分析(
逻辑回归模型与机器学习模型的性能比较。
持续时间 | 逻辑回归 | 梯度增压机 | 深度学习 | 随机森林 | ||||
|
AUC一个(范围) | RMSEb | AUC(范围) | RMSE | AUC(范围) | RMSE | AUC(范围) | RMSE |
3年 | 0.7401 (0.7262 - -0.7541) | 0.1203 | 0.7927 (0.7803 - -0.8051) | 0.1197 | 0.7769 (0.7639 - -0.7899) | 0.1244 | 0.7868 (0.7742 - -0.7993) | 0.1198 |
5年 | 0.7192 (0.7084 - -0.7301) | 0.1633 | 0.7769 (0.7673 - -0.7864) | 0.1620 | 0.7610 (0.7566 - -0.7762) | 0.1667 | 0.7769 (0.7612 - -0.7804) | 0.1622 |
7年 | 0.6990 (0.6901 - -0.7077) | 0.2087 | 0.7589 (0.751 - -0.7668) | 0.2063 | 0.7526 (0.7446 - -0.7606) | 0.2099 | 0.7531 (0.7452 - -0.761) | 0.2066 |
10年 | 0.6885 (0.6801 - -0.6961) | 0.2318 | 0.7491 (0.7426-0.7570) | 0.2314 | 0.7374 (0.7339 - -0.7486) | 0.2435 | 0.7439 (0.7365 - -0.7510) | 0.2318 |
一个AUC:接收机工作特性曲线下的面积。
bRMSE:均方根误差。
不同模型对糖尿病预测方差的贡献排序。(+增加风险;-降低风险;*与女性相比,男性会增加患病风险;#与在澳大利亚出生的人相比,在海外出生的人患糖尿病的风险更高;§与没有私人保险相比,拥有私人保险可以降低风险;与在区域内或区域外相比,在主要城市会增加风险;‡与澳大利亚血统相比,具有亚洲血统或其他血统的人患糖尿病的风险更高)。GBM:梯度升压机。
机器学习模型表明BMI是糖尿病发生的最重要预测因素(
鉴于BMI是糖尿病最重要的预测因子,我们使用经过验证的梯度增强机模型探索了BMI降低对糖尿病发病风险的潜在影响。该模型预测,肥胖者在10年内患糖尿病的概率约为七分之一(13.4%)。
模型预测三种情况下糖尿病发病的概率与各自的现状情况进行比较。
场景 | 基线场景 | 假设BMI发生变化 |
|
|
|
|
|
|
|
|
|
|
三年级 | 3.04% | 1.54% | 6611.97 (93288) | <措施 |
|
年5 | 5.81% | 2.89% | 7957.43 (93288) | <措施 |
|
年7 | 10.62% | 4.68% | 12120 .59点(93288) | <措施 |
|
年10 | 13.43% | 6.22% | 12732 .71 (93288) | <措施 |
|
|
|
|
|
|
|
三年级 | 1.93% | 1.02% | 15401 .27 (267658) | <措施 |
|
年5 | 3.68% | 1.94% | 17086 .55 (267658) | <措施 |
|
年7 | 6.41% | 2.98% | 23460 .63点(267658) | <措施 |
|
年10 | 8.26% | 3.93% | 24604 .81点(267658) | <措施 |
|
|
|
|
|
|
|
三年级 | 1.93% | 0.77% | 20856 .85 (267658) | <措施 |
|
年5 | 3.68% | 1.50% | 22630 .22 (267658) | <措施 |
|
年7 | 6.41% | 2.14% | 31002 .83点(267658) | <措施 |
|
年10 | 8.26% | 2.79% | 33214 .27 (267658) | <措施 |
一个场景1:“肥胖”个体变成“超重”。
b场景2:“肥胖”个体变成“超重”,“超重”个体达到“健康”的BMI。
c场景3:所有“肥胖”和“超重”的人都达到了“健康”的BMI。
我们确定了敏感性和特异性趋势与糖尿病风险的关系(
我们的研究是一项回顾性队列研究,对超过23万澳大利亚人进行了为期十年的随访。可以着重指出几个重要的发现。首先,我们证实机器学习模型在预测糖尿病发病风险方面的表现明显优于传统回归模型。值得注意的是,这些模型仅仅是基于在单个时间点确定的自我报告信息开发的,但在长达10年的时间里,预测糖尿病的准确率仍然达到了73%-80%。其次,所有机器学习模型一致表明BMI是导致T2DM发病的关键危险因素。
基于这些结果,我们认为复杂的机器学习模型是预测T2DM发病风险的关键。在我们的研究中,在基于人群的大型数据集中,机器学习模型被证明优于传统回归模型的糖尿病风险预测。此外,在没有任何生物标志物的情况下,我们的模型完全基于自我报告的信息,这表明个体自我评估和社区糖尿病风险初步监测的潜力。该模型在10年的时间里跟踪了23万多名澳大利亚人,并能够估计每个人患糖尿病的风险。值得注意的是,10个最强的影响因素解释了超过74%-89%的糖尿病风险差异。与同样基于自我报告信息的类似模型相比[
我们发现BMI是T2DM风险的主要风险因素,这在所有机器学习模型中是一致的。先前的一项研究表明,BMI过度增加和超重/肥胖的早期发病与糖耐量受损和糖尿病发病有关[
我们进一步量化了BMI降低对几种假设情况下糖尿病发病风险的影响。我们预测,将一个人的BMI指数从“肥胖”降低到“超重”,从短期和长期来看,他们患糖尿病的风险会降低一半以上。此外,如果BMI指数可以从“肥胖和超重”改变到“健康”范围,相应的糖尿病风险可以降低近三分之二。这意味着预防糖尿病的干预措施应优先考虑控制体重,特别是对于60多岁和70多岁的人。根据世界卫生组织(世卫组织)非传染性疾病全球状况报告[
当前研究的主要优势包括利用大型队列研究数据集(>23万参与者)进行长期随访,以及使用机器学习模型进行糖尿病风险预测的算法的稳健性能。还应注意到一些研究的局限性。首先,该分析基于一项大规模人口调查,其信息受到自我报告偏差的影响。其次,在我们的研究中,糖尿病的发病率并不是基于糖尿病的实际诊断,而是根据药物福利计划数据库中报告的糖尿病相关药物的新使用来推断的。这可能导致没有识别出没有服用糖尿病药物的早期糖尿病或前驱糖尿病参与者,因此可能低估了随访期间的真实糖尿病发病率。然而,一项基于45岁以上数据和相关临床数据的研究证明,基于药物福利计划数据库的糖尿病分类比临床数据更准确[
总之,我们提出了一个复杂而准确的机器学习模型,允许在单次自我报告调查后预测长达10年的T2DM发病率。该模型的研究结果强调了高BMI对糖尿病风险的显著影响,并加强了体重控制干预措施,以降低糖尿病的患病率。
种群选择流程图。
药物福利计划内的降糖药物代号一览表。
45岁及以上研究的236584名参与者的人口统计学、医疗和家族史、生活方式和饮食指标。
通过logistic回归、深度学习、梯度增强机和随机森林模型分析糖尿病的敏感性和特异性趋势与糖尿病风险的关系。
曲线下面积
新南威尔士
2型糖尿病
世界卫生组织
ME获得了墨尔本大学研究加速器计划和澳大利亚眼科研究中心(CERA)基金会的支持。CERA从维多利亚州政府获得运营基础设施支持。该项目由澳大利亚澳大利亚研究研究所(CERA)的澳大利亚中国研究加速器项目资助。国家自然科学基金眼科国家重点实验室基本科研基金(81420108008)资助。发起人或资助机构在本研究的设计或实施中没有任何作用。资助者在研究设计、数据收集和分析、发表决定或手稿准备中没有任何作用。国家自然科学基金(81950410639)资助;杰出青年学者基金(资助号:3111500001);西安交通大学基础研究与职业基金(项目编号:xtr022019003, xzy032020032);流行病学建模与风险评估(批准号:20200344)和西安交通大学青年人才支持基金(批准号:YX6J004)。 This research was completed using data collected through the 45 and Up Study and supplied by the Department of Human Services. The 45 and Up Study is managed by the Sax Institute in collaboration with the major partner Cancer Council NSW, and the following partners: the National Heart Foundation of Australia (NSW Division), NSW Ministry of Health, NSW Government Family & Community Services–Ageing, Carers and the Disability Council NSW, and the Australian Red Cross Blood Service. We thank the many thousands of people participating in the 45 and Up Study.
没有宣布。