发表在第八卷7号(2020): 7月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/16850,首次出版
使用机器学习技术预测澳大利亚大型队列中2型糖尿病的发展:纵向调查研究

使用机器学习技术预测澳大利亚大型队列中2型糖尿病的发展:纵向调查研究

使用机器学习技术预测澳大利亚大型队列中2型糖尿病的发展:纵向调查研究

原始论文

1西安交通大学医学部公共卫生学院中澳传染病联合研究中心,陕西西安

2澳大利亚眼科研究中心;澳大利亚墨尔本大学眼科外科

3.澳大利亚墨尔本拉筹伯大学数据分析与认知研究中心

通讯作者:

张磊博士

中澳传染病联合研究中心

公共卫生学院

西安交通大学医学部

雁塔区雁塔西路76号

陕西西安710061

中国

电话:86 15910593477

电子邮件:Lei.Zhang1@monash.edu


背景:以前用于预测糖尿病的传统模型可以通过纳入越来越多的可用健康数据和新的风险预测方法来更新。

摘要目的:我们的目标是使用复杂的机器学习算法开发一个大幅改进的糖尿病风险预测模型,该模型基于2006-2017年期间参加该研究的超过23万人的大型回顾性人群队列。

方法:我们收集了从45岁及以上研究中招募的236684名无糖尿病参与者的2型糖尿病(T2DM)的人口统计学、医学、行为和发病率数据。基于三种机器学习方法和传统回归模型,我们预测并比较了这些参与者在3年、5年、7年和10年的糖尿病发病风险。

结果:总体而言,在平均8.8年的随访期间,6.05%(14,313/236,684)的参与者发展为T2DM。男性10年糖尿病发病率为8.30%(8.08% ~ 8.49%),显著高于女性的6.20%(6.00% ~ 6.40%)(优势比1.37,95% CI 1.32 ~ 1.41)。2型糖尿病的发病率在肥胖人群中翻了一番(男性:17.78% [17.05%-18.43%];女性:14.59%[13.99%-15.17%])。梯度增强机模型在4种模型中表现最好(3年预测曲线下面积为79%,10年预测曲线下面积为75%)。所有机器学习模型都预测BMI是导致糖尿病发病的最重要因素,这解释了糖尿病预测中12%-50%的差异。该模型预测,如果肥胖和超重参与者的体重指数可以假设降低到健康范围,那么10年糖尿病发病概率将从8.3%显著降低到2.8% (P<措施)。

结论:一次性的自我报告调查可以使用机器学习方法准确预测患糖尿病的风险。达到健康的身体质量指数可以显著降低患2型糖尿病的风险。

中华医学杂志,2020;8(7):888 - 888

doi: 10.2196/16850

关键字



糖尿病及其并发症是全球过早死亡的主要原因。据估计,2017年全球有4.51亿人患有糖尿病,预计到2045年这一数字将增长35%,达到6.93亿人[1]。除了糖尿病的疾病负担外,目前与糖尿病相关的全球年度经济成本估计为1.3万亿美元[2]。

预测成人糖尿病的风险一直是国际上许多卫生保健系统的主要重点。在过去的20年里,许多糖尿病风险预测工具都取得了不同程度的成功[3.-12]。其中四份由国家政府机构出版(美国[10],澳大利亚[11],英国[9]和加拿大[8]),并可在网上免费查阅。这些工具中的绝大多数收集个人人口特征、病史、家族史、人体测量和生物标志物的信息,并基于回归模型产生“风险评分”。然而,这些传统模型都有一些主要的缺点。首先,所有这些工具都将血糖水平作为预测指标,这导致了虚假的夸大预测准确性,因为血糖水平本身就定义了糖尿病。基于定义结果的预测因素的预测将不可避免地实现高准确性。其次,这些工具是基于相对较小的样本量(通常为5200-6400人)开发的,并且只包括从选定社区招募的参与者。第三,所使用的数据集是过时的,因此代表了潜在的偏见来源。例如,美国糖尿病协会问卷是根据1999年至2004年进行的全国健康和营养检查编制的[10]和澳大利亚2型糖尿病风险评估工具是基于1999-2000年澳大利亚糖尿病、肥胖和生活方式研究[11]。第四,所有这些工具都采用了传统的回归模型进行风险预测。

因此,这些模型可以通过纳入越来越多的现有健康数据和迄今为止可用的新的风险预测方法来更新。有趣的是,2014年EPIC-InterACT研究回顾并验证了基于27,779名欧洲个体的病例队列样本的12个传统预测模型[12]。结果表明,这些模型可以识别出2型糖尿病(T2DM)的高危人群,但模型的表现因国家、年龄、性别和体重而有很大差异。最近,由Hippisley-Cox等人领导的QDiabetes研究[13克服了许多这些缺点。该模型基于1150万人的大型人口数据集,提供了10年糖尿病风险预测,可选择包括或排除空腹血糖和糖化血红蛋白作为预测指标。尽管取得了这一进展,但该研究采用了传统的Cox比例风险模型,其假设存在一些主要局限性,即假设预测因子对风险具有时间无关的线性影响。

机器学习是一种新兴的、被广泛接受的风险预测方法[14]。已经提出了各种机器学习算法,从传统的到更先进的集成机器学习方法[15]。然而,大多数模型的一个共同特征是依赖于生物标志物的存在。例如,血糖水平是几种机器学习模型中常用的生物标志物,其接受者工作特征曲线(AUC)值下的估计面积在70%-80%范围内[16-18]。结合血糖水平和其他生物参数的信息已被证明可以提高机器学习的准确性[19],但生物标记物的收集需要侵入性血液采样,并且仅限于临床环境。因此,开发一种完全依赖于自我报告信息的准确预测工具,为在资源有限的环境中更广泛地应用以对抗日益增长的全球糖尿病流行提供了巨大的潜力。

我们认为需要一种新的风险预测工具来解决当前工具的缺点。为此,在本研究中,我们提出了一种基于机器学习的糖尿病风险预测工具,仅使用自我报告的信息。该模型基于澳大利亚新南威尔士州(NSW)在2006-2017年期间收集的23万多名居民的数据。更具体地说,该工具旨在解决两个问题。首先,能否在没有任何生物标志物的情况下,通过一次性自我报告的调查来预测短期和长期(3-10年)患糖尿病的风险?第二,可改变的风险因素对糖尿病发病的影响可以用这样的工具来评估吗?


45岁及以上的研究

萨克斯研究所的45岁及以上研究是澳大利亚进行的最大的前瞻性队列研究[20.]。本研究在2006年至2009年期间招募了来自澳大利亚新南威尔士州的266896名年龄在45岁及以上的居民,约占新南威尔士州该年龄组人口的11% [20.]。研究方法已在其他地方作详细说明[20.]。年龄在45岁及以上的符合条件的参与者和新南威尔士州的居民从澳大利亚医疗保险登记数据库中随机抽取,并通过邮件收到邀请,其中包括研究问卷和书面知情同意书。所有参与者都同意将其信息与常规卫生数据库联系起来。基线问卷收集了广泛的社会经济、健康和生活方式因素的信息。为了跟踪参与者收到的医疗程序和药物,45及以上的研究数据使用人类服务部提供的唯一标识符与2004年至2016年的医疗保险福利计划和药品福利计划索赔联系起来。医疗保险福利计划代码是医疗程序的唯一识别码,而药品福利计划是临床医生开出的药物的识别码。

道德的考虑

从新南威尔士大学人类研究伦理委员会获得了45及以上研究的伦理批准。皇家维多利亚眼耳医院人类研究伦理委员会批准将45及以上研究的数据用于本研究。

纳入和排除标准

我们排除了基线时已确诊为糖尿病的参与者,定义为:(1)对问题no提供积极回答的人。24“有医生告诉过你有糖尿病吗?”(2)在基线调查前曾使用基于药物福利计划资料库的糖尿病药物[21];或(3)妊娠期糖尿病,定义为在最后一次分娩前诊断为糖尿病,但随后未使用糖尿病药物。我们还排除了体力活动数据不完整的参与者,以及报告糖尿病诊断年龄大于基线调查年龄的参与者。在45岁及以上研究的266,896名参与者中,我们在本研究中共纳入了236,584名居民(多媒体附录1)。

关键结果和预测变量

该研究的主要结果是首次出现任何类型的T2DM药物处方(包括口服降糖药和胰岛素)。糖尿病药物的处方定义为相应的药物福利计划代码,详见多媒体附录2.由于所有参与者的年龄都大于45岁,我们假设所有新使用糖尿病药物的病例都是针对2型糖尿病,而不是1型糖尿病。我们打算在基线时通过一次性的自我报告调查来预测患糖尿病的风险(多媒体附录3),其中不包括血糖水平等生物标志物。四类共39个预测变量包括:人口特征、医疗和家族史、生活方式指标和饮食指标。我们承认,我们对2型糖尿病的定义可能忽略了妊娠糖尿病的病例。

传统回归模型

我们采用传统的logistic回归模型来研究糖尿病的发病率及其与预测变量的关系。我们使用四种不同的模型调查了基线后3年、5年、7年和10年的糖尿病风险及其相关因素。对于每一个模型,只包括那些在各自随访期间的参与者。我们使用传统的回归模型作为基准模型,因为它是研究二元结果与潜在相关因素之间关联的标准方法。

机器学习模型

为了与回归模型进行比较,我们应用了三种常用的机器学习模型,包括随机森林、实现深度学习方法的多层前馈人工神经网络和梯度增强机器方法。这三个模型代表了风险预测的主流机器学习模型。随机森林算法[22是一种监督学习算法,它构建了一个决策树集合。在本研究中,我们使用基尼指数[23来确定我们算法中每棵树的最佳预测变量和位置。我们使用代价复杂度参数来惩罚更复杂的树,并控制最终树的大小。通过5次交叉验证确定复杂度参数的最优值。深度学习方法基于人工神经网络的构建[2425],并通过反向传播的随机梯度下降对该方法进行端到端训练。梯度增强机通过最小化误分类率的指数损失函数来采用增强集成方法[26]。梯度增强机通过寻找损失函数具有最大负梯度的学习器(如决策树)在函数空间中进行优化[2728]。

数据集在模型中迭代500次(深度学习迭代500次,随机森林和梯度增强机迭代500次决策树)。指定了每个超参数的值范围,并检查了所有可能的超参数组合;获得了具有最高交叉验证性能指标的组合。随机森林包括指定树的数量和每棵树的最大深度的超参数。深度学习的参数包括激活、隐藏层大小、L1和L2正则化以及输入dropout比率作为超参数。对于梯度增强机,以模型的最大个数、每棵树的最大深度、学习率、每棵树的行采样率和列采样率为超参数,进行网格搜索进行模型优化。

我们随机选择70%的参与者组成训练数据集,剩下的30%作为测试数据集。训练数据集用于机器学习,而测试数据集用于评估完全训练的分类器的预测性能。在训练数据集上进行五重交叉验证。

模型的比较

采用AUC值来评估逻辑回归和机器学习模型在预定义时间点(3,5,7,10年)的性能。AUC是分类模型的鲁棒基准模型比较度量,量化分类器区分随机正观察值与随机负观察值的概率。采用均方根误差对结果进行验证。所有分析使用R 3.4.1统计软件(R Foundation for statistical Computing, Vienna, Austria),机器学习工具箱h2o v 3.16.0.2 (h2o。ai Inc ., CA, USA)。我们在所有四种模型中都列出了对糖尿病发病率影响最大的10个因素。

风险因素的相对重要性是根据它们对糖尿病发病差异的贡献来排序的。对于逻辑回归,方差等于标准化系数的平方。对于随机森林,方差是在变量上分裂的节点杂质的总减少量,在所有树上平均。对于梯度增强机,根据每个属性分裂点对性能度量的改进量计算每个决策树的重要性并取其平均值,并由节点负责的观测数加权。对于深度学习,通过识别感兴趣节点之间的所有加权连接来确定重要性。

模型预测

我们使用最准确的(最高AUC值)验证模型,通过假设参与者BMI类别的变化来确定糖尿病发病概率的潜在降低。我们研究了三种情况:(1)所有BMI≥30的“肥胖”个体变为“超重”(BMI=25.0-29.9);(2)除情景1外,所有“超重”BMI类别的个体都转移到“健康”BMI类别(18.5-24.9);(3) BMI指数“肥胖”和“超重”的所有个体都转移到BMI指数“健康”的类别。


参与者的特征

研究人群的基线人口学特征总结于多媒体附录3.简而言之,在这项回顾性队列研究中纳入的236684名患者中,约有6.05%(14313 / 236684)在平均8.8年的随访期间(范围7.0-11.5;2,006,194人年)。糖尿病患者明显更有可能是老年人、男性、超重或肥胖、受教育程度较低、有糖尿病家族史、居住在大城市、收入和社会经济地位较低(卡方检验)P<。)。此外,糖尿病患者在入组时更有可能自我报告患有高血压、心血管疾病和血脂异常P<。)。就生活方式因素而言,糖尿病患者更有可能是以前或现在的吸烟者,从事更少的体育活动,每天坐着的时间更长,食用更多的加工肉类,牛奶摄入量更低(所有这些因素)P<。)。

性别、年龄和BMI组的累积糖尿病发病率

男性的累积糖尿病发病率明显高于女性(图1)。10年末,男性累计糖尿病发病率为7.66%(7.23% ~ 8.12%),显著高于女性(5.84%,范围5.49% ~ 6.20%);优势比1.37,95% CI 1.32-1.41)。

图1所示。糖尿病的累积发病率,男性和女性按年龄组分层,男性和女性按BMI组分层。
查看此图

在男性和女性中,65-74岁的糖尿病累积发病率最高(10年发病率:9.32%,范围8.34%-10.42%),其次是45-54岁(6.37%,范围5.67%-7.16%)、55-64岁(8.68%,范围7.87%-9.57%)和≥75岁(5.84%,范围4.95%-6.88%)。年龄≥75岁的参与者糖尿病发病率的增长速度比其他年龄组慢得多,并在随访6-7年后显着降低。这发生在老年群体接近澳大利亚人口平均预期寿命(84.6岁)的时间点[29]。

男性肥胖者糖尿病发病率最高,3、5、7、10年累计发病率分别为3.61%(3.36% ~ 3.89%)、6.82%(6.47% ~ 7.19%)、11.84%(11.37% ~ 12.32%)、17.39%(15.87% ~ 19.05%)。这明显高于BMI在超重和健康范围内的男性的累积发病率。其中,肥胖男性10年糖尿病发病率比超重男性和健康体重男性分别高2.76(2.61-2.91)和5.83(5.41-6.28)。女性的糖尿病发病率也有类似的模式(图1)。

用机器学习技术预测糖尿病风险

机器学习方法对糖尿病风险的预测总体上优于传统回归分析(表1)。梯度增强机模型对3年风险预测的准确率最高。紧随其后的是随机森林和深度学习模型。在所有三种机器学习模型中,AUC测量的性能显著高于回归分析(Delong test, allP<。)。在其他随访期间也观察到类似的模式,但在10年随访时,模型预测的能力降低了5%-6%。梯度增强机模型的均方根误差也最低(图2表1)。

表1。逻辑回归和机器学习模型性能的比较。
持续时间 逻辑回归 梯度增压机 深度学习 随机森林

AUC一个(范围) RMSEb AUC(范围) RMSE AUC(范围) RMSE AUC(范围) RMSE
3年 0.7401 (0.7262 - -0.7541) 0.1203 0.7927 (0.7803 - -0.8051) 0.1197 0.7769 (0.7639 - -0.7899) 0.1244 0.7868 (0.7742 - -0.7993) 0.1198
5年 0.7192 (0.7084 - -0.7301) 0.1633 0.7769 (0.7673 - -0.7864) 0.1620 0.7610 (0.7566 - -0.7762) 0.1667 0.7769 (0.7612 - -0.7804) 0.1622
7年 0.6990 (0.6901 - -0.7077) 0.2087 0.7589 (0.751 - -0.7668) 0.2063 0.7526 (0.7446 - -0.7606) 0.2099 0.7531 (0.7452 - -0.761) 0.2066
10年 0.6885 (0.6801 - -0.6961) 0.2318 0.7491 (0.7426-0.7570) 0.2314 0.7374 (0.7339 - -0.7486) 0.2435 0.7439 (0.7365 - -0.7510) 0.2318

一个AUC:接收机工作特性曲线下的面积。

bRMSE:均方根误差。

图2。不同模型对糖尿病预测方差的排序贡献。(+增加风险;-降低风险;男性比女性的风险更高;与出生在澳大利亚的人相比,出生在海外的人患糖尿病的风险更高;·有私人保险比没有私人保险降低风险;与在区域内或区域外相比,在主要城市的风险增加;与拥有澳大利亚血统的人相比,拥有亚洲或其他血统的人患糖尿病的风险更高)。GBM:梯度增压机。
查看此图

机器学习模型显示BMI是糖尿病发生的最重要预测因素(图2)。在短期内(3年随访),所有三种机器学习模型一致表明,仅BMI就占糖尿病预测方差的12%-24%。相比之下,BMI在长期(10年随访)中贡献了20%-50%的差异。

糖尿病风险降低的预测

鉴于BMI是糖尿病最重要的预测指标,我们使用经过验证的梯度增强机器模型探索BMI降低对糖尿病发病风险的潜在影响。该模型预测,肥胖个体在10年内患糖尿病的概率约为七分之一(13.4%),表2)。在模拟情景1中,BMI水平从肥胖变为超重显著降低了糖尿病发生的概率至6.2% (表2)。此外,如果肥胖和超重个体通过单一类别(场景2)改善他们的BMI, 10年糖尿病的概率从8.3%(超重和肥胖合并亚组)降低到3.9%。当超重和肥胖的个体将他们的BMI改善到健康范围(情景3)时,观察到更大的下降,10年患糖尿病的概率为2.8%。

表2。模型预测三种情况下糖尿病发病概率与各自现状比较。
场景 基线场景 假设BMI发生变化 t统计(df) P价值
场景1一个(N = 46645)




三年级 3.04% 1.54% 6611.97 (93288) <措施

年5 5.81% 2.89% 7957.43 (93288) <措施

年7 10.62% 4.68% 12120 .59点(93288) <措施

年10 13.43% 6.22% 12732 .71 (93288) <措施
场景2b(N = 133830)




三年级 1.93% 1.02% 15401 .27 (267658) <措施

年5 3.68% 1.94% 17086 .55 (267658) <措施

年7 6.41% 2.98% 23460 .63点(267658) <措施

年10 8.26% 3.93% 24604 .81点(267658) <措施
场景3c(N = 133830)




三年级 1.93% 0.77% 20856 .85 (267658) <措施

年5 3.68% 1.50% 22630 .22 (267658) <措施

年7 6.41% 2.14% 31002 .83点(267658) <措施

年10 8.26% 2.79% 33214 .27 (267658) <措施

一个情景1:“肥胖”的个体变成了“超重”。

b场景2:“肥胖”的个体变成“超重”,而“超重”的个体达到“健康”的BMI。

c场景3:所有“肥胖”和“超重”的人都达到了“健康”的BMI。

模型敏感性和特异性

我们确定了敏感性和特异性趋势与糖尿病的风险(多媒体附录4)。趋势曲线的特点是随着糖尿病风险的增加,敏感性急剧下降,特异性增加。敏感性和特异性交叉表示两个指标相等的情况。模型分配的截止水平始终低于曲线的交叉值,表明模型优先考虑更高的敏感性而不是特异性。


主要研究结果

我们的研究是一项回顾性队列研究,对23万多名澳大利亚人进行了为期十年的随访。可以着重指出几个重要的发现。首先,我们证实机器学习模型在预测糖尿病发病风险方面的表现明显优于传统回归模型。值得注意的是,这些模型仅基于在单个时间点确定的自我报告信息开发,但在长达10年的糖尿病预测中仍达到73%-80%的准确性。其次,所有机器学习模型一致表明,BMI是导致2型糖尿病发病的关键风险因素。

基于这些结果,我们认为一个复杂的机器学习模型是预测T2DM发病风险的关键。在我们的研究中,机器学习模型在基于人群的大型数据集中被证明优于传统的回归模型,用于糖尿病风险预测。此外,我们的模型完全基于自我报告的信息,没有任何生物标志物,这表明个体自我评估和社区糖尿病风险主要监测的潜力。该模型对23万多名澳大利亚人进行了为期10年的跟踪调查,并能够估计每个人患糖尿病的风险。值得注意的是,这10个最重要的因素解释了74%-89%的糖尿病风险变化。与同样基于自我报告信息的类似模型相比[30.31,我们的模型在预测短期和长期糖尿病风险方面一直表现得更好。这进一步证明,可以开发一种简单且易于使用的自我评估工具,在没有卫生保健工作者的帮助或不需要生物标志物采样或测量的情况下,以可靠的准确性预测糖尿病的风险。在人口层面,通过使用大数据平台,收集个人评估调查可以为糖尿病流行趋势提供信息。这有可能形成一个廉价的用户驱动的在线监测平台,在大量人群中调查糖尿病危险因素,进而预测糖尿病发病率的趋势。这可能比被动的以医院为基础的糖尿病诊断病例报告更有利,后者不可避免地落后于昂贵且不可持续的流行病和人口研究。我们的研究结果提出了一种可行的方法,如电子健康平台,既可以自我评估个人糖尿病风险,又可以监测人群水平上的糖尿病趋势。

我们发现BMI是2型糖尿病风险的主要风险因素,这在所有机器学习模型中都是一致的。先前的一项研究表明,体重指数的过度增加和超重/肥胖的早期发病与糖耐量受损和糖尿病发病有关[32]。Mokdad等[33研究进一步表明,超重会使患糖尿病的风险增加2倍,而肥胖会使患糖尿病的风险增加3-7倍。与以往报告一致[34],我们发现仅BMI就占了糖尿病风险变异的25%-50%。

我们进一步量化了在几种假设情况下BMI降低对糖尿病发病风险的影响。我们预测,将一个人的身体质量指数从“肥胖”降至“超重”,将使他们患糖尿病的风险在短期和长期内降低一半以上。此外,如果BMI可以从“肥胖和超重”的范围改变为“健康”的范围,相应的糖尿病风险可以降低近三分之二。这意味着预防糖尿病的干预措施应该优先考虑体重控制,尤其是对那些60多岁和70多岁的人。根据世界卫生组织(世卫组织)《全球非传染性疾病现状报告》[35], 2014年全球18岁及以上成年人中分别有39%和12.9%超重和肥胖,自1980年以来,全球肥胖患病率翻了一番。正如世卫组织糖尿病报告所倡导的那样,采取行动解决超重和肥胖问题对于预防2型糖尿病至关重要[2]。世卫组织《2013-2020年全球非传染性疾病行动计划》将遏制糖尿病和肥胖症的上升列为其自愿全球目标之一[36]。我们的发现与这些世卫组织报告一致,并支持其主要建议。

优势与局限

当前研究的主要优势包括利用大型队列研究数据集(>230,000参与者)进行长时间随访,以及我们使用机器学习模型进行糖尿病风险预测的算法的稳健性能。还应注意研究的几个局限性。首先,该分析是基于大量人口调查,其中的信息受到自我报告偏差的影响。其次,在我们的研究中,糖尿病的发病率不是基于糖尿病的实际诊断,而是根据药物福利计划数据库中报告的糖尿病相关药物的新使用推断出来的。这可能导致未识别未服用糖尿病药物的早期糖尿病或前驱糖尿病参与者,因此可能低估了随访期间的真实糖尿病发病率。然而,一项基于45和Up数据和相关临床数据的研究证明,基于Pharmaceutical Benefits Scheme数据库的糖尿病分类比临床数据更准确[21]。第三,45岁及以上研究中与饮食习惯相关的问题过于简化,可能无法与标准的营养调查相比较。在我们的研究中,我们没有发现饮食习惯和糖尿病之间有任何联系。第四,我们的数据集中缺乏死亡率数据,这意味着在发病前死亡的参与者的2型糖尿病风险无法确定。第五,与其他机器学习算法类似,梯度增强机器模型可能会出现过拟合,因为它在优化过程中会自动删除不太拟合的模拟。本研究利用正则化参数和过程,如网格搜索调整学习率和交叉验证来增强模型的通用性。未来的工作将侧重于在正式部署之前在独立的现有数据集中进一步验证该模型。

结论

总之,我们提出了一个复杂而准确的机器学习模型,可以在一次自我报告的调查后预测长达10年的T2DM发病率。该模型的研究结果强调了较高的BMI对糖尿病风险的重大影响,并加强了体重控制的干预措施,以降低日益增长的糖尿病患病率。

致谢

ME得到了墨尔本大学研究加速器项目和澳大利亚眼科研究中心(CERA)基金会的支持。CERA得到维多利亚州政府的运营基础设施支持。该项目由CERA的中澳研究加速器项目资助。国家自然科学基金眼科国家重点实验室基本科研业务费项目(81420108008)。赞助商或资助机构在本研究的设计或实施中没有任何作用。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。国家自然科学基金资助项目(资助号:81950410639);杰出青年学者基金(资助号:3111500001);西安交通大学基础研究与专业基金(资助号:xtr022019003, xzy032020032);流行病学建模与风险评估(资助号:20200344)和西安交通大学青年人才支持基金(资助号:YX6J004)。 This research was completed using data collected through the 45 and Up Study and supplied by the Department of Human Services. The 45 and Up Study is managed by the Sax Institute in collaboration with the major partner Cancer Council NSW, and the following partners: the National Heart Foundation of Australia (NSW Division), NSW Ministry of Health, NSW Government Family & Community Services–Ageing, Carers and the Disability Council NSW, and the Australian Red Cross Blood Service. We thank the many thousands of people participating in the 45 and Up Study.

利益冲突

没有宣布。

多媒体附录1

人口选择流程图。

DOCX文件,25kb

多媒体附录2

药物福利计划内的降糖药编号一览表。

DOCX文件,17kb

多媒体附录3

45岁及以上研究中236,584名参与者的人口、医疗和家族史、生活方式和饮食指标。

DOCX文件,21 KB

多媒体附录4

通过logistic回归、深度学习、梯度增强机和随机森林模型分析糖尿病的敏感性和特异性趋势。

DOCX文件,750 KB

  1. 赵宁,Shaw J, Karuranga S,黄勇,da Rocha Fernandes J, Ohlrogge A,等。IDF糖尿病地图集:2017年全球糖尿病患病率估计和2045年预测。糖尿病临床杂志,2018;38(4):391 - 391。[CrossRef] [Medline
  2. 刘建军,刘建军,刘建军,李建军,等。成人糖尿病的全球经济负担:2015年至2030年的预测糖尿病护理,2018;41(5):963-970。[CrossRef] [Medline
  3. glmer C, Carstensen B, Sandbaek A, Lauritzen T, Jørgensen T, Borch-Johnsen K, [99]丹麦糖尿病风险评分的针对性筛查:Inter99研究。糖尿病护理2004年3月26日;27(3):727-733。[CrossRef] [Medline
  4. 格里芬SJ,小PS,黑尔斯CN,金蒙斯AL,新泽西韦勒姆。糖尿病风险评分:在一般实践中对2型糖尿病的早期发现。中华糖尿病杂志,2000;16(3):164-171。[CrossRef] [Medline
  5. Lindström J, Tuomilehto J.糖尿病风险评分:预测2型糖尿病风险的实用工具。糖尿病护理2003年3月01日;26(3):725-731。[CrossRef] [Medline
  6. 肖晓明,李建军,李建军,李建军,等。基于人体测量、饮食和生活方式因素的准确风险评分来预测2型糖尿病的发展。糖尿病护理2007年3月27日;30(3):510-515。[CrossRef] [Medline
  7. Rahman M, Simmons RK, Harding A, Wareham NJ, Griffin SJ。一项前瞻性队列研究:一个简单的风险评分确定了个体发展为2型糖尿病的高风险。Fam practice 2008 Jun 30;25(3):191-196。[CrossRef] [Medline
  8. 姜勇,李建军,李建军,李建军,等。CANRISK工具在加拿大原住民和黑人中识别血糖异常的有效性。健康促进慢性病防治,2018年2月;38(2):55-63。[CrossRef] [Medline
  9. 葛雷LJ, Taub NA, Khunti K, Gardiner E, Hiles S, Webb DR,等。用于检测未确诊的2型糖尿病和血糖调节受损的莱斯特风险评估评分在英国多民族环境中使用。糖尿病医学杂志,2010;27(8):887-895。[CrossRef] [Medline
  10. Bang H, Edwards AM, Bomback AS, Ballantyne CM, Brillon D, Callahan MA等。糖尿病风险患者自我评估评分的开发和验证。中华医学杂志2009年12月1日;11 (11):775-783 [j]免费全文] [CrossRef] [Medline
  11. 陈玲,Magliano DJ, Balkau B, Colagiuri S, Zimmet PZ, Tonkin AM,等。AUSDRISK:基于人口统计、生活方式和简单人体测量的澳大利亚2型糖尿病风险评估工具。中华医学杂志2010年2月15日;19(4):197-202。[Medline
  12. Kengne AP, Beulens JW, Peelen LM, Moons KG, van der Schouw YT, Schulze MB,等。预测2型糖尿病的无创风险评分(EPIC-InterAct):对现有模型的验证柳叶刀糖尿病内分泌杂志2014;2(1):19-29 [j]免费全文] [CrossRef] [Medline
  13. [3]王晓明,王晓明。QDiabetes-2018风险预测算法在2型糖尿病患者预后中的应用。中国医学杂志2017年11月20日;359:j5019 [j]免费全文] [CrossRef] [Medline
  14. 比姆艾尔,科汉是。医疗保健中的大数据和机器学习。中国医学杂志2018年4月3日;319(13):1317-1318。[CrossRef] [Medline
  15. 张建军,张建军,张建军,张建军。基于机器学习的数据挖掘方法在糖尿病研究中的应用。中国生物医学工程学报,2017;15 (3):391 - 391 [J]免费全文] [CrossRef] [Medline
  16. 李建军,李建军,李建军,李建军,李建军。基于数据的2型糖尿病风险预测研究进展。大数据2015;12(4):277-287。[CrossRef] [Medline
  17. Anderson JP, Parikh JR, Shenfeld DK, Ivanov V, Marks C, Church BW,等。2型糖尿病进展预测模型的逆向工程和评估:使用电子健康记录的机器学习应用。糖尿病科学技术2015年12月20日;10(1):6-18 [J]免费全文] [CrossRef] [Medline
  18. 崔淑珍,金文杰,刘tk, Park JS, Chung JW, Lee Y,等。使用机器学习模型筛选前驱糖尿病。计算数学方法医学2014;2014:618976-661898。[CrossRef] [Medline
  19. worachartchewan A, Nantasenamat C, Prasertsrithong P, Amranan J, Monnor T, Chaisatit等。机器学习方法识别血液学参数和血糖水平的相互关系,以识别糖尿病。中国医学杂志[j]; 2013;12:885-893 [j]免费全文] [Medline
  20. [4]李建军,李建军,李建军,等。队列简介:45岁及以上的研究。国际流行病学杂志2008;37(5):941-947 [J]免费全文] [CrossRef] [Medline
  21. 陈建军,陈建军,李建军,等。验证45及以上研究参与者的糖尿病使用自我报告:一项记录关联研究。生物医学工程学报,2013;11 (1):481 [j]免费全文] [CrossRef] [Medline
  22. 布雷曼L.随机森林。Mach Learning; 2001;45(1):5-32。
  23. 库恩M,约翰逊K.应用预测模型。纽约:斯普林格出版社;2013.
  24. Rosenblatt F.感知机中统计可分性的两个定理。伦敦:女王文具办公室;1958.
  25. 王晓明。基于自组织神经网络的神经网络信息存储研究,计算机科学与技术,2011。华盛顿特区:斯巴达图书公司;1962.
  26. 李建军,李建军。基于决策理论的在线学习推广及其在助推教学中的应用。计算机科学学报(自然科学版);2009;31(1):1109 - 1109。[CrossRef
  27. 弗里德曼JH。贪心函数逼近:一个梯度增强机。统计学报,2001;29(5):1189-1232。[CrossRef
  28. natetkin A, Knoll A.梯度增强机,教程。前沿神经机器人2013;7:21。[CrossRef] [Medline
  29. 霍磊,邵建军,王娥,王志强,王志强,王志强。澳大利亚的糖尿病负担:糖尿病成人的预期寿命和无残疾预期寿命。糖尿病杂志,2016;59(7):1437-1445。[CrossRef] [Medline
  30. 李建军,李建军,李建军,等。基于决策树的2型糖尿病筛查与风险因素分析。中华卫生杂志2015年3月18日;7(5):304-310。[CrossRef] [Medline
  31. 孟祥,黄燕,饶冬,张强,刘强。三种数据挖掘模型在糖尿病或糖尿病前期危险因素预测中的比较。高雄医学杂志2013;29(2):93-99 [J]免费全文] [CrossRef] [Medline
  32. 体重指数的变化,超重和肥胖的持续时间,以及葡萄糖代谢:对出生队列的45年随访。糖尿病护理2011 Sep 20;34(9):1986-1991 [j]免费全文] [CrossRef] [Medline
  33. Mokdad AH, Ford ES, Bowman BA, Dietz WH, Vinicor F, Bales VS,等。2001年肥胖、糖尿病和肥胖相关健康风险因素的流行情况。中国医学杂志2003;29(1):76-79。[CrossRef] [Medline
  34. 澳大利亚IOH。澳大利亚疾病负担研究:澳大利亚疾病和死亡的影响和原因。堪培拉:澳大利亚卫生和福利研究所;2011.
  35. 世界卫生组织。非传染性疾病全球现状报告。日内瓦:世界卫生组织;2014.
  36. 世界卫生组织。2013-2020年预防和控制非传染性疾病全球行动计划。日内瓦:世界卫生组织;2020.


AUC:曲线下面积
新南威尔士州:新南威尔士州
2型糖尿病:2型糖尿病
人:世界卫生组织


G·艾森巴赫编辑;提交30.10.19;由葛喆、张丽等同行评议;对作者06.12.19的评论;收到修订版本20.02.20;接受26.02.20;发表28.07.20

版权

©张磊,尚贤文,Subhashaan Sreedharan,闫喜喜,刘建斌,Stuart Keel,吴金荣,彭伟,何明光。原发表于JMIR Medical Informatics (http://medinform.www.mybigtv.com), 2020年7月28日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map