这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
艾滋病毒和性传播感染是全球主要的公共卫生问题。在全世界15岁至49岁的人群中,每天发生超过100万例可治愈的性传播感染。检测或筛查不足大大阻碍了消除艾滋病毒和性传播感染的传播。
我们研究的目的是开发一个使用机器学习算法的HIV和STI风险预测工具。
我们使用2015年3月2日至2018年12月31日期间在墨尔本性健康中心对艾滋病毒和性传播感染进行检测的诊所咨询作为发展数据集(培训和测试数据集)。我们还使用了2个外部验证数据集,包括2019年的数据作为外部“验证数据1”,2020年1月和2021年1月的数据作为外部“验证数据2”。我们开发了34个机器学习模型来评估感染艾滋病毒、梅毒、淋病和衣原体的风险。我们创建了一个在线工具来计算个人感染艾滋病毒或性传播感染的风险。
艾滋病毒和性传播感染风险的重要预测因素是性别、年龄、报告与男性发生性行为的男性、随意性伴侣数量和避孕套的使用情况。我们的基于机器学习的风险预测工具名为MySTIRisk,在测试数据集上的表现处于可接受或优秀水平(HIV的曲线下面积[AUC] =0.78;梅毒的AUC =0.84;淋病的AUC =0.78;衣原体的AUC =0.70),并在2019年的两个外部验证数据上表现稳定(艾滋病毒的AUC =0.79;梅毒的AUC =0.85;淋病的AUC =0.81;衣原体的AUC =0.69)和2020-2021年的数据(艾滋病毒的AUC =0.71;梅毒的AUC =0.84;淋病的AUC =0.79; AUC for chlamydia=0.69).
我们的基于网络的风险预测工具可以通过简单的自我报告问题准确预测门诊参与者感染HIV和性传播感染的风险。MySTIRisk可以在诊所网站或数字卫生平台上作为艾滋病毒和性传播感染筛查工具,鼓励有艾滋病毒或性传播感染风险的个人进行检测或开始艾滋病毒接触前预防。公众可以使用这个工具来评估他们的风险,然后决定是否去诊所进行检测。临床医生或公共卫生工作者可以使用该工具确定高危人群,以便进行进一步干预。
艾滋病毒和性传播感染是全球主要的公共卫生问题[
为应对性传播感染比率的上升,世卫组织提出了《2016-2021年全球卫生部门性传播感染战略》,旨在到2030年结束性传播感染流行病这一公共卫生问题。具体包括将全球淋病发病率较2018年全球基线降低90%,在80%的国家实现每10万活产≤50例先天性梅毒病例[
一种易于获取和用户友好的工具,可以准确识别个人的感染风险,成为基于网络的风险预测程序的一部分,并在风险预测和个性化风险管理中发挥作用[
许多数学技术可以用来计算个人感染艾滋病毒和性传播感染的风险。逻辑回归在复杂大数据的预测分析中存在局限性。逻辑回归方法需要很强的假设,并且不容易处理非线性关系、相互作用和多重共线性[
尽管机器学习方法具有优势,但目前还缺乏使用机器学习模型对艾滋病毒和性传播感染风险进行个人风险预测的工具。现有的使用机器学习算法预测艾滋病毒和性传播感染的研究主要集中在艾滋病毒[
墨尔本性健康中心(MSHC)是澳大利亚维多利亚州最大的公共性健康中心,提供免费的艾滋病毒和性传播感染检测和管理服务[
我们使用从2015年3月2日到2018年12月31日的数据作为开发数据集(培训和测试数据集)。艾滋病毒研究数据集包括培训和检测数据(88,642次咨询)。梅毒、淋病和衣原体研究数据集分别有92,291、97,473和115,845次咨询。
我们使用时间验证作为外部验证来评估我们的风险预测模型的可移植性和泛化性。COVID-19的流行可能已经潜在地改变了参加母婴健康中心的人口统计数据[
澳大利亚墨尔本阿尔弗雷德医院伦理委员会(项目编号:124/18)批准了该项目的伦理审批。所有方法均遵循阿尔弗雷德医院伦理委员会的相关指导方针和规定进行。由于这是一项回顾性研究,对研究参与者的隐私风险最小,Alfred医院伦理委员会放弃了知情同意的要求。在任何计算分析之前,研究参与者的所有识别细节都被删除。
我们选择的数据字段作为预测因素是根据文献综述、专家意见和之前的工作[
培训与测试数据集的临床会诊特征。
变量 | 艾滋病毒(n=88,642次咨询) | 梅毒(n=92,291例) | 淋病(n=97,473例咨询) | 衣原体(n= 115845人次) | |
|
|||||
|
女 | 26651 (30.1) | 27134 (29.4) | 31282 (32.1) | 38548 (33.3) |
|
男性 | 61991 (69.9) | 65157 (70.6) | 66191 (67.9) | 77297 (66.7) |
就诊年龄(年),中位数(IQR) | 29.0 (24.0 - -35.0) | 29.0 (25.0 - -35.0) | 28.0 (24.0 - -35.0) | 28.0 (24.0 - -34.0) | |
|
|||||
|
澳大利亚 | 39148 (44.2) | 40990 (44.4) | 43881 (45.0) | 51162 (44.2) |
|
海外 | 46003 (51.9) | 47670 (51.7) | 49835 (51.1) | 60272 (52.0) |
|
失踪 | 3491 (3.9) | 3631 (3.9) | 3757 (3.9) | 4411 (3.8) |
|
|||||
|
没有 | 56175 (63.4) | 57413 (62.2) | 54595 (56.0) | 68584 (59.2) |
|
是的 | 25067 (28.3) | 27150 (29.4) | 34751 (35.7) | 38930 (33.6) |
|
失踪 | 7383 (8.3) | 7728 (8.4) | 8127 (8.3) | 8331 (7.2) |
|
|||||
|
不适用(女性) | 26651 (30.1) | 27134 (29.4) | 31282 (32.1) | 38548 (33.3) |
|
没有 | 16508 (18.6) | 17089 (18.5) | 15245 (15.6) | 26975 (23.3) |
|
是的 | 45483 (51.3) | 48068 (52.1) | 50946 (52.3) | 50322 (43.4) |
一个性传播感染
将HIV感染定义为基于血清学的HIV新诊断。梅毒感染定义为通过血液检测或核酸扩增试验(NAAT)新诊断的早期梅毒(原发性、继发性和早期潜伏[<2年])。淋病感染被定义为在任何解剖部位使用培养或NAAT的淋病新诊断。在临床中,淋病检测最初是用NAAT进行的,在NAAT阳性后大多使用培养。衣原体感染被定义为在任何解剖部位使用NAAT的新诊断。我们以前的出版物详细报道了诊断方法[
我们开发了34个机器学习模型来评估感染HIV、梅毒、淋病和衣原体的风险
机器学习算法的发展。梯度增压机的结构改编自Feng等[
逻辑回归已被广泛用于预测性传播感染和艾滋病的风险[
首先建立了4个回归模型,包括逻辑回归、岭回归、最小绝对收缩和选择算子(LASSO)回归和弹性净回归(ENR)。根据4个回归分析的初步结果,我们发现ENR优于其他3个回归分析(详见
叠加集成学习是一种基于2个(或更多)之前机器学习模型的组合预测训练新模型的集成学习方法。堆叠集成学习通常比单个机器学习技术表现得更好[
我们的模型使用单热编码方案进行数据分类。我们没有对缺失的数据进行插值,而是创建了一个二元特征向量来指示缺失的值。考虑到4例感染均<10%,数据被认为是“不平衡的”。不平衡的数据可能导致预测结果过拟合或表现不佳[
我们的机器学习模型以0到1之间的归一化分布预测了艾滋病毒或性传播感染的概率。模型预测的概率根据艾滋病毒和性传播感染的实际流行水平进行校准。我们使用逻辑函数为每个模型预测的概率和感染患病率提供一个拟合曲线。我们将估计的感染流行率作为感染的“校准风险”,并在风险报告中给出。我们使用MATLAB R2019a (MathWorks, Natick, MA)将模型预测概率校准到实际患病率水平。该方法在我们之前的论文[
为了研究预测因子的效果,我们使用最佳基础机器学习模型来计算艾滋病毒、梅毒、淋病和衣原体感染的变量重要性。我们确定并选择了占每种感染总体模型性能80.0%以上的预测因子。我们基于这些预测指标重新训练、重新测试和重新验证了最佳性能模型。我们比较了AUC、敏感性和特异性,以重新评估模型性能与候选预测指标。我们还使用AUC来评估最佳机器学习模型在预测器入围前后的性能变化
我们的培训和测试数据包括216例(88,642会诊中的0.2%)HIV感染,787例(92,291会诊中的1.9%)梅毒感染,7581例(97,473会诊中的7.8%)淋病感染,10217例(115,845会诊中的8.8%)衣原体感染。4个感染数据集中男性的比例分别在66.7%(77297 / 115845)和70.6%(65157 / 92291)之间。详情载于
我们的研究结果表明,集成学习模型比单独的机器学习模型表现得更好。在所有34个模型中,我们的最佳模型(集合ENR+GBM+RF)在预测HIV (AUC=0.78)、梅毒(AUC=0.84)、淋病(AUC=0.78)和衣原体(AUC=0.70)的测试数据上提供了可接受或优异的性能;图S1-S3中的
4种感染的前10个预测因子占艾滋病毒和性传播感染模型总体表现的80.0%。这些预测因素包括性别、出现性病症状,男男同性恋者,年龄、出生地、做爱和一个男人在过去12个月里,随意的男性的性伴侣的数量在过去的12个月里,避孕套的使用与男性合作伙伴在过去12个月中,休闲女性性伴侣的数量在过去的12个月里,药物注射在过去12个月,海外性在过去12个月,过去淋病感染,过去的非特异性尿道炎感染、梅毒感染,接触淋病病例、接触衣原体病例和接触梅毒病例(
使用梯度增强机对(a) HIV、(B)梅毒、(C)淋病和(D)衣原体进行检测,预测HIV或性传播感染(sti)的前10个预测因子的重要性。
在选择最重要的预测因子和最佳模型(集成ENR+GBM+RF)的基础上,构建了HIV和STI风险预测工具
HIV和性传播感染(STI)风险预测工具的受试者工作特征曲线表现(A) 2015-2018年检测数据分析,(B) 2019年外部数据验证分析,(C) 2020-2021年外部数据验证分析。AUC:曲线下的面积。
为了估计艾滋病毒或性传播感染的风险,我们使用逻辑函数对数据进行拟合,为每个模型预测的概率和感染流行率提供一个拟合曲线(图S4-S7)
图形用户界面元素的艾滋病毒和性传播感染(STI)风险预测工具,称为MySTIRisk。该工具的原型版本可在[
以下是艾滋病毒和性传播感染风险预测结果的例子:
你的艾滋病风险约为2/1000。像我这样的1000个人中,有2个人会感染HIV。998人不会感染艾滋病毒。
你的梅毒风险是10/1000。像我这样的1000个人中,有10个人会得梅毒。990人不会得梅毒。
淋病风险约为30/1000。像我这样的1000个人中,有30人会得淋病。970人不会得淋病。
你感染衣原体的风险是50/1000。像我这样的1000个人中,有50人会感染衣原体。950人不会感染衣原体。
下面的例子描述了测试建议:
检测的好处:预防所有并发症,防止在不知情的情况下将感染传播给他人。
不检测的后果:感染引起的并发症,如不孕症(未治疗的衣原体)、慢性疼痛(未治疗的衣原体)、听力丧失(未治疗的梅毒)和癌症(未治疗的艾滋病毒)。
这是第一个基于网络的基于机器学习算法和自我报告数据的风险预测工具,可以准确识别男性和女性的艾滋病毒、梅毒、淋病和衣原体感染,并在外部验证中稳定。我们的研究结果表明,机器学习算法可以预测诊所参与者的艾滋病和性传播感染。我们的结果还表明,堆叠集成学习算法在预测艾滋病毒和性传播感染方面比单个机器学习模型表现得更好。然后我们开发了一个基于网络的应用程序,为HIV和3种性传播感染的阳性诊断风险提供即时和个性化的评估。我们的应用程序可以成为诊所网站或数字健康平台的一部分,以识别艾滋病毒和性传播感染风险较高的个人,或潜在的艾滋病毒暴露前预防(PrEP)候选者。在其他国家进行进一步的验证研究可以评估这一风险预测工具的有用性,它有助于减少艾滋病毒和性传播感染发病率以及艾滋病毒和性传播感染筛查的成本,筛查需要昂贵的设备和专门知识。
我们的结果表明,非线性机器学习算法在预测男性和女性的HIV和性传播感染方面比传统的逻辑回归提供了更好的性能。我们的发现与之前的HIV和性病机器学习预测模型的结果一致[
我们的结果表明,堆叠集成机器学习技术优于单个机器学习模型。我们系统地开发和测试了34个机器学习模型,发现堆叠集成学习技术优于单个机器学习模型[
我们的模型与以前预测艾滋病毒和性传播感染的机器学习模型相比有几个优点。首先,我们的预测模型并不局限于高危人群(如MSM)。艾滋病毒和性传播感染风险预测模型以前也有发表,但主要针对高危人群,如男同性恋者[
我们无法找到任何基于网络的、公开可用的工具来量化STI风险。我们确定了一些可用的基于网络的艾滋病毒预测工具,例如"艾滋病毒风险预测工具" [
我们的基于网络的艾滋病毒和性传播感染风险预测工具可作为筛查工具,潜在地增加艾滋病毒和性传播感染检测,并鼓励获得检测和保健服务(见图S8)
我们的网络风险预测工具有很多可能的用途,包括作为行为干预的一部分来控制艾滋病毒和性传播感染,或帮助临床医生或公共卫生工作者识别高危人群进行风险管理或进一步干预。青少年健康风险行为就是一个例子。研究人员使用个人的风险行为评分和个性化反馈作为健康行为干预的一部分,包括营养行为、身体活动和睡眠[
未来的工作将调查这一基于网络的艾滋病毒和性传播感染风险预测工具在收到风险预测结果和检测建议后对行为改变(即接受PrEP或推广避孕套)和性传播感染服务使用行为(及时就诊和接受艾滋病毒和性传播感染检测)的有效性。实施这一基于网络的艾滋病毒和性传播感染预测工具可能会鼓励有性传播感染症状的人或没有症状的高危人群前往卫生服务机构进行及时检测和定期检测。自2009年2月起,男同性恋者定期以短信提醒他们接受性传播感染检查[
这项研究有一定的局限性。首先,预测因素依赖于来自CASI系统的自我报告信息,这受参与者的回忆、无反应和社会期望偏差的影响。例如,拒绝报告男性伴侣数量的男同性恋者感染衣原体的风险更高[
这是第一个基于网络的风险评估工具,使用机器学习算法和自我报告的数据来识别男性和女性的艾滋病毒、梅毒、淋病和衣原体。我们的在线风险预测工具可以通过简单的自填问卷准确预测临床参与者感染HIV和性传播感染的风险。我们的风险预测工具可以成为诊所网站或数字健康平台的一部分。公众可以使用这一风险预测工具评估其艾滋病毒和性传播感染风险,为检测提供信息。临床医生或公共卫生工作者可以使用这种风险预测工具来识别高危人群,以便进行进一步干预。
补充表格和图表。
人工智能
曲线下面积
计算机辅助的自我访谈系统
交叉验证
深度学习
电子健康记录
弹性净回归
梯度增压机
最小绝对收缩和选择算子
墨尔本性健康中心
和男人发生性关系的男人
核酸扩增检测
朴素贝叶斯
暴露前预防
随机森林
岭回归
性传播感染
世界卫生组织
EC和JJO获得了澳大利亚国家卫生和医学研究委员会新兴领导研究者赠款(分别为GNT1172873和GNT1193955)的支持。CKF得到了澳大利亚国家卫生和医学研究委员会领导研究员赠款(GNT1172900)的支持。国家自然科学基金项目(批准号:81950410639);杰出青年学者资助计划(资助号:3111500001);西安交通大学基础研究与专业资助项目(资助号:xtr022019003, xzy032020032);流行病学建模与风险评估(批准号:20200344);西安交通大学青年学者资助基金(资助号:YX6J004)。作者想感谢墨尔本性健康中心(MSHC)的Afrizal Afrizal进行数据提取。作者感谢Glenda Fehler对数据清理的贡献。作者还想感谢墨尔本大学的Jon Emery对风险预测工具(例如,
XX、CKF和LZ构思并设计了该研究。XX整理数据,建立模型和编码,撰写初稿,编辑稿件。WL、EC、CKF和LZ对数据清理有贡献。XX、ZG、ZY、YB和LZ对模型的建立和编码都有贡献。JW和XX开发了基于web的应用程序。CKF和LZ为建立基于web的应用程序做出了贡献。EC、CKF和LZ对数据验证和监督做出了贡献。EC、YB、ZY、ZG、JJO、WL、CKF、LZ对数据的解释和稿件修改都有贡献。所有作者都对稿件的准备做出了贡献,并批准了最终稿件。
没有宣布。