这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR精神健康杂志上的原创作品。必须包括完整的书目信息,https://mental.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba
机器学习(ML)提供了强有力的统计和概率技术,可以使用大量数据成功预测某些临床疾病。鉴于近年来技术的快速发展,对ML和大数据研究分析在孕产妇抑郁症中的应用进行回顾是中肯和及时的。gydF4y2Ba
本研究旨在综合ML和大数据分析在孕产妇心理健康,特别是产后抑郁(PPD)预测方面的文献。gydF4y2Ba
我们使用了一种范围审查方法,使用Arksey和O 'Malley框架来快速映射ML中的研究活动,以预测PPD。两名独立研究人员于2020年9月搜索了PsycINFO、PubMed、IEEE Xplore和ACM数字图书馆,以确定过去12年的相关出版物。数据从文章的ML模型、数据类型和研究结果中提取。gydF4y2Ba
共确定了14项研究。所有研究都报道了使用监督学习技术来预测产后抑郁症。除了朴素贝叶斯、回归、人工神经网络、决策树和XGBoost (Extreme Gradient Boosting)算法外,支持向量机和随机森林是最常用的算法。在所选的研究中,表现最好的ML算法存在相当大的异质性。不同算法报告的受试者工作特征曲线值下面积为支持向量机(范围0.78-0.86)、随机森林法(0.88)、XGBoost(0.80)和逻辑回归(0.93)。gydF4y2Ba
ML算法可以分析更大的数据集,并进行更高级的计算,这可以显著提高PPD的早期检测。进一步的临床研究合作需要对ML算法进行微调,以用于预测和治疗。除了临床知识和现有的研究证据外,ML可能成为循证实践的一部分。gydF4y2Ba
产后抑郁症(PPD)被认为是分娩后最常见的孕产妇疾病之一,对母亲和孩子都有严重影响。根据美国国家精神卫生研究所的数据,全世界10%-15%的妇女在怀孕期间和怀孕后患有孕产妇抑郁症,而在低收入和中等收入国家,这一比例可能高达18%-25% [gydF4y2Ba
产后抑郁是最常见的生育并发症,指的是产后4周内甚至产后30周内出现的抑郁症状[gydF4y2Ba
由于PPD没有单一的病因,单一的预防或治疗方法是无效的。有必要采用一种结合心理、社会心理和生物学预测因素的多因素方法,以考虑各种病因因素和个体差异[gydF4y2Ba
机器学习(ML)算法大致分为3类:(1)监督学习,(2)无监督学习,(3)半监督学习。在监督学习中,使用已知标签的数据来训练一个模型,该模型可以预测新数据的标签[gydF4y2Ba
有一种观点认为,ML将帮助精神健康从业者比目前在《精神疾病诊断与统计手册》中所做的更客观地重新定义精神疾病[gydF4y2Ba
鉴于近年来技术的快速发展,对ML和大数据研究分析在孕产妇抑郁症中的文献综述是中肯和及时的。这篇综述旨在提供一个关于ML应用于预测PPD的文献的简明快照。以前的综述已经证明了ML技术在一般抑郁症和心理健康方面是稳健和可扩展的,但迄今为止还没有一篇综述描绘了ML在孕产妇心理健康研究和实践中的应用。我们的总体目标是检查PPD中ML应用的现状,提供所使用方法的快照。考虑到机器学习的快速发展和最近在心理健康研究中使用机器学习,我们选择特别关注于广泛探索研究活动的性质,正如Arksey和O 'Malley的第一个目标所述[gydF4y2Ba
希望这一范围综述将(1)告知心理健康研究人员ML在PPD预测中的方法和应用,(2)确定最佳性能算法,(3)确定最佳性能算法的评估标准。gydF4y2Ba
Arksey和O 'Malley框架除了用于范围审查的方法改进之外还被使用[gydF4y2Ba
搜索策略改编自Shatte等人[gydF4y2Ba
(a) PPD (gydF4y2Ba
(b) ML (gydF4y2Ba
(c)预测(gydF4y2Ba
对标题、关键字和摘要进行搜索gydF4y2Ba
文章被纳入和排除(gydF4y2Ba
这篇文章报道了一种机器学习(ML)仅用于解决产后抑郁症的方法或应用,这是基于作者对他们分析的描述:如果他们认为这是ML,这篇论文就会被包括在内。gydF4y2Ba
本文评估了ML算法或大数据技术用于预测产后抑郁症的性能。gydF4y2Ba
这篇文章发表在一份同行评议的刊物上。gydF4y2Ba
这篇文章有英文版。gydF4y2Ba
这篇文章发表于2009年至2021年之间。gydF4y2Ba
这篇文章没有报道ML在产后抑郁症中的应用(例如,这篇文章评论了ML在一般抑郁症、焦虑和其他心理健康问题的诊断、治疗或预后中的应用)。gydF4y2Ba
这篇文章并没有关注产后抑郁症。gydF4y2Ba
这篇文章的全文没有得到(例如,会议或摘要)。gydF4y2Ba
如果文章是评论和随笔。两名审稿人(KS和AFK)独立审查了所有研究,并在与第三作者(ZAB)协商后对所有纳入的研究达成了共识。gydF4y2Ba
对于数据提取和分析,我们使用了在类似的范围审查中已经使用的相同框架[gydF4y2Ba
为了分析数据,采用叙事回顾综合方法[gydF4y2Ba
使用搜索词组合的搜索策略识别出1392篇文章,这些文章在其摘要或标题中包含了每个类别的搜索词(PRISMA-ScR流程图)。相关文章发表年份范围为2009-2021年。共有24篇文章是重复的。KS和AFK进行了数据库搜索。两名作者阅读了368篇文章的摘要,以对本次范围审查的资格进行初步筛选。其中347人被排除在外,因为他们没有专门关注PPD。共选取了21篇文章进行全文综述,其中3篇为会议论文且仅为摘要,4篇未使用ML预测PPD。这导致总共14项研究样本,包括一项预印本研究和一项专注于预测父亲PPD的研究,根据所有作者,这些研究符合纳入标准(gydF4y2Ba
PRISMA(系统评价和元分析的首选报告项目)程序流程图。ML:机器学习;PPD:产后抑郁症。gydF4y2Ba
主要研究特征总结(N=14)。gydF4y2Ba
#gydF4y2Ba | 研究gydF4y2Ba | 目的或目标gydF4y2Ba | 样本大小;使用的输入数据gydF4y2Ba | PPD诊断标准gydF4y2Ba一个gydF4y2Ba |
1gydF4y2Ba | Jiménez-Serrano等[gydF4y2Ba |
开发分类模型,在分娩后第一周内检测产后抑郁症的风险gydF4y2Ba | 1880;医院的数据gydF4y2Ba | 环保署gydF4y2BabgydF4y2Ba> 9;产后第8周或32周gydF4y2Ba |
2gydF4y2Ba | 贝茨等人[gydF4y2Ba |
开发一个预测模型,以确定产后精神病入院风险的妇女gydF4y2Ba | 75054;关联的管理运行状况数据gydF4y2Ba | ICDgydF4y2BacgydF4y2Ba-10 (gydF4y2Ba |
3.gydF4y2Ba | 托尔塔哈达等[gydF4y2Ba |
获得基于前馈多层感知器的分类模型,提高产后32周PPD预测的敏感性和特异性gydF4y2Ba | 1397;医院的数据gydF4y2Ba | 环保署> 9;产后第8周或32周gydF4y2Ba |
4gydF4y2Ba | 王等[gydF4y2Ba |
利用电子病历建立PPD预测模型gydF4y2BadgydF4y2Ba | 179980;电子医疗纪录gydF4y2Ba | ICD-10-CM编码O99.3和O99.34,以及用于产后12个月内诊断PPD的ICD-9-CM等效代码gydF4y2Ba |
5gydF4y2Ba | 张等[gydF4y2Ba |
比较4种不同ML的效果gydF4y2BaegydF4y2Ba模型使用怀孕期间的数据来预测产后抑郁症gydF4y2Ba | 508;医院的数据gydF4y2Ba | 环保署> 9.5;交货后42天内gydF4y2Ba |
6gydF4y2Ba | 张等[gydF4y2Ba |
提出了PPD风险预测的ML框架gydF4y2Ba | 17,633和71,106;2个来自EHRs的数据集gydF4y2Ba | 产后1年内出现PPDgydF4y2Ba |
7gydF4y2Ba | 霍奇曼等人[gydF4y2Ba |
应用ML方法创建一个PPD预测工具,以在医疗保健系统中实施gydF4y2Ba | 214359;电子医疗纪录gydF4y2Ba | 产后一年内出现PPD (ICD‐9代码:300和309或ICD-10代码:F40-F48)或急性精神病性躁狂发作(ICD‐9代码:296.0、296.1、296.4、296.6、296.81、298.3、298.4、298.8)gydF4y2Ba |
8gydF4y2Ba | 德乔杜里等人[gydF4y2Ba |
检测和预测产后抑郁症gydF4y2Ba | 165;使用PHQ进行Facebook调查gydF4y2BafgydF4y2Ba9gydF4y2Ba | phq - 9gydF4y2Ba |
9gydF4y2Ba | Natarajan等[gydF4y2Ba |
提出了一种基于ml的PPD预测和诊断方法gydF4y2Ba | 207;Facebook和Twitter的调查数据gydF4y2Ba | 产后抑郁症预测者清单gydF4y2Ba |
10gydF4y2Ba | 法蒂玛等[gydF4y2Ba |
利用语言特征为PPD提出一种解决方案,可以在基于web的社交平台上推广和部署gydF4y2Ba | 21;来自Reddit的文字帖子gydF4y2Ba | 基于语言特征的PPDgydF4y2Ba |
11gydF4y2Ba | 特里凡等[gydF4y2Ba |
利用社交媒体对有产后抑郁症风险的母亲进行潜在诊断,从而实施早期干预gydF4y2Ba | 512;Reddit的文字帖子gydF4y2Ba | 没有描述gydF4y2Ba |
12gydF4y2Ba | 夏特等[gydF4y2Ba |
确定有产后抑郁症风险的父亲gydF4y2Ba | 365;Reddit的文字帖子gydF4y2Ba | icd -抑郁;产后06个月症状gydF4y2Ba |
13gydF4y2Ba | 莫雷拉等[gydF4y2Ba |
提出一种情绪感知智能系统的算法,能够通过生物医学和社会人口数据分析预测怀孕期间PPD的风险gydF4y2Ba | 性能评估使用可穿戴设备和传感器生成的数据gydF4y2Ba | 没有描述gydF4y2Ba |
14gydF4y2Ba | Shin等[gydF4y2Ba |
利用ML方法建立PPD的预测模型gydF4y2Ba | 28755;妊娠风险评估和监测系统数据gydF4y2Ba | PHQ-2gydF4y2Ba |
一个gydF4y2BaPPD:产后抑郁症。gydF4y2Ba
bgydF4y2BaEPDS:爱丁堡产后抑郁量表。gydF4y2Ba
cgydF4y2Ba国际疾病分类。gydF4y2Ba
dgydF4y2BaEHR:电子健康记录。gydF4y2Ba
egydF4y2BaML:机器学习。gydF4y2Ba
fgydF4y2BaPHQ:患者健康问卷。gydF4y2Ba
主要研究特征总结(N=14)。gydF4y2Ba
#gydF4y2Ba | 研究gydF4y2Ba | 性能指标gydF4y2Ba | 毫升gydF4y2Ba一个gydF4y2Ba算法使用gydF4y2Ba | 表现最好的算法gydF4y2Ba |
1gydF4y2Ba | Jiménez-Serrano等[gydF4y2Ba |
同意验证gydF4y2Ba |
朴素贝叶斯gydF4y2Ba LRgydF4y2BabgydF4y2Ba 支持向量机gydF4y2BacgydF4y2Ba 安gydF4y2BadgydF4y2Ba |
朴素贝叶斯模型;G函数值为0.73gydF4y2Ba |
2gydF4y2Ba | 贝茨等人[gydF4y2Ba |
R中的5倍交叉验证gydF4y2Ba |
梯度增加gydF4y2Ba 弹性网法gydF4y2Ba |
增强树算法(AUCgydF4y2BaegydF4y2Ba0.80, 95% ci 0.76-0.83)gydF4y2Ba |
3.gydF4y2Ba | 托尔塔哈达等[gydF4y2Ba |
同意验证gydF4y2Ba |
安gydF4y2Ba |
多层感知器的G为0.82,准确度为0.81 (95% CI 0.76-0.86),敏感性为0.84,特异性为0.81gydF4y2Ba |
4gydF4y2Ba | 王等[gydF4y2Ba |
10倍交叉验证gydF4y2Ba |
支持向量机gydF4y2Ba 射频gydF4y2BafgydF4y2Ba 朴素贝叶斯gydF4y2Ba L2-regularized LRgydF4y2Ba XGBoostgydF4y2BaggydF4y2Ba DTgydF4y2BahgydF4y2Ba |
AUC(0.79)支持向量机gydF4y2Ba |
5gydF4y2Ba | 张等[gydF4y2Ba |
sklearn。cross_validation package in Python |
支持向量机gydF4y2Ba 射频gydF4y2Ba |
支持向量机和特征选择RF(灵敏度=0.69;AUC = 0.78)gydF4y2Ba |
6gydF4y2Ba | 张等[gydF4y2Ba |
5倍交叉验证gydF4y2Ba |
射频gydF4y2Ba DTgydF4y2Ba XGboostgydF4y2Ba 正规化LRgydF4y2Ba 多层感知器gydF4y2Ba |
L2正则化LR;Auc (0.937, 95% ci 0.912-0.962)gydF4y2Ba |
7gydF4y2Ba | 霍奇曼等人[gydF4y2Ba |
抵抗交叉验证gydF4y2Ba |
XGBoostgydF4y2Ba |
AUC为0.712 (95% CI 0.690-0.733),敏感性0.349,特异性0.905)gydF4y2Ba |
8gydF4y2Ba | 德乔杜里等人[gydF4y2Ba |
没有描述gydF4y2Ba |
回归模型开发了一系列统计模型gydF4y2Ba |
产后模型gydF4y2Ba |
9gydF4y2Ba | Natarajan等[gydF4y2Ba |
未提供的资料gydF4y2Ba |
功能梯度增强gydF4y2Ba DTgydF4y2Ba 支持向量机gydF4y2Ba 注gydF4y2Ba我gydF4y2Ba |
函数梯度增强(Roc) 0.952gydF4y2Ba |
10gydF4y2Ba | 法蒂玛等[gydF4y2Ba |
10倍交叉验证gydF4y2Ba |
LRgydF4y2Ba 支持向量机gydF4y2Ba 多层感知器gydF4y2Ba |
多层感知器;91∙7%的抑郁症内容识别准确率和高达869%的PPD内容预测准确率gydF4y2Ba |
11gydF4y2Ba | 特里凡等[gydF4y2Ba |
同意验证gydF4y2Ba |
支持向量机gydF4y2Ba 随机梯度下降gydF4y2Ba 被动攻击分类器gydF4y2Ba |
支持向量机gydF4y2Ba |
12gydF4y2Ba | 夏特等[gydF4y2Ba |
10倍交叉验证gydF4y2Ba |
SVM分类器使用行为、情感、语言风格和讨论主题作为特征gydF4y2Ba |
包括所有特征的模型的精度为0.67,召回率为0.68,f−测量值为0.67gydF4y2Ba |
13gydF4y2Ba | 莫雷拉等[gydF4y2Ba |
10倍交叉验证gydF4y2Ba |
DTgydF4y2Ba 支持向量机gydF4y2Ba 最近的邻居gydF4y2Ba 集成分类器gydF4y2Ba |
集成分类器gydF4y2Ba |
14gydF4y2Ba | Shin等[gydF4y2Ba |
10倍交叉验证gydF4y2Ba |
射频gydF4y2Ba 随机梯度增强gydF4y2Ba 支持向量机gydF4y2Ba 回归树gydF4y2Ba 注gydF4y2Ba 再gydF4y2Ba LRgydF4y2Ba 安gydF4y2Ba |
RF方法(AUC) 0.884gydF4y2Ba |
一个gydF4y2BaML:机器学习。gydF4y2Ba
bgydF4y2Ba逻辑回归。gydF4y2Ba
cgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba
dgydF4y2BaANN:人工神经网络。gydF4y2Ba
egydF4y2BaAUC:曲线下面积。gydF4y2Ba
fgydF4y2BaRF:随机森林。gydF4y2Ba
ggydF4y2BaXGBoost:极端梯度增强。gydF4y2Ba
hgydF4y2BaDT:决策树。gydF4y2Ba
我gydF4y2Ba注:朴素贝叶斯。gydF4y2Ba
ML活动的叙述合成,特别是在PPD的背景下,表明了这一领域的新兴性质,近年来发表了大多数研究。出版日期从2009年到2020年;然而,大多数文章都是最近发表的。2009年的第一篇文章[gydF4y2Ba
很少有研究专注于开发和测试用于PPD检测和预测的ML算法,而其他研究则专注于比较不同ML算法预测PPD的效果,并探索模型中哪些因素对PPD预测最重要。gydF4y2Ba
当我们检查这14项研究时,我们确定了7项亚组研究,这些研究报告了使用基于ml的模型来预测PPD,使用临床或医院数据和EHRs。其他5项研究报告了ML算法在PPD预测中的应用,使用的数据来自社交媒体平台,包括Facebook、Twitter和Reddit。然而,这些研究旨在更广泛地评估预测模型,并没有报告ML算法、训练和测试程序的细节。在剩下的2项研究中,一项报告使用了人口数据,另一项报告使用了情绪感知系统数据。结果变量gydF4y2Ba
所有研究都报道了使用监督ML模型,包括分类和回归算法来预测PPD。大多数研究(n=7)报告使用了不止一种算法,而一项研究仅使用回归模型来为其数据建立统计模型。其中包括支持向量机(n=8) logistic回归(LR;n=6),多层感知器采用人工神经网络(ANN;n=5), RF (n=4),朴素贝叶斯(n=3),决策树(DTs;n=3),梯度增强(n=2), XGBoost(极端梯度增强;n=2),函数梯度增强(n=1),弹性网络方法(n=1), k-近邻(kNN;n=2),随机梯度增强(n=1),被动攻击性分类器(n=1),集成分类器(n=1)。用于开发ML算法的数据类型包括EHRs,行政医院数据或组织数据(n=08),移动和可穿戴传感器数据(n=1),以及社交媒体数据(n=5)。gydF4y2Ba
在所选的研究中,表现最好的ML算法存在相当大的异质性。为了报告最佳性能的算法,大多数研究使用了灵敏度、特异性和曲线下面积(AUC)。只有5项研究描述了使用5倍或10倍交叉验证的交叉验证技术方法。一项研究报道,在4种ML算法中,包括朴素贝叶斯、LR、SVM和ANN,根据G函数,朴素贝叶斯作为产后第一周PPD的预测模型,在灵敏度和特异性之间取得了最好的平衡,其值为0.73 [gydF4y2Ba
在SVM和RF算法中,基于SVM和特征选择RF的模型预测效果最好(灵敏度=0.69,AUC=0.78) [gydF4y2Ba
托尔塔哈达等[gydF4y2Ba
霍奇曼等人[gydF4y2Ba
在使用回归模型开发了一系列统计模型来预测母亲患产后抑郁症的可能性后,产后模型表现最好[gydF4y2Ba
许多研究没有提及使用哪些统计工具进行分析;然而,大多数人使用R、SAS和Python 3中的各种软件包。研究报告了使用标准库用于数据准备(例如,缺失变量),各种典型的ML模型,以及自然语言处理(NLP)分析(如主题建模),包括在它们的标准包中,如R。gydF4y2Ba
大多数回顾的研究使用监督分类技术而不是其他ML技术来预测PPD。这可能表明了文献中对检测和诊断的广泛关注,这些文献通常是使用大型、回顾性的、标记的数据集设计的,非常适合分类任务[gydF4y2Ba
一项利用医院数据预测PPD的队列研究报告,在样本量较小的情况下,SVM可以避免过拟合,同时提供高效的计算时间和更好的抑郁症预测结果[gydF4y2Ba
相比之下,RF模型是使用DT作为基本分类器建立的。RF方法分类精度高,归纳能力强,参数调整过程简单,计算速度快,对缺失数据值的敏感度相对较低,能够输出特征重要性[gydF4y2Ba
托尔塔哈达等[gydF4y2Ba
关于哪个ML模型评估指标是最好的,有很多争论[gydF4y2Ba
PPD是一个非常普遍的问题,但经常未被发现,导致严重的治疗延误[gydF4y2Ba
在我们回顾的研究中,经历PPD的个体是通过筛查调查,他们在社交媒体,Twitter, Facebook或Reddit上公开分享诊断,并通过他们的语言和基于网络的活动模式与对照用户区分开来[gydF4y2Ba
最后,在心理健康应用中使用ML技术时,还需要考虑一些挑战。ML模型不可避免地受到用于开发模型的数据质量的限制。因此,机器学习不会取代其他研究或分析方法;相反,它有可能为心理健康研究增加价值。许多ML技术需要访问训练数据集,这需要研究人员和临床医生之间的合作,以最大限度地发挥所开发模型的有用性。重要的是,除了临床知识和现有的研究证据之外,ML可能成为循证实践的一部分。心理健康研究人员和临床医生之间需要加强合作(例如,提供训练数据集和ML算法的临床有用性反馈),以继续推进ML在心理健康领域的应用。分析gydF4y2Ba
这项研究有一些局限性。这一范围审查的目的是在使用系统搜索方法的同时,以总结格式提供研究活动的快照。为了符合范围评价的目的,我们没有提前确定具体的研究设计,也没有评估纳入研究的质量[gydF4y2Ba
总之,使用ML预测PPD已经显示出令人兴奋的进展,特别是在最近几年。与传统的统计方法相比,ML算法能够分析更大的数据集,并进行更高级的计算。总的来说,ML可以明显提高PPD早期的检出率。对ML应用于识别潜在PPD预测因子的研究已显示出积极的结果。然而,这项工作目前是有限的,需要进一步的研究来确定ML对孕产妇心理健康的额外益处。ML技术和ML模型的性能可能会因原始数据的类型、内容和准确性而有所不同;因此,评估单个模型的性能可能具有挑战性。随着机器学习工具对研究人员和临床医生越来越容易使用,预计该领域将继续增长,心理健康的新应用也将随之而来。进一步的临床研究合作需要对ML算法进行微调,以用于预测和治疗。随着ML算法的不断完善和改进,它有可能帮助临床医生在更早的阶段识别出母亲的精神疾病,因为基于个人的独特特征,干预可能是更有效和个性化的治疗。 Moreover, the current lack of procedural evaluation guidelines leaves many clinicians and researchers in the field with no means to systematically evaluate the claims, maturity, and clinical readiness of an ML study [
用于此审查的数据库和搜索字符串。gydF4y2Ba
人工神经网络gydF4y2Ba
曲线下面积gydF4y2Ba
接收机工作特性曲线下面积gydF4y2Ba
决策树gydF4y2Ba
电子健康记录gydF4y2Ba
《国际疾病分类》gydF4y2Ba
再gydF4y2Ba
逻辑回归gydF4y2Ba
机器学习gydF4y2Ba
自然语言处理gydF4y2Ba
产后抑郁症gydF4y2Ba
系统评价和元分析扩展范围评价的首选报告项目gydF4y2Ba
随机森林gydF4y2Ba
支持向量机gydF4y2Ba
极端梯度增强gydF4y2Ba
我们感谢杰姬·斯台普顿对审查工作的持续支持和帮助。gydF4y2Ba
KS构思了这项研究,参与了研究的设计和协调,进行了搜索和数据提取,解释了数据,并起草了手稿。AFK协助搜索和数据提取,并帮助修改手稿。ZAB构思了这项研究,参与了设计和协调,对数据进行了解释,并帮助起草和修改了手稿。所有作者都阅读并批准了最终的手稿。gydF4y2Ba
没有宣布。gydF4y2Ba