医学互联网研究杂志——研究社交媒体时代的精神健康障碍:系统综述

审查

¹伦敦国王学院信息系，英国伦敦

²初级保健和公共卫生科学，伦敦国王学院，伦敦，联合王国

^3.西班牙马德里Autónoma马德里大学Psicología Básica系

通讯作者:

Akkapon Wongkoblap，理学学士，理学硕士

信息学系

伦敦大学国王学院

链

伦敦，WC2R 2LS

联合王国

电话:44 20 7848 2588

传真:44207848 2017

电子邮件:akkapon.wongkoblap@kcl.ac.uk

背景:精神疾病正迅速成为全世界最普遍的公共卫生问题之一。用户可以在社交网络平台上表达自己的情绪、感受和想法，这是研究心理健康的宝贵数据来源，而基于机器学习的技术越来越多地用于这一目的。

摘要目的:本综述的目的是探讨研究人员用于心理健康预测分析的尖端技术的范围和局限性，并回顾这一研究领域的相关问题，如伦理问题。

方法:我们于2017年3月进行了系统的文献综述，使用关键词搜索2010年至2017年3月8日期间发表在医学和计算机科学期刊上的关于常见精神健康障碍背景下社交网络数据数据挖掘的文章。

结果:最初的搜索总共返回了5386篇文章。在仔细分析标题、摘要和主要文本后，我们选择了48篇文章进行审查。我们根据关键特征、用于数据收集、数据预处理、特征提取、特征选择、模型构建和模型验证的技术对文章进行编码。最常见的分析方法是文本分析，有几项研究使用了不同风格的图像分析和社会互动图表分析。

结论:尽管越来越多的研究使用社交网络数据来调查心理健康问题，但一些常见的问题仍然存在。收集有精神障碍的社交媒体用户的大量高质量数据集是有问题的，不仅是因为与收集方法相关的偏见，还因为在管理同意和选择适当的分析技术方面。

医学互联网研究，2017;19(6):e228

doi: 10.2196 / jmir.7215

关键字

心理健康；精神障碍；社交网络；人工智能；机器学习；公共卫生信息学；抑郁症；焦虑； infodemiology

精神疾病正迅速成为全世界最严重和普遍的公共卫生问题之一。1］.每年约有25%的英国人患有精神障碍[2］.根据世界卫生组织公布的统计数据，超过3.5亿人患有抑郁症。就经济影响而言，2010年精神卫生问题的全球成本约为2.5万亿美元。到2030年，估计成本将进一步增加到6万亿美元[3.］.精神障碍包括许多不同的疾病，其中抑郁症最为突出。此外，抑郁和焦虑障碍会导致自杀意念和自杀企图[1］.这些数字表明，心理健康问题对整个社会都有影响，需要新的预防和干预战略。早期发现精神疾病是应用这些策略的必要步骤，通常使用有效的问卷来诊断精神疾病，旨在发现特定的情感或社会互动模式[4-6］.

在过去的几年里，在线社交媒体作为一种分享不同类型的用户生成或用户策划内容的手段变得越来越流行，比如发布个人状态更新、上传图片和分享当前的地理位置。用户还可以通过评论其他用户的帖子和建立对话来与他们互动。通过这些互动，用户可以表达他们的感受和想法，并报告他们的日常活动[7]，创造了大量关于它们社会行为的有用信息[8］.仅举两个特别受欢迎的社交网络，Facebook每月有超过17亿的活跃用户定期访问[9]，而Twitter有超过3.1亿个活跃账户[10]，产生大量可以挖掘的数据，在道德约束下，在用户行为中找到有意义的模式。

数据科学领域已经成为解决日益增长的数据规模及其所需的分析和计算能力的一种方式。允许研究人员从复杂数据集中提取信息的机器学习技术已被重新用于这种新环境，并用于解释各种领域的数据和创建预测模型，例如金融[11]，经济学[12]，政治[13]和犯罪[14］.在医学研究中，数据科学方法允许研究人员挖掘大型卫生保健数据集，以检测模式并积累有意义的知识[15-18］.这项工作的一个特定部分侧重于通过社交网站上的状态更新来分析和检测精神障碍的症状[19］.

基于精神障碍的症状和指标，利用数据挖掘和机器学习技术开发精神健康问题的自动检测系统是可能的。社交网络平台中表达的不寻常行为和不寻常的互动模式[19]可以通过现有的工具检测到，基于文本挖掘、社交网络分析和图像分析。

尽管预测模型目前的性能不是最佳的，但可靠的预测模型最终将允许早期发现，并以促进相关卫生服务或提供有用的卫生信息链接的形式为卫生干预铺平道路。通过利用社交网络上为商业实体提供的功能，有可能为用户带来真正的健康益处。

本系统综述旨在探讨心理健康预测分析的前沿技术的范围和局限性。具体来说，在这篇综述中，我们试图回答以下问题:(1)研究人员使用什么方法从在线社交网站(如Facebook和Twitter)收集数据?(2)在心理健康的社会网络数据预测分析中，最先进的技术是什么?(3)这一研究领域的主要伦理问题是什么?

我们进行了一项系统回顾，以研究如何使用社交媒体数据来分类和预测用户的心理健康状态。评审程序遵循系统评审及综合分析的首选报告项目指引，概述及评估有关文章[20.］.

文献检索策略

我们于2017年3月检索了文献，收集了2010年至2017年3月8日在医学和计算机科学数据库中发表的文章。我们搜索PubMed、美国电气与电子工程师学会(IEEE Xplore)、美国计算机协会(ACM数字图书馆)、Web of Science和Scopus，使用基于社交媒体数据的心理健康问题预测关键词集。我们将搜索范围限制在英国国家健康与护理卓越研究所定义的常见精神健康障碍[21:抑郁症、广泛性焦虑症、恐慌症、恐惧症、社交焦虑症、强迫症和创伤后应激障碍。为了确保我们的文献检索策略尽可能具有包容性，我们探索了相关关键术语的医学主题词(MeSH)。在提供此选项的所有数据库中都使用了MeSH术语。搜索条件概述在文本框1。

此外，我们手动检索了计算语言学和临床心理学研讨会(CLPsych)的会议记录和世界福祉项目的产出[22]查找我们搜索条件可能排除在外的其他文章。此外，我们还检查了纳入文章的参考文献列表以获取其他来源。

搜索策略，以识别基于社交媒体数据预测心理健康问题的文章。

医学主题目(MeSH)

抑郁症/或精神健康/或精神障碍/或自杀或生活满意度/或幸福/或焦虑/或恐慌/或恐惧症/或强迫症/或创伤后应激障碍
社交媒体/社交网络/或Facebook/或Twitter/或Tweet
机器学习/数据挖掘/或大数据/或文本分析/或文本挖掘/或预测分析/或预测/或检测/或深度学习
(1)、(2)
(1)、(3)

文本框1。搜索策略，以识别基于社交媒体数据预测心理健康问题的文章。

纳入和排除标准

我们进一步过滤使用中列出的搜索词检索到的文章的标题和摘要文本框1。只包括发表在同行评议期刊上的英文文章。进一步的纳入标准是，研究必须(1)专注于通过社交媒体数据预测心理健康问题，(2)研究基于用户文本帖子、网络互动或社交网络平台其他特征的预测或分类模型。在这次审查中，我们把重点放在了社交网络平台上——也就是说，那些允许用户创建个人资料、发布内容、建立新的或维持现有关系的平台。

如果研究(1)仅分析社交网络数据与精神疾病症状之间的相关性，(2)仅通过人工编码或手动注释分析文本内容，(3)检查在线社区(例如LiveJournal)的数据，(4)关注社交媒体使用与精神健康障碍(例如所谓的网络成瘾)之间的关系，(5)检查网络欺凌对精神健康的影响，或(6)未解释数据集的来源，则排除研究。

数据提取

在筛选文章并获得一组符合我们纳入标准的研究后，我们从主要文本中提取出最相关的数据。这些是标题、作者、目的、发现、方法、机器学习技术的数据收集、抽样、问卷、平台和语言。

概述

图1呈现了一个PRISMA流程图，显示了按照上述搜索方法搜索和筛选文章的结果。最初的搜索结果是总共5371篇文章，加上通过CLPsych获得的11篇额外文章，1篇来自世界健康项目，3篇来自纳入文章的参考文献列表。由于重复，我们删除了其中的1864篇文章。剩余的每一篇文章(n=3522)通过审查其标题和摘要进行筛选。如果一篇文章分析了其他来源的数据(如大脑信号、面部检测的心理健康检测或移动传感)，我们将其丢弃。这产生了一组106篇文章。通过将这些与我们的纳入和排除标准相匹配，我们又删除了58篇文章。综上所述，我们排除了5338篇文章，纳入了48篇(见图1）.

我们从48篇文章中提取数据。表1和多媒体附录1(其格式改编自先前的作品[11，23])显示所选研究的主要特征[24-71]，按出版年份排序。在被审查的研究中，有46篇发表于2013年以后，而只有2篇同行评议的文章发表于2011年至2012年之间。入选的文章都不是2010年发表的。

图1所示。系统评价和荟萃分析(PRISMA)流程图的首选报告项目。CLPsych:计算语言学和临床心理学研讨会。

表1。审阅文章的摘要。

第一作者，日期，参考文献	目标	发现
王，2017 [24]	利用Twitter数据探索和表征饮食失调人群的社区结构，然后将用户分为有和没有饮食失调的人群。	饮食失调的用户之间存在着协调性。分类器区分了两组人。
沃尔卡瓦，2016年[25]	从推文中挖掘学术话语，建立预测模型对数据进行分析。	来自44所大学的学生的推文与学生满意度和幸福感调查有关。
萨拉维亚，2016年[26]	提出一种新的数据收集方法，并对精神疾病和非精神疾病个体进行分类。	将该方法和分类器构建为在线系统，对两组个体进行分类，并提供心理疾病信息。
康，2016 [27]	提出分类模型，对长期抑郁用户的推文进行检测。分类器是基于他们发布的文本、表情符号和图像。	这些模型检测出患有抑郁症的用户。
施瓦茨，2016 [28]	通过社交网络上的文本内容，提出预测个体幸福感的模型。	消息级和用户级帖子聚合的组合表现良好。
2016年财政大臣[29]	探索Instagram上的帖子，以预测亲饮食失调症的精神疾病严重程度。	未来精神疾病的严重程度可以从用户生成的信息中预测出来。
布雷斯韦特，2016 [30.]	探索机器学习算法来衡量美国的自杀风险。	机器学习算法成功地对有自杀念头的用户进行了分类。
铜匠，2016 [31]	探索有和没有自杀企图的Twitter用户的语言和情感模式。	推特上有可量化的自杀企图信号。
Lv, 2015 [32]	建立中文自杀词典，以微博为基础，检测自杀风险。	中文自杀词典检测出有自杀风险的个人和推文。
O 'Dea, 2015 [33]	探索机器学习模型，自动检测每条与自杀相关的推文的关注程度。	机器学习分类器估计了与自杀有关的推文的关注程度。
刘，2015 [34]	基于Facebook帖子调查和预测用户的主观幸福感。	用户的主观幸福感可以通过帖子和他们的时间框架来预测。
Burnap, 2015 [35]	探索与自杀相关的推文，了解用户在社交媒体上的交流。	分类模型将推文分类为相关的自杀类别。
Park, 2015 [36]	分析Facebook活动与用户抑郁状态的关系。	抑郁症患者的互动较少，比如收到点赞和评论。抑郁用户的发帖率更高。
胡，2015 [37]	提出不同观察时间长度的分类器来检测抑郁用户。	行为和语言特征预测抑郁。2个月的观察可以提前半个月预测抑郁的线索。
津川，2015 [38]	建立一个从非英语社交媒体帖子和活动中识别抑郁症患者的模型。	从Twitter中提取的活动有助于检测抑郁症;2个月的观察数据可以发现抑郁症状。LDA估计的主题^一个是有用的。
张，2015 [39]	探索两种自然语言处理算法来识别预测自杀概率的帖子。	LDA从社交媒体的文本内容中自动检测自杀概率。
铜匠，2015 [40]	探讨10种心理健康状况的推文内容与自述健康句的语言差异。	在社交网络信息中存在可量化的10种心理健康状况信号及其之间的关系。
preotiu - pietro, 2015 [41]	采用线性分类器检测PTSD患者^c并且基于用户元数据抑郁，以及几个文本和话题特征。	线性分类器的组合表现优于平均分类器。所有unigram特征都表现良好。
Mitchell, 2015 [42]	使用几种自然语言处理技术来探索推特上精神分裂症用户的语言。	使用特征图特征训练模型对患有和未患有精神分裂症的用户进行分类。LDA的表现优于语言查询和字数统计。
preotiu - pietro, 2015 [43]	研究推文中关于心理健康的语言使用差异，这取决于用户的个性、年龄和性别。	从推文中提取的个性和人口统计数据检测出患有抑郁症或创伤后应激障碍的用户。
Pedersen, 2015 [44]	目的:探讨神经网络决策表对抑郁症和创伤后应激障碍用户分类的准确性。	Bigram特征表现不如ngram 1-6特征。
Resnik, 2015 [45]	建立基于监督主题模型的分类器，对抑郁和非抑郁用户进行分类。	LDA从tweet中挖掘有用的信息。监督主题模型(如监督LDA和监督锚模型)提高了LDA的准确性。
Resnik, 2015 [46]	使用TF-IDF构建分类器^d加权，采用支持向量机带有线性核或径向基函数核。	TF-IDF表现出良好的性能，带有监督主题模型的TF-IDF表现更好。
Durahim, 2015 [47]	探索来自社交网络的数据来衡量土耳其的国民幸福总值。	情绪分析估计的国民幸福总值水平与土耳其的统计数据相似。
关，2015 [48]	探讨两种分类器对高自杀风险帖子的检测效果。	用户的个人资料及其生成的文本被用来对自杀风险高或低的用户进行分类。
Landeiro Dos Reis, 2015 [49]	探索与运动相关的推文，以衡量它们与心理健康的关系。	经常发布锻炼内容的用户往往表现出较低的抑郁和焦虑程度。
De Choudhury, 2014 [50]	探讨几种类型的Facebook数据来检测和预测产后抑郁症。	产后抑郁可从社会孤立的增加和社会资本的减少来预测。
黄，2014 [51]	提出一个框架来检测与自杀意念有关的帖子。	基于支持向量机的预测模型效果最好。
Wilson, 2014 [52]	探索在推特上发布和分享的心理健康信息的类型。	该研究区分了推特帖子中关于抑郁症的8个主题，每个主题都有不同的特征。
铜匠，2014 [53]	提出一种收集PTSD相关帖子并建立分类器的新方法。	分类器区分了有和没有自我报告PTSD的用户。
Kuang, 2014 [54]	创建中文版本的扩展PERMA^e语料库，并用它来衡量幸福得分。	提出的模型衡量的是幸福感。
郝，2014 [55]	提出机器学习模型来衡量社交媒体用户的主观幸福感。	该模型通过社交媒体数据衡量主观幸福感。
2014年，普列托[56]	开发一种机器学习模型来检测和测量健康状况的患病率。	提出的方法确定了Twitter上存在的健康状况。
林，2014 [57]	开发一个深度神经网络模型，对有无压力的用户进行分类。	训练后的模型从用户生成的内容中检测压力。
Schwartz, 2014 [58]	建立基于Facebook文本的预测模型来检测抑郁症。	Facebook的更新可以区分抑郁的用户。预测模型提供了对季节性情感障碍的见解。
铜匠，2014 [59]	分析与健康相关的推文，提出一种快速收集包含精神疾病陈述的公开推文的新方法。	双相情感障碍、抑郁症、创伤后应激障碍和季节性情感障碍在推特上的可量化语言信号存在差异。
霍曼，2014 [60]	研究推文内容对自杀风险因素分类的潜力。	来自新手和专家的注释被用来训练分类器，尽管专家注释优于新手注释。
朴，2013 [61]	开发一个网络应用程序，从Facebook上提取的特征中检测抑郁症的症状。	抑郁的用户在Facebook上的好友更少，使用的位置标签更少，互动也更少。
王，2013 [62]	建立基于社交媒体数据情绪分析的抑郁症检测模型。	带有10个特征的情绪分析检测到用户是否患有抑郁症，准确率为80%。
王，2013 [63]	探索一种基于节点和关联特征的检测模型来识别社交媒体用户中是否存在抑郁。这是他们早期研究的扩展版本[62］.	节点和链接特征模型的性能优于仅基于节点特征的模型。
津川，2013 [64]	探讨从用户在社交网络上的活动中估计抑郁倾向的分析模型的有效性。	Zung抑郁自评量表与模型估计值存在相关性。
De Choudhury, 2013 [65]	探讨对产后行为改变倾向或产后抑郁倾向的母亲进行分类的预测模型。	产前和产后早期的推文预测未来的行为变化，准确率为71%。分娩后2-3周的数据改善了预测结果，准确率为80%-83%。
De Choudhury, 2013 [66]	探索机器学习模型在测量人群抑郁水平方面的潜力。	提出的模型估计了抑郁症的程度。
De Choudhury, 2013 [67]	建立预测模型对个体用户抑郁症进行分类。	该预测模型对抑郁症患者进行了分类。
Schwartz, 2013 [68]	分析来自美国不同县的推文，以预测这些地区人们的福祉。	主题特征提供了关于生活满意度的有用信息。
郝，2013 [69]	通过用户的上网行为来探索用户的心理状态。	上网行为可以预测心理健康问题。
贾米森-鲍威尔，2012 [70]	为了探索包含#失眠标签的推文的特征。	关于失眠的推文包含了更多的负面词汇。人们使用Twitter来表达他们的症状和应对策略的想法。
Bollen, 2011 [71]	探索一个在线社交网络，以衡量用户的主观幸福感水平和计算的分类。	推特用户之间存在着选择性。

^一个LDA:潜在狄利克雷分配。

^bCLPsych:计算语言学和临床心理学研讨会。

^cPTSD:创伤后应激障碍。

^dTF-IDF:词频率-逆文档频率。

^ePERMA:积极情绪，参与，关系，意义和成就。

选定的研究可以分为几个不同的类别。几项研究[27，36-38，40-46，52，56-59，61-64，66，67使用来自社交网络的数据集来研究抑郁症。De Choudhury等人探讨了产后抑郁症[50，65]，对PTSD进行了8项研究[40，41，43-46，53，59］.2项研究调查了焦虑和强迫症[40，69］.3项研究对边缘型障碍和双相障碍进行了调查[26，40，59］.Coppersmith等研究了季节性情感障碍[40，59］.Chancellor等人对饮食失调进行了研究[29]、Coppersmith等[40]， Prieto等人[56］.Coppersmith等人研究了注意力缺陷/多动障碍、焦虑和精神分裂症[40]， Jamison-Powell等研究了睡眠障碍[70］.纳入的研究中没有一项涉及恐惧症或恐慌症。8项研究调查了有自杀意念的使用者[30.-33，35，39，51，60］.7项研究调查了快乐、生活满意度和幸福感[28，34，47，54，55，68，71］.

在本综述纳入的研究中，有31项研究分析了以英语撰写的社交网络内容[24-31，33-35，40-46，49，50，52，53，58-60，65-68，70，71];11项研究调查了中文文本[32，37，39，48，51，54，55，57，62，63，69];2专注于韩语[36，61]和2关于日文[38，64]，我看了土耳其的内容[47]，和我一起学习西班牙语和葡萄牙语[56］.

数据收集技术

每篇文章都是基于直接或间接从社交网络获得的数据集。我们确定了两种广泛的数据收集方法:(1)在参与者同意的情况下，使用调查和电子数据收集工具(例如，Facebook应用程序)直接从参与者那里收集数据;(2)汇总从公开帖子中提取的数据。

直接从参与者那里收集数据的方法因研究目的和目标平台而异。这些方法包括在相关网站发布项目信息，邀请参与者参与项目[32，38，50]并在众包平台上发布任务征集项目志愿者[28，30.，66，67］.对于众包，研究人员在亚马逊土耳其机械等平台上发布了他们研究的详细信息[74来吸引参与者。作为问卷调查的一部分，参与者通常会被要求提供知情同意，允许收集他们的社交网络数据。

研究人员使用了一系列问卷来衡量参与者的抑郁程度和生活满意度，其中包括流行病学研究中心的抑郁量表[36，38，61，66，67]、病人健康问卷-9 [50]、贝克抑郁量表[36，38，61，67]、Zung抑郁自评量表[64]、抑郁症状量表-自杀倾向量表[30.]、《症状检查表-90-修订版》[69］.用以检测个人自杀意念及自杀可能性的工具是自杀概率量表[32，39，48]、获得性自杀能力量表[30.]，以及人际需求问卷[30.］.用生活满意度量表测量生活满意度和幸福感[28，34]、积极及消极影响量表[55]和心理健康量表[55］.一项研究使用修订NEO人格量表来评估人格[58］.

第二种方法是只汇集社交网络平台上的公开帖子，通过使用正则表达式搜索相关帖子，例如“我被诊断患有[病症名称]”[40，42，43，59］.

为了收集社交网络数据，由于缺乏数据收集标准，每个数据源都需要一个自定义捕获机制。基于Facebook的实验通过开发连接到Facebook应用程序编程接口(api)的自定义工具或Web应用程序来收集用户数据集[36，50，61］.另一组研究使用Twitter api来探索精神障碍的线索[24-27，30.，31，33，35，38，47，52，53，56-60，64-68，70，71］.Instagram api也采用了类似的方法[29]和新浪微博api [32，37，39，51，54，55，57，62，63］.

另一种获取数据的方法是myPersonality项目，该项目为学术研究人员提供社交网络数据和各种心理测试分数[75]，并被3项研究使用[28，34，58］.一些研究[41，44-46]起源于一些研讨会，在这些研讨会上，组织者分享了已经被机构审查委员会(IRB)批准用于分析的数据。

将收集的数据转化为知识和结果

在所有选定的研究中，在将机器学习算法应用于数据之前，必须采取几个标准步骤。首先，对数据进行清理和预处理，以确保它们符合分析算法所需的形式。其次，关键特征(机器学习中的术语“特征”表示与建模问题相关的一组观察结果，通常以数字形式表示)[76])进行模型构建。总的来说，这包括特征提取和特征选择，生成用于学习和验证预测模型的特征集。

数据预处理

数据语料库通常通过(1)去除不合适的样本和(2)清洗和准备数据进行预处理。来自参与者的信息和问卷可能包含无用的数据和不完整的细节，为了提高预测和分类结果的准确性，通常会从研究中删除这些数据和细节。问卷完成时间过短或过长的受试者被排除在4项研究之外[38，39，66，67］.从8项研究中剔除了发表文章少于规定阈值的低活动参与者[26，32，34，37，39，55，59，71］.两项研究将两份不同问卷相关性较差的参与者排除在最终数据集中[38，67］.

作为资料清理过程的一部分，每篇文章均会被检查是否以书面语言为主(例如，英文字数最少占70%)[28，40，42，53，59，70])。这确保了现有的工具适合分析员额。每个帖子都经过预处理，去除停止词和不相关数据(例如，转发，标签，url)，小写字符和句子分割[31，44，46，53，56，60，66］.表情符号被转换成其他形式，例如ASCII码[45以确保数据是机器可读的。匿名化也被执行以删除任何潜在可识别的用户名[31，33，35，52，53，70］.

特征提取

有许多潜在的技术可以提取特征，用于预测社交网络用户的心理健康问题。一些研究试图调查社交网络的文本内容，以了解哪些因素包含精神障碍的线索。然而，一些研究项目使用了替代技术。在这篇综述中，我们确定了三种广泛的特征提取方法:文本分析、图像分析和社会互动。

在文本挖掘中，情感分析是一种流行的理解情感表达的工具。它用于将给定文本的极性划分为积极，消极和中性等类别[77］.几项研究[24，28，30.，32，34，39，49，50，52-55，57，60，65-68，70使用了著名的语言调查和单词计数(LIWC) [78]从文本内容中提取心理问题的潜在信号(例如，第一人称代词“我”或“我”或第二人称代词的词频，用户或帖子中使用的积极和消极情绪)。OpinionFinder [79]被Bollen等人[71]及SentiStrength [80]被Kang等人[27] Durahim和courikun [47进行情感分析。还开发了用于执行情感分析的定制工具。英语词汇的情感规范[81]在两项研究中被用来限定英语单词的情感强度[65，66]， 4项研究采用主题建模[28，29，38，39从用户生成的帖子中提取主题。

社交媒体上的帖子往往充斥着各种各样的表情符号。因此，一些研究[27，62研究了与它们的使用相关的意义和情绪状态。

除了发短信，社交网络平台还允许用户发图片。一些研究调查了这些图像以寻找精神障碍的线索[27，57］.使用颜色组合和尺度变化特征变换描述符技术提取每个单独图像的情感含义[27］.Lin等人分析了图像属性，包括色彩主题、饱和度、亮度、色温和色彩清晰度[57］.

最后，社交网络平台包含数百万用户之间的互动和关系。社交网络用户不仅可以连接和添加在线朋友，还可以发布、评论和回复他们的朋友。由此产生的图表结构，包括关于互动、关系和友谊的信息，被挖掘以理解与精神障碍症状相关的线索(例如，抑郁用户之间的互动和分类混合模式)[24，63，71］.

特征选择

特征选择分离出能够预测精神障碍症状或正确标记参与者的相关特征子集，同时避免过拟合。通常进行统计分析以发现一组参数，这些参数可以区分患有精神障碍的用户和没有精神障碍的用户。所选研究使用的技术为皮尔逊相关系数[36，55，56]，基于关联的特征选择[56]、Spearman等级相关系数[61和曼-惠特尼公司U测试(61］.采用主成分分析法对特征进行降维[35，58，65-67]、随机主成分分析[28]、卷积神经网络交叉自编码器技术[57]，向前的贪婪的逐步的[37]、二元逻辑回归[62]、增益比技术[56]和浮雕技术[56］.

预测模型构建

在选择的研究中，使用预测模型根据精神障碍和生活满意度对用户进行检测和分类。为了建立预测模型，选择一组特征作为机器学习算法的训练数据，从这些数据中学习模式。

本综述中包含的所有文章都使用了监督学习技术，其中样本数据包含输入和标记输出。模型从中学习，预测来自其他来源的未标记输入，并提供预测输出[82］.这些研究使用的技术包括支持向量机(SVM) [32，33，35，38，42，56，69]，线性支持向量机[24，27，41，46，60]，径向基函数核支持向量机[24，27，46，51，65-67］.回归技术包括脊回归[28]、线性回归[37，58]、对数线性回归[53，59]、逻辑回归[25，31，33，37，48，49，51]、弹性网正则化二元logistic回归[41，43]，逐步选择线性回归[39，55，64]，逐步逻辑回归与正向选择[50]，正则多项式逻辑回归[29]、线性支持向量回归[45，55]，最小绝对收缩和选择算子[55，68]和多元自适应回归样条曲线[55］.其他用于二值分类的算法有决策树[35，51，56，62，63]，随机森林[26，48，51]，规则决定[62]，朴素贝叶斯[24，35，51，56，62，69]， k近邻[24，56]，最大熵[42]，神经网络[69]、深度学习神经网络[57］.

模型验证

在模型构建之后，使用测试数据集测量其准确性。最常用的模型验证技术是n-fold交叉验证，它将数据集随机分为n相等的子集并继续迭代n时间，每个子集只用于验证一次，而其余的n -1个子集作为训练数据[82］.几项研究[26，31，35，37-43，49，51，56，67，69]采用10倍交叉验证对预测模型和分类器进行验证，4项研究采用5倍交叉验证[24，48，55，57］.留一交叉验证在2项研究中使用[30.，59］.

预测模型的性能也可以在其他数据集中进行评估。几项研究[27-29，33，45，46，49，58，60，64，68将收集到的数据集分为训练子集和测试子集，以衡量其模型的准确性。一些(47，48，53，54，66]收集了一个新的数据集来评估预测结果的准确性，并将预测结果与一组已知的统计数据(例如，美国城市的抑郁率、学生满意度调查和土耳其各省的国民幸福总值百分比)进行比较。

道德

使用社交网络数据进行研究的伦理方面仍然没有明确定义，特别是在处理公开信息时。因此，我们调查的研究采用了广泛的方法来处理伦理约束。

在本综述纳入的文章中，有9篇[30.，32，33，36，38，40，42，48，61]被作者的审查委员会批准，8 [34，36-38，48，50，55，61]报告在数据分析之前获得了参与者的知情同意。就从众包平台收集的公开资料而言，选择参与的参与者表示同意分享资料[67］.对于myPersonality数据，Liu等[34]表示，该数据集本身已获得IRB的批准，因此作者没有报告从其机构获得任何进一步的批准。Youyou等人[83]还得出结论，使用myPersonality数据不需要IRB批准。Chancellor等人[29没有寻求IRB的批准，因为他们的研究使用了Instagram数据，没有个人身份信息。

6项研究的研究人员[31，33，35，52，53，70报告称，从参与者那里收集的社交网络数据集是匿名的。O 'Dea等[33删除了用户名称、用户标识符和用户身份，收集的数据必须在3个月后进行分析。在3项研究中，推文中的姓名和用户名被删除或替换为其他文本[31，52，53］.Jamison-Powell等[70报道称，他们在发表的文章中删除了推文中的用户标识符。

这些模型的性能仍然是模糊和不稳定的。因此，这些研究都没有向参与者自己展示模型的预测输出。Schwartz等人[28]还指出，心理健康预测模型仍在开发中，不够准确，无法在实践中使用，而且很少研究用户对这类工具的接受程度。

主要研究结果

本综述的目的是调查从社交网络数据预测心理健康的机器学习技术的研究发展状况。本次审查还侧重于确定研究差距和潜在应用，以检测有心理健康问题的用户。尽管通过我们的搜索条件收集了数千篇文章，但我们的审查结果表明，使用机器学习模型从社交网络数据中预测心理健康问题的研究相对较少，但越来越多。从最初的匹配文章中，只有48篇符合我们的纳入标准并被选中进行审查。一些被排除的研究侧重于分析社交媒体使用对个人用户心理健康和幸福状态的影响，以及社交网络中的网络欺凌对其他用户的影响。

最令人惊讶的发现是什么?

从以上结果中，我们观察到相同的方法可以适用于分析不同语言的帖子。例如，津川等人[38改编了德乔杜里的方法[67]，原本设计用于分析英文文本内容，改为日文文本内容。两者都取得了相似的结果，尽管由于背景和文化的差异，有些结果有所不同。这个例子说明了同样的方法可以用来促进不同语言的学习。

几个站点被用作数据来源。Facebook可能是最受欢迎的社交网络平台。然而，只有少数研究依靠Facebook的数据集来预测精神障碍。其中一个原因可能是，默认情况下，该站点上的用户不会公开访问他们的个人资料。另一个原因是，从Facebook获取数据需要得到用户的同意。

从选定的研究中，我们可以认识到实验中使用的方法的一些优点和缺点。

数据收集

在被调查的文章中，Twitter是一个受欢迎的社交网络数据来源。它提供了两种不同的访问数据的方式:回顾性(使用他们的搜索api)和前瞻性(通过他们的流api)。回顾性访问允许对全部历史tweet进行正则表达式搜索，而前瞻性访问允许将搜索设置为捕获所有匹配的tweet。然而，基于特定过滤器的前瞻性搜索只允许访问所有实时公开推文的1%样本。Twitter提供了另一种资源Firehose，它可以提供对所有公开推文的实时搜索，正如在一些研究中使用的那样[65-68]，但只有通过付费订阅才能使用[84］.

在Facebook上进行的研究与在Twitter或新浪微博等微博平台上进行的研究存在一些重要差异。Facebook不允许开发者访问用户之间的互动和友谊。此外，用户必须明确同意允许应用程序共享他们的数据。因此，之前没有研究使用社交网络分析来衡量和预测Facebook数据中的心理健康问题。另一方面，微博网站允许访问这些数据。这些站点提供api，允许开发人员获取有关追随者和跟随者的信息，并构建交互用户的社交网络图。

在用户数据收集方面，通过参与者同意获取数据与使用正则表达式搜索相关帖子有所不同。前一种选择可以为我们提供参与者精神障碍患病率的真实结果。后一种方法减少了识别患有精神疾病的用户的时间和成本[59］.

特征提取技术

LIWC工具主要用于心理学研究中的文本分析。它从文本内容中提取文体词、情感词、词类等多种类别特征。它相对容易使用，不需要编程技能。用户只需选择并打开一个或一组文件，LIWC就会提取出每个特征的相关特征和值。然而，也有一些缺点。首先，LIWC是专有软件，用户必须购买许可证才能使用它。其次，该工具的特征库不易修改。要做到这一点，研究人员可能需要编程技能。

为了克服这些缺点，可以使用其他工具来提取特性。然而，这些工具有很大的局限性，它们只能提取一些特征。WordNet是一个大型英语词典，可用于从文本中提取词性并查找单词的语义[85］.SentiStrength评估文本信息中积极和消极词汇之间的极性，以及积极和消极词汇的强度水平[80］.OpinionFinder进行主观性、客观性和情感分析[79］.Mallet是一个有用的自然语言处理工具，用于对文档进行分类或聚类、创建主题和执行序列标记[86］.潜在狄利克雷分配是创建主题模型的一种有用而强大的技术。Latent Dirichlet allocation基于单词分布分析潜在主题，然后为每个文档分配一个主题[87］.使用词性标注器[Part-Of-Speech Tagger]对指定文本中的每个单词进行词性标注。88］.

可以做些什么来改善这个地区?

所选文章主要关注抑郁症，约占46%(22/48)，而17%(8/48)关注自杀。近15%(7/48)的文章报道了一项关于幸福和快乐的研究。其余的文章调查了产后抑郁症、饮食失调和创伤后应激障碍。值得注意的是，目前缺乏检测慢性压力和焦虑障碍的模型。在我们的样本中，只有1项研究建立了应力状态检测模型[57］.因此，这很可能成为未来研究的一个有趣的途径。如果使用者有长期的慢性压力，他或她可能会变得抑郁。例如，Hammen [89]的报告指出，慢性压力是抑郁症的症状来源，并可能发展成其他疾病。

此外，根据所选文章，没有一项研究使用了由医生或心理学家临床鉴定的实际精神疾病患者的社交网络数据。我们的综述中包括的大多数研究都是通过调查来评估精神障碍的，这对自我识别的偏见是开放的。促进计算机科学家和医生或心理学家之间更密切的合作将是一件有趣的事情，他们可以为诊断出精神障碍的患者提供帮助。这可能会提高数据的准确性和可靠性，使基于从真实患者的社交网络中提取的特征建立预测模型成为可能。然而，精神健康状况可能只会在患有这些疾病的特定患者中得到正式诊断，这可能会导致不同类型的偏见。

重要的是，这方面的研究可以从开放科学标准的采用中受益[90］.我们回顾的许多研究都是基于对来自社交网站或myPersonality项目的公开数据的分析。在一些研究中使用的部分材料在网上发布(例如，[28，32])或应要求提供(例如，[61])。然而，大多数研究并没有共享他们的整个计算工作流程，不仅包括数据集，还包括用于预处理和分析数据的特定代码。因此，未来的研究应符合促进透明度及公开性指引[912级(要求作者将数据和代码存储在可信的存储库中)或3级(也要求报告的分析在发表前独立复制)。当然，为了避免敏感个人信息的传播，在必要时应适当地识别数据集。

新趋势是什么?

下一代预测模型将包括更多的技术分析。大多数选择的研究依赖于文本分析。但是除了文本挖掘技术之外，其他方法也可以用来在收集的数据集中深入了解精神障碍。例如，图像分析可以用来从用户发布的图像中提取有意义的特征。面对精神障碍的用户可能会发布带有特定滤色器或内容的图片。在我们回顾的研究中，2发现情绪和颜色使用之间存在显著关系[92，93］.另一个有趣的技术是社会网络分析。在这篇综述中，我们选择了3项使用社会网络分析来检查心理健康的研究。然而，只有2项研究通过社会网络分析来分析精神障碍的症状[24，63]，而有一项研究探讨了幸福感[71］.一项研究报告称，抑郁症的症状可以通过社交网络观察到。换句话说，抑郁症可以通过每个人的朋友来检测[94］.这些例子表明，社交网络分析是一种很有前途的工具，可以调查在线用户中精神疾病的流行程度。

在回顾的研究中使用了广泛的机器学习算法。只有1项研究使用深度学习算法来构建分类器[57]，其余的则依靠支持向量机、回归模型和决策树来构建分类模型。预计随着深度学习技术的普及，这种情况将很快发生变化。然而，与回归和决策树等人类可解释的模型相反，深度学习模型是一个黑盒子，这就提出了是否有可能或确实有必要由临床专家验证这些算法的问题[95］.

正如这篇综述所显示的，现在有可能检测出有心理健康问题的社交网络用户。然而，需要开发一种支持方法来将这种创新转化为实践并为个人提供帮助。因此，需要建立机制，将数据科学工作与社交网络平台上的数字干预措施相结合，例如促进获得保健服务，提供实时干预措施[96]，提供有用的健康信息链接，并进行认知行为治疗[97)(见图2）.

伦理问题

本综述范围之外的几项研究在强调这一研究领域中伦理问题的重要性方面特别有用。例如，Facebook和康奈尔大学的研究人员98收集和使用Facebook的数据集，没有提供退出的可能性。根据美国联邦保护人类受试者政策(“共同规则”)，在美国进行的所有研究都必须为参与者提供选择退出。不过，私营公司不受此规则规管[99］.这项研究也没有得到康奈尔大学伦理审查委员会的批准，“因为这项实验是由Facebook公司进行的，用于内部目的，康奈尔大学伦理审查委员会确定该项目不属于康奈尔大学的人类研究保护计划”[99］.

另一项研究收集了Facebook上的公开帖子，并将数据集公开给互联网上的其他研究人员[One hundred.］.这些帖子是通过访问作者朋友的个人资料，并将其匿名化来手动收集的。但即便如此，这些帖子仍然很容易被识别出来[101］.

由于以人类为研究对象的隐私问题，互联网研究人员协会和其他作者不仅提出了在开始研究项目之前评估其伦理影响的伦理问题，而且还提出了消除和处理这些问题的具体指导方针[102，103］.

令人惊讶的是，很少有研究关注伦理问题。康威(104]提供了一个伦理概念的分类，以便在使用Twitter数据进行公共卫生研究时牢记在心。康威(104]和麦基[105审查并提出了使用公共Twitter数据的规范性规则，包括改写收集到的帖子，获得参与者的知情同意，隐藏参与者的身份，以及保护收集到的数据。Vayena等人明确提出了一些伦理问题，包括上下文敏感性、伦理和方法论的复杂性以及合法性要求[106］.

Mikal等[107]侧重于参与者在使用社会媒体进行人口健康监测方面的观点。作者报告说，大多数研究参与者同意将他们的公开帖子用于健康监测，并使用匿名数据，尽管他们也认为在某些情况下知情同意是必要的。

在这一研究领域中，减少访问和使用个人信息的伦理问题的一种方法是对收集的数据集进行匿名化，以防止识别参与者。Wilkinson等[103建议研究人员不应该直接引用已发表的消息或消息的公开url，因为这些可以用来识别内容创建者。苏拉(108]提供了处理社交媒体研究的策略，包括让参与者参与研究(不只是收集公共内容)，不收集个人身份信息(如社交网络个人资料名称)，为参与者提供选择退出的机会，并使研究结果易于参与者访问和理解。在大多数地方，任何收集人类参与者的私人信息(包括社交网络帖子)的研究都需要在收集数据之前向伦理委员会或伦理委员会提供项目信息，以获得批准[102，109］.

结论

本综述的目的是概述从社交网络数据预测心理健康的机器学习技术的最新研究进展。大多数选定的研究使用文本分析来解决这个问题。然而，一些研究也依赖于图像分析和社会网络分析，从社会网络数据集中获得对心理健康问题的见解。预测模型和二元分类器可以基于从所有这些技术中获得的特征进行训练。根据我们选择的文章，应用预测机器学习模型来检测真实社交网络中患有精神障碍的用户的研究相对较少。展望未来，这项研究可以帮助设计和验证新的分类模型，用于检测患有精神疾病的社交网络用户，并推荐合适的个性化干预措施。这些干预措施可能以广告、信息链接、在线咨询或认知行为治疗的形式提供;例如，Facebook正在考虑向被认为有自杀风险的用户提供实时在线帮助[117］.然而，所提供的社会网络数据的可靠性和这种干预措施的普遍可取性应该与用户仔细研究。

随着智能数据采集设备(如移动电话、智能手表和健身配件)的进步，未来的研究可以将身体症状(如运动、心脏体征或睡眠模式)与在线社交网络活动结合起来，以提高预测的准确性和可靠性。最后，有兴趣在这一领域进行研究的学者应该特别关注人类受试者研究和社交媒体数据隐私的伦理问题，因为伦理委员会和更广泛的公众仍然没有完全理解这些问题。

致谢

AW由泰国皇家政府全额奖学金资助攻读博士学位，MAV由马德里科学基金会2016-T1/SOC-1395资助。这项研究得到了英国国家健康研究所(NIHR)生物医学研究中心的支持，该中心位于盖伊和圣托马斯NHS基金会信托基金和伦敦国王学院。所表达的观点是作者的观点，不一定是国家卫生服务、国家卫生研究院或卫生部的观点。本文的开放获取由伦敦国王学院资助。我们要感谢Elizabeth Ford博士在定稿时提供的有用意见。

利益冲突

没有宣布。

‎

多媒体附录1

所选文章的方法摘要。

PDF档案(adobepdf档案)，179KB

Marcus M, Yasamy M, van Ommeren OM, Chisholm D.抑郁症:全球公共卫生问题。瑞士，日内瓦:世界卫生组织，精神卫生和药物滥用司;2012.URL:http://www.who.int/mental_health/management/depression/who_paper_depression_wfmh_2012.pdf[访问日期:2016-08-24][WebCite缓存]
McManus S, Meltzer H, Brugha T, Bebbington P, Jenkins R.英国成人精神疾病发病率:家庭调查结果。利兹，联合王国:国民保健制度卫生和社会保健信息中心;2007.
Bloom D, Cafiero E, jan - llopis E, Abrahams-Gessel S, Bloom R, Fathima S，等。非传染性疾病的全球经济负担。:世界经济论坛;2011.URL:http://www3.weforum.org/docs/WEF_Harvard_HE_GlobalEconomicBurdenNonCommunicableDiseases_2011.pdf[访问日期:2012-11-26][WebCite缓存]
汉密尔顿M.原发性抑郁症评定量表的研制。[J]中华临床医学杂志，1997,6(4):368 - 368。［Medline]
郑氏WWK。抑郁自评量表。Arch general Psychiatry 1965 Jan 01;12(1):63。［CrossRef]
Radloff LS。CES-D量表:一种用于普通人群研究的自我报告抑郁量表。中华心理医学杂志，1997;1(3):385-401。［CrossRef]
Kaplan AM, Haenlein M.全世界的用户，团结起来!社交媒体的挑战与机遇。巴士地平线2010年1月53(1):59-68。［CrossRef]
Barbier G, Liu H.社交媒体数据挖掘。编辑:Aggarwal CC。社交网络数据分析。第六卷，第七卷。纽约:斯普林格出版社;2011:327 - 352。
Facebook。Facebook公布2016年第二季度业绩。2016.URL:https://investor.fb.com/investor-news/press-release-details/2016/Facebook-Reports-Second-Quarter-2016-Results/default.aspx[访问日期:2016-12-21][WebCite缓存]
Twitter。Twitter的使用和公司的情况。2016.URL:https://about.twitter.com/company[访问日期:2016-12-21][WebCite缓存]
Khadjeh Nassirtoussi A, Aghabozorgi S, Ying Wah T, Ngo DCL。市场预测的文本挖掘:系统回顾。专家系统应用，2014,11,41(16):7653-7670。［CrossRef]
于青，杨晓明，刘建军。基于极限学习机的破产预测方法。计算机科学与技术(英文版);2012;［CrossRef]
Jungherr a . Twitter在竞选活动中的使用:系统的文献综述。信息技术学报，2015,21(1):72-91。［CrossRef]
王涛，鲁丁·C，瓦格纳·D，塞维里·R.学习识别犯罪模式。编辑:blokeel H, Kersting K, Nijssen S, Zelezny F。数据库中的机器学习和知识发现。Ecml PKDD 2013。计算机科学课堂讲稿。8190卷。柏林，德国:施普林格出版社;2013:515 - 530。
Kaur H, Wasan SK.数据挖掘技术在医疗保健中的应用实证研究。计算机科学[J]; 2006;2(2):194-200。［CrossRef]
cort R, Bonnaire X, Marin O, Sens P.医疗传感器数据流处理:从大数据的角度研究用户轨迹以识别挑战。计算机学报，2015;32(2):1004-1009。［CrossRef]
杨建军，李建军，刘建军，等。电子健康档案的研究与应用。中国农业科学，2012(6):395-405。［CrossRef] [Medline]
贺兰M，霍希戈塔塔TM, Wald R.数据挖掘在健康信息学中的应用综述。大数据学报;2014;1(1):2。［CrossRef]
Moreno MA, Jelenchick LA, Egan KG, Cox E, Young H, Gannon KE，等。在Facebook上感觉很糟糕:大学生在社交网站上披露的抑郁情况。抑郁焦虑2011 Jun;28(6):447-455 [j]免费全文] [CrossRef] [Medline]
李建军，张建军，张建军，张建军，等。关于报告评价卫生保健干预措施的研究的系统审查和荟萃分析的PRISMA声明:解释和阐述。PLoS Med 2009;6(7):e1000100 [j]免费全文] [CrossRef] [Medline]
国家健康和护理卓越研究所。常见的精神健康问题:识别和护理途径。2011年5月。URL:https://www.nice.org.uk/guidance/cg123[访问日期:2017-03-13][WebCite缓存]
宾夕法尼亚大学积极心理学中心。世界福祉计划。费城:宾夕法尼亚大学积极心理学中心;2017.URL:http://www.wwbp.org/[访问日期:2017-03-05]WebCite缓存]
Robinson J, Cox G, Bailey E, Hetrick S, Rodrigues M, Fisher S，等。社交媒体与自杀预防:一项系统综述。早期访谈精神病学2015年2月19:103-121。［CrossRef] [Medline]
王涛，Brede M, Ianni A, Mentzakis E.社交媒体上饮食失调社区的检测和特征。2017年发表于:第十届ACM网络搜索和数据挖掘国际会议- WSDM ' 17;2017年2月6日至10日;剑桥，英国，第91-100页。［CrossRef]
张建军，张建军，张建军，等。社交媒体对大学生心理健康的影响研究[j]。编辑:Spiro E, Ahn YY。社会信息。SocInfo 2016。计算机科学课堂讲稿。10046卷。Cham，瑞士:Springer;2016:510 - 526。
陈毅，陈毅，陈毅。基于社交媒体的精神疾病检测与分析。2016年发表于:IEEE/ACM社会网络分析与挖掘进展国际会议(ASONAM);2016年8月18-21日;旧金山，加州，美国第1418-1421页。［CrossRef]
姜坤，尹超，金娥。基于多模态分析的Twitter抑郁用户识别。2016年演讲:大数据与智能计算国际会议(BigComp);2016年1月18-20日;中国香港，第18-20页。［CrossRef]
施瓦茨HA, Sap M, Kern ML, Eichstaedt JC, Kapelner A, Agrawal M，等。通过社交媒体语言预测个人幸福。中国生物医学工程学报，2016;21 (2):516-527 [j]免费全文] [Medline]
Chancellor S, Lin Z, Goodman E, Zerwas S, De Choudhury CM。量化和预测在线支持饮食失调社区的精神疾病严重程度。发表于:第19届ACM计算机支持的协同工作与社会计算会议;2016年2月27日至3月2日;旧金山，加州，美国第1171-1184页。［CrossRef]
张建军，张建军，张建军，张建军。验证Twitter数据的机器学习算法，以对抗已建立的自杀率指标。中华医学杂志;2016年5月16日;3(2):e21 [j]免费全文] [CrossRef] [Medline]
葛佩史密斯G, Ngo K, Leary R, Wood a .社交媒体对自杀倾向的探索性分析。2016年第三届计算语言学与临床心理学研讨会:从语言信号到临床现实;2016年6月16日;圣地亚哥，加州，美国第106-117页。
吕敏，李安，刘涛，朱涛。创建中文自杀词典，用于识别社交媒体上的自杀风险。中国医学工程学报，2015;3:555 [j]免费全文] [CrossRef] [Medline]
O'Dea B, Wan S, Batterham PJ, Calear AL, Paris C, Christensen h。互联网访谈2015年5月;2(2):183-188。［CrossRef]
刘鹏，Tov W, Kosinski M, Stillwell DJ，邱玲。Facebook状态更新是否反映主观幸福感?网络心理行为学报;2015;18(7):373-379。［CrossRef] [Medline]
Burnap P, Colombo W, Scourfield J. Twitter上自杀相关通信的机器分类和分析。2015，第26届ACM超文本与社交媒体会议;2015年9月1-4日;北塞浦路斯Guzelyurt，第75-84页。［CrossRef]
朴诗，金一，李诗，刘杰，郑波，车明。抑郁与孤独感在社交网络中的表现。发表于:第18届ACM计算机支持协同工作与社会计算会议- CSCW ' 15;2015年3月14-18日;温哥华，不列颠哥伦比亚省，加拿大第14-18页。［CrossRef]
胡强，李安，恒峰，李军，朱涛。不同观察窗对社交媒体用户抑郁的预测。2015年出席IEEE/WIC/ACM Web智能与智能代理技术国际会议;2015年12月6日至9日;第361-364页。［CrossRef]
Tsugawa S, Kikuchi Y, Kishino F, Nakajima K, Itoh Y, Ohsaki H.从Twitter活动中识别抑郁症。2015年发表于:第33届ACM计算系统中人因会议;2015年4月18日至23日;首尔，大韩民国，3187-3196页。［CrossRef]
张丽，黄霞，刘涛，李安，陈志，朱涛。基于语言特征的中国微博用户自杀概率估计。见:祖强，胡斌，顾宁，Seng S，编辑。以人为本的计算。2014年肝癌。计算机科学课堂讲稿。8944卷。Cham，瑞士:Springer;2015:549 - 559。
郭晓明，王晓明，王晓明，等。从ADHD到SAD:通过自我诊断分析Twitter上的心理健康语言。2015年出席:第二届计算语言学与临床心理学研讨会:从语言信号到临床现实;2015年6月5日;美国科罗拉多州丹佛第1-10页。
李建军，李建军，李建军，等。世界健康项目中心理疾病检测的研究进展。2015年出席:第二届计算语言学与临床心理学研讨会:从语言信号到临床现实;2015年6月5日;丹佛，科罗拉多州，美国第40-45页。
李建军，杨建军。社交媒体对精神分裂症患者的影响。2015年出席:第二届计算语言学与临床心理学研讨会:从语言信号到临床现实;2015年6月5日;美国科罗拉多州丹佛，第11-20页。
李建军，李建军，李建军，等。性格、年龄和性别在推特上关于精神疾病的角色。2015年出席:第二届计算语言学与临床心理学研讨会:从语言信号到临床现实;2015年6月5日;丹佛，科罗拉多州，美国第21-30页。［CrossRef]
用词汇决策表筛选Twitter用户是否患有抑郁症和PTSD。2015年出席:第二届计算语言学与临床心理学研讨会:从语言信号到临床现实;2015年6月5日;美国科罗拉多州丹佛第46-53页。
张建军，张建军，张建军，张建军。基于监督话题模型的推特抑郁相关语言建模研究。2015，中国计算机科学与工程学报(自然科学版);2015年6月5日;丹佛，科罗拉多州，美国第99-107页。
张建军，张建军，张建军，张建军，张建军，张建军，张建军，张建军。2015年出席:第二届计算语言学与临床心理学研讨会:从语言信号到临床现实;2015年6月5日;丹佛，科罗拉多州，美国第54-60页。
Durahim AO, comurikun M. #iamhappybecause:通过Twitter分析和大数据得出的国民幸福总值。技术预测Soc变化2015;Oct;99:92-105。［CrossRef]
关丽，郝斌，程强，叶培生，朱涛。基于网络特征和语言特征的中国微博高自杀概率用户识别:分类模型。中华医学杂志;2015;2(2):e17 [j]免费全文] [CrossRef] [Medline]
Landeiro Dos Reis V, cullotta A.使用匹配样本从Twitter估计运动对心理健康的影响。2015年发表于:第29届AAAI人工智能会议;2015年1月25-30日;奥斯汀，德克萨斯州，美国第182-188页。
De Choudhury M, Counts S, Horvitz E, Hoff A.基于Facebook共享数据的产后抑郁特征与预测。发表于:第17届ACM计算机支持的协同工作与社会计算会议- CSCW ' 14;2014年2月15日至19日;巴尔的摩，马里兰州，美国第626-638页。［CrossRef]
黄霞，张丽，邱丹，刘涛，李霞，朱涛。基于心理词汇的中文微博自杀意念检测。2014年IEEE可扩展计算与通信国际会议及其相关研讨会;2014年12月9-12日;巴厘岛，印度尼西亚，第844-849页。［CrossRef]
Wilson M, Ali S, Valstar M.在微博平台上寻找心理健康信息。2014年发表于:第五届信息互动语境研讨会;2014年8月26日至30日;雷根斯堡，德国，第8-17页。［CrossRef]
郭晓明，陈晓明，陈晓明，等。Twitter中创伤后应激障碍的研究。2014，发表于第8届AAAI网络日志与社交媒体学术会议;2014年6月2-4日;美国密歇根州安娜堡，第23-45页。
邝超，刘震，孙敏，于峰，马鹏。基于大规模微博数据的中国人幸福感量化研究。2014年发表于:Web信息系统与应用会议;2014年9月12-14日;天津，中国，第227-230页。［CrossRef]
郝波，李丽，高锐，李安，朱涛。基于社交媒体的主观幸福感感知。In: Slezak D, Schaefer G, Vuong ST, Kim YS，编辑。主动媒体技术。AMT 2014。计算机科学课堂讲稿。8610卷。Cham，瑞士:Springer;2014:324 - 335。
Prieto VM, Matos S， Álvarez M, Cacheda F, Oliveira JL。Twitter:一个检测健康状况的好地方。科学通报，2014;9(1):1 - 6 [j]免费全文] [CrossRef] [Medline]
林海，贾军，郭强，薛毅，李强，黄健，等。基于深度神经网络的社交媒体用户心理压力检测。2014年出席:第22届ACM多媒体国际会议;2014年11月3-7日;奥兰多，佛罗里达州，美国第507-516页。［CrossRef]
李建军，李建军，李建军，等。2014年发表于:计算语言学与临床心理学研讨会:从语言信号到临床现实2014年6月27日;巴尔的摩，马里兰州，美国第118-125页。
Coppersmith G, Dredze M, Harman C. Twitter的心理健康信号量化。2014，第二届计算语言学与临床心理学研讨会:从语言信号到临床现实;2014年6月27日;巴尔的摩，马里兰州，美国第51-60页。［CrossRef]
刘涛，李建军，李建军，刘建军。自杀预防的宏观视角研究——基于心理健康的心理健康研究[j]。2014年出席:计算语言学与临床心理学研讨会:从语言信号到临床现实;2014年6月27日;巴尔的摩，马里兰州，美国，第107-117页。
Park S, Lee SW, Kwak J, Cha M, Jeong B. Facebook上的活动揭示了用户的抑郁状态。中国医学杂志，2013;15(10):e217 [J]免费全文] [CrossRef] [Medline]
王欣，张超，季艳，孙玲，吴玲，包志安。基于微博社交网络情感分析的抑郁检测模型。编辑:李俊，曹磊，王超，陈谭科，刘波，裴杰，等。知识发现与数据挖掘的趋势与应用。PAKDD 2013。计算机科学课堂讲稿。7867卷。柏林，德国:施普林格出版社;2013:201 - 213。
王欣，张超，孙磊。一种改进的微博社交网络抑郁检测模型。2013年发表于:IEEE第13届数据挖掘国际会议;2013年12月7-10日;达拉斯，德克萨斯州，美国第80-87页。［CrossRef]
Tsugawa S, Mogi Y, Kikuchi Y, Kishino F, Fujita K, Itoh Y，等。利用推特数据估计推特用户的抑郁倾向。2013年发表于:IEEE Virtual Reality;2013年3月18-20日;美国佛罗里达州布埃纳维斯塔湖。［CrossRef]
De Choudhury M, Counts S, Horvitz E.通过社交媒体预测产后情绪和行为的变化。2013年在SIGCHI计算机系统人为因素会议上发表演讲;2013年4月27日至5月2日;巴黎，法国，3267-3276页。［CrossRef]
De Choudhury M, Counts S, Horvitz E.社交媒体作为人群抑郁的测量工具。2013年发表于:第五届ACM网络科学年会;2013年5月2日至4日;巴黎，法国，第47-56页。［CrossRef]
De Choudhury M, Gamon M.通过社交媒体预测抑郁症。2013年发表于:第七届国际AAAI博客和社交媒体会议;2013年7月8-11日;剑桥，马萨诸塞州，美国第128-137页。
施瓦兹H, Eichstaedt J, Kern M, Dziurzynski L, Lucas R, Agrawal M，等。利用推特表征幸福的地理差异。2013年发表于:第七届国际AAAI博客和社交媒体会议;2013年7月8-11日;剑桥，马萨诸塞州，美国。
郝波，李丽，李安，朱涛。社交媒体对心理健康状况的预测。编辑:Rau PLP。跨文化设计。日常生活中的文化差异。CCD 2013。计算机科学课堂讲稿。8024卷。柏林，德国:施普林格出版社;2013:101 - 110。
Jamison-Powell S, Linehan C, Daley L, Garbett A, Lawson S.“我不能没有睡眠”:在Twitter上讨论#失眠。2013年发表于:SIGCHI计算系统中的人为因素会议;2012年5月5日至10日;奥斯汀，德克萨斯州，美国第1501-1510页。［CrossRef]
王晓明，王晓明，王晓明。网络社交网络中幸福感的分类研究。艺术生活2011;17(3):237-251。［CrossRef] [Medline]
塞利格曼议员。《繁荣:对幸福和幸福的新理解》。伦敦，英国:自由出版社;2011.
Coppersmith G, Dredze M, Harman C, Hollingshead K, Mitchell M. CLPsych 2015在Twitter上分享任务抑郁和创伤后应激障碍。2015，发表于:第二届计算语言学与临床心理学研讨会:从语言信号到临床现实2015年6月5日;美国科罗拉多州丹佛，第31-39页。
陈建军，陈建军，李建军，等。2013 .基于人工智能的人工智能系统研究。2008年4月5日至10日;佛罗伦萨，意大利第453-456页。［CrossRef]
Kosinski M, Matz SC, Gosling SD, Popov V, Stillwell D. Facebook作为社会科学研究工具:机遇、挑战、伦理考虑和实践指导。心理学报，2015;70(6):543-556。［CrossRef] [Medline]
赵超基，胡国荣，王志强，等。基于递归数据挖掘的角色识别方法。2008年发表于第五届软计算跨学科科学技术国际会议(CSTST ' 08);2008年10月28日至31日;Cergy-Pontoise, France . 217-225页。［CrossRef]
朱霞，Mohammad S.非正式短文本情感分析。[J]中国生物医学工程学报，2014;50:723-762。［CrossRef]
Tausczik YR, Pennebaker JW。词的心理意义:LIWC与计算机文本分析方法。心理学报，2009;29(1):24-54。［CrossRef]
Wilson T, Hoffmann P, Somasundaran S, Kessler J, Wiebe J, Choi Y，等。OpinionFinder:主观性分析系统。2005年发表于:HLT/EMNLP互动演示;2005年10月7日温哥华，不列颠哥伦比亚省，加拿大第34-35页。［CrossRef]
张建军，刘建军，张建军，张建军。非正式短文本情感强度检测。[J]中国科学技术与工程学报，2010,31(12):544- 558。［CrossRef]
李建平，李建平。英语词汇的情感规范:指导手册与情感评分。技术报告C-佛罗里达州盖恩斯维尔:佛罗里达大学心理生理学研究中心;1999.URL:http://www.uvm.edu/pdodds/teaching/courses/2009-08UVM-300/docs/others/everything/bradley1999a.pdf[访问日期:2016-08-29][WebCite缓存]
刘建军，刘建军，刘建军，等。机器学习的基本原理。马萨诸塞州剑桥:麻省理工学院出版社;2012.
Youyou W, Kosinski M, Stillwell D.基于计算机的人格判断比人类做出的更准确。中国科学院学报，2015,01 (4):1036-1040 [j]免费全文] [CrossRef] [Medline]
Morstatter F, Pfeffer J, Liu H, Carley K.样品是否足够好?比较Twitter的流媒体API和Twitter的Firehose的数据。帕洛阿尔托，加利福尼亚州:AAAI出版社;2013年发表于:第七届国际AAAI博客和社交媒体会议。ICWSM 2013;2013年7月8-11日;波士顿，马萨诸塞州，美国p. 400-408https://arxiv.org/pdf/1306.5204.pdf
米勒GA。一个英语词汇数据库。通讯ACM 1995年11月;38(11):39-41。［CrossRef]
McCallum正义与发展党。MALLET:一个机器学习语言工具包。2002.URL:https://people.cs.umass.edu/~mccallum/mallet/[访问日期:2017-06-06][WebCite缓存]
李建平，李建平，李建平，等。[J] .机器学习学报，2003;3(1):993-1022。
李建军，李建军，李建军，等。一种基于循环依赖网络的词性标注。2003年发表于:计算语言学协会北美分会人类语言技术会议(NAACL ' 03);2003年5月27日至6月1日;埃德蒙顿，AB，加拿大第173-180页。［CrossRef]
C.压力和抑郁。中华精神病学杂志，2005;1(3):391 - 391。［CrossRef] [Medline]
Stodden V, McNutt M, Bailey DH, Deelman E, Gil Y, Hanson B，等。提高计算方法的可重复性。Science 2016年12月9日;354(6317):1240-1241。［CrossRef] [Medline]
Nosek BA, Alter G, Banks GC, Borsboom D, Bowman SD, Breckler SJ，等。促进开放的研究文化。Science 2015 Jun 26;348(6242):1422-1425 [j]免费全文] [CrossRef] [Medline]
张晓明，张晓明。色彩对情绪的影响。[J]中华精神病学杂志;2009;31(4):394- 394。［Medline]
罗瑞峰，戴勇，史丹利。贝克抑郁量表对颜色选择与抑郁关系的研究。感知技能1995年12月;81(3):1195-1200。［CrossRef] [Medline]
罗森奎斯特JN，福勒JH，克里斯塔基斯NA。抑郁症的社会网络决定因素。Mol Psychiatry 2011;16(3):273-281 [j]免费全文] [CrossRef] [Medline]
Castelvecchi D.我们能打开AI的黑匣子吗?Nature 2016 Dec 06;538(7623):20-23。［CrossRef] [Medline]
Balatsoukas P, Kennedy CM, Buchan I, Powell J, Ainsworth J.社会网络技术在在线健康促进中的作用:影响干预效果的理论和实证因素的叙事回顾。医学互联网研究，2015;17(6):e141 [J]免费全文] [CrossRef] [Medline]
Rice SM, Goodall J, Hetrick SE, Parker AG, Gilbertson T, Amminger GP，等。在线和社交网络干预治疗青少年抑郁症:系统综述。中国医学杂志，2014;16(9):e206 [J]免费全文] [CrossRef] [Medline]
Kramer ADI, Guillory JE, Hancock JT。社交网络中大规模情绪传染的实验证据。中国科学:自然科学，2014 (6);31 (6):888 - 890 [j]免费全文] [CrossRef] [Medline]
时我。关注的编辑表达:通过社交网络大规模情绪感染的实验证据。美国科学学报，2014,07,22;111(29):10779 [j]免费全文] [CrossRef] [Medline]
Lewis K, Kaufman J, Gonzalez M, Wimmer A, Christakis N.品味，关系和时间:一个新的基于Facebook.com的社交网络数据集。社交网络2008;30(4):330-342。［CrossRef]
齐默·m:“但数据已经公开了”:论Facebook的研究伦理。信息科技学报，2010;12(4):313-325。［CrossRef]
马建军，李建军。网络研究与伦理决策:来自air伦理工作委员会的建议(2.0版)。:互联网研究人员协会;2012.URL:http://aoir.org/reports/ethics2.pdf[2016-09-23访问][WebCite缓存]
魏京生，刘志强。公共网络中个人信息的研究:方法与伦理。社会科学与计算，2010,17,29(4):387-401。［CrossRef]
使用Twitter进行公共卫生监督和研究的伦理问题:从研究文献中发展伦理概念的分类。中国医学杂志，2014;16(12):e290 [J]免费全文] [CrossRef] [Medline]
在健康和医疗保健研究中使用社交媒体的伦理问题。卫生政策2013年5月;110(2-3):298-301。［CrossRef] [Medline]
Vayena E, salatherom, Madoff LC, Brownstein JS。大数据在公共卫生中的伦理挑战。科学通报，2015;11(2):e1003904 [j]免费全文] [CrossRef] [Medline]
米卡尔J，赫斯特S，康威M.使用Twitter进行人口水平抑郁监测的伦理问题:一项定性研究。BMC医学伦理2016年4月14日;17:22 [免费全文] [CrossRef] [Medline]
大数据时代的研究伦理。信息科学技术学报，2016,01;42(2):17-21。［CrossRef]
心理学研究伦理准则工作组。人类研究伦理准则。莱斯特，英国:英国心理学会;2010.URL:http://www.bps.org.uk/sites/default/files/documents/code_of_human_research_ethics.pdf[访问日期:2016-11-23]WebCite缓存]
李永旭，杨永旭，李建军，李建军，等。通过分析临床记录文本预测自杀风险。PLoS ONE 2014; 28;9(3):e85733。［CrossRef] [Medline]
李建军，李建军，李建军，等。基于语言的认知障碍检测方法。IEEE Trans Audio Speech Lang Process 2011 Sep 01;19(7):2081-2090 [j]免费全文] [CrossRef] [Medline]
Fraser KC, Meltzer JA, Graham NL, Leonard C, Hirst G, Black SE，等。叙述性言语文本中原发性进行性失语症亚型的自动分类。2014年6月;55:43-60。［CrossRef] [Medline]
刘建军，李建军，李建军。基于面部图像分析的青少年抑郁预测研究。2011:第十二届多媒体交互服务图像分析国际研讨会;2011年4月13日至15日;代尔夫特，荷兰。
古普塔R, Malandrakis N, Xiao B, Guha T, Van SM, Black M等。人机交互中情感维度和抑郁的多模态预测。2014年发表于:第四届国际视听情感挑战研讨会(AVEC ' 14);2014年11月7日;奥兰多，佛罗里达州，美国第33-40页。［CrossRef]
刘建军，张建军，张建军，等。基于微博的社交圈子与处方药滥用研究。中国医学杂志，2013;15(9):e189 [J]免费全文] [CrossRef] [Medline]
Berry N, Lobban F, Belousov M, Emsley R, Nenadic G, Bucci S. # why wetweetmh:了解为什么人们使用Twitter来讨论心理健康问题。医学互联网研究，2017年04月05日;19(4):e107 [J]免费全文] [CrossRef] [Medline]
Guadagno J, Davis A. Facebook, 2017。用新的自杀预防工具建立一个更安全的社区http://newsroom.fb.com/news/2017/03/building-a-safer-community-with-new-suicide-prevention-tools/[访问日期:2017-03-14][WebCite缓存]

‎

API:应用程序编程接口

CLPsych:计算语言学和临床心理学研讨会

IRB:院校审查委员会

LIWC:语言探究和字数统计。

网:医学主题词

强迫症:强迫症

棱镜:系统评价和荟萃分析的首选报告项目

创伤后应激障碍:创伤后应激障碍

支持向量机:支持向量机

韦伯编辑;提交22.12.16;De Choudhury, G Coppersmith, C Giraud-Carrier的同行评审;对作者06.02.17的评论;修订版本收到14.03.17;接受27.04.17;发表29.06.17

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

社交媒体时代的精神健康障碍研究:系统综述