这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,但必须适当引用首次发表在《JMIR公共卫生与监测》上的原文。必须包括完整的书目信息,http://publichealth.www.mybigtv.com上的原始出版物链接,以及版权和许可信息。
可改变的危险健康行为,如吸烟、过度饮酒、超重、缺乏体育活动和不健康的饮食习惯,是发展成慢性健康疾病的一些主要因素。社交媒体平台已经成为数字时代不可或缺的交流手段。它们为个人提供了一个机会,让他们表达自己的看法,并与同龄人和卫生保健提供者分享他们对危险行为的健康方面的关切。这种同伴间的互动可以作为有价值的数据来源,以更好地理解个人之间和个人内部的社会心理媒介以及驱动行为改变的社会影响机制。
本综述的目的是总结计算和定量技术,以促进分析通过社交媒体平台上与风险健康行为相关的同伴交互产生的数据。
我们在2020年9月通过搜索pubmed、Web of Science和scopus三个数据库,使用相关关键词,如“社交媒体”、“在线健康社区”、“机器学习”、“数据挖掘”等,对文献进行了系统回顾。研究报告遵循PRISMA(系统回顾和荟萃分析首选报告项目)指南。两名审稿人根据纳入和排除标准独立评估了研究的合格性。我们从选定的研究中提取了所需的信息。
最初的搜索总共返回了1554篇研究,在仔细分析标题、摘要和全文之后,总共有64篇研究被纳入了这篇综述。我们从所有研究中提取了以下关键特征:用于进行研究的社交媒体平台、研究的风险健康行为、分析的帖子数量、研究重点、用于数据分析的关键方法功能和工具、使用的评价指标,以及主要发现的总结。最常用的社交媒体平台是Twitter,其次是Facebook、QuitNet和Reddit。研究中最常见的危险健康行为是尼古丁使用,其次是药物或物质滥用和酒精使用。各种有监督和无监督机器学习方法被用于分析在线同伴交互生成的文本数据。很少有研究使用深度学习方法来分析文本数据以及图像或视频数据。在一些研究中,也进行了社会网络分析。
我们的综述巩固了分析风险健康行为的方法论基础,并增强了我们对如何利用社交媒体进行细微差别的行为建模和表示的理解。从我们的审查中获得的知识可以作为发展有说服力的健康沟通和针对个人和人群层面的有效行为修正技术的基础组成部分。
可改变的危险健康行为,如吸烟、过度饮酒、超重、缺乏体育活动和不健康的饮食习惯,是导致慢性健康状况的一些主要因素[
最近,社交媒体已成为研究和分析健康相关行为并促进行为改变的可行平台[
社交媒体通过其各种移动和基于网络的技术,为个人和社区提供了交互式平台,以想法、消息或信息的形式分享、创建、修改和讨论内容[
因此,社交媒体已成为公共卫生领域的一个重要组成部分,因为医疗保健消费者越来越多地使用这些平台来获取各种与健康相关的主题的知识,并与同龄人和医疗保健提供者互动,以获得社会支持,主要是信息和情感方面的支持[
这些在线平台可以大致分为两大类:(1)开放的社交媒体平台(如Facebook、Twitter和Reddit),这是用于社交、信息共享和协作的通用平台;(2)有意设计的与健康相关的社交媒体平台(如QuitNet [
传统的定性数据分析方法不利于分析社交媒体平台产生的大量数据。自动化文本分析的最新进展为我们提供了分析社交媒体平台生成的数字内容的合适方法。最新的综述强调了目前应用于医疗保健领域的计算技术的突破,包括数字化数据采集、机器学习(ML)技术和计算基础设施[
本综述的目的是总结计算和定量方法,强调使用社交媒体作为研究工具(smarart)的潜力,以了解与危险健康行为的预防和管理相关的个人间和个人内部心理社会因素的模式。这些方法可以全面了解最常见的做法、它们的效用、局限性和由此产生的推论,从而为卫生研究人员提供更好地大规模描述卫生行为的能力。通过可扩展的技术,如量身定制的信息传递和有说服力的环境设计,将数据驱动的见解转化为实际的公共卫生解决方案,从这些次级分析中获得的更深刻的理解最终可注入有效行为干预措施的设计过程。
我们对相关文献进行了系统回顾,总结了分析用于研究危险健康行为的社交媒体数据的计算和定量方法。我们遵循PRISMA(系统评审和荟萃分析首选报告项目)概述的指南[
我们搜索了2020年9月的文献,收集了2011年至2020年9月11日发表的研究。我们使用一组特定的关键词搜索了三个不同的数据库——pubmed、Web of Science和scopus。我们的搜索关键词位于两个关键集群的交叉点:社交媒体和ML。我们还为相关关键词添加了医学主题标题(MeSH),以确保我们的搜索尽可能具有包容性。使用以下查询进行搜索:(“社交媒体”[MeSH]或“社交媒体”或“在线健康社区”或“在线社交网络”或“在线社交网络”或“点对点”或“同伴影响”[MeSH])和(“机器学习”[MeSH]或“机器学习”或“文本挖掘”或“自然语言处理”[MeSH]或“自然语言处理”或“数据挖掘”[MeSH]或“数据挖掘”或“网络模型”)。此外,我们还检查了符合我们的纳入标准的研究参考列表,以寻找任何其他来源。
确定研究是否有资格接受评审的纳入和排除标准列于
入选标准:
研究人员进行了原创研究,并发表在同行评审期刊上。
研究使用了基于英语的社交媒体平台(即生成的内容的语言是英语)。
研究使用计算或定量方法进行了大规模的数据分析,如机器学习技术、网络建模和/或可视化技术。
研究集中在患者或健康消费者的危险健康行为或相关态度或信念,如尼古丁使用、酒精使用、药物或药物滥用、体育活动或不活动模式,或与肥胖相关的行为。
研究主要集中在分析来自在线社交媒体平台的文本内容(例如,YouTube评论而不是YouTube视频)。
排除标准:
研究描述了社交媒体平台的其他用途(如招聘和数据收集)。
研究的重点是卫生保健提供者,而不是患者或健康消费者。
研究集中在与健康无关的行为上。
两位作者(TS和SM)在两个阶段根据纳入标准独立评估检索的研究。在第一阶段,作者回顾了所有检索到的研究的标题和摘要,以纳入全文筛选。在第二阶段,作者对第一阶段确定的相关研究进行了全文筛选,以最终纳入本综述。分歧通过两位作者的讨论得到了解决。在两个阶段都计算了评价者之间的一致性,Cohen κ。在筛选了符合纳入标准的研究之后,我们从正文中提取了相关数据,包括以下内容:
所研究的危险健康行为,如尼古丁使用、酒精使用、药物或药物滥用、身体活动或不活动模式、与肥胖有关的行为等。
该研究使用的社交媒体平台,无论是一个开放的社交网络,如Twitter或Facebook,还是一个特定疾病的社交网络,如QuitNet(即戒烟)。
员额数:用于分析的员额总数和用于手工注释的员额数。
研究重点:分析危险健康行为的研究潜在目标是什么?
主要方法功能和工具;例如,使用潜狄利克雷分配(LDA)(即方法)进行主题建模(即函数)。
本研究使用的评价指标(如,精度、回忆率和F1分)。
该研究的主要发现:分析在线同伴互动产生的数据后得到的结果。
最初的搜索总共产生了1554项研究。从这些研究中,我们删除了203项因为重复的研究。在第一阶段,我们审查了剩余研究的标题和摘要,以确保它们满足进一步深入分析的纳入和排除标准。第一阶段评分者之间的一致性为81.37%。通过讨论解决分歧后,我们初步排除了1246篇不符合纳入标准的研究,将剩余105篇研究纳入第二阶段全文筛选。第二阶段评分者之间的一致性为83.50%。该综述共纳入了52项符合纳入标准的研究。我们进一步通过滚雪球技术确定了另外12项研究,这些研究也包括在本综述中。因此,共有64项研究[
用于研究选择的PRISMA(系统回顾和荟萃分析首选报告项目)图表。
我们的研究结果表明,社交媒体分析的重点一直是各种危险的健康行为,包括尼古丁使用、酒精使用、药物滥用、体育活动模式和与肥胖相关的行为。社交媒体平台被广泛用于二次数据分析,以及对利用此类平台进行的积极干预或活动产生的数据进行后续分析。利用多种计算和定量函数和工具来分析社交媒体平台上在线同伴互动产生的数据。我们的研究结果的详细说明包括在
在接下来的章节中,我们将汇总我们的研究结果,以强调各种社交媒体平台的使用模式,用于二次分析目的,在这些平台上研究的危险健康行为的流行率,以及用于理解这些行为的方法工具和功能。
大多数使用Twitter作为数据源的研究都依赖于Twitter应用程序编程接口(api)来提取数据。这些研究中的大多数使用了流api,它提供了近乎实时的数据子集推送[
各种研究使用的社交媒体平台。
社交媒体平台 | 研究数(N=64), N (%)一个 | 学习参考资料 |
推特 | 39 (61) | [ |
脸谱网 | 6 (9) | [ |
QuitNet | 5 (8) | [ |
5 (8) | [ |
|
BecomeAnEX.org | 3 (5) | [ |
2 (3) | [ |
|
Hello Sunday Morning博客 | 1 (2) | [ |
国际象棋b(在线讨论论坛) | 1 (2) | [ |
癌症幸存者网络 | 1 (2) | [ |
Patient.info /论坛 | 1 (2) | [ |
蒸汽谈话,水烟论坛,和停止吸烟reddit的子版块 | 1 (2) | [ |
一个由于四舍五入和一项使用多个社交媒体平台的研究,这些百分比加起来不等于100%。
bA-CHESS:成瘾-综合健康增强支持系统。
吸毒或药物滥用是社交媒体平台上另一个经常被讨论的危险健康行为,64项(22%)研究中共有14项研究讨论了这个话题[
在64项研究中,12项(19%)探讨了在线健康社区成员的酒精使用模式和禁欲行为[
在64项研究中,有3项(5%)探讨社区成员参与体育活动的模式和类型[
危险的健康行为及其相关的社交媒体平台。
危险的健康行为 | 研究数(N=64), N (%)一个 | 社交媒体平台和研究参考资料 |
尼古丁使用 | 28 (44) | 推特( |
药物和物质滥用 | 14 (22) | 推特( |
使用酒精 | 12 (19) | 推特( |
体育活动 | 3 (5) | 推特( |
与肥胖相关的行为 | 3 (5) | Reddit [ |
多种行为(例如,电子烟和大麻,吸烟和饮酒,体育活动和肥胖相关行为) | 4 (6) | 推特( |
一个由于四舍五入的关系,百分数加起来不等于100。
bA-CHESS:成瘾-综合健康增强支持系统。
以下部分将讨论各种研究中使用的方法功能,以及执行这些功能所使用的具体工具。
最常提取的特征是n格(例如,未字母、双字母和三字母)[
大多数研究使用有监督的ML分类器进行文本分析,以执行预测建模、行为阶段建模或内容分析。各种研究中使用的分类器包括支持向量机(SVM) [
一项研究利用专门的软件来分析在线同伴互动产生的文本内容,即Leximancer [
在64项研究中,6项(9%)使用深度学习模型进行文本分类,如卷积神经网络(CNNs) [
以下研究使用了词嵌入的预训练,如全局向量(GloVe)词向量(即通用域)[
一些研究应用分布语义来识别术语之间的有意义的关系,例如,应用潜在语义分析(LSA)等技术,在消息和识别的主题之间识别有意义的关系[
主题建模采用多种技术,如Quanteda软件[
各种无监督ML模型也被用于使用k-means聚类来识别电子烟社区[
在64项研究中,有5项(8%)使用语言查询字数(LIWC)进行语言文本分析,LIWC用于统计心理意义类别的字数[
在64项研究中,20项(31%)进行了情绪分析,以衡量个人对健康行为(如电子烟、水烟、药物滥用、电子烟和JUUL)的积极、消极或中立情绪[
为了评估分类模型的性能,几项研究将数据集分为训练集和测试集,进行n倍交叉验证,并计算精度、精密度、召回率、F1得分、特异性、马修相关系数和受试者工作特征(AUROC)曲线下的面积等指标。我们使用各种研究报告的F1分数汇编了我们的结果部分。如果任何研究没有报告他们的F1成绩,我们列出他们在研究中报告的指标。大多数研究报告了分类任务的F1分数[
在64项研究中,9项(13%)进行了社会网络分析[
一项研究生成了网络图,以可视化电子烟主题在不同reddit子版块中的存在和共同出现[
一项研究创建了网络图,以了解一项旨在教育年轻人吸烟有害影响的运动的影响范围[
一项研究通过创建推特标签共现网络确定了电子烟相关对话的主题[
一项研究通过分析网络指标与个人吸烟状况的关系,分析了吸烟者和非吸烟者社会网络的结构差异[
一项研究通过构建双模网络图来进行隶属网络分析,以了解具有不同交流主题的戒烟社区成员之间的关联[
一项研究可视化了在线戒烟社区成员的社交网络拓扑和基于主题的差异[
一项研究基于讨论的主题分析了个人的社交网络连接如何影响他们的饮酒行为[
一项研究表明,那些对饮酒表达消极情绪的人在社交网络中比其他社区成员更集中。
一项研究用社会网络特征(如入度、出度、程度、互惠和聚类系数)量化了社区成员之间的同伴互动[
用于执行此类分析的工具和软件程序包括Gephi平台[
各种研究使用的方法和相关工具的总结。
方法 | 工具、平台和程序 |
语言分析 | 语言查询字数[ |
情绪分析 | SentiWordNet 3.0 [ |
监督分类 | 支持向量机[ |
主题建模 | Quanteda软件( |
社区识别和主题或模式识别 | k - means聚类( |
社会网络分析 | Gephi平台( |
本综述的目的是调查利用社交媒体平台上的在线同伴互动分析风险健康行为、信仰和态度的计算和定量技术的现状。从最初的研究检索和滚雪球技术中,有64项研究符合我们的纳入标准,其中75% (48/64)[
多个平台被用作分析危险健康行为的数据来源,其中最受欢迎的是开放的社交媒体平台,因为80%(51/64)的研究使用了这些平台,而不是有意设计的与健康相关的社交媒体平台。在数据收集方面,我们的结果显示Twitter是一个很受欢迎的社交媒体数据来源,因为它提供了三种访问数据的简单方式:Twitter搜索API、Twitter流媒体API和Twitter Firehose [
人们对吸烟相关产品(如雪茄、电子烟、水烟、电子烟和JUUL)的情绪,以及与此类产品讨论相关的各种主题的识别,通过在线社交媒体平台进行了广泛研究。处方药滥用、阿片类药物滥用和酗酒相关的行为是另一组使用在线社交媒体平台被广泛分析的危险健康行为。这凸显了利用此类平台传播行为改变干预措施的潜力,这些干预措施针对的是未知的和不断发展的领域(如电子烟)以及明确的领域(如酒精使用)。除了成瘾行为,还分析了摄取行为,如身体活动模式、情绪和行为类型(如跑步、散步和慢跑)与不同地理位置(如加拿大)和人口统计学(如性别)的关联。社交媒体平台被用来确定与减肥和肥胖相关行为相关的主题。这些研究都没有集中分析无保护措施的性行为,这是一个重要的公共卫生重点和优先事项,可能是未来研究的一个有趣途径。然而,考虑到该领域的耻辱、隐私问题和不透明的性质,对这些数据集的访问可能是有限的。
LIWC工具被广泛用于语言特征提取,因为它是一种易于访问的工具,可以从文本中提取风格词、情感词和词性等特征[
广泛的有监督ML算法被用于在线同伴交互生成的数据的内容和情感分析。大多数研究使用传统的ML模型(如SVM、LR、RF、DT和KNN)进行文本分类。只有少数研究[
64项研究中有4项(6%)[
64项研究中有一项(2%)[
64项研究中的另外两项(3%)[
本综述中包括的大多数研究只关注在线同伴互动的文本数据分析,而只有一项研究使用图像数据进行了额外的分析[
本综述中包括的一些研究也进行了网络分析[
一项研究[
还必须了解,在线社交媒体平台也可能被用于传播与健康有关的错误信息[
我们的审查并非没有局限性。首先,我们只纳入了与危险健康行为相关的研究;然而,侧重于其他公共卫生领域的研究(如流行病学[
最后,由于我们的搜索策略的限制,我们可能会错过一些来自信息流行病学和信息监控领域的研究;例如,对该领域文献检索的初步探索[
我们的研究表明,社交媒体平台上与危险健康行为相关的在线讨论可以跨越多个主题,包括尼古丁依赖、酒精使用、药物或药物滥用、体育活动模式和肥胖相关行为。这就产生了大量的数字化归档数据,可以对健康相关行为变化过程的有机表现和自然演变提供更深入的理解。
我们的综述强调了社交媒体平台的特点(例如,通用vs关注健康的平台和用于二次分析的数据访问的便利性),用于分析这些平台内同行交互的方法的稳健性,以及可用于大规模分析社交媒体数据集的各种文本挖掘和网络建模工具的概述。我们的回顾让我们巩固了方法论基础,并增强了我们对如何利用社交媒体进行细微差别的行为建模和表示的理解。这最终可以为制定有说服力的健康沟通和有效的行为修正技术提供信息和指导,这些技术针对分布在个人和人群层面的个人间和个人内部心理社会过程。理解现有计算研究的优点和不足,以评估下游预测模型和由此类大规模分析产生的数据驱动干预措施的普遍性和强度,也是很重要的。
综述中所包含的研究的详细摘要。
成瘾-综合健康增强支持系统
应用程序编程接口
区域下接收器的工作特性
卷积神经网络
决策树
全球向量
情感前因与反应国际调查
再邻居
潜在狄利克雷分配
语言查询字数
逻辑回归
潜在语义分析
长时间的短期记忆
医学主题词
机器学习
系统回顾和荟萃分析的首选报告项目
随机森林
随机的索引
语义评价
情绪词
负采样的跳过图
沙普利加解释
社交媒体作为研究工具
支持向量机
试金石应用科学协会
情感推理的价感词典
本杂志报道的研究得到了国家医学图书馆和国家卫生研究院国家癌症研究所的支持(奖励号为1R01LM012974-01A1和3R01LM012974-02S1)。本文内容仅由作者负责,并不代表美国国立卫生研究院的官方观点。
没有宣布。