这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
近年来,电子烟或电子烟在美国变得越来越流行。2019年,电子烟和电子烟使用相关肺损伤(EVALI)病例导致住院和死亡人数增加,许多病例后来与不受监管的产品有关。以前的文献利用社交媒体数据来监测健康主题。个人愿意在社交媒体平台上分享心理健康经历和其他个人故事,在那里他们有一种社区感,减少了耻辱和赋权。
本研究旨在比较2个流行社交媒体平台(即Twitter和Reddit)上的电子烟相关内容,以探索2019年EVALI爆发期间电子烟的背景,并支持使用这两个社交平台的数据在社交媒体上开发深度智能电子烟检测模型的可行性。
数据提取自2019年7月至2019年9月EVALI危机高峰期间的Twitter(316,620条推文)和Reddit(17,320条推文)。进行高通量计算分析(情感分析和主题分析)。此外,还进行了深入的人工内容分析,并与两个平台上的内容(577条推文和613条帖子)的计算分析进行了比较。
从2019年7月到2019年9月,推特和Reddit上与电子烟相关的帖子和独立用户都有所增加,推特上每用户的平均帖子从1.68篇增加到1.81篇,Reddit上从1.19篇增加到1.21篇。计算分析发现,Reddit上的积极情绪帖子数量更多。
2019年EVALI期间,推特和Reddit上的帖子内容和热门话题重叠。然而,在用户类型和内容关键字上也发现了关键差异,包括推特上提到健康相关关键字的频率更高,Reddit和推特上提到电子烟对健康的负面影响更多。计算和临床内容分析的使用不仅对于识别与电子烟相关的社交媒体内容中的公共卫生趋势信号至关重要,而且对于提供电子烟风险和行为的背景至关重要。通过利用Twitter和Reddit作为公开数据源的优势,这项研究可能会提供技术和临床见解,为自动检测正在吸电子烟的社交媒体用户提供信息,并可能受益于这些平台上的数字干预和主动拓展策略。
近年来,电子烟在美国变得越来越流行,每20个美国成年人中就有一个人在使用电子烟,到2021年,美国将有200万初高中学生使用电子烟。
Reddit是一个类似的匿名社交媒体平台,公众用它来讨论可能被污名化的个人经历。
Twitter和Reddit都是流行的社交媒体平台,但它们在影响用户发帖行为和发帖内容的多个方面有所不同。推特,月活跃用户3亿[
使用计算机科学(CS)策略进行大规模评估,包括使用自然语言处理和机器学习进行文本挖掘,之前已经对社交媒体上的内容进行了大规模评估[
专门研究EVALI公共卫生危机可以帮助识别与社交媒体上分享的电子烟相关的急性和长期健康结果相关的内容和关键词,因为电子烟风险的信号可能在此期间被放大了。通过利用Twitter和Reddit作为公开数据源的优势,以及使用跨学科的方法来分析复杂的社交媒体内容,可以获得技术和临床见解,为自动检测模型的未来发展提供信息,以连接可能受益于社交媒体平台上的数字干预的电子烟用户。然而,到目前为止,很少有研究比较Twitter和Reddit在同一时间段内对药物滥用的看法[
在这项研究中,我们使用2019年7月至2019年9月这两个平台的数据,重点比较了EVALI爆发期间推特和Reddit上与电子烟相关的关键词频率和情绪,因为我们之前的工作已经确定这是与电子烟相关的社交媒体内容增加的时间框架[
GetOldTweets [
在我们根据关键字从Twitter和Reddit提取帖子后,我们在进一步分析之前清理了数据集。由于我们在这项研究中只关注英语帖子,我们首先删除了包含非英语语言的帖子。我们还删除了标记为“已删除”或“已删除”的无效Reddit帖子。在此之后,Twitter帖子的数量从316620条减少到286703条,Reddit帖子的数量从17320条减少到12069条。
对于帖子中的文本,我们首先将所有字符转换为小写,以避免区分大小写的过程。然后,我们从文本中删除了所有非美国信息交换标准代码的特殊字符。对于文本缩略,我们将其扩展为多个单独的单词。接下来,我们从文本中删除了对文本意义没有重大贡献的停顿词(例如is, a, the和of)。在那之后,我们从推文文本中删除了特殊术语,包括提及、标签、链接、勾号、标点、数字和空格。然后,我们应用词元化函数将单词转换为它们的基本形式。
情感分析是一种常用的计算机技术,用于测量文本中的主体性、观点、态度和情感[
除了前面描述的情绪分析之外,我们还使用卡方检验来比较以下主题中每个月Twitter和Reddit帖子中关键字频率的差异:(1)情绪,(2)情感相关的关键字,(3)健康相关的关键字,(4)年龄相关的关键字,(5)营销相关的关键字,(6)产品相关的关键字,(7)成瘾相关的关键字,以及(8)戒烟相关的关键字。
词频逆文档频率(Term frequency - inverse document frequency, TF-IDF)是一种统计度量,可以表示语料库中相关的词[
根据之前概述的内容和情绪分析,在EVALI爆发期间,2019年7月、8月和9月被确定为推特上与电子烟相关的讨论急剧增加期间和之前的几个月。因此,从前面描述的Twitter和Reddit数据集中提取每月200个帖子的随机样本,用于深入的人类编码,以进行上下文内容分析。具体而言,我们临床团队中具有物质使用研究经验的成员(心理学、社会工作或公共卫生专业的研究生,以及由临床心理学家PCR领导的定性社交媒体数据编码的相关经验)使用归纳和演绎方法,在回顾样本推文的基础上构建了一个代码本,并参考了以前的文献[
比较了推特和Reddit上每个主题在2019年7月、8月和9月(3个月的总和)被提到的总频率,以展示每个主题在各自平台上的相对权重。
华盛顿大学机构审查委员会(202101009)审查了本研究的数据提取和分析方法。考虑到数据在社交媒体上公开,该研究被确定为非人类研究,因此不受审查。
本节介绍高通量计算分析的结果。我们总共在Reddit上收集了286,703条推文和12,096条帖子。Twitter和Reddit之间的样本量差异与每个Reddit帖子和推文中包含的信息量有关。每条推文的字数限制是280个字符,而Reddit每条帖子的字数限制是4万个字符。因此,每个Reddit帖子包含的信息都比一条推文丰富得多。为了分析单词级别的数据集和进一步的内容分析,提取的Reddit帖子的数量明显小于推文的数量。
在电子烟和使用电子烟引起的肺损伤爆发期间,推特和Reddit上提到电子烟的独立用户数量和每个用户发布的帖子。
2019年的月份 | 唯一用户,n (%) | 每用户发文数n | ||
|
推特 | 推特 | ||
7月 | 17904 (11.06) | 2893 (28.75) | 1.68 | 1.19 |
8月 | 28604 (17.67) | 3066 (30.47) | 1.66 | 1.2 |
9月 | 115373 (71.27) | 4105 (40.79) | 1.81 | 1.21 |
情绪的CS模式分析发现,在EVALI期间,对电子烟持积极态度的帖子总体上比Reddit上的负面帖子更常见(8905/12,096,73.62%),而在Twitter上,负面情绪占主导地位(174,448/ 286,703,60.86%)(
月度情绪趋势的结果表明,无论是在Twitter上还是在Reddit上,7月份情绪积极的帖子比例都高于情绪消极的帖子。8月和9月,推特上负面消息的比例高于正面消息的比例。此外,从7月到9月,Twitter上积极情绪的百分比显著下降,而Reddit上的积极帖子在8月和9月占主导地位。
卡方检验(表S1
除了情绪分析和趋势,我们还使用卡方检验来比较Twitter和Reddit上与情绪表达相关的帖子差异。我们从推特和Reddit上最常用的词汇列表中选择了一些常见的情感词汇。包括积极的关键词
Twitter和Reddit上的情感分析和临床编码。
|
情绪分析,n (%) | 临床编码,n (%) | |||
|
Twitter (n = 286703) | Reddit (n = 12096) | Twitter (n = 577) | Reddit (n = 613) | |
积极的 | 85209 (29.72) | 8905 (73.62) | 201 (34.8) | 291 (47.5) | |
负 | 174488 (60.86) | 2281 (18.86) | 273 (47.3) | 184 (30) | |
中性 | 27006 (9.42) | 910 (7.52) | 103 (17.9) | 138 (22.5) |
包含电子烟相关关键字的帖子的分布和百分比显示在
我们进行了卡方检验来比较健康相关的关键字,包括
除了调查与健康相关的关键字的情绪,卡方检验与成瘾相关的关键字(表S4)
在深度临床编码中,负面健康结果在两个平台上被提及的频率(Twitter: 230/577, 39.9%, Reddit: 227/578, 39.3%)远高于积极健康结果(Twitter: 134/577, 23.2%, Reddit: 182/578, 31.5%)。在这些负面健康结果中提到的其他主题包括EVALI/住院,这在Twitter上更为普遍(Twitter: 176/577, 30.5%, Reddit: 146/578, 25.3%),而在Reddit上,对电子烟产品的成瘾或依赖更常被提及(Twitter: 57/577, 9.9%, Reddit: 123/578, 21.3%)。那些在Reddit上提到与电子烟有关的积极健康结果的人更常见,这与之前描述的关键词分析一致;此外,临床编码发现,在Reddit上,电子烟作为一种戒烟方法的提及频率高于Twitter (Twitter: 118/577, 20.5%; Reddit: 177/578, 30.6%)。
Twitter和Reddit上健康相关关键词的分布和百分比。
与健康有关的关键字 | 2019年7月,n (%) | 2019年8月,n (%) | 2019年9月,n (%) | 总计,n (%) | |||||||
|
推特 | 推特 | 推特 | 推特 | |||||||
死亡 | 343 (1.1) | 70 (2) | 2701 (5.67) | 129 (3.5) | 32971 (15.77) | 493 (9.9) | 36015 (12.56) | 692 (5.7) | |||
肺 | 2305 (7.67) | 281 (8.2) | 11612 (24.39) | 411 (11.2) | 33394 (15.98) | 870 (17.5) | 47311 (16.5) | 1562 (12.91) | |||
疾病 | 235 (0.8) | 56 (2) | 4268 (8.96) | 112 (3.0) | 7969 (3.8) | 297 (6.0) | 12472 (4.35) | 465 (3.8) | |||
风险 | 708 (2.4) | 147 (4.3) | 1231 (2.59) | 197 (5.4) | 6012 (2.88) | 280 (5.6) | 7951 (2.77) | 624 (5.2) | |||
危机 | 81 (0.3) | 9 (0.3) | 216 (0.5) | 10 (0.3) | 6072 (2.90) | 102 (2.1) | 6369 (2.22) | 121 (1) | |||
生病的 | 415 (1.4) | 148 (4.3) | 1054 (2.21) | 182 (4.9) | 5467 (2.62) | 370 (7.5) | 6936 (2.42) | 700 (5.8) | |||
医生 | 682 (2.3) | 183 (5.3) | 2359 (4.95) | 228 (6.2) | 4623 (2.21) | 323 (6.5) | 7664 (2.67) | 734 (6.1) | |||
癌症 | 442 (1.5) | 84 (2) | 782 (1.64) | 80 (2) | 3691 (1.77) | 139 (2.8) | 4915 (1.71) | 303 (2.5) | |||
受伤 | 96 (0.3) | 31日(1) | 1256 (2.64) | 45 (1) | 3990 (1.91) | 104 (2.1) | 5342 (1.86) | 180 (1.5) | |||
疫情 | 1091 (3.63) | 16 (0.5) | 533 (1.12) | 24 (0.7) | 2920 (1.40) | 139 (2.8) | 4544 (1.58) | 179 (1.5) | |||
研究 | 523 (1.7) | 159 (4.6) | 712 (1.49) | 178 (4.8) | 3006 (1.44) | 264 (5.3) | 4241 (1.48) | 601 (5.0) | |||
损害 | 1315 (4.37) | 78 (2) | 882 (1.85) | 119 (3.2) | 2237 (1.07) | 156 (3.1) | 4434 (1.55) | 353 (2.9) | |||
伤害 | 1503 (5.00) | 139 (4.0) | 1888 (3.97) | 180 (4.9) | 8253 (3.95) | 303 (6.1) | 11644 (4.06) | 622 (5.1) | |||
有害的 | 492 (1.6) | 40 (1) | 643 (1.35) | 49 (1) | 2892 (1.38) | 143 (2.9) | 4027 (1.40) | 232 (1.9) | |||
病人 | 162 (0.5) | 61 (2) | 1103 (2.31) | 82 (2) | 1741 (0.83) | 122 (2.5) | 3006 (1.05) | 265 (2.2) | |||
咳嗽 | 262 (0.9) | 141 (4.1) | 415 (0.9) | 163 (4.4) | 1130 (0.54) | 257 (5.2) | 1807 (0.63) | 561 (4.6) | |||
胸部 | 105 (0.4) | 108 (3.1) | 127 (0.3) | 133 (3.6) | 431 (0.2) | 227 (4.6) | 663 (0.2) | 468 (3.9) | |||
预防 | 96 (0.3) | 6 (0.2) | 246 (0.5) | 14 (0.4) | 529 (0.3) | 31日(1) | 871 (0.3) | 51 (0.4) | |||
吸烟 | 3486 (11.60) | 430 (12.5) | 4145 (8.71) | 435 (11.8) | 15604 (7.47) | 604 (12.2) | 23235 (8.10) | 1469 (12.15) | |||
辞职 | 3017 (1036) | 823 (23.9) | 3567 (7.49) | 853 (23.2) | 17365 (8.31) | 1160 (23.36) | 23949 (8.35) | 2836 (23.45) |
在电子烟和电子烟使用相关的肺损伤(EVALI)爆发期间,推特(A)和Reddit (B)上定义健康问题的热门词汇。
2019年7月、8月和9月与年龄段相关的前6个词汇分别出现在
在我们的数据集中包括与年龄相关的关键字
在电子烟和电子烟使用相关的肺损伤(EVALI)爆发期间,推特(A)和Reddit (B)上关于年龄组的热门词汇。
关于电子烟营销的常用词汇在推特和Reddit上高度相似,包括
在我们的数据集中包括营销相关的关键字
在电子烟和电子烟使用相关肺损伤(EVALI)爆发期间,推特(A)和Reddit (B)上最热门的营销相关词汇。
电子烟产品关键字的详细分布和百分比列于
在电子烟和电子烟使用相关肺损伤(EVALI)爆发期间,推特(A)和Reddit (B)上定义电子烟成分的热门词汇。THC:四氢大麻酚。
此外,我们的数据集中还包括了与戒烟相关的关键字
随着电子烟近年来变得越来越流行,社交媒体平台上关于其发展方向、政策和健康内涵的讨论也越来越多,这项研究说明了2019年EVALI爆发期间推特和Reddit上情绪和关键词内容的差异。从这段时间内与电子烟相关的帖子频率趋势来看,与电子烟相关的内容在7月至8月期间增长缓慢,在8月至9月期间急剧上升。此外,在EVALI爆发期间,参与这些讨论的Twitter和Reddit用户数量显著增加。与EVALI疫情爆发同时,与电子烟相关的社交媒体内容的频率越来越高,这一趋势在两个流行的社交媒体平台上达到顶峰,这一事实支持了社交媒体作为监测系统的效用,用于探索与公共卫生电子烟相关的危机期间自然发生的实时反应和沟通。
重要的是,根据我们的内容分析,Twitter和Reddit上关于电子烟的帖子主要包含了对电子烟的积极情绪。然而,根据所识别的最流行的内容类型,这两个平台有明显的不同。具体来说,Reddit用户倾向于透露个人吸电子烟的经历和对电子烟好处、政策和产品的看法,包括潜在的限制性电子烟政策可能对电子烟用户产生的负面影响(即,更少地获得有助于戒烟的电子烟产品)。Reddit上提到大麻的次数是推特上的2倍,还经常包括向其他Reddit用户询问特定电子烟产品的安全性,以及哪些症状(如果有的话)应该引起关注或就医。相比之下,推特上包含了更多关于电子烟的主流媒体内容,特别是与EVALI病例的增加有关。我们还观察到推特信息流包含了吸引眼球的负面情绪和更多的负面情绪表达,包括
总之,我们在两种社交媒体渠道上观察到内容主题频率上的许多有意义的差异。这些差异可能是由于个人社交网络的方式以及他们在每个平台上讨论的动机。例如,推特上的信息被称为新闻报道的社交媒体平台,记者和主要新闻提供商最常使用推特播报新闻,并在重大事件发生时实时向公众通报最新情况。
我们发现的差异也可能是由于用户之间的差异。例如,Twitter的用户群体主要是白人成年人,他们拥有更高的教育程度,比普通公众更有可能被认为是民主党人,10%的用户创造了80%的推文[
本文的研究结果应在其局限性的范围内加以考虑。首先,我们只分析了这些平台上基于文本的帖子或消息。虽然这为我们提供了来自每个社交媒体网站的大量数据信息,但它不包括可供进一步分析的大量多媒体内容,包括照片、视频和链接。其次,由于Twitter上的字符限制和Reddit帖子的无限长度,每个帖子中的字数之间的差异可能会影响本研究中的情绪和关键字分析。第三,由于我们收集数据的时间安排,我们没有收集与COVID-19及其对电子烟使用者和电子烟政策的影响有关的信息,这使我们无法识别最近的影响。第四,我们最初用于从Twitter和Reddit提取电子烟相关数据集的关键字列表可能包含更多与健康相关的负面关键字,这可能会影响情绪和健康结果方面的结果,导致我们的关键字列表存在潜在的选择偏差。由于这项研究的重点是疫情期间推特和Reddit上与电子烟相关的主题的健康问题,关键字列表包括多个与情绪相关的单词。这会给我们的情绪分析结果带来偏差,但这些词是选择相关帖子和解决我们研究问题的关键。此外,我们应用了GetOldTweets和Pushshift api来基于关键字列表提取数据。由于这些api的提取机制是寻找与某个关键字字段相同的帖子,而不是进一步过滤匹配的帖子,因此提取的数据集可能包括机器人的帖子而不是真实用户的帖子,这可能会对我们的情绪结果产生偏差。 We plan to apply different methods to clean the posts generated by bots in our future studies. However, the use of this data set was in line with the larger aims of this study, which were to better understand the content and sentiment surrounding vaping on Twitter and Reddit to inform the development of potential identification and outreach methods on social media to those at risk of negative health outcomes to improve public health. The fifth limitation was that we applied an existing tool VADER to analyze the sentiment of the posts, and thus, it could bias to our sentiment analysis results, which are common issues for any sentiment analysis tool owing to the complex dynamics of human expressions, emotions, and contexts. In the future, we will also consider creating a sentiment analysis model optimization with social media posts to overcome the current disadvantages of not effectively identifying sarcastic sentences.
总的来说,这项研究的结果揭示了推特和Reddit作为公共卫生危机发生和演变时公开可用的社交媒体数据源的优势。与吸电子烟者或有兴趣戒烟的人一起工作的健康从业者应该意识到与电子烟有关的信息和可能的错误信息,并努力评估在各种平台上的社交媒体参与是否会影响持续使用或成为戒烟的障碍。本文分享的结果还可以通知社交媒体公司和公共卫生官员,提醒他们注意这些网站上的电子烟产品营销,并鼓励保护Reddit上旨在支持戒烟的社区。此外,为了改善公共卫生覆盖面,未来的研究可以探索利用每个平台的内容和网络类型的自动检测机制,特别是研究识别正在吸电子烟并可能需要戒烟信息和支持的用户的潜力。这可能有助于制定有效和及时的社交媒体知情的主动外联策略,以分发关于电子烟的健康教育,包括停止电子烟的策略。
用于数据提取的关键字和术语。
统计分析结果。
电子烟产品相关关键词在Twitter和Reddit上的分布及词频-文档频率倒数得分。
应用程序接口
计算机科学
电子烟和电子烟使用相关的肺损伤
术语频率-逆文档频率
价感字典和情感推理器
作者在此感谢美国南卡罗来纳哥伦比亚大学(USC)提供的资金支持(资助80002838);南加州大学大数据健康科学中心的部分支持,这是南加州大学卓越倡议计划(授予BDHSC-2021-14和BDHSC-2022);以及南加州大学通过研究和创新中心(ACORN-2022)和美国国立卫生研究院(K02 DA043657, UL1 TR002377和R34 DA054725)提供的研究资助。内容仅为作者的责任,并不代表资助机构的官方观点。
通过向通讯作者提出合理的请求,研究人员可以访问本手稿中分析的数据集。
DW和EK贡献均等,PAC-R担任资深作者。
没有宣布。