这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
新型冠状病毒(COVID-19)的出现和必要的人群隔离导致前所未有数量的新社交媒体用户寻求与大流行相关的信息。目前,全球约有45亿用户,社交媒体数据为近实时分析与疾病爆发和疫苗接种相关的大量文本提供了机会。官员们可以利用这些分析来制定适当的公共卫生信息、数字干预措施、教育材料和政策。
我们的研究调查并比较了2020年1月1日至2022年3月1日期间在2个流行社交媒体平台(reddit和twitter)上表达的与COVID-19疫苗相关的公众情绪。
为了完成这项任务,我们创建了一个经过微调的蒸馏roberta模型来预测大约950万条推文和7万条Reddit评论的情绪。为了优化我们的模型,我们的团队手动标记了3600条推文的情绪,然后通过反向翻译增强了我们的数据集。然后,使用Python编程语言和拥抱脸情感分析管道,用我们的微调模型对每个社交媒体平台的文本情感进行分类。
我们的研究结果表明,在Twitter上表达的平均情绪是消极的(5,215,830/9,518,270,54.8%)多于积极的,而在Reddit上表达的情绪是积极的(42,316/67,962,62.3%)多于消极的。尽管这些社交媒体平台之间的平均情绪有所不同,但这两个平台在大流行期间与疫苗相关的关键发展共享的情绪方面表现出了相似的行为。
考虑到在社交媒体平台上表现出的这种共享情绪的类似趋势,推特和Reddit仍然是公共卫生官员可以用来增强疫苗信心和打击虚假信息的宝贵数据来源。由于虚假信息的传播会带来一系列心理和社会心理风险(焦虑和恐惧等),因此迫切需要了解公众对共同虚假信息的观点和态度。针对民众表达的情绪量身定制的综合教育交付系统,促进数字扫盲、健康信息寻求行为和精准健康促进,有助于澄清这种错误信息。
新型冠状病毒(COVID-19)影响和扰乱了全球日常生活的许多方面。在2020年初实施严格的大流行缓解战略之后,社交媒体的使用大幅增加,互联网用户转向社交媒体平台交流和收集有关动态和不确定形势的信息[
全球约有45亿用户,社交媒体提供了一个对大量文本数据(每天5亿条推文)进行近实时分析的机会,这可能对公共卫生官员有用[
我们的研究试图检查和探索2个流行的社交媒体平台——reddit和Twitter上对COVID-19疫苗的看法。我们通过创建一个定制的微调蒸馏roberta模型来计算积极和消极的情绪,该模型使用我们团队成员标记的数据,然后通过反向翻译进行增强。然后,我们在Reddit和Twitter上对COVID-19疫苗的看法进行了比较。我们假设,我们会观察到两个社交媒体平台之间的极性有一些相似的趋势,但有轻微的差异,因为蒸馏roberta通常显示的准确性高于90% [
社交媒体内容分析并不是一个全新的概念,在COVID-19之前就已经被用于数据挖掘和情感分析。然而,大流行应对措施的性质以及为安全起见将人群隔离的必要性导致了空前数量的新用户[
研究人员利用最近意见分享的增加来衡量总体情绪和对疫苗的犹豫或接受[
Reddit平台的规模与之相似,目前约有4.3亿用户[
自从BERT的开发和基于其体系结构的工作以来,自然语言处理已经取得了实质性的进展。BERT是谷歌AI language开发的一种强大而通用的基于人工智能的自然语言处理算法,擅长对具有社交媒体数据特征的非结构化/半结构化文本数据进行文本分类(即本体、类别和情感等)[
我们的研究比较了2020年1月1日至2022年3月1日期间,两个流行社交媒体平台(reddit和twitter)上与COVID-19疫苗相关的帖子。这两个平台被选中是因为它们的全球使用率、活跃的讨论和高用户数。时间框架包括大流行的最早部分,以追踪情绪随时间的演变。最重要的是,选择这些平台是因为只有少数比较研究关注典型用户,特别是与COVID-19疫苗情绪或其他疫苗相关的研究。我们的研究使用二元(即积极或消极极性)情感分类方法来训练我们的模型并进行情感分析。选择双星系统有几个原因。(1)二进制系统在处理大量数据时计算效率更高。(2)二进制分类器通常比多类系统更准确。(3)在过去,包含中性类别的情绪分类器通常依赖于低概率或置信度得分。由于我们的模型报告了一个置信度值,这个信息可以外推。
Twitter采取了大量措施来识别和删除直接来自新闻机构或机器人的推文。这些帖子的来源在26个月的时间里,相对于“正常”用户的平均帖子数量,具有极高的帖子数量,以及通过视觉检查出现频率异常的用户的推文来识别。Twitter和Reddit的数据集仅限于在我们的时间框架内发布少于或等于200次的用户。这些步骤非常重要,因为许多机器人推文具有重复性,这可能会扭曲情绪计算,并偏离比较两个平台正常用户基础的目标。尽管收集Reddit和Twitter数据的方法略有不同,但这两个数据集都经历了类似的清理步骤。对这两个数据集进行了相同的相关术语查询,这些术语通常出现在关于COVID-19疫苗的网络讨论中。这一步很重要,因为一些扩展的评论线程倾向于偏离主题。这种情况在Reddit社区的帖子中尤其明显。在疫情暴发的最初几个月,这两个平台的日发布频率相对相似。2020年9月下旬至10月,随着疫苗传播的消息变得更加广泛,这两个平台的频率急剧增加。 Although each platform displayed 4 spikes in posting frequency at similar time periods (October 2020, March to April 2021, August to September 2021, and December 2021 to January 2022), they obtained a maximum in different time periods. Reddit reached its maximum posting from March to April 2021, whereas Twitter reached its maximum from September to October 2021.
大约有1300万条推文是通过
我们用Python Reddit API从67个Reddit子版块中收集了579,241个用户创建的帖子
由于在全球大流行中,时间是至关重要的,再加上标记数据耗时且昂贵,我们通过标记与COVID-19疫苗相关的大约3600条推文的情绪(积极或消极)创建了一个自定义训练数据集。我们选择为这项研究专门标记推文,因为推文的280个字符的限制(即,与Reddit的最多10,000个字符的限制相比)将允许我们的小团队更快地创建与时间相关的训练数据集。然后,我们通过在hug Face模型存储库上使用几种语言模型进行反向翻译的过程来扩充我们的数据集。在测试了其他几种文本增强方法后,选择了反向翻译。一些技术(例如,单词屏蔽)会导致更多的重复文本,最终需要删除。反向翻译依赖于语言结构、词义和句法之间的细微差异。实际上,输出文本将与输入文本略有不同,而不会失去语义和上下文意义[
在我们的研究中,我们选择探索DistilRoBERTa的功能。RoBERTa是一个比BERT更健壮的模型,而DistilRoBERTa是RoBERTa的优化版本[
我们通过拥抱面微调了蒸馏roberta基地
DistilRoBERTa微调训练指标。该模型经过2个训练周期后得到最优的微调。
一步 | 时代 | 培训损失 | 确认损失 | 精度 | 精度 |
|
500 | 0.4 | 0.5903 | 0.4695 | 0.7342 | 0.7728 | 0.7890 |
1000 | 0.8 | 0.3986 | 0.3469 | 0.8144 | 0.8596 | 0.8684 |
1500 | 1.2 | 0.2366 | 0.1939 | 0.9313 | 0.9260 | 0.9253 |
2000 | 1.6 | 0.1476 | 0.1560 | 0.9207 | 0.9452 | 0.9465 |
2500 | 2.0 | 0.1284 | 0.1167 | 0.9561 | 0.9592 | 0.9592 |
在对模型进行微调之后,我们通过hug Face处理Twitter和Reddit数据
由于所使用数据的公开可用性和不可识别性,不需要我们机构的伦理批准。
蒸馏罗伯塔微调极性分析确定,在我们的时间范围内,9,518,270条推文的负面(n=5,215,830, 54.8%)比正面(n=4,302,440, 45.2%)更多
最高阳性评分出现在2021年3月(375,789/675,274 55.6%)。然而,最低的阳性评级发生在2022年1月(191,159/526,582,36.3%),极性从最大值开始稳步下降。对于置信度得分,被归类为积极的推文的最高得分为0.999,最低得分约为0 (3.58 × 107),平均值为0.868(见
来自蒸馏roberta模型的推文极性微调至COVID-19疫苗。极性和相应的置信概率表示在y轴上,时间表示在x轴上。推文用浅蓝色圆圈表示。圈的大小表示每条推文的点赞数,圈越大点赞越多,圈小点赞越少。
在推特上,信心得分与点赞数的对比。x轴表示信心得分,y轴表示一条推文收到的点赞数。x轴上低于0.00的数据点代表负分类,高于0.00的数据点代表正分类。数据点用浅蓝色圆圈表示。
Reddit对微调蒸馏roberta模型的情绪极性分析发现,在67962个帖子中,37.7% (n= 25646)被归类为负面,62.3% (n= 42316)被归类为正面。在我们的实验中报告的最高极性和最大阳性评级发生在2021年4月(6611/9044,73.1%),最小阳性评级发生在2020年2月(170/351,48.4%)。对于信心评分,被分类为积极的评论的最高得分为0.999,最低得分约为0 (1.55 × 104),平均值为0.870(见
来自蒸馏roberta模型的Reddit评论极性微调到COVID-19疫苗。y轴表示极性和相应的置信概率,x轴表示时间。数据点用橘红色的圆圈表示。圆圈的大小表示每条评论获得的赞数——更多的赞数用更大的圆圈表示,更少的赞数用更小的圆圈表示。
在Reddit上,信心分数和喜欢数。x轴表示置信度得分,y轴表示一条评论收到的赞数。x轴上低于0.00的数据点代表负分类,高于0.00的数据点代表正分类。数据点用橘红色的圆圈表示。
总体而言,这两个社交媒体平台的平均情绪略有不同(Reddit的正面情绪为62.3%,Twitter为45.2%)。当仔细观察每个月的结果之间的关系时,一个有趣的故事开始出现。尽管在大流行的前几个月,两个平台上的情绪都有所波动,但从2020年1月到8月,Reddit的情绪较高(正面情绪从48%到55%不等)。推特的情绪开始与Reddit的情绪相似,但逐渐下降,直到2020年9月至10月变得更加消极,然后在2021年3月升至55%的最大值。Reddit的情绪在2020年12月开始急剧上升,并继续增加,直到2021年4月达到最大的积极情绪(约73%)。在每个平台上的情绪达到最大积极极性后,两者都开始振荡并逐渐下降到接近大流行早期的水平。然而,推特人气继续下降,直到最低达到36%
推特和Reddit与COVID-19疫苗相关的帖子的月度情绪。x轴表示时间,y轴表示列为积极职位的百分比。蓝色线代表Twitter的情绪,橘红色线代表Reddit的情绪。请注意,由于发布频率非常低,因此2020年1月的情绪是所有其他月份相应数据的平均值。
从2020年1月1日到2022年3月1日,我们的结果显示,Reddit数据集的平均情绪比推特上表达的平均情绪更积极。有趣的是,这两个平台在流感大流行的关键时刻(如疫苗疗效宣布、向所有年龄段分发疫苗、新变种和疗效减弱)表达了类似的情绪变化。随着疫苗广泛普及,两极分化减弱,这种行为尤其明显。考虑到这种类似的行为,我们认为推特和Reddit仍然是有价值的数据来源,公共卫生官员可以使用它们来开展疫苗教育活动和数字干预。尽管Twitter在通过API访问大量推文方面具有优势,但在清理Twitter数据时需要采取实质性步骤,以删除机器人、新闻媒体帖子、商业用户、重复的帖子和帖子频率极高的用户。另一方面,Reddit的数据在较长的文本中更丰富,可能对主题建模更有用。
是什么推动了这两个平台上与COVID-19疫苗相关的情绪变化?一种可能性可能与推文和Reddit帖子的字符限制有关(分别是280个字符和10,000个字符)。缩短推文的字符限制很可能有助于信息的快速传播,在本质上可能是反动的,引发负面情绪。然而,Reddit用户通常利用较长的字符限制,有时分享与他们的医疗保健有关的高度个人的故事和经历。出于这个原因,在考虑公共卫生信息和教育活动的发展时,Reddit仍然是一个非常有价值的来源。
将情绪变化与大流行期间的发展联系起来,提出了一些有趣的挑战和想法。最明显的情绪急剧上升似乎与有关疫苗开发和试验的积极消息,以及对那些耐心等待疫苗的人的高效、分发和可用性的消息有关。将最低情绪分数关联起来具有挑战性,因为它们的下降并不一致。这种逐渐下降极有可能是与大流行相关的不幸事件(例如,错误信息、大流行疲劳和疫苗效力下降)的综合作用所致。可以想象,疫苗推广和分发方面的挑战可能会对情绪产生负面影响。然而,之前对该数据集的部分进行的主题建模和语义网络分析并没有发现与疫苗分布相关的术语有意义的出现。因此,迫切需要更多的心理学、社会学和文化研究来了解是什么驱使某些人群、新闻媒体、政治家和娱乐人士如此轻易地接受和传播错误信息和阴谋论,而不是直接可见的事实。这类研究不仅有利于未来的公共卫生应对,而且有利于错误信息和虚假信息占据主导地位的许多其他生活领域。如果不更全面地了解如何覆盖这些人群,数字干预和教育活动的成功可能会受到限制。
我们的发现的应用可能会对公共卫生部门在抗击COVID-19等传染病方面产生重大影响。为快速收集数据而优化的低人力监测系统的进一步开发将允许实时分析与疾病进展相关的公众情绪。此外,通过微调模型来评估情绪的地理和人口差异,可以深入了解面临最大削弱后果风险的人群的态度。除了地理和人口特定数据挖掘外,在感染高峰、疫苗发布或名人、运动员或政治人物因疾病死亡期间,针对公共话语,可以极大地加强公共卫生应对[
此外,通过社交媒体分享的情绪分析可能被证明是打击网络上猖獗的错误信息和虚假信息的重要工具。由于虚假信息的传播会带来一系列心理和社会心理风险(焦虑和恐惧等),因此迫切需要了解公众对共同虚假信息的观点和态度。根据民众表达的情绪量身定制的教育交付系统可能有助于澄清这种错误信息。此外,人工智能消息传递系统还有扩展的空间,其任务是对通过社交媒体平台分享的错误信息和虚假信息浪潮做出回应。总的来说,拟议的情绪实时分析框架可能有助于指导政府支持公共卫生恢复工作。
与大多数研究一样,我们的研究也有一些局限性。由于一些长期存在的问题,在社交媒体文本中进行情感分析时遇到了挑战。尽管BERT和更新的模型极大地缓解了这些挑战,但一些模型通常难以检测文本中的讽刺、幽默、情感和复杂的推论,除非经过专门的训练。例如,许多支持疫苗的社交媒体用户对反疫苗社区表达了极其负面的观点和情绪。BERT如何对这样的事件进行分类?尽管他们表达的情绪对疫苗是积极的,但许多自然语言处理算法和数据标签者可能会与这种类型的分类作斗争。尽管我们在这项研究中非常小心地删除了机器人的推文或推文来自推特上高度重复用户的推文,并选择了无偏见的看板,但仍有可能有一些人通过了数据清理过程。此外,由于语义内容相对相似,在对模型进行微调时,增强数据可能会导致过拟合问题。我们限制了训练周期,并密切监控训练损失和验证损失之间的关系,以缓解这个潜在的问题。未来的工作可能包括努力创建一个更大的标记数据集,不仅包括COVID-19疫苗的情绪,还包括其他疫苗的情绪。
我们用经过微调的DistilRoBERTa模型对大约7万条Reddit评论和950万条推文进行了情绪分析。我们的分析发现,Reddit和Twitter用户在大流行期间表达了类似的情绪变化,尽管Twitter的负面情绪比Reddit严重得多。尽管每月都观察到细微的情绪差异,但随着COVID-19疫苗向公众提供,两个平台的积极情绪都大幅增加。我们在这里提出的结果是一项正在进行的研究的一部分,该研究旨在调查社交媒体上与疫苗相关的内容,重点是识别和打击错误信息,以减少疫苗犹豫。将强烈的情绪与高传染性联系起来,可以为官员们预测公众对疫苗发放和接受等移民战略的接受程度。这些综合疾病监测工具不仅应用于抗击COVID-19,而且将在未来卫生政策、决策、规划实施和精准健康促进的演变中发挥重要作用[
来自变压器的双向编码器表示
我们要感谢来自田纳西大学健康科学中心的数据标签员团队。这项研究得到了美国国家癌症研究所(NCI)的部分资助(1r37ca23419 - 01a1)。
支持我们研究结果的数据可根据作者的合理要求提供。数据不可用于商业用途。
CAM对研究进行了概念化和监督,并起草、审查和编辑了手稿。宝马概念化了这项研究,并起草、审查和编辑了手稿。RLD对稿件进行审阅和编辑。RAB对稿件进行了审阅和编辑。ASN起草,审查和编辑手稿;监督研究;并获得了资金。
没有宣布。