卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v24i10e40408

36174192

10.2196/40408

原始论文

COVID-19疫苗相关社交媒体数据的微调情绪分析:比较研究

Basch

科里

Kagashe

Ireneus

尤瑟夫

Murooj

梅尔顿

乍得一

MSc 1 2

https://orcid.org/0000-0002-5801-0346

白色

布丽安娜米

英里每小时 2

https://orcid.org/0000-0001-7576-5874

戴维斯

罗伯特·L

医学博士 2

https://orcid.org/0000-0001-8807-0019

Bednarczyk

罗伯特一个

博士学位 3.

https://orcid.org/0000-0002-6812-0928

Shaban-Nejad

乔

英里每小时,博士 2

生物医学信息学中心医学院儿科系“，田纳西大学健康科学中心

邓拉普街50号北492R

孟菲斯，田纳西州，38103

美国 1 9012875836 ashabann@uthsc.edu

https://orcid.org/0000-0003-2047-4759

1 布莱德森跨学科研究和研究生教育中心田纳西大学诺克斯维尔分校

诺克斯维尔,TN

美国 2 生物医学信息学中心医学院儿科系“，田纳西大学健康科学中心

孟菲斯,TN

美国 3. 休伯特全球卫生部罗林斯公共卫生学院埃默里大学

亚特兰大,乔治亚州

美国

通讯作者:Arash Shaban-Nejad ashabann@uthsc.edu

10 2022

17 10 2022

24 10

e40408

20. 6 2022 28 7 2022 18 8 2022 15 9 2022

©Chad A Melton, Brianna M White, Robert L Davis, Robert A Bednarczyk, Arash Shaban-Nejad。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 17.10.2022。

2022

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

新型冠状病毒(COVID-19)的出现和必要的人群隔离导致前所未有数量的新社交媒体用户寻求与大流行相关的信息。目前，全球约有45亿用户，社交媒体数据为近实时分析与疾病爆发和疫苗接种相关的大量文本提供了机会。官员们可以利用这些分析来制定适当的公共卫生信息、数字干预措施、教育材料和政策。

客观的

我们的研究调查并比较了2020年1月1日至2022年3月1日期间在2个流行社交媒体平台(reddit和twitter)上表达的与COVID-19疫苗相关的公众情绪。

方法

为了完成这项任务，我们创建了一个经过微调的蒸馏roberta模型来预测大约950万条推文和7万条Reddit评论的情绪。为了优化我们的模型，我们的团队手动标记了3600条推文的情绪，然后通过反向翻译增强了我们的数据集。然后，使用Python编程语言和拥抱脸情感分析管道，用我们的微调模型对每个社交媒体平台的文本情感进行分类。

结果

我们的研究结果表明，在Twitter上表达的平均情绪是消极的(5,215,830/9,518,270,54.8%)多于积极的，而在Reddit上表达的情绪是积极的(42,316/67,962,62.3%)多于消极的。尽管这些社交媒体平台之间的平均情绪有所不同，但这两个平台在大流行期间与疫苗相关的关键发展共享的情绪方面表现出了相似的行为。

结论

考虑到在社交媒体平台上表现出的这种共享情绪的类似趋势，推特和Reddit仍然是公共卫生官员可以用来增强疫苗信心和打击虚假信息的宝贵数据来源。由于虚假信息的传播会带来一系列心理和社会心理风险(焦虑和恐惧等)，因此迫切需要了解公众对共同虚假信息的观点和态度。针对民众表达的情绪量身定制的综合教育交付系统，促进数字扫盲、健康信息寻求行为和精准健康促进，有助于澄清这种错误信息。

情绪分析 DistilRoBERTa 自然语言处理社交媒体推特 Reddit 新型冠状病毒肺炎疫苗接种疫苗内容分析公共卫生监测错误信息 infodemiology 信息质量

简介背景

新型冠状病毒(COVID-19)影响和扰乱了全球日常生活的许多方面。在2020年初实施严格的大流行缓解战略之后，社交媒体的使用大幅增加，互联网用户转向社交媒体平台交流和收集有关动态和不确定形势的信息[ 1- 4］．随着大流行的发展，研究人员致力于开发疫苗，许多社交媒体用户将注意力转向收集与COVID-19疫苗相关的各种主题的信息，如副作用、可用性和有效性。截至2022年5月19日，全球约有627万人死于COVID-19并发症。此外，许多人经历了长期COVID综合征，其中病毒症状持续超过预期的临床恢复时间[ 5］．尽管COVID-19疫苗在预防危及生命的感染、住院和死亡方面是安全有效的，但与COVID-19疫苗相关的疫苗犹豫已导致进一步的共病和许多可预防的死亡[ 6- 8］．

全球约有45亿用户，社交媒体提供了一个对大量文本数据(每天5亿条推文)进行近实时分析的机会，这可能对公共卫生官员有用[ 3.， 9］．使用机器/深度学习，自然语言处理方法的最新进展(例如，来自变压器的双向编码器表示[BERT]、RoBERTa、GPT2和XLNet)大大改进了以前的文本分类模型(准确率超过90%)[ 4， 10- 14］．此外，BERT或RoBERTa等预先训练过的模型可以从hug Face等平台免费提供给研究人员。这些平台对更大的科学界非常有帮助，考虑到许多这些模型需要在几十个张量处理单元上学习几天[ 15， 16］．重要的是，这些模型可以基于特定的用例(例如，文本分类、文本生成和情感分析)进行微调。增强的功能为研究人员提供了研究许多科学领域中各种各样现象的技术[ 17- 19］．情绪分析(即将文本分类为积极或消极)是一种强大的工具，可用于将事件与公众情绪联系起来，监视公共卫生讨论，甚至检测疾病爆发[ 18］．最重要的是，公共卫生官员可以利用这些方法制定精确的信息传递战略和干预运动，以解决信息危机和提高疫苗接种率。

我们的研究试图检查和探索2个流行的社交媒体平台——reddit和Twitter上对COVID-19疫苗的看法。我们通过创建一个定制的微调蒸馏roberta模型来计算积极和消极的情绪，该模型使用我们团队成员标记的数据，然后通过反向翻译进行增强。然后，我们在Reddit和Twitter上对COVID-19疫苗的看法进行了比较。我们假设，我们会观察到两个社交媒体平台之间的极性有一些相似的趋势，但有轻微的差异，因为蒸馏roberta通常显示的准确性高于90% [ 16］．然而，我们期望我们的标记数据集能够比以前的情绪分析方法更细致地洞察这两个社区的公众情绪。此外，基于我们之前的工作，我们假设情绪将保持积极多于消极[ 4］．最后，我们认为，识别和跟踪社交媒体分享的情绪，可以最终制定全面的应对战略，更好地打击错误信息和虚假信息;改进疫苗接种;控制疾病传播。

covid -19相关社交媒体分析

社交媒体内容分析并不是一个全新的概念，在COVID-19之前就已经被用于数据挖掘和情感分析。然而，大流行应对措施的性质以及为安全起见将人群隔离的必要性导致了空前数量的新用户[ 9］．这种涌入导致社交网络帖子激增，给研究人员留下了堆积如山的内容需要整理。社交媒体数据挖掘的一个积极方面是，内容是公开的，很容易获得，允许快速收集。数据的快速收集，特别是与COVID-19相关的数据，使研究人员能够跟踪大流行的进展以及网络上的情绪。例如，快速收集特定时间段的推文的能力，可以在重大事件期间对一般公众舆论进行并行分析，例如2020年底辉瑞疫苗的发布或名人在感染covid -19后去世[ 20.］．这种有针对性的方法为发现利基和探索卫生决策背后的情绪提供了工具。

研究人员利用最近意见分享的增加来衡量总体情绪和对疫苗的犹豫或接受[ 4， 20.- 24］．随着大流行时期社交媒体的使用持续增长，已知有超过36亿人定期登录至少一个网络平台。推特被认为是最大、最常用的社交媒体平台之一，拥有4亿多账户。 9］．该平台允许用户发布短消息或推文，供“粉丝”查看和回复，基于他们所唤起的潜在情绪。推文仅限于简短的消息，280个字符的限制，但可能包含附加的图像、视频或突出显示的流行关键词，即“标签”。此外，推文可以包含新闻文章或科学文献的超链接。如果另一名用户同意一条推文，他们可以“转发”或将消息分享到他们的个人资料中，以显示关系融洽。用户通常会关注其他用户，而不是加入基于主题的社区。

Reddit平台的规模与之相似，目前约有4.3亿用户[ 9］．然而，它在消息格式和传递上有所不同，因为用户可以根据主题创建分组，称为“看板”。reddit的子版块通常包含公开对话、图片、视频以及新闻文章或文学作品的超链接。类似于“转发”，reddit订阅用户可以根据用户对帖子内容的看法对其进行“赞”或“反对票”。用户还可以通过评论加入讨论，也可以对评论进行点赞或反对票。如果reddit的一个子版块变得越来越受欢迎，并获得了大量的赞，那么这篇文章将首先出现在一个主题类别中。一个Reddit版块收到的流量越多，即使它分享的是错误信息或虚假信息，Reddit平台对它的推广也会越高。值得注意的是，reddit的子版块通常都有社区成员必须遵守的规则，否则就有可能被删除或封禁。

伯特算法

自从BERT的开发和基于其体系结构的工作以来，自然语言处理已经取得了实质性的进展。BERT是谷歌AI language开发的一种强大而通用的基于人工智能的自然语言处理算法，擅长对具有社交媒体数据特征的非结构化/半结构化文本数据进行文本分类(即本体、类别和情感等)[ 10］．BERT算法使用16个基于云的张量处理单元在整个维基百科和布朗语料库上进行了4天的训练。BERT是一个基于转换器的语言模型，它使用多个编码器来创建单词嵌入。然后，这些嵌入与蒙面语言建模和下一句预测一起使用，分别通过预测句子中的随机蒙面词和学习预测句子来学习。这两个步骤教会BERT理解上下文，这是旧的循环神经网络通常难以掌握的技能。BERT的一个方便之处是，它能够使用相关数据对模型进行微调，方法是将输出层替换为来自自定义数据的权重。研究人员受到原始BERT架构的启发，创建了许多变体(例如RoBERTa、DistilRoBERTa、DistilBERT和BART等)，这些变体已经超过了以前模型的基准。此外，这些模型可以针对多种语言的特定领域任务(ClinicalBERT和BioBERT)进行微调[ 11， 12， 25］．此外，一些研究使用其他微调BERT模型来调查社交媒体上表达的与covid -19相关的内容，这些内容涉及错误信息检测、情绪分类和大陆分析[ 13， 26- 29］．

方法研究概述

我们的研究比较了2020年1月1日至2022年3月1日期间，两个流行社交媒体平台(reddit和twitter)上与COVID-19疫苗相关的帖子。这两个平台被选中是因为它们的全球使用率、活跃的讨论和高用户数。时间框架包括大流行的最早部分，以追踪情绪随时间的演变。最重要的是，选择这些平台是因为只有少数比较研究关注典型用户，特别是与COVID-19疫苗情绪或其他疫苗相关的研究。我们的研究使用二元(即积极或消极极性)情感分类方法来训练我们的模型并进行情感分析。选择双星系统有几个原因。(1)二进制系统在处理大量数据时计算效率更高。(2)二进制分类器通常比多类系统更准确。(3)在过去，包含中性类别的情绪分类器通常依赖于低概率或置信度得分。由于我们的模型报告了一个置信度值，这个信息可以外推。

数据概述

Twitter采取了大量措施来识别和删除直接来自新闻机构或机器人的推文。这些帖子的来源在26个月的时间里，相对于“正常”用户的平均帖子数量，具有极高的帖子数量，以及通过视觉检查出现频率异常的用户的推文来识别。Twitter和Reddit的数据集仅限于在我们的时间框架内发布少于或等于200次的用户。这些步骤非常重要，因为许多机器人推文具有重复性，这可能会扭曲情绪计算，并偏离比较两个平台正常用户基础的目标。尽管收集Reddit和Twitter数据的方法略有不同，但这两个数据集都经历了类似的清理步骤。对这两个数据集进行了相同的相关术语查询，这些术语通常出现在关于COVID-19疫苗的网络讨论中。这一步很重要，因为一些扩展的评论线程倾向于偏离主题。这种情况在Reddit社区的帖子中尤其明显。在疫情暴发的最初几个月，这两个平台的日发布频率相对相似。2020年9月下旬至10月，随着疫苗传播的消息变得更加广泛，这两个平台的频率急剧增加。 Although each platform displayed 4 spikes in posting frequency at similar time periods (October 2020, March to April 2021, August to September 2021, and December 2021 to January 2022), they obtained a maximum in different time periods. Reddit reached its maximum posting from March to April 2021, whereas Twitter reached its maximum from September to October 2021.

推特

大约有1300万条推文是通过 snscrape而且 Tweepy基于搜索词“COVID疫苗”的API Python库。在去除可疑机器人、新闻媒体、高重复高频用户和重复推文后，我们最终的推特数据集由3,006,075名推特用户撰写的9,518,270条推文组成。这些推文总共有大约1632万个赞，最多有430758个赞，平均每条推文有14.9个赞。推文不能被降级，但大约有4,794,865条推文被归为0点赞。没有收集关于推文分享或转发的统计数据，因为这一指标不适用于两个平台。

我们用Python Reddit API从67个Reddit子版块中收集了579,241个用户创建的帖子包装器．收集这些看板是为了广泛了解与COVID-19疫苗相关的情绪，并避免数据收集中的潜在偏差。截至2022年3月1日，这些reddit版块共有5,590,913名订阅者。我们的查询删除了大部分不相关的术语。在视觉检查和确认查询过程的结果后，我们最终的Reddit数据集由至少9843位作者组成的67,962条评论组成。这些帖子总共获得了大约210万张赞，平均31张赞，每条评论最多获得18253张赞。

数据标记和增强

由于在全球大流行中，时间是至关重要的，再加上标记数据耗时且昂贵，我们通过标记与COVID-19疫苗相关的大约3600条推文的情绪(积极或消极)创建了一个自定义训练数据集。我们选择为这项研究专门标记推文，因为推文的280个字符的限制(即，与Reddit的最多10,000个字符的限制相比)将允许我们的小团队更快地创建与时间相关的训练数据集。然后，我们通过在hug Face模型存储库上使用几种语言模型进行反向翻译的过程来扩充我们的数据集。在测试了其他几种文本增强方法后，选择了反向翻译。一些技术(例如，单词屏蔽)会导致更多的重复文本，最终需要删除。反向翻译依赖于语言结构、词义和句法之间的细微差异。实际上，输出文本将与输入文本略有不同，而不会失去语义和上下文意义[ 14］．在我们的例子中，反向翻译方法将英语文本翻译成另一种语言(例如，法语、中文、希腊语和希伯来语)，然后再翻译成英语。去除重复后，我们最终的增强数据集由48,691条推文组成。

RoBERTa和DistilRoBERTa

在我们的研究中，我们选择探索DistilRoBERTa的功能。RoBERTa是一个比BERT更健壮的模型，而DistilRoBERTa是RoBERTa的优化版本[ 15， 16］．由Facebook开发的RoBERTa使用160 GB的文本进行训练，而BERT使用16 GB。RoBERTa放弃了BERT的下句预测功能，在训练过程中增加了动态标记掩蔽。这些增强估计大大提高了原始BERT的性能(2%至20%)[ 16］．与RoBERTa相比，DistilRoBERTa在大约40 GB的文本数据(OpenWebTextCorpus)上进行了训练，运行速度大约是RoBERTa的两倍。

田纳西大学健康科学中心疫苗情感标签和蒸馏器微调

我们通过拥抱面微调了蒸馏roberta基地教练类，它为用户提供了用于训练的API PyTorch。然后，我们的数据被随机划分为40000条训练推文、4000条验证推文和4691条测试推文。训练超参数包括2 × 10⁵学习率，32个训练和评估批大小，42个种子数，以及具有500个热身步骤的线性调度器。我们使用亚当beta值为0.9和0.999，ε为1 × 10的优化器⁸．最后，对我们的模型进行2个epoch的训练。这些超参数的训练损失为0.1284，验证损失为0.1167，精度为0.9561 F₁-得分为0.9592，精度为0.9592(见表1)．

表1

DistilRoBERTa微调训练指标。该模型经过2个训练周期后得到最优的微调。

一步	时代	培训损失	确认损失	精度	精度	F₁分数
500	0.4	0.5903	0.4695	0.7342	0.7728	0.7890
1000	0.8	0.3986	0.3469	0.8144	0.8596	0.8684
1500	1．2	0.2366	0.1939	0.9313	0.9260	0.9253
2000	1．6	0.1476	0.1560	0.9207	0.9452	0.9465
2500	2．0	0.1284	0.1167	0.9561	0.9592	0.9592

分析方法

在对模型进行微调之后，我们通过hug Face处理Twitter和Reddit数据管道用于情感分析。该模型为每条推文或Reddit评论返回一个积极或消极的标签。在确定极性的同时，该模型还返回了一个从0到1的概率置信度分数。为了清晰起见，被归类为负面的推文或评论被乘以-1来反映负面情绪。

道德的考虑

由于所使用数据的公开可用性和不可识别性，不需要我们机构的伦理批准。

结果 DistilRoBERTa微调至COVID-19疫苗推特

蒸馏罗伯塔微调极性分析确定，在我们的时间范围内，9,518,270条推文的负面(n=5,215,830, 54.8%)比正面(n=4,302,440, 45.2%)更多图1)．

最高阳性评分出现在2021年3月(375,789/675,274 55.6%)。然而，最低的阳性评级发生在2022年1月(191,159/526,582,36.3%)，极性从最大值开始稳步下降。对于置信度得分，被归类为积极的推文的最高得分为0.999，最低得分约为0 (3.58 × 10⁷)，平均值为0.868(见图2)．被分类为负面的推文的最低得分为-0.999，最大值约为零(-1.78 × 10⁶)，平均值为-0.882(见图1而且 2)．

图1

来自蒸馏roberta模型的推文极性微调至COVID-19疫苗。极性和相应的置信概率表示在y轴上，时间表示在x轴上。推文用浅蓝色圆圈表示。圈的大小表示每条推文的点赞数，圈越大点赞越多，圈小点赞越少。

图2

在推特上，信心得分与点赞数的对比。x轴表示信心得分，y轴表示一条推文收到的点赞数。x轴上低于0.00的数据点代表负分类，高于0.00的数据点代表正分类。数据点用浅蓝色圆圈表示。

Reddit对微调蒸馏roberta模型的情绪极性分析发现，在67962个帖子中，37.7% (n= 25646)被归类为负面，62.3% (n= 42316)被归类为正面。在我们的实验中报告的最高极性和最大阳性评级发生在2021年4月(6611/9044,73.1%)，最小阳性评级发生在2020年2月(170/351,48.4%)。对于信心评分，被分类为积极的评论的最高得分为0.999，最低得分约为0 (1.55 × 10⁴)，平均值为0.870(见图3)．被归类为负面的评论最小值为-0.999，最大值约为0 (-4.74 x 10⁵)，平均值为-0.808(见图3而且 4)．

图3

来自蒸馏roberta模型的Reddit评论极性微调到COVID-19疫苗。y轴表示极性和相应的置信概率，x轴表示时间。数据点用橘红色的圆圈表示。圆圈的大小表示每条评论获得的赞数——更多的赞数用更大的圆圈表示，更少的赞数用更小的圆圈表示。

图4

在Reddit上，信心分数和喜欢数。x轴表示置信度得分，y轴表示一条评论收到的赞数。x轴上低于0.00的数据点代表负分类，高于0.00的数据点代表正分类。数据点用橘红色的圆圈表示。

在Reddit和推特上表达了对COVID-19疫苗的看法

总体而言，这两个社交媒体平台的平均情绪略有不同(Reddit的正面情绪为62.3%，Twitter为45.2%)。当仔细观察每个月的结果之间的关系时，一个有趣的故事开始出现。尽管在大流行的前几个月，两个平台上的情绪都有所波动，但从2020年1月到8月，Reddit的情绪较高(正面情绪从48%到55%不等)。推特的情绪开始与Reddit的情绪相似，但逐渐下降，直到2020年9月至10月变得更加消极，然后在2021年3月升至55%的最大值。Reddit的情绪在2020年12月开始急剧上升，并继续增加，直到2021年4月达到最大的积极情绪(约73%)。在每个平台上的情绪达到最大积极极性后，两者都开始振荡并逐渐下降到接近大流行早期的水平。然而，推特人气继续下降，直到最低达到36% 图5)．

图5

推特和Reddit与COVID-19疫苗相关的帖子的月度情绪。x轴表示时间，y轴表示列为积极职位的百分比。蓝色线代表Twitter的情绪，橘红色线代表Reddit的情绪。请注意，由于发布频率非常低，因此2020年1月的情绪是所有其他月份相应数据的平均值。

讨论结果解释

从2020年1月1日到2022年3月1日，我们的结果显示，Reddit数据集的平均情绪比推特上表达的平均情绪更积极。有趣的是，这两个平台在流感大流行的关键时刻(如疫苗疗效宣布、向所有年龄段分发疫苗、新变种和疗效减弱)表达了类似的情绪变化。随着疫苗广泛普及，两极分化减弱，这种行为尤其明显。考虑到这种类似的行为，我们认为推特和Reddit仍然是有价值的数据来源，公共卫生官员可以使用它们来开展疫苗教育活动和数字干预。尽管Twitter在通过API访问大量推文方面具有优势，但在清理Twitter数据时需要采取实质性步骤，以删除机器人、新闻媒体帖子、商业用户、重复的帖子和帖子频率极高的用户。另一方面，Reddit的数据在较长的文本中更丰富，可能对主题建模更有用。

是什么推动了这两个平台上与COVID-19疫苗相关的情绪变化?一种可能性可能与推文和Reddit帖子的字符限制有关(分别是280个字符和10,000个字符)。缩短推文的字符限制很可能有助于信息的快速传播，在本质上可能是反动的，引发负面情绪。然而，Reddit用户通常利用较长的字符限制，有时分享与他们的医疗保健有关的高度个人的故事和经历。出于这个原因，在考虑公共卫生信息和教育活动的发展时，Reddit仍然是一个非常有价值的来源。

将情绪变化与大流行期间的发展联系起来，提出了一些有趣的挑战和想法。最明显的情绪急剧上升似乎与有关疫苗开发和试验的积极消息，以及对那些耐心等待疫苗的人的高效、分发和可用性的消息有关。将最低情绪分数关联起来具有挑战性，因为它们的下降并不一致。这种逐渐下降极有可能是与大流行相关的不幸事件(例如，错误信息、大流行疲劳和疫苗效力下降)的综合作用所致。可以想象，疫苗推广和分发方面的挑战可能会对情绪产生负面影响。然而，之前对该数据集的部分进行的主题建模和语义网络分析并没有发现与疫苗分布相关的术语有意义的出现。因此，迫切需要更多的心理学、社会学和文化研究来了解是什么驱使某些人群、新闻媒体、政治家和娱乐人士如此轻易地接受和传播错误信息和阴谋论，而不是直接可见的事实。这类研究不仅有利于未来的公共卫生应对，而且有利于错误信息和虚假信息占据主导地位的许多其他生活领域。如果不更全面地了解如何覆盖这些人群，数字干预和教育活动的成功可能会受到限制。

公共卫生影响

我们的发现的应用可能会对公共卫生部门在抗击COVID-19等传染病方面产生重大影响。为快速收集数据而优化的低人力监测系统的进一步开发将允许实时分析与疾病进展相关的公众情绪。此外，通过微调模型来评估情绪的地理和人口差异，可以深入了解面临最大削弱后果风险的人群的态度。除了地理和人口特定数据挖掘外，在感染高峰、疫苗发布或名人、运动员或政治人物因疾病死亡期间，针对公共话语，可以极大地加强公共卫生应对[ 30.， 31］．使用情感挖掘技术扩展这种疾病预测和预测模型也可能影响循证政策。认识到人口情绪的动态水平，公共卫生官员可以设计有针对性的政策沟通策略。通过提供必要的工具，更好地了解与疾病预防、控制和遏制有关的公众情绪，政策制定者将更好地评估规划的成功，并突出任何重新定位的需要。

此外，通过社交媒体分享的情绪分析可能被证明是打击网络上猖獗的错误信息和虚假信息的重要工具。由于虚假信息的传播会带来一系列心理和社会心理风险(焦虑和恐惧等)，因此迫切需要了解公众对共同虚假信息的观点和态度。根据民众表达的情绪量身定制的教育交付系统可能有助于澄清这种错误信息。此外，人工智能消息传递系统还有扩展的空间，其任务是对通过社交媒体平台分享的错误信息和虚假信息浪潮做出回应。总的来说，拟议的情绪实时分析框架可能有助于指导政府支持公共卫生恢复工作。

限制

与大多数研究一样，我们的研究也有一些局限性。由于一些长期存在的问题，在社交媒体文本中进行情感分析时遇到了挑战。尽管BERT和更新的模型极大地缓解了这些挑战，但一些模型通常难以检测文本中的讽刺、幽默、情感和复杂的推论，除非经过专门的训练。例如，许多支持疫苗的社交媒体用户对反疫苗社区表达了极其负面的观点和情绪。BERT如何对这样的事件进行分类?尽管他们表达的情绪对疫苗是积极的，但许多自然语言处理算法和数据标签者可能会与这种类型的分类作斗争。尽管我们在这项研究中非常小心地删除了机器人的推文或推文来自推特上高度重复用户的推文，并选择了无偏见的看板，但仍有可能有一些人通过了数据清理过程。此外，由于语义内容相对相似，在对模型进行微调时，增强数据可能会导致过拟合问题。我们限制了训练周期，并密切监控训练损失和验证损失之间的关系，以缓解这个潜在的问题。未来的工作可能包括努力创建一个更大的标记数据集，不仅包括COVID-19疫苗的情绪，还包括其他疫苗的情绪。

结论

我们用经过微调的DistilRoBERTa模型对大约7万条Reddit评论和950万条推文进行了情绪分析。我们的分析发现，Reddit和Twitter用户在大流行期间表达了类似的情绪变化，尽管Twitter的负面情绪比Reddit严重得多。尽管每月都观察到细微的情绪差异，但随着COVID-19疫苗向公众提供，两个平台的积极情绪都大幅增加。我们在这里提出的结果是一项正在进行的研究的一部分，该研究旨在调查社交媒体上与疫苗相关的内容，重点是识别和打击错误信息，以减少疫苗犹豫。将强烈的情绪与高传染性联系起来，可以为官员们预测公众对疫苗发放和接受等移民战略的接受程度。这些综合疾病监测工具不仅应用于抗击COVID-19，而且将在未来卫生政策、决策、规划实施和精准健康促进的演变中发挥重要作用[ 32］．在不久的将来，我们的团队计划将本研究中展示的方法扩展到与其他类型的疫苗(如人乳头瘤病毒疫苗)相关的情绪。我们希望这些结果与其他结果一起被用于开发工具，以协助公共卫生官员监测有关疾病爆发的公共话语，更好地了解疫苗犹豫，并开发个性化的数字干预措施[ 33， 34和教育活动。

缩写

伯特

来自变压器的双向编码器表示

我们要感谢来自田纳西大学健康科学中心的数据标签员团队。这项研究得到了美国国家癌症研究所(NCI)的部分资助(1r37ca23419 - 01a1)。

数据可用性

支持我们研究结果的数据可根据作者的合理要求提供。数据不可用于商业用途。

CAM对研究进行了概念化和监督，并起草、审查和编辑了手稿。宝马概念化了这项研究，并起草、审查和编辑了手稿。RLD对稿件进行审阅和编辑。RAB对稿件进行了审阅和编辑。ASN起草，审查和编辑手稿;监督研究;并获得了资金。

没有宣布。

沙玛

惠特尔

年代

Haghighi

Burstein

敏锐的

药物治疗社交媒体帖子的情感分析:范围审查

药物学研究 2020 10 19 8 5 e00640

10.1002 / prp2.640

32813329

PMC7437347

盒饭

人工智能

阮

翼

Lozano-Rojas

安

西蒙

来自互联网搜索数据的证据显示，人们对当地COVID-19病例新闻的信息寻求反应

美国国立自然科学研究院 2020 05 26 117 21 11220 11222

10.1073 / pnas.2005335117

32366658

2005335117

PMC7260988

Auxier

安德森

米

2021年社交媒体的使用情况

皮尤研究中心 2021 04 07

2022-03-20

https://www.pewresearch.org/internet/2021/04/07/social-media-use-in-2021/

梅尔顿

Olusanya

办公自动化

阿玛

Shaban-Nejad

一个

Reddit社交媒体平台上关于COVID-19疫苗的公众情绪分析和主题建模:呼吁采取行动加强疫苗信心

J影响公共卫生 2021 10 14 10 1505 1512

10.1016 / j.jiph.2021.08.010

34426095

s1876 - 0341 (21) 00228 - 8

PMC8364208

Raveendran

Jayadevan

Sashidharan

年代

长冠:概述

糖尿病代谢综合征 2021 05 15 3. 869 875

10.1016 / j.dsx.2021.04.007

33892403

s1871 - 4021 (21) 00119 - 3

PMC8056514

罗森博格

西文

Holtgrave

博士

Dorabawila

康罗伊

米

格林

Lutterloh

Backenson

Hoefer

Morne

鲍尔

Zucker

哈

成人新增COVID-19病例和住院情况，按疫苗接种状况分列-纽约，2021年5月3日至7月25日

MMWR Morb凡人Wkly代表 2021 09 17 70 37 1306 1311

10.15585 / mmwr.mm7037a7

34529645

PMC8445378

世卫组织冠状病毒(COVID-19)仪表盘

世界卫生组织 2022-03-20

https://covid19.who.int/

班

莱托

Atabati

Oxoby

Mourali

米

谢弗

谢赫。

布歇

Constantinescu

帕森斯利

iver

纳米

Ratzan

富勒顿

毫米

唐

曼

马歇尔

达

胡

朗

加拿大COVID-19疫苗相关态度和信念:全国横断面调查和聚类分析

JMIR公共卫生监测 2021 12 23 7 12 e30424

10.2196/30424

34779784

v7i12e30424

PMC8709417

克莱门特

截至2022年1月，全球最受欢迎的社交网络，按月活跃用户数量排名

Statista 2022 01

2022-03-20

https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users/

Devlin

常

兆瓦

李

Toutanova

Bert:深度双向转换器的预训练，用于语言理解

2019 06

2019年计算语言学协会北美分会会议:人类语言技术

2019年6月2日至7日

明尼阿波利斯、锰

4171 4186

10.18653 / v1 / n19 - 1423

Alsentzer

墨菲

Boag

翁

金

瑙曼

麦克德莫特

米

公开的临床BERT嵌入

2019 06

第二届临床自然语言处理研讨会

2019年6月7日

明尼阿波利斯、锰

72 78

10.18653 / v1 / w19 - 1909

李

尹

金

年代

金

年代

所以

康

BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型

生物信息学 2020 02 15 36 4 1234 1240

10.1093 /生物信息学/ btz682

31501885

5566506

PMC7703786

Kolluri

刘

没吃

COVID-19错误信息检测:信息大流行的机器学习解决方案

JMIR Infodemiology 2022 8 25 2 2 e38756

10.2196/38756

Beddiar

博士

贾汗

女士

Oussalah

米

利用反译和释义进行仇恨言论检测的数据扩展

在线Soc网络媒体 2021 07 24 100153

10.1016 / j.osnem.2021.100153

刘

奥特

米

Goyal

杜

Joshi

米

陈

莱维

刘易斯

米

Zettlemoyer

Stoyanov

一种鲁棒优化的bert预训练方法

ArXiv 2019 07 26 1 13

10.48550 / arXiv.1907.11692

山

首次亮相

Chaumond

狼

蒸馏酒，蒸馏版的伯特:更小，更快，更便宜，更轻

ArXiv 2019 10 02 1 5

10.48550 / arXiv.1910.01108

布莱恩

Bellutta

Carley

公里

COVID-19疫苗初步推出期间的社交网络操作:推文的内容分析

J医疗互联网服务 2022 03 07 24 3. e34040

10.2196/34040

35044302

v24i3e34040

PMC8903203

辛格

巴蒂亚

一个

使用机器学习技术进行情绪分析，预测疫情和流行病

国际广告科学研究 2018 03 3. 2 19 24

唐

Bie

公园

年代

智

社交媒体和新发传染病的爆发:文献的系统回顾

感染控制 2018 09 46 9 962 972

10.1016 / j.ajic.2018.02.010

29628293

s0196 - 6553 (18) 30105 - 6

PMC7115293

20.

詹宁斯

斯托克

彩旗

Valgarðsson

维克多Orri

盖斯凯尔

迪瓦恩

麦凯

米尔斯

缺乏信任、阴谋信念和社交媒体的使用预示着COVID-19疫苗的犹豫

疫苗(巴塞尔) 2021 06 03 9 6 593

10.3390 / vaccines9060593

34204971

vaccines9060593

PMC8226842

普里

锯屑

Haghbayan

Gunaratne

社交媒体和疫苗犹豫:COVID-19和全球化传染病时代的新动态

Hum Vaccin Immunother 2020 11 01 16 11 2586 2593

10.1080 / 21645515.2020.1780846

32693678

PMC7733887

Shakir

一个

Arora

二元、三元、多元分类情感分析的准确性——综述

高级分辨率计算科学 2018 2 20. 9 2 524 526

10.26483 / ijarcs.v9i2.5866

侯

通

杜

陆

赵

年代

余

Piatek

拉森

沪江

林

评估COVID-19疫苗犹豫、信心和公众参与:一项全球社会倾听研究

J医疗互联网服务 2021 06 11 23 6 e27632

10.2196/27632

34061757

v23i6e27632

PMC8202656

Kummervold

体育

马丁

年代

达达

年代

Kilich

丹尼

帕特森

拉森

沪江

用基于变压器的机器学习模型对疫苗信心进行分类:分析Twitter话语中疫苗情绪的细微差别

JMIR Med Inform 2021 10 08 9 10 e29584

10.2196/29584

34623312

v9i10e29584

PMC8538052

百胜

李

张成泽

乔丹

金

年代

胫骨

首歌

年代

锺株

沪江

韩语医学词汇语义相似度和相关性的词对数据集:参考发展和验证

JMIR Med Inform 2021 06 24 9 6 e29667

10.2196/29667

34185005

v9i6e29667

PMC8277378

Ayoub

杨

周

使用可解释的自然语言处理模型对抗COVID-19信息疫情

进程管理 2021 07 58 4 102569

10.1016 / j.ipm.2021.102569

33776192

s0306 - 4573 (21) 00070 - 4

PMC7980090

科伦

一个

阿拉姆

茂

Koneru

年代

DeVito

一个

阿卜杜拉

刘

COVID-19影响的护理视角:社交媒体内容分析

JMIR表格规定 2021 12 10 5 12 e31358

10.2196/31358

34623957

v5i12e31358

PMC8668023

侯赛因

一个

Tahir

一个

侯赛因

谢赫。

Gogate

米

Dashtipour

阿里

一个

谢赫。

一个

英国和美国Facebook和Twitter上公众对COVID-19疫苗态度的人工智能分析:观察性研究

J医疗互联网服务 2021 04 05 23 4 e26627

10.2196/26627

33724919

v23i4e26627

PMC8023383

Cresswell

Tahir

一个

谢赫。

侯赛因

Dominguez埃尔南德斯

安德烈斯

哈里森

威廉姆斯

谢赫。

一个

侯赛因

一个

了解公众对COVID-19接触追踪应用程序的看法:人工智能支持的社交媒体分析

J医疗互联网服务 2021 05 17 23 5 e26618

10.2196/26618

33939622

v23i5e26618

PMC8130818

30.

Salali

Uysal

女士

增加COVID-19疫苗接种的有效激励措施

Psychol地中海 2021 09 20. 1 3.

10.1017 / S0033291721004013

34538287

S0033291721004013

PMC8485007

Romaniuc

圭多

一个

梅

Spiegelman

苏达灭

一个

提高疫苗接受度和接受度:证据审查

SSRN 预印本于2021年5月11日在线发布

10.2139 / ssrn.3839654

Shaban-Nejad

一个

Michalowski

米

偷看

布朗斯坦

Buckeridge

戴斯。莱纳姆:

精准数字医疗的七大支柱

Artif Intell医院 2020 03 103 101793

10.1016 / j.artmed.2020.101793

32143798

s0933 - 3657 (19) 31231 - x

Olusanya

办公自动化

阿玛

戴维斯

Bednarczyk

类风湿性关节炎

Shaban-Nejad

一个

一个数字个人健康库，用于促进精准健康，预防人类乳头瘤病毒相关癌症

前指生命值 2021 7 21 3. 683161

10.3389 / fdgth.2021.683161

34713154

PMC8521976

Olusanya

办公自动化

白色

梅尔顿

Shaban-Nejad

一个

审查数字卫生的实施情况，以加强非洲国家的COVID-19大流行应对和恢复，并扩大公平获得疫苗的机会

JMIR表格规定 2022 05 17 6 5 e34363

10.2196/34363

35512271

v6i5e34363

PMC9116456