发表在23卷, 6号(2021): 6月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/24435,首次出版
推特上与COVID-19疫苗相关的讨论:主题建模和情感分析

推特上与COVID-19疫苗相关的讨论:主题建模和情感分析

推特上与COVID-19疫苗相关的讨论:主题建模和情感分析

原始论文

1加州大学旧金山分校烟草控制研究与教育中心,美国加州旧金山

2美国密歇根州安娜堡市密歇根大学信息学院

3.美国加州大学戴维斯分校数学系

通讯作者:

Joanne Chen Lyu博士

烟草控制研究与教育中心

加州大学旧金山分校

帕纳萨斯大道530号

旧金山,加利福尼亚州,94143-1390

美国

电话:1415 502 4181

电子邮件:chenjoanne.lyu@ucsf.edu


相关的文章评论://www.mybigtv.com/2022/2/e31978

背景:疫苗接种是预防传染病的基石;然而,疫苗传统上受到公众的恐惧和犹豫,COVID-19疫苗也不例外。社交媒体的使用已被证明在疫苗接受度低的问题上发挥了作用。

摘要目的:本研究的目的是确定社交媒体上与COVID-19疫苗相关的公众讨论中的主题和情绪,并辨别主题和情绪随时间的显著变化,以更好地了解可能影响群体免疫目标实现的公众看法、担忧和情绪。

方法:从2020年3月11日(世界卫生组织宣布COVID-19大流行之日)至2021年1月31日的大规模COVID-19推特聊天数据集中下载了推文。我们使用R软件清理推文并保留包含关键字的推文疫苗接种接种疫苗疫苗疫苗免疫接种接种疫苗,接种疫苗.分析中包含的最终数据集包括来自583,499个不同用户的1,499,421条唯一推文。我们使用R执行主题建模的潜在狄利克雷分配,以及使用加拿大国家研究委员会情感词典进行情绪和情感分析。

结果:与COVID-19疫苗相关的推文的主题建模产生了16个主题,这些主题分为5个总体主题。关于疫苗接种的意见(227840条/ 1499421条,15.2%)是推特最多的话题,在我们研究的大部分时间里仍然是一个高度讨论的话题。2020年8月11日,俄罗斯批准了世界上第一个COVID-19疫苗,世界各地的疫苗进展成为讨论最多的话题。随着疫苗接种工作的推进,接种疫苗的指导话题逐渐凸显,并在2021年1月第一周之后成为讨论最多的话题。每周平均情绪得分显示,尽管有波动,但总体上情绪越来越积极。情绪分析进一步表明,信任是最主要的情绪,其次是期待、恐惧、悲伤等。这种信任情绪在2020年11月9日达到顶峰,当时辉瑞宣布其疫苗的有效性为90%。

结论:推特上与COVID-19疫苗相关的公众讨论主要由COVID-19疫苗的重大事件推动,并反映了主流媒体上活跃的新闻话题。讨论还展示了全球视角。社交媒体讨论中对COVID-19疫苗的日益积极的情绪和主要的信任情绪可能意味着与以前的疫苗相比,对COVID-19疫苗的接受程度更高。

[J] .中国医学信息学报,2013;23(6):544 - 544

doi: 10.2196/24435

关键字



随着新冠肺炎大流行在全球蔓延,新冠肺炎疫苗相关问题日益受到公众关注。各国主要制药公司和研究机构的多个研究团队一直在开发疫苗[12].虽然接种疫苗是预防传染病的基石[3.传统上,这种做法面临着公众的恐惧、犹豫,甚至反对[45].在COVID-19大流行期间,根据国家和感染率的不同,估计55%至85%的人口需要接种COVID-19疫苗以提供群体免疫力[67].然而,2020年9月一项关于COVID-19疫苗意向的调查显示,美国21%的公众肯定会接种疫苗,24%的公众肯定不会接种疫苗[8].导致疫苗接受度低的一个因素是卫生素养差,这受到社交媒体使用的显著影响[9].因此,迫切需要了解社交媒体上是如何讨论COVID-19疫苗的,以便更好地了解可能影响实现群体免疫目标的公众看法、担忧和情绪。

尽管社交媒体数据分析已广泛用于健康相关问题和新出现的公共卫生危机[10-14],社交媒体讨论COVID-19疫苗的大数据分析有限[1516].据我们所知,在最近发表的关于COVID-19疫苗相关社交媒体讨论的工作中,研究期于2020年11月结束[16].然而,自那时以来,发生了许多与COVID-19疫苗相关的重大事件,例如美国疾病控制和预防中心(CDC)在北美确认了更多的COVID-19变异病例,疫苗的推出以及显示高效的疫苗数量的增加。先前的研究发现,社交媒体上关于疫苗相关话题的讨论的变化与不断变化的现实相对应[1517].因此,需要进行涉及最近社交媒体数据的研究,以充分了解大流行期间公众对COVID-19疫苗的讨论。此外,了解社交媒体上关于COVID-19疫苗的讨论内容,将可能解释用户对COVID-19疫苗的态度以及对COVID-19疫苗的接受或犹豫。然而,之前对COVID-19疫苗的研究并未涉及这些主题[1618-21].为了填补这一空白,在本研究中,我们将研究自世界卫生组织于2020年3月11日宣布COVID-19疫苗为全球大流行以来,到2021年1月31日,Twitter上关于COVID-19疫苗的公共话语,以确定围绕COVID-19疫苗和疫苗接种的主题、总体主题和情绪。这是首个纳入近一年流感大流行数据的研究。这一漫长的时间跨度不仅使我们能够更全面地观察公众对COVID-19疫苗的讨论和关切,还能看出大流行期间主要议题和情绪的显著变化,并进一步为提高COVID-19疫苗接受度的公共卫生教育和运动提供信息。此外,我们的结果可能为推广其他疫苗提供有用的见解。


数据提取与预处理

从2020年3月11日到2021年1月31日,共有1,499,421条推文(不包括转发)的id是使用乔治亚州立大学Panacea实验室维护的数据集获得的[22].这些推文是由Panacea Lab使用以下13个关键词收集的:COVID19CoronavirusPandemic新型冠状病毒肺炎2019年ncovCoronaOutbreak冠状病毒covid19coronaviruspandemic新型冠状病毒肺炎2019年ncovcoronaoutbreak,.Panacea Lab只能提供tweet id [23],需要对其进行补水以恢复完整的推文数据。

在标记化阶段,我们使用gsubR (R Foundation for Statistical Computing)中的函数提取推文元数据中语言字段指定为English的推文。所有文本挖掘都是在运行Big Sur 11.2.2版本的Mac计算机(Apple Inc)上使用RStudio Version 1.4.1103进行的。我们将所有推文的文本转换为小写。我们进一步通过以下关键词对推文进行过滤:疫苗接种接种疫苗疫苗疫苗免疫接种接种疫苗,接种疫苗.我们准备了2批推文,1批用于文本挖掘,1批用于情绪/情感分析。两个批次的数据处理过程几乎相同,除了开始:对于情感分析,我们将所有的表情符号转换为单词,而对于文本挖掘,我们删除了所有的表情符号。接下来,我们创建了一个脚本来删除url、提到的名称、非美国信息交换标准代码(ASCII)字符以及除英文字母或空格(例如,“1”和“?”)以外的任何内容。使用R包dplyr在1.0.2版本中,我们通过删除重复的内容来清理推文。为了过滤由假帐户或bot帐户创建的tweet,我们使用文档-术语矩阵(document-term matrix, DTM),它包含与tweet对应的行和与术语对应的列。DTM中的每个条目表示一个词在tweet中出现的次数。相似矩阵年代= (年代ij],用来衡量两者的相似程度-这条推特是对的j-推文,通过计算-第一行向量j第-行向量Rj在DTM中,它在几何上表示行向量之间夹角的余弦RRj

因此,如果-th和thej-这两条推文是一样的年代ij= 1;如果它们完全不同(即对应的行向量之间的夹角为90º),则年代ij= 0。对于相似度为80%的tweet,我们保留最具代表性的tweet(通过DTM中行向量的大小来衡量)。此外,我们使用tweetornot包(24],版本0.1.0,以删除95%或更高概率被识别为机器人的用户。

最终清理的数据集包括来自583499个不同用户的1,499,421条唯一tweet。我们进一步清理了推文,删除了很少或没有分析价值的单词和字符(例如,“the”,“very”,“&”)。我们通过添加相关的13个关键字来创建我们自己的停止词列表来执行此任务新型冠状病毒肺炎与之相关的7个关键词疫苗到R包中的英文停止词列表tidytext,版本0.2.6;执行这一步是因为我们已经知道每条推文都会包含一个或多个这些关键字,在推文中保留它们不会进一步加深我们对推文主要内容的理解。最后,我们使用R包对单词进行词根提取和词根化textstem,版本0.1.4(例如,接种疫苗疫苗的,接种疫苗被改成了接种疫苗)。图1显示数据预处理过程的摘要。

图1所示。数据预处理程序。美国信息交换标准代码。
查看此图

主题建模

主题建模可以通过将文档分组到不同的主题中来帮助组织大量文档。主题建模通常被称为概率聚类。它比硬聚类(例如,k-mean聚类)更具鲁棒性,通常提供更真实的结果[25].典型的聚类算法假设主题之间的距离度量,并为每个文档分配一个主题,而主题建模将文档分配给具有不同权重或概率的主题集合,而不假设主题之间测量的距离。有许多主题模型可供选择,其中应用最广泛的是潜在狄利克雷分配(latent Dirichlet allocation, LDA)模型[25],由David Blei, Andrew Ng和Michael I Jordan于2002年开发[26].

为了从数量非常多的tweet中提取公共主题,我们使用LDA算法进行主题建模。我们使用RtextmineR包,版本3.0.4。LDA算法需要手动输入预期主题的数量。我们通过改变主题数从2到40对数据运行LDA算法。对于每个主题号,我们使用textmineR包中。我们选择16作为我们最终主题模型的主题号,基于两个考虑:首先,主题号16对应的是最高的连贯分数(参见多媒体附录1);其次,与其他主题模型中出现的主题相比,包含16个主题的主题模型在一个过于狭窄的主题可能会排除重要主题和一个过于宽泛的主题可能会淡化主要焦点之间取得了平衡。

从16个主题中,每个主题产生了前8个术语。我们还使用了geo_freqpoly函数ggplot2,版本3.3.2,以生成频率多边形(参见图2),以可视化从2020年3月11日至2021年1月31日这16个话题的每周频率。对于每条推文,LDA为16个主题中的每一个都分配了一个概率。我们将概率最高的主题分配给每条推文,并根据最流行的主题对推文进行分组。为了获得每个主题的代表性推文,我们从每个主题随机抽取100条推文;两位作者随后独立检查了抽样的推文,随后进行了小组讨论,以选出最具代表性的推文。如果其中一位作者认为前100条抽样推文中没有出现明显的主题,则将对另外100条推文进行抽样并进一步审查;作者们继续这个过程,直到他们判断出有一个明确的共同主题,并且他们达成了共识(参见我们之前的论文[27]查阅详情)。我们使用textmineR包的主题标签函数生成主题的初始标签。在仔细阅读了每个主题的tweet样本后,两位作者对机器生成的标签进行了改进,以便为每个主题提供最准确、最简洁和最连贯的描述(参见表1结果部分)。通过讨论,作者进一步将这些主题分为5个主要主题。具体来说,两位作者首先独立地将主题分成对他们最有意义的主题,并通过讨论解决相互矛盾的观点。第三位作者参与其中,对两位作者之间的协议和分歧提供了额外的评论。分组的最终决定是由三位作者共同作出的。例如,在两位作者的讨论之后,“印度的疫苗接种运动”这一主题应该归入“疫苗管理”还是“疫苗作为一个全球性问题”这一主题没有得到解决。通过重新阅读推文和三位作者之间的讨论,我们最终将话题置于疫苗作为全球问题的主题之下。

图2。2020年3月11日至2021年1月31日Twitter各话题每周频率。
查看此图

情感与情感分析

情感分析可以用来对给定文档的极性进行分类;它可以给文件打分,以表明所表达的意见是积极的、消极的还是中立的。情绪分析超越了简单的极性,可以给不同的情绪打分,如愤怒、恐惧、期待、信任、惊讶、悲伤、快乐和厌恶(所谓的普鲁契克情绪轮)[28].的包装(jockey, 2017) [29是最流行和高效的R软件包,用于情绪/情感分析。为了进行情绪分析,我们使用了加拿大国家研究委员会2010年由Turney和Mohammad开发的情绪词典[30.].它是这方面最全面的词典[31].在图3,我们展示了从2020年3月11日到2021年1月31日的每周平均极性(情绪)得分;我们对数据点进行了最佳的线性拟合,得到了斜率为0.003764的aP值<。0.001,截距为0.1653927P值<措施。在图4,我们绘制出每周情绪的百分比。

图3。2020年3月11日至2021年1月31日的每周平均极性(情绪)得分。最佳拟合斜率为0.003764。
查看此图
图4。从2020年3月11日到2021年1月31日的每周情绪百分比。
查看此图

推文数量

我们使用Panacea Lab数据库下载了从2020年3月11日到2021年1月31日(共327天)发布的144,332,894条推文。清理后,共有来自583499个不同用户的1499421条推文被纳入分析。如图所示图5,日推文数量不断增加;2021年1月的日均推文为22202条。在2020年11月9日之前,每日推文数量在5000左右或以下,只有2020年8月11日(n=7486)例外,当时俄罗斯批准了世界上第一个COVID-19疫苗[32].每日推文数量的第一波指数级增长始于2020年11月9日(n=12,720),当时辉瑞公司表示其疫苗的有效性为90% [33].第二波每日推文数量激增开始于2021年1月3日左右,当时美国疾病控制与预防中心(CDC)在北美确认了更多的COVID-19变体病例,单日推文数量最多的一天(n= 31197)发生在2021年1月29日,当时强生和诺瓦瓦克斯的疫苗分别显示出85%和89.3%的有效性[34].

图5。2020年3月11日至2021年1月31日,每日与covid -19相关的推文数量。
查看此图

COVID-19疫苗相关推文的主题建模

对推文的分析得出了16个主题,这些主题被分为5个主要主题。推文数量从高到低依次为:围绕疫苗和疫苗接种的意见和情绪(405397条,27.04%)、关于疫苗和疫苗接种的知识(355305条,23.7%)、疫苗作为全球问题(311251条,20.76%)、疫苗管理(266744条,17.79%)、疫苗开发和授权进展(160724条,10.72%)。表1总结了16个主题,主题中的top terms,以及每个主题的数量和百分比;它还为每个主题提供了tweet示例。关于主题和主题的更多细节,包括主题的显著时间方差(参见图2),在以下小节中详细阐述。

表1。与每个COVID-19疫苗主题相关的推文数量和百分比(N=1,499,421)。
主题及专题 对主题模型有贡献的顶级术语 推文总数,n (%) 释义推文示例一个(发布日期)
主题1:围绕疫苗和疫苗接种的意见和情绪

关于疫苗接种的意见 得到想要使就像认为

227840 (15.20) “看到对科学和政府的低信任度是可悲的。人们需要在电视上看到领导人和政治家接受疫苗,以说服他们疫苗是安全的。(2020年12月18日)

对疫苗接种的积极情绪 得到第一个一天今天工作一个感觉 89117 (5.94) “今天接种了第一剂covid-19疫苗后,我终于可以呼吸一些新鲜空气,感觉生活中有了希望。(2021年1月23日)

美国总统 特朗普拜登美国总统比尔计划政府 88440 (5.90) 他说:“今天新闻界的谎言比平时多。拜登被描绘成反疫苗者。这是不正确的。事实上,他在周三表示,他相信疫苗和科学家,同时指责特朗普总统用潜在的covid-19疫苗玩政治。(2020年9月16日)
主题2:疫苗知识

社区教育 问题回答专家文章社区免疫力黑色的 96532 (6.44) “你可以在即将举行的市政厅会议上了解更多关于covid-19疫苗的信息。我们将在2021年1月13日下午2-3:30(美国东部时间)解答任何问题和疑虑。(2021年1月7日)

控制社区传播的措施 面具得到需要仍然可用结束生活

89008 (5.94) “尽管covid-19疫苗是减缓病毒传播的重要一步,但人们仍然需要继续采取一切预防措施:戴上口罩,与他人保持身体距离,保持双手清洁。(2021年1月19日)

免疫和突变 流感一年五月
变体工作
有效的应变
88327 (5.89) “他们说冠状病毒类似于流感病毒。我们知道,流感病毒会变异。因此,他们需要每年制造不同的流感疫苗来对抗病毒,但还没有一种流感疫苗是100%有效的。所以祝你研制covid-19疫苗好运。(2020年5月11日)

疫苗的功能 效果测试风险一边副作用免疫死亡

81438 (5.43) “这两种疫苗都使用信使rna技术,其中包含指令,告诉我们的细胞如何制造一种触发我们体内免疫反应的蛋白质。(2020年12月21日)
主题3:疫苗是一个全球性问题

全球合作与支持 世界国家全球流感大流行访问需要开发努力 108366 (7.23) 周四,世界卫生组织对“疫苗民族主义”发出警告。如果贫穷国家无法获得疫苗,没有哪个国家是安全的。(2020年8月9日)

世界各地的疫苗进展 英国中国欧盟俄罗斯第一个国家批准新闻 83156 (5.55) 周二,德国卫生部长延斯·斯帕恩(Jens Spahn)加入欧盟,限制出口covid-19疫苗。这是在对推迟向成员国推出阿斯利康疫苗的不满中发生的。(2021年1月26日)

经济的影响 情况下死亡新闻推出报告 61360 (4.09) “covid-19新病例的增加超过了疫苗的积极消息。政府关门的担忧拖累了全球市场。美国冠状病毒死亡人数超过25万。(2020年11月9日)

印度开展疫苗接种运动 印度开车部长印度速度健康飞行速度 58369 (3.89) “印度清除了covid-19疫苗制造商印度血清研究所(SII)和巴拉特生物技术公司,启动了世界上最大的免疫运动。(2021年1月3日)
主题4:疫苗管理

接种疫苗须知 健康状态任命更新计划网站分布 106544 (7.11) “卫生部门将各自公布疫苗供应情况和地点。将联系联邦合格医疗中心的符合条件的个人,以获得covid-19疫苗。(2020年12月30日)

疫苗的推广

工人护理健康第一个收到医疗保健医院工作人员 85623 (5.71) “我们有许多站点向最优先的群体提供covid-19疫苗。请耐心等待,如果您在最优先组中,我们将与您联系。(2021年1月17日)

疫苗注射的进展 剂量几百万第一个收到辉瑞第一个剂量 74577 (4.97) 自周二更新以来,路易斯安那州已经额外接种了25133支covid-19疫苗。第二剂疫苗于本周开始注射。7068人已经接种了全面疫苗。自12月中旬以来,共接种了81,585剂疫苗。(2021年1月7日)
主题5:疫苗开发和授权的进展

临床试验 试验临床辉瑞现代化阶段有效的临床试验牛津大学 99754 (6.65) “目前正在开发70种新冠病毒疫苗。Moderna是首批在人类身上测试新冠病毒疫苗的公司之一。如果试验成功,Moderna可能会在2020年秋季进入测试的最后阶段。(2020年4月26日)


使用授权

使用食品及药物管理局批准紧急批准辉瑞紧急使用健康 60970 (4.07) “美国食品和药物管理局的疫苗咨询委员会一致批准紧急使用辉瑞和Moderna生产的covid-19疫苗。(2021年1月19日)

一个这些推文的解释是为了保护用户的隐私。

主题1:围绕疫苗和疫苗接种的观点和情绪

该主题包含3个主题,其中关于疫苗接种的意见主题(227,840/1,499,421条推文,15.2%)是所有16个主题中推文最多的话题,并且在我们研究的大部分时间内仍然是讨论最多的话题(见图2)。这一主题反映了推特用户对疫苗接种的不同意见,包括他们的怀疑、犹豫、信任和支持。一些推特用户还要求自由接种疫苗。第二个主题是围绕疫苗接种的积极情绪,主要是公众在推特上表现出的快乐、希望、宽慰和其他积极情绪。许多情绪都是基于他们对疫苗的直接或间接经历。第三个主题是“美国总统”。公众通过对美国总统特朗普和拜登疫苗相关言行的评论表达了他们的意见和情绪。

主题2:关于疫苗和接种的知识

该主题包括4个主题,重点是了解和促进对COVID-19疫苗和疫苗接种的了解。在这一主题下,最常讨论的话题是教育社区,相当多的推文传播了有关现场网络研讨会的信息,卫生专业人员将在这些研讨会上提供有关COVID-19疫苗的重要信息并回答问题。社区传播控制措施专题建议在接种疫苗前后采取戴口罩、洗手、保持社交距离等措施。免疫和突变的主题围绕着疫苗的免疫和冠状病毒的突变,这是经常讨论的比较流感病毒.以疫苗的功能为主题,介绍了疫苗的工作原理和接种后的症状和副作用。

主题3:疫苗是一个全球性问题

疫苗作为全球性问题的主题包括与SARS-CoV-2和COVID-19疫苗的全球性相关的4个主题;因此,这一主题下的话题并不以美国为中心。这些专题涉及有关世界各地疫苗进展和最新情况的动态新闻,例如许多国家的国际疫苗供应、交付和购买(即世界各地疫苗进展的专题)、疫苗对全球经济的影响(即经济影响的专题)以及世界上最大的接种运动(即印度的疫苗接种运动的专题)。2020年8月11日前后,世界各地疫苗进展的话题成为讨论最多的话题,因为俄罗斯批准了世界上第一个COVID-19疫苗(见图2)。该主题下最突出的议题是全球合作与支持,呼吁全球合作加速疫苗开发和公平获取,提倡不接种疫苗的民族主义。这也是16个话题中仅次于“疫苗接种意见”话题的第二大话题(108366 / 1499421条,7.23%)。

主题4:疫苗管理

该主题包括3个主题,涵盖疫苗管理的几个方面。疫苗推广的主题主要围绕向最优先群体接种疫苗,包括卫生保健提供者是第一批。在12月14日辉瑞公司的第一剂疫苗在美国接种后,这个话题在大约5周的时间里一直是讨论最多的3个话题之一(见图2)。第二个专题侧重于疫苗管理的进展,包括与疫苗管理进展直接相关的疫苗的运输和供应。本主题下的第三个专题是关于获得疫苗的指导,其中包括传播各级卫生当局的信息,以指导公众获得疫苗注射。在该主题的推文中提到了更详细的信息,例如“如果任何人在75岁及以上,无法上网,需要帮助安排预约,请拨打中央预约台1-866-960-0633寻求帮助”(2021年1月20日发布的推文)。随着疫苗管理的推进,这个话题逐渐变得更加突出,并在1月的第一周之后跃居讨论最多的话题,超过了关于疫苗接种的意见话题;直到1月底,它一直保持着最高的地位图2)。

主题5:疫苗开发和授权的进展

本主题下有两个主题,重点关注COVID-19疫苗的开发和美国食品和药物管理局(FDA)的授权。临床试验的主题主要围绕临床试验的计划和过程,主要来自辉瑞和Moderna,以及临床试验的最新结果。在7月20日前后的一周时间里,这个话题一直是人们讨论最多的话题,当时牛津/阿斯利康冠状病毒疫苗的首次人体试验显示出了希望[35],并在辉瑞公司宣布其疫苗在2020年11月9日有90%的有效性后的3周内,与关于疫苗接种的意见话题一起成为讨论最多的两个话题之一(见图2)。使用授权的主题集中在FDA批准COVID-19疫苗的紧急使用授权。

COVID-19疫苗推文的情绪和情绪分析

每周平均情绪得分显示,尽管有波动,但总体而言,从2020年3月11日到2021年1月31日,情绪越来越积极,线性最佳拟合斜率为0.003764(带aP值<。001,表示具有统计显著性)(见图3)。此外,积极情绪在2020年11月9日左右达到顶峰,当时辉瑞宣布其疫苗有效率为90%;同一天,日推文数量达到了1月份之前的历史最高水平,如上所述。情绪分析进一步表明,信任是最主要的情绪,在8种情绪(愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶和信任)中占22.78%,其次是期待(18.34%)、恐惧(16.29%)、悲伤(10.97%)、喜悦(9.76%)、愤怒(8.63%)、惊讶(7.60%)和厌恶(5.63%)。值得注意的是,4月份之前在COVID-19疫苗推文中显示的最主要情绪是恐惧;然而,从2020年4月1日那一周开始,它变成了信任。图4)。在那之后,信任仍然是最主要的情绪,表达信任的推文数量继续增长。此外,我们还观察到,当信任情绪增加时,恐惧情绪会减少。这种信任情绪在2020年11月9日达到顶峰,当时辉瑞宣布其疫苗的有效性为90%;在同一天,恐惧情绪的表达在我们的整个检查期间是最少的。报告还指出,在2020年3月11日至2021年1月31日期间,除了信任和恐惧情绪随时间变化明显外,其他情绪相对稳定(见图4)。


主要研究结果

在这项研究中,我们研究了很长一段时间内的情绪和话题,涵盖了从COVID-19成为全球大流行(2020年3月11日)到2021年1月31日关于COVID-19疫苗的讨论,当时多种疫苗可用,大规模疫苗接种已经在美国和许多其他国家开始。这项研究增加了关于COVID-19疫苗社会影响的最新研究。例如,有针对社会人口统计学社交媒体用户特征和疫苗接受的社会决定因素的调查[1836].我们的研究通过提供社交媒体上的话语模式来补充这些研究,即人们如何谈论他们的疫苗接种意图和其他相关问题。研究人员采用了类似的方法来研究非常具体的疫苗相关主题,例如中国的副作用和疫苗类型。本研究可以在不同的文化背景下进行比较,因为语料库是从全球数据集中提取的,并对英语推文进行了分析。确定的特定主题和公众情绪可用于进一步研究英语社交媒体用户中与疫苗相关的特定主题。目前关于COVID-19疫苗接种的许多研究侧重于疫苗犹豫和抗疫苗信息[19],有些则采用调查方法收集数据[37].由于COVID-19疫苗仍然是非常新的,并且由于迫切需要而在很短的时间内开发出来,我们可以期待在公共媒体渠道中出现疫苗犹豫的表达。这项研究将有助于了解有关疫苗效力和安全性的主要关切。

本研究发现,随着技术的进步,Twitter上的讨论出现了一些变化模式。在另一项使用自然语言处理和深度学习技术对Facebook和Twitter帖子进行的研究中发现了类似的情绪和主题模式[16].研究结果表明,这些模式在各个平台上都是有效的。关于COVID-19疫苗接种的推文数量在很大程度上是由重大事件推动的,主要是疫苗开发的里程碑和病毒的新变种。tweet数量的主要峰值与这些事件密切相关。对每个主题的分析也显示了这样的模式。例如,从每周的主题分布来看,从11月初开始,也就是辉瑞宣布的时候,突然出现了明显的整体增长。学者们研究了信息是如何从社交媒体流向主流新闻的。在今天的媒体生态中,社会媒体与主流媒体的界限不再清晰;然而,在这里我们可以看到,社交媒体话语在很大程度上反映了新闻中正在发生的事情。未来的研究可以检测到社交媒体讨论在多大程度上受到主流媒体的影响。

情绪分析结果显示,随着时间的推移,对新冠疫苗接种的普遍情绪正变得越来越积极。总体情绪得分在2020年11月初达到最大值,这也与辉瑞疫苗高疗效的报道相对应。至于情感,信任一直主导着讨论;在辉瑞公司宣布其疫苗的有效性之后,它在11月初达到最高点。推文的百分比总体上有所增加,表明更多人对COVID-19疫苗的讨论表示信任。表达恐惧的推文百分比的变化反映了表达信任的推文百分比的变化。总体百分比正在下降,这表明随着疫苗开发的进展,人们对大流行的恐惧减少了。最高点是在宣布全球大流行之后的2020年3月中旬,最低点是在辉瑞宣布这一消息时的11月初。随着疫苗研究和测试接近有希望的结果,恐惧的表达减少了。其他情绪,就它们在全部推文中的百分比而言,随着时间的推移或多或少保持稳定。 Trust is the dominant emotion, which can be understood as a reflection of the vaccination as the only option. Unlike other types of vaccines, which people can choose to take or not, vaccination has been increasingly viewed as the only promising way to end the pandemic given the prevalence of COVID-19, the speed of its community spread, the disruption of normal life, and the lack of other options proved to be efficient.

与意见和情绪相关的话题最为常见,在该主题的3个话题中,关于疫苗接种意见的话题所占比例最大。随着病毒的传播和变体的出现,以及我们对该疾病的了解不断增加,COVID-19疫苗的开发取得了进展,所有这些都已成为公共话语中的活跃话题。由于疫苗和其他选择仍然存在许多不确定性,我们预计平台上会出现不同的意见。这种关于疫苗接种的复杂观点也应该放在美国和其他国家反疫苗运动的大背景下考虑。我们的研究结果表明,怀疑、疫苗犹豫、阴谋论以及疫苗接种是个人自由的论点都是反疫苗话语中的共同主题。然而,如前所述,由于COVID-19影响了人们的日常生活,疫苗对于恢复正常生活至关重要;人们仍然对疫苗抱有很大的希望,这导致了积极情绪的分享。最后,由于政治气候和正在进行的总统选举,两位候选人都将疫苗接种列入其议程;因此,关于疫苗的讨论非常政治化。

由于COVID-19是一场全球性的持续危机,关于疫苗的讨论也是全球性的。这次大流行揭示了世界现在是多么紧密地联系在一起,因此疫苗接种已成为一个全球性问题——如果一个国家的人口无法达到一定的疫苗接种水平,它就有很高的传染和病毒突变风险;因此,该国很难恢复其在全球经济中的作用,需要全球合作来战胜这种疾病。因此,大流行的经济影响和疫苗的开发是突出的问题。

目前可用的疫苗也是跨国合作的结果,这就是为什么在推特上经常提到“疫苗民族主义”是一个会阻碍抗击大流行进展的问题。在全球危机中,寻求信息的需求增加,特别是当疫苗可用时,人们需要关于疫苗推广、获得疫苗和疫苗管理的指导性信息。由于COVID-19是一种仍在研究中的新疾病,而疫苗也经过了短时间的研发,因此公众对这些疫苗的接受程度存在许多不确定性。对于外行人来说,疫苗背后的科学仍然没有得到很好的理解,特别是因为COVID-19是一种新疾病,许多事情仍然未知。这些不确定性促使人们寻求和分享有关疫苗的信息,这反映在围绕疫苗的知识主题中,例如疫苗背后的科学(免疫和突变)、使用的技术和临床试验的结果。这些不确定性也促使人们寻求有关疫苗推出和管理的信息,因为这些话题与人们何时以及如何接种疫苗密切相关。

本研究结果表明,关于COVID-19疫苗的讨论是多方面的,公众积极寻求和分享有关疫苗的信息。公共卫生机构必须了解与疫苗接种有关的主要公共利益和关切,即影响疫苗接受和犹豫的主要因素。这样,他们就可以制定适当的策略来促进公众的沟通。我们的研究表明,疫苗讨论的主要高峰与疫苗开发突破的报道相对应,因为它们出现在新闻中。公共卫生机构需要关注这一模式,并在报道有关疫苗开发或其他重大事件的重大新闻时,如报道某种疫苗的严重不良事件时,监测网络上的讨论。这些机构可以在识别社交媒体上的即时反应——以及主要情绪和话题——的基础上制定即时反应。在本研究中,我们发现信任是对疫苗的主要情绪,这对公共卫生机构推广疫苗接种是有希望的和令人放心的。对于个别主题和专题,公共卫生机构应密切关注有关疫苗知识和管理的讨论,以缩小公众需求与公共卫生机构提供的信息之间的信息差距。

限制

通过研究话题和情绪如何沿着大流行和疫苗开发的时间轴演变,可以看到推特的数量与新闻中的重大研究突破的对应关系。虽然很明显,在11月初辉瑞公司报告其高疫苗功效的消息后,推特的数量激增,但统计分析可能会提供有关是否存在显著差异的更多细节。虽然这不是本研究的重点,但仔细检查Twitter用户可能会提供更有意义的信息,例如不同类型的用户共享的内容如何变化,以及某些类型的用户是否更有可能发布或评论某些主题。此外,正如在许多其他非结构化文本数据研究中所观察到的那样,本研究可能在被检查的推文中存在地理偏差[38].因此,给定的数据集可能会过度代表某些地理区域。最后但并非最不重要的是,因为Twitter用户并不能代表美国人口[39,我们的数据集可能过度代表了具有特定特征的人口子集。因此,本研究结果应谨慎推广。

结论

本研究确定了社交媒体上讨论的关于COVID-19疫苗相关问题的主要话题和观点。它还考察了这些话题和情绪随时间的变化,以更好地理解更大的趋势。在16个不同的话题中,关于疫苗接种的观点是最常见的,并且随着时间的推移一直如此。随着世界各地疫苗开发的进展,主导话题也发生了变化。关于接种疫苗的说明在2021年1月初成为讨论最多的话题。社交媒体上关于新冠肺炎疫苗接种的讨论主要受到新冠肺炎疫苗重大新闻事件的推动,并反映了主流媒体上活跃的新话题。此外,讨论具有全球视角。随着时间的推移,整体情绪越来越积极,信任是主要情绪,这表明社交媒体讨论可能意味着与以前的疫苗相比,对COVID-19疫苗的接受程度更高。由于我们的数据集的时间轴,在本研究中,我们没有进一步检查对特定品牌疫苗的看法。当使用不同的品牌名称搜索tweet并进行情感分析时,我们预计讨论会有所不同。 Particularly, after administration of the Johnson & Johnson vaccine was paused by the CDC, there could be a surge of related discussions, and a topic about the side effects of the vaccines could emerge. Therefore, further study in this line is highly recommended.

致谢

本研究由国家癌症研究所资助T32 CA 113710 (JL)支持。

利益冲突

没有宣布。

多媒体附录1

不同主题数量的连贯分数。

DOCX文件,1098 KB

  1. Le TT, Cramer JP, Chen R, Mayhew S. COVID-19疫苗开发格局的演变。中国药物学杂志,2010;19(10):667-668。[CrossRef] [Medline]
  2. 美国需要赢得冠状病毒疫苗竞赛。《华尔街日报》,2020年4月26日。URL:https://www.wsj.com/articles/america-needs-to-win-the-coronavirus-vaccine-race-11587924258[2021-04-09]访问
  3. Andre FE, Booy R, Bock HL, Clemens J, Datta SK, John TJ,等。疫苗接种大大减少了全世界的疾病、残疾、死亡和不平等。世界卫生杂志2008年2月;86(2):140-146 [j]免费全文] [CrossRef] [Medline]
  4. COVID-19阴谋及其他:医生如何处理患者的错误信息。《美国医学杂志》(英文版);2009;31(3):391 - 391。[CrossRef] [Medline]
  5. 研究人员警告说,反疫苗运动可能会破坏结束冠状病毒大流行的努力。Nature 2020;5月13日;581(7808):251-251。[CrossRef] [Medline]
  6. 郭高,黎芳,魏伟,黄思思,唐建伟。群体免疫——估计在受影响国家制止COVID-19流行所需的水平。中国生物医学工程学报(英文版);30 (6):559 - 561 [J]免费全文] [CrossRef] [Medline]
  7. Sanche S, Lin YT, Xu C, Romero-Severson E, Hengartner N, Ke R.严重急性呼吸综合征冠状病毒的高传染性和快速传播性[j]。新兴感染疾病2020年7月26日(7):1470-1477 [j]免费全文] [CrossRef] [Medline]
  8. Tyson A, Johnson C, Funk C.美国公众现在对是否接种COVID-19疫苗存在分歧。皮尤研究中心,2020年9月17日URL:https://www.pewresearch.org/science/2020/09/17/u-s-public-now-divided-over-whether-to-get-covid-19-vaccine/[2021-04-15]访问
  9. Ashkenazi S, Livni G, Klein A, Kremer N, Havlin A, Berkowitz O.父母麻疹/麻疹疫苗信息来源和知识与疫苗犹豫的关系。疫苗2020 Oct 27;38(46):7292-7298。[CrossRef] [Medline]
  10. 李建军,张建军,张建军,等。社交聆听:Twitter上电子烟讨论的内容分析。医学与互联网学报,2015;17(10):943。[CrossRef] [Medline]
  11. 斯坎菲尔德D,斯坎菲尔德V,拉尔森EL。通过社会网络传播卫生信息:推特和抗生素。[J]中华传染病杂志,2010;38(3):182-188 [J]免费全文] [CrossRef] [Medline]
  12. Lazard AJ, Scheinfeld E, Bernhardt JM, Wilcox GB, Suran M.检测公众关注的主题:疾病控制和预防中心埃博拉实时Twitter聊天的文本挖掘分析。[J]中华传染病杂志,2015;43(10):1109-1111。[CrossRef] [Medline]
  13. Masri S,贾军,李超,周刚,李敏,严刚,等。在2016年疫情期间,利用Twitter数据改善美国寨卡病毒监测。中华卫生杂志2019年6月14日;19(1):761 [j]免费全文] [CrossRef] [Medline]
  14. Signorini A, Segre A, Polgreen PM。在甲型H1N1流感大流行期间,使用Twitter跟踪美国疾病活动水平和公众关注程度。PLoS One 2011年5月04日;6(5):e19467 [免费全文] [CrossRef] [Medline]
  15. Bonnevie E, Gallegos-Jeffrey A, Goldbarg J, Byrd B, Smyser J.量化新冠肺炎大流行期间Twitter上反对疫苗的兴起。[J]大众健康,2020年12月15日;14(1):12-19。[CrossRef]
  16. Hussain A, Tahir A, Hussain Z, Sheikh Z, Gogate M, Dashtipour K,等。英国和美国Facebook和Twitter上公众对COVID-19疫苗态度的人工智能分析:观察性研究[J]医学互联网研究,2021年4月05日;23(4):e26627 [J]免费全文] [CrossRef] [Medline]
  17. Deiner MS, Fathy C, Kim J, Niemeyer K, Ramirez D, Ackley SF,等。脸书和推特对麻疹爆发的反应。卫生信息学报,2019,9月17日;25(3):1116-1132 [J]免费全文] [CrossRef] [Medline]
  18. 美国社交媒体用户接种COVID-19疫苗的原因。疫苗(巴塞尔)2021年3月29日;9(4):315 [免费全文] [CrossRef] [Medline]
  19. Puri N, Coomes EA, Haghbayan H, Gunaratne K.社交媒体与疫苗犹豫:COVID-19和全球化传染病时代的新进展。疫苗与免疫,2020,11(11):2586-2593。[CrossRef] [Medline]
  20. Malik AA, McFadden SM, Elharake J, Omer SB.美国COVID-19疫苗接受程度的影响因素。临床医学[j]; 2020;26 (1):100 - 95 [j]免费全文] [CrossRef] [Medline]
  21. 刘建军,张建军,张建军,张建军。衡量COVID-19疫苗错误信息对英国和美国疫苗接种意图的影响。学报,2021,05;5(3):337-348。[CrossRef] [Medline]
  22. Banda J, Tekumalla R,王刚,于军,刘涛,丁勇。面向开放科学研究的新型冠状病毒肺炎大规模Twitter聊天数据集——国际合作(Version 32)数据集。泽诺多,2020年10月18日。URL:http://doi.org/10.5281/zenodo.4104587[2021-01-31]访问
  23. 万灵药实验室:COVID-19推特。GitHub。URL:https://github.com/thepanacealab/covid19_twitter[2021-02-02]访问
  24. tweetbotornot。GitHub。URL:https://github.com/mkearney/tweetbotornot[2021-06-22]访问
  25. 刘建军,刘建军。数据科学的研究进展。英国剑桥:剑桥大学出版社;2020.
  26. 李建平,李建平,李建平,等。[J]中国机械工程学报,2003 (3):993- 922 [J]免费全文]
  27. 吕jc,吕丽GK。使用Twitter数据了解COVID-19大流行期间关于疾病控制和预防中心的公众讨论:文本挖掘分析研究。[J]互联网研究与发展[J]; 2009;23(2): 563 - 568 [J]免费全文] [CrossRef] [Medline]
  28. 情绪的一般心理进化理论。在:罗伯特P,亨利K,编辑。情感理论。剑桥,马萨诸塞州:学术出版社;1980:3-33。
  29. 刘建军,李建军,李建军,等。基于R语言的情感分析。出来了。2020年5月8日网上预印本[免费全文]
  30. 常用词汇和短语唤起的情感:使用土耳其机械创建情感词典。2010年6月发表于:NAACL HLT 2010年文本情感分析和生成的计算方法研讨会;2010年6月;洛杉矶,加州,第26-34页https://www.aclweb.org/anthology/W10-0204
  31. Naldi M.情感计算方法综述。出来了。2019年1月24日在线预印本[免费全文]
  32. 俄罗斯批准世界首个冠状病毒疫苗。2020年8月11日。URL:https://www.the-scientist.com/news-opinion/russia-approves-worlds-first-coronavirus-vaccine-67810[2021-06-22]访问
  33. 辉瑞和Biontech宣布,针对COVID-19的候选疫苗在3期研究的首次中期分析中取得成功。2020年11月9日URL:https://www.pfizer.com/news/press-release/press-release-detail/pfizer-and-biontech-announce-vaccine-candidate-against[2022-06-22]访问
  34. Novavax提供了首个证据,证明COVID疫苗可以保护人们免受变异的侵害。Nature 2021 1月29日;590(7844):17。[CrossRef] [Medline]
  35. 牛津冠状病毒疫苗的首次人体试验显示出希望。2020年7月20日。URL:https://www.reuters.com/article/us-health-coronavirus-oxford-vaccine-idUSKCN24L1MP[2020-06-22]访问
  36. Malik AA, McFadden SM, Elharake J, Omer SB.美国COVID-19疫苗接受程度的影响因素。临床医学[j]; 2020;26 (1):100 - 95 [j]免费全文] [CrossRef] [Medline]
  37. 李建军,李建军,李建军,等。随着大流行的发展,接种COVID-19疫苗的意愿如何演变?国际环境与公共卫生杂志2021年1月19日;18(2)[免费全文] [CrossRef] [Medline]
  38. 戈尔RJ,迪亚洛S,帕迪拉J.你就是你的推特:将美国肥胖率的地理差异与推特内容联系起来。科学通报,2015;10(9):e0133505 [j]免费全文] [CrossRef] [Medline]
  39. 沃西克S,休斯A.评估Twitter用户。皮尤研究中心2019年4月24日发布。URL:https://www.pewresearch.org/internet/2019/04/24/sizing-up-twitter-users/[2021-06-22]访问


ASCII码:美国信息交换标准代码
疾病预防控制中心:美国疾病控制和预防中心
DTM:document-term矩阵
食品药品监督管理局:美国食品和药物管理局
JSON:JavaScript对象符号
LDA:潜在狄利克雷分配


C . Basch编辑;提交18.04.21;J Turner, A Dormanesh, R Gore的同行评审;对作者22.05.21的评论;修订版本收到10.06.21;接受10.06.21;发表29.06.21

版权

©Joanne Chen Lyu, Eileen Le Han, Garving K Luli。原载于医学互联网研究杂志(//www.mybigtv.com), 2021年6月29日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map