JMIR Infodemiology JMIR Infodemiology 2564 - 1891 卡塔尔世界杯8强波胆分析 加拿大多伦多 v1i1e31671 35013722 10.2196/31671 原始论文 原始论文 美国公众对COVID-19和预防措施的情绪的时间变化和空间差异:推文的信息流行病学研究 麦基 蒂姆 Salimi 马里亚姆 Menhas 拉希德 蒂娜 Kahanek 亚历山大 二元同步通信 1 https://orcid.org/0000-0003-2636-5190 Xinchen MSc 1 https://orcid.org/0000-0001-8608-8653 在香港 绫子 博士学位 1
信息学院 北德克萨斯大学 E292 榆树街3940号 丹顿,德克萨斯州,76203 美国 1 9192607578 lingzi.hong@unt.edu
https://orcid.org/0000-0001-8412-8180
克利夫兰 安娜 博士学位 1 https://orcid.org/0000-0001-9867-9418 布里克 乔迪• 博士学位 1 https://orcid.org/0000-0002-8067-0885
信息学院 北德克萨斯大学 丹顿 美国 通讯作者:洪凌子 lingzi.hong@unt.edu Jan-Dec 2021 30. 12 2021 1 1 e31671 30. 6 2021 25 8 2021 12 9 2021 18 11 2021 ©Alexander Kahanek, Xinchen Yu, Lingzi Hong, Ana Cleveland, Jodi Philbrick。最初发表在JMIR信息流行病学(https://infodemiology.www.mybigtv.com), 30.12.2021。 2021

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用最初发表在JMIR Infodemiology上的原创作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

在COVID-19大流行期间,美国公共卫生当局以及县、州和联邦政府建议或下令采取某些预防措施,如佩戴口罩,以减少疾病的传播。然而,个人对这些预防措施有不同的反应。

客观的

本研究旨在从时间和空间角度了解公众对COVID-19的情绪变化和建议或命令的预防措施,以及公众情绪的变化与地理和社会经济因素的关系。

方法

作者利用机器学习方法调查了2020年1月21日至6月12日期间与covid -19相关的推文中的公众情绪两极分化。这项研究衡量了美国公众对一般COVID-19话题和预防措施的情绪的时间变化和空间差异。

结果

在时间分析中,我们发现了从最初阶段的高负面情绪到第二、第三阶段的下降和低负面情绪,到最后阶段的反弹和增加的4个阶段的模式。我们还发现,城市和农村地区的公众对预防措施的情绪存在显著差异,而贫困率和失业率与对COVID-19问题的负面情绪呈正相关。

结论

公众对COVID-19的情绪与预防措施之间的差异意味着需要采取行动,管理未来大流行的初始阶段和反弹阶段。在大流行期间的传播战略和决策方面,应考虑到城市和农村的差异。这项研究还提供了一个框架,以调查县和州一级对时间敏感的公众情绪,这可以指导地方和州政府以及区域社区在危机中做出决策和制定政策。

新型冠状病毒肺炎 预防措施 时态的变化 空间差异 推特 公众的情绪 社会经济因素
简介 背景

COVID-19大流行对全球经济和死亡率产生了影响,截至2021年3月12日,全球确诊病例超过1.18亿例,死亡病例超过260万例[ 1].自新冠肺炎疫情暴发以来,许多公共卫生专业人士和权威机构,如美国疾病预防控制中心和世界卫生组织,都建议人们改变日常生活的基本行为,如佩戴口罩、保持社交距离、限制旅行等,以防止病毒传播[ 2].然而,这些措施在减少传播方面的有效性取决于公众是否遵守。在遵循建议的做法方面,公民的遵守程度各不相同。在美国,人们对从CDC指南开始就存在的预防措施有不同的意见。

之前的工作

对于有效的宣传战略、决定和政策来说,衡量公众情绪和对预防措施的反应至关重要,因为做法上的差异可能会影响疾病的传播,并推迟社会从大流行病中恢复过来。社会媒体已被人们广泛采用,在危机中获取信息和分享意见,这为政府和公共机构了解民意提供了具有时效性的机会。社交媒体数据已被用作大众信息来源,以了解公民所关注的问题[ 3. 4],对政策的回应[ 5 6],以及情感后果[ 7在危机中。最近的几项研究使用Twitter和Facebook的数据进行更接近实时的信息流行病学研究,例如,分析与封锁有关的情绪[ 8]和重新开放[ 9]并了解有关COVID-19的讨论和相关情绪[ 10].然而,这些研究通常依赖于一个隐含的假设,即基于对整个社会在某一时期或某一时间段的理解的策略对所有人都有效。一些研究调查了危机爆发时公众反应的演变,例如,危机前、危机中和危机后与危机相关的推文的内容分析[ 11];中国民众对新冠肺炎疫情情绪的时间变化[ 12];以及大流行早期美国对COVID-19风险认知的变化[ 13].几项研究研究了这种空间差异。例如,Ntompras等人[ 14对各国与COVID-19大流行相关的推特帖子的内容进行了比较。他们发现,有几个话题是由当地事件引发的,这意味着社交媒体数据可以在流行病中发挥政治、经济和社会监测的作用。库莫等[ 15]进行了更细粒度的分析,并调查了美国县一级自我报告的COVID-19病例量与病毒传播风险升高之间的纵向和地理空间关系。类似的研究发现,关于COVID-19症状、担忧和经验的地理定位推文表明了美国县级官方报告的COVID-19病例[ 16]以及错误信息的数量与美国州和县一级COVID-19病例的增加有关[ 17].目前,很少有人在高地理空间分辨率下研究公众情绪的时间变化。侯等[ 18]发现,在COVID-19期间,社区的流动行为有所不同,这可能与各种社会经济和文化因素有关。Schmelz [ 19]在德国进行了一项调查研究,发现对政府信任程度不同或政治身份不同的人在COVID-19期间对政府政策的反应可能会有所不同。这些研究表明,在公共卫生决策中考虑人口的异质性是很重要的。利用社交媒体数据对危机进行时间敏感性理解的方法很少考虑地理差异和相关的社会经济因素。本研究旨在通过提出一个社交媒体数据分析框架,对美国公众对COVID-19的情绪和不同空间尺度的预防措施进行纵向调查,以解决这一差距。

本研究的目的

本研究的重点是从时间和空间角度确定美国公众对COVID-19和预防措施的情绪变化,并调查这些变化与地理和社会经济因素的关系。具体来说,我们分析了美国推特上关于COVID-19的讨论,以回答以下问题:

研究问题1:公众对整体COVID-19问题和预防措施的情绪是否存在时间变化?

研究问题2:公众对整体COVID-19问题和预防措施的情绪是否存在空间差异?

研究问题3:哪些地理因素可能与公众对COVID-19问题和预防措施的看法差异有关?

研究问题4:哪些社会经济因素可能与公众对COVID-19问题和预防措施的看法差异有关?

探索这4个问题,可以在精细的时间和空间粒度上深入了解公众对COVID-19问题和预防措施的情绪。这使得决策者在制定传播战略或调整执法政策时明确考虑到这些差异,以便在COVID-19等大流行或危机中进行有效协调。这项研究为分析、比较和潜在预测未来危机中的公众情绪奠定了基础。

方法

该方法由三部分组成( 图1):数据收集、数据准备和数据分析。在这项研究中,我们收集并分析了关于COVID-19和预防措施的Twitter数据。

数据分析框架。API:应用程序编程接口;PP:预防措施;SE:社会经济。

数据收集

2019年12月下旬,中国武汉首次报告新冠肺炎病例。该疾病迅速蔓延,导致全球感染和死亡人数增加。从2020年1月开始,其他国家开始报告COVID-19确诊病例。为了检索关于COVID-19的在线讨论,我们从2020年1月21日开始收集了一个推特数据集,其中包含约1.6亿条包含COVID-19相关关键词的推文。关键词列表包括“冠状病毒”、“Corona”、“CDC”、“Covid19”、“Covid19”、“Sarscov2”、“pandemic”、“epidemic”及其变体[ 20.].数据是通过Twitter的流式应用程序编程接口(API)使用Python收集的。Twitter流API返回Twitter总量的1%,包括来自世界各地的多语言推文。由于我们关注的是美国的公众情绪,所以只保留了英语的推文。

道德声明

根据推特的政策,我们在分析之前从数据中删除了标识符,以避免潜在的个人分析或针对个人。我们只提供汇总分析。为了支持可重复性,应相应作者的要求,将提供tweet id、处理代码和中间结果。

数据准备

数据准备工作由四部分组成( 图1):推文的地理投影、识别个别使用者的贴子、划分预防措施的主题,以及情绪侦测。所有的数据准备都是用Python实现的。

地理上的投影

收集到的推文仅满足与COVID-19语义相关的条件,其中一些推文嵌入了地理位置,如点位置、用地理坐标定义的边界框或用户输入的位置标签。尽管许多推文包含位置标签,但这些标签通常在地理范围上有所不同,或者并不是指真实的位置。因此,只有地理坐标(作为点位置或边界框)的推文才会被使用。我们使用Python中的GeoPandas包进行所有地理数据处理。计算出边界框的中心后,将它们投影到美国Shapefile地图的坐标系中[ 21],然后与县级和州级的地理单位相匹配。如果一条推文的位置位于某个县,我们会将该推文与相关的县和州以及美国人口普查局的汇总社会经济信息一起分配。 22].此外,我们使用城市/农村地图Shapefile来识别一条推文是来自城市还是农村地区[ 23].市区包括"人口在5万人或以上的市区及人口在2,500人及5万人以下的城市群" [ 24].其他地区被划分为农村地区。在对美国境内仅以英语发布的推文进行地理投影和过滤后,总共有344,227条推文。

识别来自个人用户的帖子

Twitter上有不同类型的用户,包括媒体、政府部门和组织的账户、社交机器人和个人账户。数据质量和生成的见解可能会受到机器人和公众号活动的影响[ 7].地理投影的第一步留下了极有可能来自个人用户的推文。为了确保用于分析的推文主要来自个人用户,我们采用了传统的方法,通过检查作者的社会关系,假设媒体和机器人的粉丝和朋友之间的比例通常很高:

具体来说,我们将关注者和被关注者的数量比平均值大2个sd的用户识别为非人[ 25].我们找到了9条由媒体或机器人发布的推文。结果确认过滤后的定位推文主要来自个人用户。在过滤了个人用户后,COVID-19数据集包括344218条推文。

关于COVID-19预防措施的推文

我们特别感兴趣的是公众对COVID-19预防措施的情绪,因为人们对这些措施的遵守程度在很大程度上影响着疾病的传播。为了确定描述COVID-19预防实践的潜在关键词,我们收集了CDC发布的所有指南[ 2].三名研究生研究助理阅读了这些文件,并确定了与减少疾病传播的预防行为相关的关键词和短语。具体来说,收集了4类做法,包括保持身体或社交距离、个人防护装备(PPE)、消毒等。物理或社交距离包括社交距离,社交距离,物理距离,6英尺,呆在家里,学校隔离,隔离,呆在家里,避免接触。个人防护装备包括口罩、面罩、面罩、戴口罩、外科口罩、N95口罩、戴手套、面罩、面罩、皮肤防护、护眼、个人防护装备。消毒包括洗手、洗手液、消毒、清洁、洗涤剂、洗手液、手卫生、预防卫生、喷雾剂、浓缩液、湿巾、常规清洁、漂白剂。其他包括测试、业务关闭。

这些关键词和短语被用来识别一条推文是否与COVID-19预防措施有关,以及预防措施的类别。由于社交媒体帖子中使用的语言可能存在语法或排版错误,使用CDC指南中的正式关键词和短语可能会影响关于预防措施的推文的召回。因此,我们对tweet以及关键字和短语应用了令牌规范化。在每条推文规范化之后,我们检查推文中是否有任何令牌与规范化的关键词或短语匹配。包含这些关键字或短语的推文被聚合成关于预防实践的子集(在下面的分析中简称为CDC子集),总共有53,272条推文。根据代币,这些推文被进一步归类为4个类别中的1个类别的讨论。在COVID-19数据集中发现的最热门关键词是口罩、待在家里、社交距离、测试和个人防护装备。这些单独的关键字出现了8000多次。

情感探测

我们使用预训练的深度学习模型FLAIR来检测每条推文中包含的情绪[ 26].该模型采用循环神经网络结构,能够捕捉单词和周围上下文的语义和句法信息,从而预测输入文本的情感。由于该模型旨在捕捉多义词的不同含义,并轻松处理罕见和拼写错误的单词,因此它适用于Twitter语料库,其中单词经常拼写错误且含义模糊。该模型在情感分类方面具有最先进的性能,在单独的数据集上的准确率为89.5%,F1分数为0.89 [ 27].

对于每个输入的推文,输出的情绪是2类中的1类:与模型预测的置信度相关的积极或消极情绪。然而,并不是所有的推文都包含情感表达。事实上,约25%的与危机相关的Twitter数据不包含主观信息[ 28].对情绪类别的置信度较低的推文可能是中立或客观的。由于每个情绪类别的置信度在0到1之间,我们探索了3个阈值(0.8、0.9和0.95),以了解阈值的选择是否会影响情绪的时间变化。 图2显示了使用0.8、0.9和0.95的置信度阈值来定义中性推文时,COVID-19推文在每日水平上积极、消极和中性的比例。我们发现阈值的选择不会显著影响COVID-19数据集中积极或消极情绪的时间模式。为了获得更多的样本进行分析,我们选择了0.8的置信度,将正面或负面的置信度小于0.8的推文视为中性。

在不同置信阈值(A) 0.8, (B) 0.9, (C) 0.95下检测中性推文时,COVID-19数据集中情绪的每日比例。

数据集摘要

表1显示COVID-19数据集和CDC子集的汇总统计信息,以供分析。这两个数据集都有从2020年1月21日到2020年6月12日期间来自50个州、华盛顿特区和美国其他领土的推文。

COVID-19数据集和疾病控制和预防中心(CDC)子集的描述性摘要。

特征 新型冠状病毒肺炎 疾病预防控制中心
微博, 344218年 53272年
负面情绪,n (%) 195166 (56.7) 32408 (60.8)
正面情绪,n (%) 103698 (30.1) 13411 (25.2)
中性情绪,n (%) 45354 (13.2) 7453 (14.0)
每天推文数,平均值(SD) 2424 (1488.96) 375 (294.55)
每周推文数,平均值(SD) 16391 (6935.53) 6935 (1529.67)
时间变化与空间差异分析

我们通过时间分析来回答研究问题1。首先,我们分别计算了在COVID-19数据集和CDC子集的一天粒度中具有积极、消极或中性情绪的推文的比例,以及在每种预防措施类别(即身体或社交距离、个人防护用品、消毒等)的每周粒度中具有积极、消极或中性情绪的推文的比例。用一种算法分析了公众情绪的时间序列,该算法有助于检测情绪模式开始变化的转折点。研究人员调查了转折点和附近的日期,以探索哪些事件可能与公众情绪极性的重大变化有关。

在美国,各州和地方政府发布的执法政策和干预日期可能有所不同。执法可能会促使公众改变对预防措施的态度[ 29].我们进行了县和州一级的分析,以检查空间差异。我们按州汇总了推文,并为COVID-19数据集和CDC子集生成了情绪极性图。此外,通过对4个具有代表性的州进行分析,在更细的空间粒度上研究公众情绪的动态,从而分析公众情绪的变化是否与州一级的事件或政策有关。

不同地区公众情绪的变化可能与人口的异质性有关,现有研究表明,COVID-19的应对行为与文化、社会经济和政治因素有关[ 19 29 30.].两种类型的分析被用来回答研究问题3和4。分析是在汇总的县一级进行的。我们没有在更细的空间粒度上调查聚合,例如通过人口普查区或人口普查区组,因为推文具有地理位置的稀疏性。使用较小的地理单元意味着每个单元中的推文样本更少,这很容易受到情绪检测错误的影响。

首先,我们比较了县域城乡的民意极性来回答研究问题3。对于每个县,我们分别获得了城市和农村地区正面、负面和中性情绪的推文比例。我们做了一个 t测试县域城市和农村地区的情绪极性,以确定城市/农村因素是否可以解释公众对COVID-19情绪和预防措施的差异。其次,我们研究了对COVID-19的情绪极性和预防措施是否与研究问题4的社会经济因素在统计学上相关。社会经济信息是从 美国人口普查局2017年美国社区调查5年评估指标( 22].

结果 公众对COVID-19和预防措施的情绪的时间变化

图3分别展示了COVID-19数据集和CDC子集中推文的数量和情绪极性的可视化。关于预防措施的推文约占COVID-19推文的15.5%(53,272/344,218)。两个量的时间线显示出一个共同的模式,在相似的时间点有两个大峰值:一个在2020年3月初,另一个在2020年6月中旬。这两个峰值的时间点与公众情绪极性开始改变的转折点相对应。自2020年3月初以来,关于COVID-19问题和预防措施的负面情绪开始下降,尽管2020年6月的第二次飙升与两组数据中负面情绪的增加有关。

(A)和(B)分别是COVID-19数据集,(C)和(D)分别是疾病控制和预防中心(CDC)子集中每天的推文数量和情绪比例。

中性推文的每日比例在研究时间范围内几乎没有变化;积极情绪的时间序列几乎与消极情绪的时间序列相对应。因此,我们着重对负面情绪进行分析。 图4用4种不同的颜色表示4个阶段的可视化。2019冠状病毒病的转折点是2020年3月6日;2020年3月29日;2020年4月30日。 表2而且 表3显示COVID-19数据集和CDC子集的4个阶段的汇总统计数据。

在COVID-19数据集和CDC子集中,负面情绪的动态具有相似的模式,只是转折点的时间不同。在阶段1中,COVID-19数据集和CDC子集的负面情绪比例都很高。在COVID-19数据集中,负面推文的平均每日比例为66.6%(59,805/89,757),在CDC子集中为70.7%(8107/11,475)。在第二阶段,尽管COVID-19时间序列的转折点(2020年3月5日)早于CDC时间序列的转折点(2020年3月15日),但COVID-19数据集和CDC子集的负面情绪均持续下降。经过一段时间后,下降趋势停止,并达到另一个转折点。在阶段3中,COVID-19数据集中的负比例保持稳定。平均阴性比例(37350 / 72849,51.3%)低于COVID-19数据集中阶段1(59,805/89,757,66.6%)和阶段2(32,062/58,010,55.3%)。相比之下,CDC子集的负面情绪有更多的变化。在第三阶段(4945/8610,57.4%)和第二阶段(9419/ 16859,55.9%)后,第四阶段(9937/ 16328,60.9%)对预防措施的负面情绪有所增加。在第4阶段,对COVID-19一般问题的负面情绪也有增加的趋势(65,954/123,602,53.4%)。 In all stages, the sentiment polarities in the CDC subset were higher than those in the COVID-19 data set.

按类别划分,也有类似的趋势。负面情绪极性在新冠疫情发生初期的1月份达到了最高水平。然后,负面推文的比例下降,直到2020年5月下旬,负面情绪开始反弹。还有明显的差异。例如,消毒话题的人气在2020年4月出现了小幅上升,这可能与“消毒剂注射”的批评有关。总体而言,国民对个人防护装备(PPE)话题(11,157/19,640,56.8%)的态度比保持身体或社交距离(10,684/19,466,54.9%)和消毒(1706/3061,55.8%)的态度更消极。

为了进一步调查公众对不同类别预防措施的情绪,我们分别为4类推文生成了公众情绪极性的时间轴(即关于个人防护用品的19,640条推文,关于物理或社交距离的19,466条推文,关于消毒的3061条推文,以及关于其他测量的16,425条推文)。当我们调查更详细的粒度时,在每日级别上有代表性的样本更少,这导致我们将每日级别的聚合调整为每周级别。 图5显示了4类预防措施中推文的周量和情绪极性的可视化。

(A) COVID-19数据集和(B)疾病控制和预防中心(CDC)子集的阶段拆分。

COVID-19数据集的4个阶段的汇总统计数据。

阶段 日期范围 体积 负面情绪 积极的情绪 中性情绪
1 2020年1月21日至3月5日 89757年 0.6663 0.2140 0.1197
2 2020年3月6日至3月28日 58010年 0.5527 0.3102 0.1371
3. 2020年3月29日至4月29日 72849年 0.5127 0.3521 0.1352
4 2020年4月30日至6月12日 123602年 0.5336 0.3304 0.1360
总计 2020年1月21日至6月12日 344218年 0.5669 0.3013 0.1318

疾病控制和预防中心(CDC)子集的4个阶段的汇总统计数据。

阶段 日期范围 体积 负面情绪 积极的情绪 中性情绪
1 2020年1月21日至3月5日 11475年 0.7065 0.1780 0.1155
2 2020年3月6日至3月28日 16859年 0.5587 0.2895 0.1518
3. 2020年3月29日至4月29日 8610 0.5743 0.2825 0.1432
4 2020年4月30日至6月12日 16328年 0.6086 0.2484 0.1430
总计 2020年1月21日至6月12日 53272年 0.6084 0.2517 0.1399

疾病控制和预防中心(CDC)子集中每周的推文数量和情绪比例,按主题划分:(A)和(B)分别是物理或社交距离;(C)、(D)分别消毒;(E)、(F)个人防护装备;(G)和(H),分别为其他。

国家层面的空间差异

图6显示了美国各州关于COVID-19的推文数量和预防措施;4个州发布了最多的关于COVID-19和预防措施的推文:加利福尼亚州、纽约州、德克萨斯州和佛罗里达州。根据美国人口普查局的数据,这四个州是美国人口最多的州[ 22].在COVID-19数据集和CDC数据集之间,每个州的推文数量在比例上相似,确保了两个数据集之间的情绪变化不是由于地理抽样差异造成的。COVID-19数据集的情绪极性图显示,缅因州和太平洋西部地区的一些州(包括亚利桑那州、内华达州、怀俄明州、俄勒冈州和爱达荷州)的负面情绪最高。还需要做更多的研究来调查为什么负面情绪呈现出这样的地理格局。另一方面,对CDC持负面态度的州在地理上分散。排名前三的州包括缅因州、新罕布什尔州和密西西比州。

在整个时间轴上,每个州的推文数量和情绪比例:(A) COVID-19数据集中的推文数量;(B)负面情绪在COVID-19数据集中的比例;(C) COVID-19数据集中积极情绪的比例;(D)在COVID-19数据集中中性情绪的比例;(E)疾病控制和预防中心(CDC)子集中的推文计数;(F) CDC子集中负面情绪的比例;(G)积极情绪在CDC子集中的比例;(H) CDC子集中中性情绪的比例。

此外,我们选择了推文量最高的4个州(即加利福尼亚州,n=56,188;德克萨斯州,n = 32890;纽约,n=31,178;佛罗里达州,n= 19965)进行时间分析。 图7显示了4个州每周对COVID-19问题和预防措施的数量和情绪极性。这4个州的时间线表现出相似的模式,与美国的总体趋势接近。我们观察到许多地方的状态差异。佛罗里达州(11554 / 19965,57.9%)比加利福尼亚州(31926 / 56188,56.8%)、德克萨斯州(18682 / 32890,56.8%)、纽约州(17020 / 31178,54.6%)等3个州表现出更强烈的负面情绪。第四阶段的起点,即负面情绪开始增加,在佛罗里达州出现得较早(大约在2020年4月下旬),而在纽约和加利福尼亚州,第四阶段开始于2020年5月中旬。

四个州对预防措施的公众情绪差异较大。总体而言,在CDC子集中,佛罗里达州(1916/3087,62.1%)的负面推文比例高于加利福尼亚州(5284/8588,61.5%)、德克萨斯州(2991/4949,60.4%)和纽约(2850/4865,58.6%)。加利福尼亚州和佛罗里达州也有类似的趋势,这两个州的时间轴从负面推文的高比例开始,一直持续到2020年3月中旬,一直保持在相对较低的水平,并在后期有所增加。纽约的不同之处在于,公众对预防措施的看法似乎在时间轴上有很大的不同。负面情绪的比例在2020年3月中旬下降到近40%,开始上升到60%左右,然后下降到接近40%,后期上升。2020年4月中旬,负面情绪出现了峰值。在检查关键词的术语频率逆文档频率(TFIDF)后,我们发现了与政治人物、黑人生命也是运动和各种时事相关的关键词。这表明,话题不仅与COVID-19有关,也与预防措施有关,推文的情绪可能会受到其他话题的额外影响。在德克萨斯州,负面情绪一直在下降,直到2020年4月中旬,负面情绪才出现峰值。此后,负面情绪逐渐增加。

在(A)和(B)加利福尼亚,(C)和(D)佛罗里达,(E)和(F)纽约,(G)和(H)德克萨斯,以及疾病控制和预防中心(CDC)子集的COVID-19数据集中,每周的推文数量和情绪比例分别分布在(I)和(J)加利福尼亚,(K)和(L)佛罗里达,(M)和(N)纽约,(O)和(P)德克萨斯。

城乡感情两极分化

我们进行了 t测试比较县域城乡对新冠肺炎的公众情绪和预防措施。结果显示在 表4.县被分为各自的城市和农村地区。在过滤了没有至少15条推文的城市和农村县后,COVID-19数据集中保留了830个城市县和182个农村县,疾病预防控制中心子集中保留了355个城市县和52个农村县。

t测试显示,在与covid -19相关的问题上没有显著差异。然而,关于预防措施(CDC子集)的公众讨论在农村地区(平均0.6543,SD 0.0785)明显比在城市地区(平均0.6112,SD 0.0891;t405= -3.6332, P<措施)。此外,我们观察到城市居民的积极情绪(平均值0.2454,SD 0.0822)高于农村居民(平均值0.2173,SD 0.0716;t405= 2.5976, P=.01),城市地区的中立职位比例(平均0.1433,SD 0.0565)高于农村地区(平均0.1283,SD 0.0411;t405= 2.313, P= .02点)。

城乡感情两极的比较。

情绪 COVID-19数据集 疾病预防控制中心一个子集
市区,平均(SD) 农村,平均(SD) t价值 P价值 市区,平均(SD) 农村,平均(SD) t价值 P价值
0.5768 (0.0897) 0.5833 (0.1064) -0.7691 无误 0.6112 (0.0891) 0.6543 (0.0785) -3.6332 <措施
积极的 0.2921 (0.0827) 0.2918 (0.0995) 0.0397 .97点 0.2454 (0.0822) 0.2173 (0.0716) 2.5976 . 01
中性 0.1310 (0.0505) 0.1248 (0.0588) 1.3211 .19 0.1433 (0.0565) 0.1283 (0.0411) 2.3213 02

一个疾病控制和预防中心。

情绪极性和社会经济因素

然后,研究人员用贫困和失业率等社会经济指标以及家庭收入中位数来考察公众对COVID-19和预防措施的情绪差异。这3个变量和情绪极性的正常性被检查。 表5展示了所有社会经济因素的分布,情绪值,以及县的平均推文数量。

表6Pearson相关结果。失业率与负面情绪的比例( r907= 0.0982, P=.003),与积极情绪占比( r907= -0.1407, P在COVID-19数据集中<.001)。这意味着失业率越高的县对新冠疫情的负面情绪越强烈。同样,贫困率较高的县对COVID-19问题的积极讨论比例往往较低( r907= -0.0836, P= . 01)。最后,家庭收入中位数与负面情绪的比例呈负相关( r907= -0.1322, P<.001),并与积极情绪的比例( r907= 0.1554, P在COVID-19数据集中<.001)。在任何社会经济因素和公众对预防措施的情绪之间没有发现显著的相关性。

所有社会经济和情绪变量的平均值(SD)。

变量 COVID-19数据集(909个县),平均值(SD) 疾病预防控制中心一个子集(413个县),平均值(SD)
推文数量 371.9417 (1052.9472) 119.2421 (229.7825)
贫穷率 12.4608 (4.6809) 11.8521 (4.5293)
失业率 3.7809 (1.2576) 3.6608 (1.2024)
家庭收入中位数(美元) 61489.36 (16394.21) 66516.33 (17888.07)
负面情绪比例 0.5769 (0.0877) 0.6118 (0.0886)
积极情绪比例 0.2922 (0.0823) 0.2446 (0.0817)
中性情绪比例 0.1309 (0.0494) 0.1436 (0.0571)

一个疾病控制和预防中心。

社会经济因素与消极、积极和中性极性之间的关联。

变量 COVID-19数据集 疾病预防控制中心一个子集
系数 P价值 系数 P价值
贫穷率 0.0461 -0.0261 .60
失业率 0.0982 .003 0.0770
家庭收入 -0.1322 <措施 -0.0203 .68点
积极的
贫穷率 -0.0836 . 01 -0.0039 总收入
失业率 -0.1407 <措施 -0.0661 只要
家庭收入 0.1554 <措施 0.0329 .51
中性
贫穷率 0.0574 。08 0.0460 .35点
失业率 0.0599 07 -0.0249
家庭收入 -0.0242 票价 -0.0155 综合成绩

一个疾病控制和预防中心。

讨论 主要研究结果

我们进行了4种类型的分析来回答4个研究问题。时间序列分析揭示了公众对COVID-19情绪变化的4个阶段以及研究问题1的预防措施。从2020年1月下旬到2020年3月初,人们表现出高度的消极情绪,当时美国还没有广泛认识到新冠肺炎的风险。Wise等人[ 13确定美国COVID-19大流行的第一周是2020年3月11日至2020年3月16日。第一阶段主要反映美国民众如何看待其他国家的新冠肺炎疫情。从2020年3月11日那一周开始,当COVID-19被确定影响美国时,人们表现出越来越多的与COVID-19相关的风险意识,并更多地参与预防行为[ 13].我们基于推特数据的调查结果显示了类似的模式,即人们开始减少对COVID-19问题的负面讨论,并在第二阶段对预防措施表现出更积极的态度。但是,负面情绪的下降趋势并没有持续下去。在第三阶段,负面情绪的比例保持稳定,并持续了一个月。此后,人们对新冠肺炎问题和预防措施的负面情绪开始增加,这在大流行还远未结束的时候不是一个好兆头。这些发现说明了公共卫生当局在传播战略和政府政策制定方面面临的几个挑战。第一个挑战是如何让人们了解这种疾病及其潜在风险,并说服人们在风险不在地理位置上的初始阶段采取行动防止病毒传播。第二个挑战是,人们在经历大流行并获得有关疾病的信息后,可能会改变对预防措施的态度。重要的是要了解是什么导致了他们的态度和行为的改变,以及人们需要多长时间来适应或厌倦不断变化的行为。

我们分析了州一级的公众情绪动态,并提出了来自加利福尼亚州、佛罗里达州、纽约州和德克萨斯州的结果,这些州表现出类似的模式,但在转折点和情绪极性的时间上有所不同,以回答研究问题2。我们的发现与一些现有的研究是一致的。例如,Hung等人[ 31我们的研究发现,佛罗里达州是在与COVID-19相关的讨论中表达最负面情绪的州之一,我们的研究表明,佛罗里达人在讨论一般的COVID-19主题和预防措施时普遍更消极。

对于研究问题3,我们的研究进一步揭示,农村地区的人们普遍对COVID-19问题和CDC建议的预防措施持负面情绪。蔡斯勒等人[ 30.他们进行了代表性小组调查,发现在纽约和洛杉矶这两个大城市,人们对居家令、关闭企业、自我隔离和在公共场合戴口罩的认同程度高于美国普通民众。这些发现有助于指导公共当局在决策和政策制定方面,例如考虑城市和农村在传播策略和指导方面的差异。

此外,家庭收入中位数以及贫困率和失业率与公众对预防措施的态度差异无关;然而,较高的失业率与covid -19相关话题的负极性正相关,这解决了研究问题4。这一发现与Czeisler等人的调查研究不同[ 30.调查显示,失业的人在保持社交距离、戴口罩、居家令和关闭企业等问题上更有共识,他们不太可能接受美国重新开放。这些差异可能是由调查中使用的抽样方法造成的。结合城市/农村分析的结果,我们建议,不同的政策或传播战略可以更多地从城市/农村的角度考虑,而不是基于类似COVID-19大流行的社会经济差异。

限制

本研究依赖于地理定位的Twitter数据来估计不同时间和空间粒度水平的情绪极性。我们使用关注者与关注者的比例来删除潜在的非个人用户帐户,例如机器人,这可能并不完全准确。在未来的工作中,我们相信结合更多用户信息的机器人检测算法可能提供更准确的用户过滤。有地理定位帖子的Twitter用户被认为是具有较高社会经济水平的年轻一代,他们可能不能代表美国的全部人口。考虑到这些用户在人口中的比例在县或州之间是相似的,与抽样Twitter用户的比较方向可以具有代表性。为了避免有偏见的解释,我们的研究结果更多地关注关系的方向和显著性水平,而不是差异或相关系数有多大。对社交媒体数据的研究很有价值,因为它们可以在不同的空间尺度上提供对时间敏感的知识,这是很难以经济有效的方式通过调查研究实现的。值得注意的是,要收集不上网的人的态度,调查方法是不可替代的。

另一个限制来自于我们用来检测情绪的算法。虽然预训练的深度学习模型具有最先进的情感分类精度,但它可能会对帖子产生错误的情感分类。当数据稀缺时,检测算法造成的误差可能会导致聚合情绪极性的较大差异。这就是为什么我们在计算预防性措施和各州的公众情绪时调整了时间粒度。考虑到在其他主题的研究中数据更稀缺,聚合级别的选择应该更粗粒度。

最后,我们将重点放在情绪上,并将帖子分为积极的、消极的和中性的。有必要对Twitter的内容进行更深入的理解和评估,以便在多个维度上准确地描述反应,例如支持、希望和快乐属于积极情绪,而恐惧、绝望和仇恨属于消极情绪[ 32].

与之前工作的比较

许多研究人员研究了新冠肺炎期间的网上讨论,特别是公众情绪和热门话题,以便及时了解情况。例如,Xiang等[ 33]调查了2020年1月23日至2020年5月20日期间推特上有关老年人的讨论。他们发现,“封锁”主题是最受欢迎的,“恐惧”和“悲伤”是普遍的情绪。王等[ 12]分析了中国社交媒体上关于COVID-19的话题和相关情绪。从2020年1月20日开始,负面情绪的表达有所增加。从2020年1月26日开始,对“上班”和“复工”等生产活动的担忧开始增加。在我们的研究中,我们关注的是推特上与COVID-19预防措施相关的主题。虽然我们曾在当地用调查方法研究过它们[ 13 30.,很少有人通过社交媒体分析系统地调查这些话题。

从疫情的时间变化和空间差异的角度分析了公众情绪。席等[ 34]利用微博数据了解中国老年人在新冠肺炎期间的担忧。他们确定了从2020年1月20日到2020年4月28日的三个时间阶段,第一阶段是“老年人为社区做出贡献”,第二和第三阶段是“住院的老年患者”。周等[ 6)追踪了澳大利亚关于COVID-19的推文关于封锁和社交距离等话题的情绪动态。对这些政策的总体情绪极性在不同阶段发生了变化。积极情绪最初发挥了主导作用,但随着时间的推移逐渐减少。李等[ 8]分析了2020年3月25日至4月7日的英语推文。他们的结果显示,在含有“面具”一词的推文中,悲伤、愤怒和期待的变化很大,而在含有“封锁”一词的推文中,厌恶和悲伤的变化很大。对4个国家2020年1月至6月COVID-19推文的时间分析表明,这些国家中政府实施封锁政策后,负面情绪有所上升[ 35].

有几项研究利用社交媒体数据中的地理位置信息来调查不同行政单位的公众情绪。韩等[ 36分析了中国的微博,结果显示,“政府回应”的话题在北京、四川和西安最为突出,而在武汉周边地区,负面情绪和“寻求帮助”的话题在2020年初是热门话题。Nilima等[ 37调查了与COVID-19和印度封锁相关的心理社会因素。他们发现了一些有相似反应模式的地方,发现不同州的人有不同的担忧。伊姆兰等[ 38发现人们对COVID-19的反应存在文化差异,巴基斯坦和印度人与美国和加拿大人表现出不同的情绪模式。并没有多少研究专门考察了美国的讨论。范等人[ 29调查了美国公众对社交距离的态度,发现存在地理差异,这可以部分地用政治意识形态来解释。椿等[ 4]收集了3月份一周内有关政府对COVID-19传播执法的推文,并计算出公民对不同措施的关注指数。调查显示,与学校关闭相关的推文包含了最高水平的担忧。我们的研究结果有助于了解美国社交媒体平台上与COVID-19相关的公众情绪和舆论。我们进行了一项综合研究,分析了从COVID-19尚未在美国传播的最初阶段到人们开始表现出负面情绪反弹或抵制预防措施的阶段的时间变化。

此外,我们还探讨了公众情绪两极分化与其他地理和社会经济因素之间的关系,以确定与空间差异相关的因素。这些发现可能有助于指导公共卫生当局在未来发生类似大流行时的决策和政策制定。

在这项研究中,我们应用了一个数据分析框架来调查美国公众对COVID-19的情绪以及公共卫生部门建议的预防措施。数据处理框架可应用于对COVID-19疫苗接种和重新评估等其他主题的讨论进行分析,或为未来的危机提供有用的解决方案。

结论

本研究采用数据驱动的方法,通过地理定位的Twitter数据了解公众对COVID-19问题的情绪和预防措施。我们首先使用深度学习模型来获取每条推文的情绪。然后,这些推文被聚合到不同的时间和地理单位,以衡量公众情绪的两极。

在时间分析中,我们发现了关于COVID-19问题和预防实践的讨论中明显存在的4个阶段的变化,表明了这两个主题之间的共同模式。根据我们对在所研究的时间段内推文数量最多的4个州的样本进行的检查,佛罗里达州对COVID - 19问题和疾病预防控制中心的预防措施的负面情绪比加利福尼亚州、德克萨斯州和纽约州更多。我们分析了空间差异,并探讨了公众情绪的变化是否与地理因素有关,发现城市和农村地区对预防措施的情绪极性存在显著差异。家庭收入中位数以及贫困和失业率等社会经济因素与对COVID-19问题的情绪极性显著相关,但与预防措施无关。

从这项研究中获得的见解可能有助于公共卫生当局和政府在大流行的整个阶段调整和区分传播战略和政策。传播战略和政策的考虑应基于城乡差异,而不是社会经济差异。

缩写 API

应用程序编程接口

疾病预防控制中心

疾病控制和预防中心

个人防护用品

个人防护装备

TFIDF

术语频率-逆文档频率

没有宣布。

世卫组织冠状病毒疾病(covid-19)仪表盘 世界卫生组织 2021-12-14 https://covid19.who.int/ 指导文件 美国疾病控制与预防中心 2021-12-14 https://www.cdc.gov/coronavirus/2019-ncov/communication/guidance-list.html 在香港 l C J Frias-Martinez V 自然灾害期间,公民与地方政府在网上的信息需求和沟通差距 系统前端 2018 3. 3. 20. 5 1027 1039 10.1007 / s10796 - 018 - 9832 - 0 SA ACY Toliyat 一个 盖勒 J 追踪covid-19大流行期间公民的担忧 2020 第21届国际数字政府研究年会 2020年6月15日至19日 韩国首尔 10.1145/3396956.3397000 Sesagiri Raamkumar 一个 棕褐色 SG 凌晨 霍奇金淋巴瘤 衡量2020年初COVID-19大流行期间公共卫生当局的外联工作和公众在Facebook上的反应:跨国比较 J医疗互联网服务 2020 05 19 22 5 e19334 10.2196/19334 32401219 PMC7238862 J 年代 C F COVID-19大流行导致的社区情绪动态研究:来自澳大利亚一个州的案例研究 康奈尔大学 2021 2021-12-14 https://arxiv.org/abs/2006.12185 撒母耳 J 拉赫曼 毫米 阿里 GGMN 撒母耳 Y Pelaez 一个 PHJ 阿里身上 对重新开业感到积极?2019冠状病毒病的新常态情景使美国重新启动情绪分析 IEEE访问 2020 8 142173 142190 10.1109 / access.2020.3013933 Y T Alvarez-Napagao 年代 Garcia-Gasulla D Suzumura T 布拉姆 埃利斯 R 当我们谈论COVID-19时,我们在沮丧什么:使用自然语言处理对推文进行心理健康分析 人工智能 2020 可汗、瑞士 施普林格国际出版 撒母耳 J 阿里 GGMN 拉赫曼 毫米 Esawi E 撒母耳 Y 新冠疫情舆情洞察和机器学习推文分类 信息 2020 06 11 11 6 314 10.3390 / info11060314 J J R C C Y T 关于COVID-19大流行的推特讨论和情绪:机器学习方法 J医疗互联网服务 2020 11 25 22 11 e20550 10.2196/20550 33119535 v22i11e20550 PMC7690968 在香港 l C 托伦斯 P Frias-Martinez V 理解公民和地方政府在自然灾害期间的数字通信:暴风雪的情况 2017 ACM网络科学会议 2017年6月25日至28日 纽约特洛伊 10.1145/3091478.3091502 T K 周润发 KP 新冠疫情感知:基于BERT模型的中国社交媒体负面情绪分析 IEEE访问 2020 8 138162 138169 10.1109 / access.2020.3012595 明智的 T Zbozinek T Michelini G 哈根 CC 莫伯斯 D 美国COVID-19大流行第一周风险认知和自我报告保护行为的变化 社会开放科学 2020 09 7 9 200742 10.1098 / rsos.200742 33047037 rsos200742 PMC7540790 Ntompras C Drosatos G Kaldoudi E 对与COVID-19大流行相关的Twitter帖子进行高分辨率时间和地理空间内容分析 J计算Soc 2021 10 20. 1 43 10.1007 / s42001 - 021 - 00150 - 8 库莫 再保险 Purushothaman V J 麦基 TK COVID-19推文的次国家纵向和地理空间分析 《公共科学图书馆•综合》 2020 10 28 15 10 e0241330 10.1371 / journal.pone.0241330 33112922 玉米饼- d - 20 - 12570 PMC7592735 库莫 再保险 Purushothaman V J 麦基 TK 对美国COVID-19爆发早期推文的纵向和地理空间分析 BMC公共卫生 2021 04 24 21 1 793 10.1186 / s12889 - 021 - 10827 - 4 33894745 10.1186 / s12889 - 021 - 10827 - 4 PMC8067788 Forati Ghose用 R COVID-19相关推文错误信息的地理空间分析 : Geogr 2021 08 133 102473 10.1016 / j.apgeog.2021.102473 34103772 s0143 - 6228 (21) 00089 - 8 PMC8176902 X 年代 Y N K J Ellenberg JS Patz 晶澳 COVID-19感染与人口流动性的县内建模:评估商业交通、年龄和种族的空间异质性 美国国立自然科学研究院 2021 06 15 118 24 e2020524118 10.1073 / pnas.2020524118 34049993 2020524118 PMC8214685 Schmelz K 强制执行可能会挤掉对COVID-19政策的自愿支持,特别是在对政府信任薄弱和自由社会的地方 美国国立自然科学研究院 2021 01 05 118 1 e2016385118 10.1073 / pnas.2016385118 33443149 2016385118 PMC7817206 E Lerman K 费拉拉 E 追踪关于COVID-19大流行的社交媒体话语:开发一个公开的冠状病毒推特数据集 JMIR公共卫生监测 2020 05 29 6 2 e19273 10.2196/19273 32427106 v6i2e19273 PMC7265654 制图边界文件- Shapefile 美国人口调查局 2018 2021-12-14 https://www.census.gov/geographies/mapping-files/time-series/geo/carto-boundary-file.html 探索人口普查数据 美国人口调查局 2021-12-14 https://data.census.gov/cedsci/ 老虎®shapefile /线 美国人口调查局 2021-12-14 https://www.census.gov/cgi-bin/geo/shapefiles/ 城市和农村 美国人口调查局 2021-12-14 https://www.census.gov/programs-surveys/geography/guidance/geo-areas/urban-rural.html 在香港 l Frias-Martinez V 飓风厄玛期间的疏散流建模和预测 EPJ数据科学 2020 09 29 9 1 1 10.1140 / epjds s13688 - 020 - 00247 - 6 Akbik 一个 布莱斯 D Vollgraf R 序列标记的上下文字符串嵌入 第27届国际计算语言学会议论文集 2018 1638 1649 Akbik 一个 伯格曼 T 布莱斯 D 拉苏尔 K Schweter 年代 Vollgraf R FLAIR:最先进的NLP的一个易于使用的框架 2019年计算语言学协会北美分会会议记录(演示) 2019 54 59 10.18653 / v1 / n19 - 4010 Z Jayanth 一个 亚达夫 K G 在香港 l 危机期间信息传播识别的多层面分类:以COVID-19为例 2021 第45届计算机、软件与应用会议(COMPSAC) 2021年7月12日至16日 马德里,西班牙 10.1109 / compsac51774.2021.00125 房龙 一个 斯图尔特 年代 Waldon B Lakshmikanth SK 沙阿 Guntuku SC 谢尔曼 G J Eichstaedt J 用新冠肺炎话语解释特朗普在社交距离上的差距 2020年EMNLP第一次COVID-19 NLP研讨会论文集(下) 2020 1 10.18653 / v1/2020.nlpcovid19 - 2.10 泽斯 Tynan 霍华德 Honeycutt 年代 Fulmer 海尔哥哥 基德 DP 罗宾斯 R Barger Facer-Childs 鲍德温 G 拉贾拉特南 SM 泽斯 CA 公众对COVID-19的态度、行为和信念、居家令、非必要的企业关闭和公共卫生指导——美国、纽约市和洛杉矶,2020年5月5日至12日 MMWR Morb凡人Wkly代表 2020 06 19 69 24 751 758 10.15585 / mmwr.mm6924e1 32555138 PMC7302477 劳伦 E 在香港ydF4y2Ba 西文 伯明翰 WC J 年代 在香港ydF4y2Ba SD 公园 J 见鬼 P 利普斯基 女士 新冠疫情情绪的社交网络分析:人工智能的应用 J医疗互联网服务 2020 08 18 22 8 e22590 10.2196/22590 32750001 v22i8e22590 PMC7438102 加斯帕 R 佩德罗 C Panagiotopoulos P Seibt B 超越积极或消极:社交媒体对意外压力事件反应的定性情绪分析 计算机在人类行为中的应用 2016 03 56 179 191 10.1016 / j.chb.2015.11.040 X X Halavanau 一个 J 太阳 Y PHL Z 面对大流行的现代老年人:使用机器学习检查关于老年人和COVID-19的公共话语和情绪 老年科学B心理科学社会科学 2021 03 14 76 4 e190 10.1093 / geronb / gbaa128 32785620 5891619 PMC7454882 西 W W X 亚龙 l 对COVID-19疫情期间有关老年人的微博话题(中国推特标签)进行专题分析 老年科学B心理科学社会科学 2021 08 13 76 7 e306 e312 10.1093 / geronb / gbaa148 32882029 5901075 PMC7499682 Mansoor Gurumurthy K 普拉萨德 VRB covid-19推文的全球情绪随时间变化分析 康奈尔大学 2020 2021-12-14 https://arxiv.org/abs/2010.14234 X J X 利用社交媒体挖掘和分析中国新冠肺炎相关舆论 国际环境与公共卫生 2020 04 17 17 8 2788 10.3390 / ijerph17082788 32316647 ijerph17082788 PMC7215577 Nilima N Kaushik 年代 Tiwary B Pandey PK 与COVID- 19大流行期间印度全国封锁相关的心理社会因素 临床流行病学Glob健康 2021 01 9 47 52 10.1016 / j.cegh.2020.06.010 32838060 s2213 - 3984 (20) 30167 - 6 PMC7324916 伊姆兰 作为 Daudpota SM Kastrati Z 巴特拉 R 使用情感分析和深度学习对COVID-19相关推文进行跨文化极性和情感检测 IEEE访问 2020 8 181074 181090 10.1109 / access.2020.3027350
Baidu
map