这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用最初发表在JMIR Infodemiology上的原创作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
在COVID-19大流行期间,美国公共卫生当局以及县、州和联邦政府建议或下令采取某些预防措施,如佩戴口罩,以减少疾病的传播。然而,个人对这些预防措施有不同的反应。
本研究旨在从时间和空间角度了解公众对COVID-19的情绪变化和建议或命令的预防措施,以及公众情绪的变化与地理和社会经济因素的关系。
作者利用机器学习方法调查了2020年1月21日至6月12日期间与covid -19相关的推文中的公众情绪两极分化。这项研究衡量了美国公众对一般COVID-19话题和预防措施的情绪的时间变化和空间差异。
在时间分析中,我们发现了从最初阶段的高负面情绪到第二、第三阶段的下降和低负面情绪,到最后阶段的反弹和增加的4个阶段的模式。我们还发现,城市和农村地区的公众对预防措施的情绪存在显著差异,而贫困率和失业率与对COVID-19问题的负面情绪呈正相关。
公众对COVID-19的情绪与预防措施之间的差异意味着需要采取行动,管理未来大流行的初始阶段和反弹阶段。在大流行期间的传播战略和决策方面,应考虑到城市和农村的差异。这项研究还提供了一个框架,以调查县和州一级对时间敏感的公众情绪,这可以指导地方和州政府以及区域社区在危机中做出决策和制定政策。
COVID-19大流行对全球经济和死亡率产生了影响,截至2021年3月12日,全球确诊病例超过1.18亿例,死亡病例超过260万例[
对于有效的宣传战略、决定和政策来说,衡量公众情绪和对预防措施的反应至关重要,因为做法上的差异可能会影响疾病的传播,并推迟社会从大流行病中恢复过来。社会媒体已被人们广泛采用,在危机中获取信息和分享意见,这为政府和公共机构了解民意提供了具有时效性的机会。社交媒体数据已被用作大众信息来源,以了解公民所关注的问题[
本研究的重点是从时间和空间角度确定美国公众对COVID-19和预防措施的情绪变化,并调查这些变化与地理和社会经济因素的关系。具体来说,我们分析了美国推特上关于COVID-19的讨论,以回答以下问题:
研究问题1:公众对整体COVID-19问题和预防措施的情绪是否存在时间变化?
研究问题2:公众对整体COVID-19问题和预防措施的情绪是否存在空间差异?
研究问题3:哪些地理因素可能与公众对COVID-19问题和预防措施的看法差异有关?
研究问题4:哪些社会经济因素可能与公众对COVID-19问题和预防措施的看法差异有关?
探索这4个问题,可以在精细的时间和空间粒度上深入了解公众对COVID-19问题和预防措施的情绪。这使得决策者在制定传播战略或调整执法政策时明确考虑到这些差异,以便在COVID-19等大流行或危机中进行有效协调。这项研究为分析、比较和潜在预测未来危机中的公众情绪奠定了基础。
该方法由三部分组成(
数据分析框架。API:应用程序编程接口;PP:预防措施;SE:社会经济。
2019年12月下旬,中国武汉首次报告新冠肺炎病例。该疾病迅速蔓延,导致全球感染和死亡人数增加。从2020年1月开始,其他国家开始报告COVID-19确诊病例。为了检索关于COVID-19的在线讨论,我们从2020年1月21日开始收集了一个推特数据集,其中包含约1.6亿条包含COVID-19相关关键词的推文。关键词列表包括“冠状病毒”、“Corona”、“CDC”、“Covid19”、“Covid19”、“Sarscov2”、“pandemic”、“epidemic”及其变体[
根据推特的政策,我们在分析之前从数据中删除了标识符,以避免潜在的个人分析或针对个人。我们只提供汇总分析。为了支持可重复性,应相应作者的要求,将提供tweet id、处理代码和中间结果。
数据准备工作由四部分组成(
收集到的推文仅满足与COVID-19语义相关的条件,其中一些推文嵌入了地理位置,如点位置、用地理坐标定义的边界框或用户输入的位置标签。尽管许多推文包含位置标签,但这些标签通常在地理范围上有所不同,或者并不是指真实的位置。因此,只有地理坐标(作为点位置或边界框)的推文才会被使用。我们使用Python中的GeoPandas包进行所有地理数据处理。计算出边界框的中心后,将它们投影到美国Shapefile地图的坐标系中[
Twitter上有不同类型的用户,包括媒体、政府部门和组织的账户、社交机器人和个人账户。数据质量和生成的见解可能会受到机器人和公众号活动的影响[
具体来说,我们将关注者和被关注者的数量比平均值大2个sd的用户识别为非人[
我们特别感兴趣的是公众对COVID-19预防措施的情绪,因为人们对这些措施的遵守程度在很大程度上影响着疾病的传播。为了确定描述COVID-19预防实践的潜在关键词,我们收集了CDC发布的所有指南[
这些关键词和短语被用来识别一条推文是否与COVID-19预防措施有关,以及预防措施的类别。由于社交媒体帖子中使用的语言可能存在语法或排版错误,使用CDC指南中的正式关键词和短语可能会影响关于预防措施的推文的召回。因此,我们对tweet以及关键字和短语应用了令牌规范化。在每条推文规范化之后,我们检查推文中是否有任何令牌与规范化的关键词或短语匹配。包含这些关键字或短语的推文被聚合成关于预防实践的子集(在下面的分析中简称为CDC子集),总共有53,272条推文。根据代币,这些推文被进一步归类为4个类别中的1个类别的讨论。在COVID-19数据集中发现的最热门关键词是口罩、待在家里、社交距离、测试和个人防护装备。这些单独的关键字出现了8000多次。
我们使用预训练的深度学习模型FLAIR来检测每条推文中包含的情绪[
对于每个输入的推文,输出的情绪是2类中的1类:与模型预测的置信度相关的积极或消极情绪。然而,并不是所有的推文都包含情感表达。事实上,约25%的与危机相关的Twitter数据不包含主观信息[
在不同置信阈值(A) 0.8, (B) 0.9, (C) 0.95下检测中性推文时,COVID-19数据集中情绪的每日比例。
COVID-19数据集和疾病控制和预防中心(CDC)子集的描述性摘要。
特征 | 新型冠状病毒肺炎 | 疾病预防控制中心 |
微博, | 344218年 | 53272年 |
负面情绪,n (%) | 195166 (56.7) | 32408 (60.8) |
正面情绪,n (%) | 103698 (30.1) | 13411 (25.2) |
中性情绪,n (%) | 45354 (13.2) | 7453 (14.0) |
每天推文数,平均值(SD) | 2424 (1488.96) | 375 (294.55) |
每周推文数,平均值(SD) | 16391 (6935.53) | 6935 (1529.67) |
我们通过时间分析来回答研究问题1。首先,我们分别计算了在COVID-19数据集和CDC子集的一天粒度中具有积极、消极或中性情绪的推文的比例,以及在每种预防措施类别(即身体或社交距离、个人防护用品、消毒等)的每周粒度中具有积极、消极或中性情绪的推文的比例。用一种算法分析了公众情绪的时间序列,该算法有助于检测情绪模式开始变化的转折点。研究人员调查了转折点和附近的日期,以探索哪些事件可能与公众情绪极性的重大变化有关。
在美国,各州和地方政府发布的执法政策和干预日期可能有所不同。执法可能会促使公众改变对预防措施的态度[
不同地区公众情绪的变化可能与人口的异质性有关,现有研究表明,COVID-19的应对行为与文化、社会经济和政治因素有关[
首先,我们比较了县域城乡的民意极性来回答研究问题3。对于每个县,我们分别获得了城市和农村地区正面、负面和中性情绪的推文比例。我们做了一个
(A)和(B)分别是COVID-19数据集,(C)和(D)分别是疾病控制和预防中心(CDC)子集中每天的推文数量和情绪比例。
中性推文的每日比例在研究时间范围内几乎没有变化;积极情绪的时间序列几乎与消极情绪的时间序列相对应。因此,我们着重对负面情绪进行分析。
在COVID-19数据集和CDC子集中,负面情绪的动态具有相似的模式,只是转折点的时间不同。在阶段1中,COVID-19数据集和CDC子集的负面情绪比例都很高。在COVID-19数据集中,负面推文的平均每日比例为66.6%(59,805/89,757),在CDC子集中为70.7%(8107/11,475)。在第二阶段,尽管COVID-19时间序列的转折点(2020年3月5日)早于CDC时间序列的转折点(2020年3月15日),但COVID-19数据集和CDC子集的负面情绪均持续下降。经过一段时间后,下降趋势停止,并达到另一个转折点。在阶段3中,COVID-19数据集中的负比例保持稳定。平均阴性比例(37350 / 72849,51.3%)低于COVID-19数据集中阶段1(59,805/89,757,66.6%)和阶段2(32,062/58,010,55.3%)。相比之下,CDC子集的负面情绪有更多的变化。在第三阶段(4945/8610,57.4%)和第二阶段(9419/ 16859,55.9%)后,第四阶段(9937/ 16328,60.9%)对预防措施的负面情绪有所增加。在第4阶段,对COVID-19一般问题的负面情绪也有增加的趋势(65,954/123,602,53.4%)。 In all stages, the sentiment polarities in the CDC subset were higher than those in the COVID-19 data set.
按类别划分,也有类似的趋势。负面情绪极性在新冠疫情发生初期的1月份达到了最高水平。然后,负面推文的比例下降,直到2020年5月下旬,负面情绪开始反弹。还有明显的差异。例如,消毒话题的人气在2020年4月出现了小幅上升,这可能与“消毒剂注射”的批评有关。总体而言,国民对个人防护装备(PPE)话题(11,157/19,640,56.8%)的态度比保持身体或社交距离(10,684/19,466,54.9%)和消毒(1706/3061,55.8%)的态度更消极。
为了进一步调查公众对不同类别预防措施的情绪,我们分别为4类推文生成了公众情绪极性的时间轴(即关于个人防护用品的19,640条推文,关于物理或社交距离的19,466条推文,关于消毒的3061条推文,以及关于其他测量的16,425条推文)。当我们调查更详细的粒度时,在每日级别上有代表性的样本更少,这导致我们将每日级别的聚合调整为每周级别。
(A) COVID-19数据集和(B)疾病控制和预防中心(CDC)子集的阶段拆分。
COVID-19数据集的4个阶段的汇总统计数据。
阶段 | 日期范围 | 体积 | 负面情绪 | 积极的情绪 | 中性情绪 |
1 | 2020年1月21日至3月5日 | 89757年 | 0.6663 | 0.2140 | 0.1197 |
2 | 2020年3月6日至3月28日 | 58010年 | 0.5527 | 0.3102 | 0.1371 |
3. | 2020年3月29日至4月29日 | 72849年 | 0.5127 | 0.3521 | 0.1352 |
4 | 2020年4月30日至6月12日 | 123602年 | 0.5336 | 0.3304 | 0.1360 |
总计 | 2020年1月21日至6月12日 | 344218年 | 0.5669 | 0.3013 | 0.1318 |
疾病控制和预防中心(CDC)子集的4个阶段的汇总统计数据。
阶段 | 日期范围 | 体积 | 负面情绪 | 积极的情绪 | 中性情绪 |
1 | 2020年1月21日至3月5日 | 11475年 | 0.7065 | 0.1780 | 0.1155 |
2 | 2020年3月6日至3月28日 | 16859年 | 0.5587 | 0.2895 | 0.1518 |
3. | 2020年3月29日至4月29日 | 8610 | 0.5743 | 0.2825 | 0.1432 |
4 | 2020年4月30日至6月12日 | 16328年 | 0.6086 | 0.2484 | 0.1430 |
总计 | 2020年1月21日至6月12日 | 53272年 | 0.6084 | 0.2517 | 0.1399 |
疾病控制和预防中心(CDC)子集中每周的推文数量和情绪比例,按主题划分:(A)和(B)分别是物理或社交距离;(C)、(D)分别消毒;(E)、(F)个人防护装备;(G)和(H),分别为其他。
在整个时间轴上,每个州的推文数量和情绪比例:(A) COVID-19数据集中的推文数量;(B)负面情绪在COVID-19数据集中的比例;(C) COVID-19数据集中积极情绪的比例;(D)在COVID-19数据集中中性情绪的比例;(E)疾病控制和预防中心(CDC)子集中的推文计数;(F) CDC子集中负面情绪的比例;(G)积极情绪在CDC子集中的比例;(H) CDC子集中中性情绪的比例。
此外,我们选择了推文量最高的4个州(即加利福尼亚州,n=56,188;德克萨斯州,n = 32890;纽约,n=31,178;佛罗里达州,n= 19965)进行时间分析。
四个州对预防措施的公众情绪差异较大。总体而言,在CDC子集中,佛罗里达州(1916/3087,62.1%)的负面推文比例高于加利福尼亚州(5284/8588,61.5%)、德克萨斯州(2991/4949,60.4%)和纽约(2850/4865,58.6%)。加利福尼亚州和佛罗里达州也有类似的趋势,这两个州的时间轴从负面推文的高比例开始,一直持续到2020年3月中旬,一直保持在相对较低的水平,并在后期有所增加。纽约的不同之处在于,公众对预防措施的看法似乎在时间轴上有很大的不同。负面情绪的比例在2020年3月中旬下降到近40%,开始上升到60%左右,然后下降到接近40%,后期上升。2020年4月中旬,负面情绪出现了峰值。在检查关键词的术语频率逆文档频率(TFIDF)后,我们发现了与政治人物、黑人生命也是运动和各种时事相关的关键词。这表明,话题不仅与COVID-19有关,也与预防措施有关,推文的情绪可能会受到其他话题的额外影响。在德克萨斯州,负面情绪一直在下降,直到2020年4月中旬,负面情绪才出现峰值。此后,负面情绪逐渐增加。
在(A)和(B)加利福尼亚,(C)和(D)佛罗里达,(E)和(F)纽约,(G)和(H)德克萨斯,以及疾病控制和预防中心(CDC)子集的COVID-19数据集中,每周的推文数量和情绪比例分别分布在(I)和(J)加利福尼亚,(K)和(L)佛罗里达,(M)和(N)纽约,(O)和(P)德克萨斯。
我们进行了
的
城乡感情两极的比较。
情绪 | COVID-19数据集 | 疾病预防控制中心一个子集 | |||||||
|
市区,平均(SD) | 农村,平均(SD) |
|
|
市区,平均(SD) | 农村,平均(SD) |
|
|
|
负 | 0.5768 (0.0897) | 0.5833 (0.1064) | -0.7691 | 无误 | 0.6112 (0.0891) | 0.6543 (0.0785) | -3.6332 | <措施 | |
积极的 | 0.2921 (0.0827) | 0.2918 (0.0995) | 0.0397 | .97点 | 0.2454 (0.0822) | 0.2173 (0.0716) | 2.5976 | . 01 | |
中性 | 0.1310 (0.0505) | 0.1248 (0.0588) | 1.3211 | .19 | 0.1433 (0.0565) | 0.1283 (0.0411) | 2.3213 | 02 |
一个疾病控制和预防中心。
然后,研究人员用贫困和失业率等社会经济指标以及家庭收入中位数来考察公众对COVID-19和预防措施的情绪差异。这3个变量和情绪极性的正常性被检查。
所有社会经济和情绪变量的平均值(SD)。
变量 | COVID-19数据集(909个县),平均值(SD) | 疾病预防控制中心一个子集(413个县),平均值(SD) |
推文数量 | 371.9417 (1052.9472) | 119.2421 (229.7825) |
贫穷率 | 12.4608 (4.6809) | 11.8521 (4.5293) |
失业率 | 3.7809 (1.2576) | 3.6608 (1.2024) |
家庭收入中位数(美元) | 61489.36 (16394.21) | 66516.33 (17888.07) |
负面情绪比例 | 0.5769 (0.0877) | 0.6118 (0.0886) |
积极情绪比例 | 0.2922 (0.0823) | 0.2446 (0.0817) |
中性情绪比例 | 0.1309 (0.0494) | 0.1436 (0.0571) |
一个疾病控制和预防中心。
社会经济因素与消极、积极和中性极性之间的关联。
变量 | COVID-19数据集 | 疾病预防控制中心一个子集 | ||||
|
系数 |
|
系数 |
|
||
|
||||||
|
贫穷率 | 0.0461 | 。 | -0.0261 | .60 | |
|
失业率 | 0.0982 | .003 | 0.0770 | 点 | |
|
家庭收入 | -0.1322 | <措施 | -0.0203 | .68点 | |
|
||||||
|
贫穷率 | -0.0836 | . 01 | -0.0039 | 总收入 | |
|
失业率 | -0.1407 | <措施 | -0.0661 | 只要 | |
|
家庭收入 | 0.1554 | <措施 | 0.0329 | .51 | |
|
||||||
|
贫穷率 | 0.0574 | 。08 | 0.0460 | .35点 | |
|
失业率 | 0.0599 | 07 | -0.0249 | 收 | |
|
家庭收入 | -0.0242 | 票价 | -0.0155 | 综合成绩 |
一个疾病控制和预防中心。
我们进行了4种类型的分析来回答4个研究问题。时间序列分析揭示了公众对COVID-19情绪变化的4个阶段以及研究问题1的预防措施。从2020年1月下旬到2020年3月初,人们表现出高度的消极情绪,当时美国还没有广泛认识到新冠肺炎的风险。Wise等人[
我们分析了州一级的公众情绪动态,并提出了来自加利福尼亚州、佛罗里达州、纽约州和德克萨斯州的结果,这些州表现出类似的模式,但在转折点和情绪极性的时间上有所不同,以回答研究问题2。我们的发现与一些现有的研究是一致的。例如,Hung等人[
对于研究问题3,我们的研究进一步揭示,农村地区的人们普遍对COVID-19问题和CDC建议的预防措施持负面情绪。蔡斯勒等人[
此外,家庭收入中位数以及贫困率和失业率与公众对预防措施的态度差异无关;然而,较高的失业率与covid -19相关话题的负极性正相关,这解决了研究问题4。这一发现与Czeisler等人的调查研究不同[
本研究依赖于地理定位的Twitter数据来估计不同时间和空间粒度水平的情绪极性。我们使用关注者与关注者的比例来删除潜在的非个人用户帐户,例如机器人,这可能并不完全准确。在未来的工作中,我们相信结合更多用户信息的机器人检测算法可能提供更准确的用户过滤。有地理定位帖子的Twitter用户被认为是具有较高社会经济水平的年轻一代,他们可能不能代表美国的全部人口。考虑到这些用户在人口中的比例在县或州之间是相似的,与抽样Twitter用户的比较方向可以具有代表性。为了避免有偏见的解释,我们的研究结果更多地关注关系的方向和显著性水平,而不是差异或相关系数有多大。对社交媒体数据的研究很有价值,因为它们可以在不同的空间尺度上提供对时间敏感的知识,这是很难以经济有效的方式通过调查研究实现的。值得注意的是,要收集不上网的人的态度,调查方法是不可替代的。
另一个限制来自于我们用来检测情绪的算法。虽然预训练的深度学习模型具有最先进的情感分类精度,但它可能会对帖子产生错误的情感分类。当数据稀缺时,检测算法造成的误差可能会导致聚合情绪极性的较大差异。这就是为什么我们在计算预防性措施和各州的公众情绪时调整了时间粒度。考虑到在其他主题的研究中数据更稀缺,聚合级别的选择应该更粗粒度。
最后,我们将重点放在情绪上,并将帖子分为积极的、消极的和中性的。有必要对Twitter的内容进行更深入的理解和评估,以便在多个维度上准确地描述反应,例如支持、希望和快乐属于积极情绪,而恐惧、绝望和仇恨属于消极情绪[
许多研究人员研究了新冠肺炎期间的网上讨论,特别是公众情绪和热门话题,以便及时了解情况。例如,Xiang等[
从疫情的时间变化和空间差异的角度分析了公众情绪。席等[
有几项研究利用社交媒体数据中的地理位置信息来调查不同行政单位的公众情绪。韩等[
此外,我们还探讨了公众情绪两极分化与其他地理和社会经济因素之间的关系,以确定与空间差异相关的因素。这些发现可能有助于指导公共卫生当局在未来发生类似大流行时的决策和政策制定。
在这项研究中,我们应用了一个数据分析框架来调查美国公众对COVID-19的情绪以及公共卫生部门建议的预防措施。数据处理框架可应用于对COVID-19疫苗接种和重新评估等其他主题的讨论进行分析,或为未来的危机提供有用的解决方案。
本研究采用数据驱动的方法,通过地理定位的Twitter数据了解公众对COVID-19问题的情绪和预防措施。我们首先使用深度学习模型来获取每条推文的情绪。然后,这些推文被聚合到不同的时间和地理单位,以衡量公众情绪的两极。
在时间分析中,我们发现了关于COVID-19问题和预防实践的讨论中明显存在的4个阶段的变化,表明了这两个主题之间的共同模式。根据我们对在所研究的时间段内推文数量最多的4个州的样本进行的检查,佛罗里达州对COVID - 19问题和疾病预防控制中心的预防措施的负面情绪比加利福尼亚州、德克萨斯州和纽约州更多。我们分析了空间差异,并探讨了公众情绪的变化是否与地理因素有关,发现城市和农村地区对预防措施的情绪极性存在显著差异。家庭收入中位数以及贫困和失业率等社会经济因素与对COVID-19问题的情绪极性显著相关,但与预防措施无关。
从这项研究中获得的见解可能有助于公共卫生当局和政府在大流行的整个阶段调整和区分传播战略和政策。传播战略和政策的考虑应基于城乡差异,而不是社会经济差异。
应用程序编程接口
疾病控制和预防中心
个人防护装备
术语频率-逆文档频率
没有宣布。