卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v22i12e21418

33284783

10.2196/21418

原始论文

社交媒体对COVID-19大流行期间美国心理健康的洞察:推特数据的纵向分析

Eysenbach

冈瑟

张

朱

戈尔

罗斯

阿尔瓦雷斯·德·蒙

米盖尔

瓦尔迪兹

丹尼

博士学位 1

应用健康科学系公共卫生学院印第安纳大学

E第三街1033号

Office 143

布卢明顿,

美国 1812 855 1561 danvald@iu.edu

https://orcid.org/0000-0002-2355-9881

十Thij

Marijn

博士学位 2

https://orcid.org/0000-0002-7186-7344

Bathina

克利须那神

女士 2

https://orcid.org/0000-0001-8361-307X

拉特

劳伦一

博士学位 3.

https://orcid.org/0000-0002-8852-7602

博伦

约翰

博士学位 2

https://orcid.org/0000-0001-7031-9293

1 应用健康科学系公共卫生学院印第安纳大学

布卢明顿,

美国 2 勒迪信息学、计算与工程学院印第安纳大学

布卢明顿,

美国 3. 心理与脑科学印第安纳大学

布卢明顿,

美国

通讯作者:Danny Valdez danvald@iu.edu

12 2020

14 12 2020

22 12

e21418

14 6 2020 13 7 2020 20. 7 2020 7 12 2020

©Danny Valdez, Marijn ten Thij, Krishna Bathina, Lauren A Rutter, Johan Bollen。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 14.12.2020。

2020

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

COVID-19大流行导致了前所未有的缓解努力，打乱了数百万人的日常生活。除了大流行本身对健康的普遍影响外，这些措施还对世界精神卫生和卫生保健系统提出了挑战。考虑到传统的调查方法既耗时又昂贵，我们需要及时和积极的数据来源，以应对卫生政策对我们人口心理健康的迅速变化的影响。许多美国人现在使用推特等社交媒体平台来表达他们日常生活和社会关系的最细微的细节。在COVID-19大流行期间，这种行为预计会增加，使社交媒体数据成为了解个人福祉的丰富领域。

客观的

本研究旨在回答三个研究问题:(1)美国关于COVID-19的推文语料库中出现了什么主题?(2)在COVID-19大流行开始期间，社交媒体的使用增加了多少?(3)情绪会因COVID-19大流行而变化吗?

方法

我们分三步分析了从开放访问公共存储库收集的86,581,237条公共领域英语美国推文。首先，我们使用潜在狄利克雷分配(LDA)主题建模来描述标签随时间的演变。其次，我们通过下载来自美国20个主要城市的大量个人(n=354,738)的Twitter时间轴来评估社交媒体使用的变化，从而增加了分析的粒度。最后，使用这些时间轴数据，我们通过使用价感词典和情绪推理器(VADER)工具分析所有时间轴推文的平均每日情绪，研究了与不断演变的大流行新闻周期相关的公众情绪的集体变化。

结果

在数据集最初几个月生成的LDA主题与covid -19特定的重大事件相对应。然而，随着各州和市政府开始发布居家令，潜在的主题转向了与美国相关的生活方式改变，而不是与全球大流行相关的事件。社交媒体流量也显著增加，在居家期间达到峰值。最后，用户时间线的VADER情感分析得分最初较高且稳定，但到3月下旬，下降显著且持续。

结论

我们的研究结果强调了大流行对整个人口情绪的负面影响。使用率的增加表明，对一些人来说，社交媒体可能是一种应对机制，用来对抗与长期社交距离有关的孤独感。然而，鉴于大量使用社交媒体对心理健康的负面影响，长期来看，社交媒体可能会进一步加剧许多人的负面情绪。因此，考虑到负担过重的美国精神卫生保健结构，这些发现对正在进行的缓解工作具有重要意义。

社交媒体分析 infodemiology infoveillance 新型冠状病毒肺炎美国心理健康信息学情绪分析推特

简介

除了COVID-19大流行对身体健康的明显影响外，公共卫生和更大的医学界也在为心理健康危机做准备[ 1］．在4个月的时间里，45%的美国人表示，COVID-19大流行对他们的心理健康造成了影响，报告称他们的悲伤程度更高，慢性精神疾病恶化[ 2］．然而，尽管有大量的轶事证据和同行评议的社论确定了这场公共卫生危机对心理健康的潜在影响，但这些影响的程度在经验上是未知的。

科学家们迅速动员起来，测量了大流行的许多方面，包括潜在的心理健康影响。然而，开展调查工作既费时又费钱[ 3.]和仪器验证使得很难得出实时结论[ 4，特别是在迅速变化的新闻周期改变大流行相关话语的情况下。在缺乏调查数据的情况下，社交媒体是研究突发社会问题的潜在有价值的数据来源，包括这些问题对行为和社会情绪的影响[ 5］．对社交媒体数据的反复跟踪可以为公众士气和情绪的集体变化提供历时性视角，因为参与者自愿参与叙述，对各种问题提供自发的和多样化的理解[ 6- 8］．许多学者通过结合机器学习和人工智能的方法，成功地利用社交媒体数据来识别公众情绪的趋势和细微差别。一些例子包括将用户的幸福感与他们的在线社交网络进行比较[ 9， 10]，通过社交媒体信息流识别情绪的详细预测因素[ 5]，预测精神健康障碍风险群体中出现的认知扭曲[ 11]，以高分辨率追踪社交媒体用户的情绪[ 12， 13]，以及映射内化障碍使用者的负面情感[ 14］．总的来说，这些研究证明了在社交媒体数据上使用情感分析来研究社会情绪和福祉的可行性和价值，以及社交媒体用户之间的生物医学信号，这些信号可以为心理健康提供有用的代理[ 12， 15- 17］．事实上，考虑到大流行成为一种严重的社会经济现象的速度，网上与covid -19相关内容的普遍性，以及许多人在社交媒体上发布与大流行相关事件的自然反应，这些方法可能特别有用。

事实上，在COVID-19大流行期间，个人以更高的能力寻找与危机相关的新闻[ 18]，导致全球社交媒体的使用率集体上升[ 19］．这使得关于COVID-19大流行的社交媒体数据成为一个强大的信息来源，可以在前所未有的公共卫生事件期间就总体社会福祉得出实时结论。然而，我们必须记住，就像调查数据容易产生偏差一样，来自社交媒体的数据也容易产生偏差[ 20.］．因此，为了对情绪、情绪和心理健康做出准确的推断，我们必须保持对所执行的分析类型的认知，以及分析代表了什么来衡量情绪的微妙方面。我们对比了讨论的话题、与话题相关的情绪和个人情绪，从而对通过社交媒体表达的情绪变化及其与美国公共卫生的相关性进行了更全面和准确的评估。

总体而言，本研究回答了以下三个研究问题(RQs):

RQ1:美国关于COVID-19的推文语料库中出现了哪些主题?

RQ2:在COVID-19大流行开始期间，社交媒体的使用增加到了什么程度?

RQ3:在COVID-19大流行开始期间，对情绪的纵向跟踪出现了什么模式?

为了解决这些rq，我们分析了自2020年1月22日起与美国COVID-19主题严格相关的大规模推特数据集。利用这些数据，我们还编制了第二个同一时期的个人地理定位社交媒体时间线数据语料库，以了解个人情绪的变化作为心理健康的代表，以及美国对COVID-19大流行的看法的演变。

方法数据

我们收集了两个不同的数据集，每个数据集都反映了COVID-19大流行之前和期间社交媒体行为变化的不同方面。第一个推文数据集收集自一个开放访问存储库，其中包含在美国发布的所有与covid -19相关的推文[ 21，被设计用来捕捉局部差异(即主题)在标志着大流行开始的事件期间的Twitter讨论中。存储库提供了一个推文id列表，我们用它从Twitter的应用程序编程接口(API;end point: GET status /show/id)。我们下载了每条推文以及Twitter提供的标准元数据。具体来说，我们检索了2020年1月22日(数据收集的第一天，美国第一例COVID-19确诊病例大约1周前)至2020年4月9日(保持社交距离的中期)期间发布的与COVID-19相关的推文。此后，我们将这组推文称为“ COVID-19语料库(n=86,581,237条推文)。详情请参阅图1用于此数据集的可视化表示以及如何检索它。

为了衡量个人(而非话题)层面上的个人活动和情绪波动，我们从Twitter API(终点:GET状态/user_timeline)下载了为COVID-19语料库做出贡献并居住在每10万人中COVID-19病例最多的20个美国城市的个人社交媒体用户的Twitter时间轴(即3200条最新推文)。这些时间轴捕捉了在COVID-19大流行期间单个Twitter用户行为和情绪的变化，但并不严格适用于仅与COVID-19相关的推文。我们把这个数据称为用户时间轴数据(n = 354738用户;N =69,349,479 tweets)，如图所示图1．根据道德的社交媒体使用惯例，这两个数据集中的所有推文都被删除了任何个人身份信息。

为了确保我们在数据中衡量表达的情绪，我们排除了非英语推文，特别是在用户时间轴数据中，排除了转发和偏误关键词，包括“冠状病毒”、“COVID-19”和“大流行”等。因为这些词本身就带有负面的含义，而且由于语料库本身就是由新冠肺炎相关内容组成的，因此删除这些词会人为地降低情绪。换句话说，因为用户会很自然地发推冠状病毒，病毒，以及流感大流行在美国，使用这些词语不一定能反映出这个人的幸福感。注意，每个语料库的最终样本量超过了最近对公共卫生社交媒体分析文献进行范围调查时观察到的平均值(n=20,000) [ 22]，从而有足够的代表性来进行分析。此外，之前的研究使用了大规模的情绪分析来准确预测社会情绪[ 23]以及在社交媒体上表达的情绪与心理健康的关系[ 24］．因此，在本研究中使用情绪分析是合适的。

图1

该图说明了从开放访问的COVID-19存储库获取推文id的过程。这些推文id通过Twitter的API运行，以创建两个不同的数据集。COVID-19语料库，包含2020年1月至4月在美国发布的所有与COVID-19相关的英语推文。用户时间轴数据包含居住在受COVID-19影响最严重的20个城市的用户的3200条最新推文。API:应用程序编程接口;情感推理的价感字典。

分析潜狄利克雷分配主题模型

潜狄利克雷分配(LDA)主题模型是一种无监督的机器学习工具，它执行概率推断，将大量文本数据整合为可管理的主题[ 25］．简单地说，具有高关联概率的单词(即，与其他单词出现接近的可能性很大)被分组在一起，以形成一个潜在的主题或主题，从定性上表示文本集合中的一个内容区域。这些方法已应用于许多方面，如确定产品评论中的共同主题[ 26]，以绘制科学文献主体的主题[ 27]，以及识别社交媒体数据中的主题[ 28］．因此，这些工具适用于寻求合并密集文本数据的探索性分析。

情绪分析

情感分析是指一套有监督或无监督的机器学习和自然语言处理技术，从文本中提取情感或情感指标(例如，确定一条推文表达了对政策的消极或积极情绪[ 23])。在这项研究中，我们使用了价感字典和情感推理器(VADER) [ 29来衡量推文的情感价值。VADER是一种基于规则的开源工具，它可以识别常见的术语、成语、缩写和行话，同时考虑到在社交媒体平台的方言中常用的标点、否定、对冲和放大等语法结构。VADER词典是同类词典中最大的词典之一，包含超过7500个常用术语，每个术语都由10个独立的人类评分者对其情感价值进行评分。然而，这个词病毒和它的许多变体(例如，病毒，病毒)不是VADER词典的一部分，这意味着这些词的频率的变化不会影响VADER的分数。VADER已被广泛验证为Twitter内容[ 30.]，显示在20多个情绪分析工具的基准中，推文的准确性和覆盖率最高[ 31］．

变点检测

我们应用了剪枝精确线性时间(PELT)变化点检测算法来识别推文量和情绪的重大变化[ 32］．变化点检测算法对时间序列(一系列基于时间的观测)执行一组数学运算，以识别时间序列数据的统计属性发生显著变化的时间点[ 33］．PELT算法特别尝试为给定的时间序列找到一组变化点，这样它们在时间上的数量和位置可以使给定的分割成本最小化。我们选择PELT算法而不是其他类似的变化检测算法，因为它被认为是一个更保守的估计(除非满足严格的条件，否则倾向于不识别变化点)，从而产生更准确的统计变化检测[ 34］．此外，PELT使用脱机方法进行更改检测[ 34]，这意味着在识别重大变化时，无论数据类型如何，它都可以考虑所有可能的数据点，同时保持高水平的性能。

过程美国关于COVID-19的推文语料中有哪些主题?

我们将COVID-19语料库划分为每日片段，每天生成一个主题模型，每个主题包含20个主题。我们选择这个数字是为了在总结在线讨论的主要主题的同时，反映尽可能广泛的主题范围，这是以前研究中使用的过程[ 28， 35］．然后，我们研究了每个话题的前20个相关度最高的词汇，并将相似词汇分解为一般主题，同时考虑了词汇的相似性(如United States和US)以及社交媒体帖子中常见的潜在拼写错误。举个例子，湖北而且武汉都坍塌在主题里了中国．然后，我们找到了与covid -19相关的主题(中国、美国、大流行、社会距离、特朗普、家庭、封锁和死亡)的频率比(即某个单词的出现次数除以总字数)，并按日绘制，以显示主题随时间的演变，表明该主题对当天所有内容的贡献，以及这些术语在这些主题中的相对排名。我们使用编码器之间的协议方法来达成对崩溃主题的相互同意的解释[ 36］．

在COVID-19大流行开始期间，社交媒体的使用增加到了什么程度?

在本分析中，我们使用了用户时间轴数据，而不是一般的COVID-19语料库(参见图1)因为在主题内的个人发帖频率是跟踪社交媒体使用行为变化的更好标志[ 37］．因为Twitter的API限制我们只能使用3200 最近发布我们只选择了2020年1月22日之前在推特上发帖的人，保留了354,738名用户。这确保了我们的分析样本在整个兴趣区间(2020年1月22日至2020年4月9日)捕捉了20个受影响最严重的美国城市的个人行为。我们进行了季节性分解(一种分离时间序列的基线、趋势和季节性成分的方法)，以确定我们是否可以观察到大流行期间相对于之前事件的Twitter使用增加。然后，我们使用PELT算法检测了重要的变化点[ 38］．

在COVID-19大流行开始期间，对情绪的纵向跟踪会出现什么模式?

情绪可能会因为个人讨论不同的话题而变化(例如，更频繁地使用“病毒”等贬义词)，或者因为人们实际感受的个人变化而变化。因此，我们比较了2020年1月22日(数据收集的第一天)至2020年4月9日期间COVID-19语料库的每日VADER情绪评分(以衡量话题情绪)和受试者数据中的用户时间线(以评估个人情绪的变化)。我们用PELT检测算法确定了每日平均VADER情绪时间序列中的变化点，以识别在整个时间段内情绪的重大变化。

结果美国关于COVID-19的推文语料中有哪些主题?

我们使用LDA主题模型将COVID-19语料库(n=86,581,237条推文)合并为主题。图1突出了八个最突出的主题，以及相对于世界卫生组织(世卫组织)确定的与covid -19相关的主要里程碑，它们的突出程度(柱状宽度和排名)是如何随时间变化的。

如图2，在整个研究期间，相对于新兴新闻周期，主题的重要性持续上升和下降。事实上，2020年2月与covid -19相关的推特活动主要集中在中国。然而，从3月到4月，随着新型冠状病毒开始越来越多地影响美国人口，中国随着“封锁”和“保持社交距离”等更以美国为中心的话题的出现，这些话题的重要性有所下降。尽管在整个兴趣期间，中国仍然是一个突出的主题，但以美国为中心的话题逐渐主导了社交媒体空间。

图2

COVID-19语料库中主题组随时间的排名。每个主题都根据其频率比进行排名。条形图的宽度表示某一天该主题的字数百分比。区域的颜色表示对应区域属于哪个主题。

在COVID-19大流行开始期间，社交媒体的使用增加到了什么程度?

利用用户时间轴数据，我们比较了疫情前和疫情期间20个受影响最严重的大都市的292000名用户(时间轴从1月22日起)的社交媒体帖子频率(n= 66,725,505条推文)。图3重点显示2020年1月22日至2020年4月9日期间的发帖量变化。该图的波峰和波谷(虚线)显示了季节性和周周期如何影响推文数量。实线表示剔除周期和季节影响(通过季节分解)后的时间序列趋势，棕色阴影逐渐加深表示实施强制封锁的城市数量。

总的来说，从3月初到3月下旬，我们观察到Twitter总量呈持续上升趋势。PELT变化点算法在2020年3月8日和12日确定了两次显著的量变化——大约在COVID-19被宣布为全球大流行(3月11日)和特朗普总统宣布美国进入全国紧急状态(3月14日)的时候。此后，上升趋势趋于稳定，尽管观测到的数量高于COVID-19大流行开始之前。这支持了这样一种观点，即我们样本中的个人更多地参与社交媒体，并更多地利用它，可能是为了讨论或获得与新闻周期相关的进一步信息。

图3

用户时间轴数据子样本中的每日推文数。虚线显示用户时间轴数据子样本中的每日推文数量。实线表示每日推文数量的潜在趋势(去除季节性影响后)。菱形标记指示由剪枝精确线性时间算法指示的重要变化点。淡蓝色和粉色的注释分别代表科比·布莱恩特的去世(2020年1月26日)和世界卫生组织宣布COVID-19为全球大流行的日子(2020年3月11日)。棕色条表示在20个被考虑的城市实施封锁的日期(从2020年3月16日至4月1日)。棕色条形图的不透明度表明有多少城市在那一天实施了封锁。LD:锁定;卫生组织:世界卫生组织。

在COVID-19大流行开始期间，对情绪的纵向跟踪会出现什么模式?

我们将VADER情绪工具应用于COVID-19语料库(评估所有美国关于COVID-19的推文的情绪)和用户时间轴数据(使用他们最近的3200条推文跟踪用户情绪的变化)。图4跟踪两个数据集相对于与COVID-19相关的主要里程碑的情绪，橙色线跟踪COVID-19语料库，蓝色线跟踪用户时间轴数据。在COVID-19语料库中，随着3月9日(世卫组织将COVID-19列为大流行之前)和2020年3月19日(唐纳德·特朗普总统宣布全国进入紧急状态后不久)pelt发现的两次重大变化，人们的情绪明显上升。图5进一步表明，随着时间的推移，COVID-19正面得分推文的百分比有所增加，加强了积极的趋势。

相反，用户时间轴数据(同样包含给定用户最近的3200条推文)显示同一时期情绪下降。用户时间线数据在2020年1月28日(NBA球员科比·布莱恩特死于直升机坠毁的那一天)有一个pelt确定的重大情绪变化。在3月9日(世卫组织将COVID-19列为大流行)之前，情绪出现了显著但短暂的下降。

图4

VADER情绪在COVID-19语料库(橙色)和用户时间轴数据(蓝色)中的非零分布。实线显示14天移动平均线，橙色十字/蓝色三角形表示实际的每日平均VADER情绪值。菱形标记用剪枝精确线性时间算法表示变化点;钻石边缘的颜色表示这个变化点所属的时间序列。浅蓝色、灰色和粉色注释分别表示科比·布莱恩特去世的日子(2020年1月26日)、COVID-19语料库数据缺失的日子(2月23日)和世卫组织宣布COVID-19为全球大流行的日子(3月11日)。棕色条表示在20个被考虑的城市实施封锁的日期(从2020年3月16日至4月1日)。棕色条形图的不透明度表明有多少城市在那一天实施了封锁。LD:锁定;情感推理的价感词典VADER;卫生组织:世界卫生组织。

图5

COVID-19语料库中积极和消极VADER情绪的分布。实线显示了在用户时间轴数据中持有积极或消极VADER情绪的推文的比例(绿色代表积极，红色代表消极情绪)。灰色和粉色注释分别表示数据缺失日(2020年2月23日)和世卫组织宣布COVID-19为全球大流行日(3月11日)。情感推理的价感词典VADER;卫生组织:世界卫生组织。

讨论主要研究结果

这项研究的目的是通过对包含所有与COVID-19相关推文的公开存储库的计算性社交媒体分析，得出关于COVID-19大流行期间美国人心理健康的结论。使用Chen和同事发布的COVID-19推文库[ 21]，我们通过研究美国人群特有的话题和情绪，扩展了他们对COVID-19内容的原始专题分析，以了解COVID-19大流行如何影响社会福祉。我们使用社交媒体数据作为分析媒介的原因有几个，尤其是它在衡量心理健康和社会福利在快速社会经济变化之前、期间和之后的实时变化方面的有用性[ 15］．在本节中，我们将详细讨论这项研究的结果，并强调在COVID-19大流行开始期间对社会福祉的公共卫生影响。

COVID-19社交媒体主题:内容对新闻周期是反动的

便当及同事[ 18]预测，在COVID-19大流行期间，与危机相关的信息搜索将会增加。许多研究都支持这一预测，它们发现，当用户对其feed上的COVID-19新闻相关内容做出反应时，社交媒体空间内的恐慌情绪会增加。 39， 40］．通过我们的LDA主题建模分析，我们也呼应了这些发现;LDA发现的主题通常与covid -19相关新闻和时事的生命周期相对应。例如，社交媒体上用于识别病毒的名称逐渐演变为与新闻媒体上呈现的病毒术语的变化相匹配(例如，the 新型冠状病毒成为冠状病毒，新型冠状病毒肺炎, COVID-19大流行)．主题中出现的地点也与COVID-19从中国大陆到美国的移动相对应。例如，在1月底，中国是Twitter内容的主要主题(用图2)，这表明美国公众可能认为当时被列为机密的疫情是外国事务(例如，推特:“天哪，中国刚刚关闭了交易……还认为这只是一场流感吗?”)。然而，在随后的几周和几个月里，以美国为中心的话题和推文取而代之中国随着越来越多的美国人专注于国内的大流行控制措施(例如，推特:“lol，看到每个其他国家都在用我们知道美国永远不会做的方式应对这种病毒，真是太疯狂了”)。这些发现表明，随着COVID-19大流行在美国变得更加突出，社交媒体内容变成了对美国产生更直接影响的话题，使用频率也更高(pelt发现在此期间推特量显著增加就是证明)。这一数量的增长一直高于COVID-19大流行之前观察到的水平，这可能是由几个因素造成的，包括COVID-19大流行到达美国时焦虑加剧、全州范围内的居家令的隔离效应，或大流行导致的其他社会后果。这些发现共同支持了Castillo和他同事的研究[ 41他们认为，社交媒体内容遵循新闻故事的生命周期。因此，新闻作为与危机相关的社交媒体传播工具，应该更加专注地研究。

COVID-19主题情绪:情绪的增加可能表明启动效应

考虑到一场大流行预计会带来负面的身体和情感后果，我们惊讶地发现，COVID-19语料库的情绪呈积极趋势。然而，这种情绪的增加可能并不表明人口情绪的实际变化，而是一种共同的影响局部社交媒体分析中的偏见[ 42］．我们的COVID-19数据集是专门挑选来包含与COVID-19主题相关的推文的。因此，它的情绪评分将反映用于讨论这一特定话题的语言，而不一定是人群的潜在情绪。特定的社交媒体帖子可能会受到新闻周期的影响。 43并表现出虚假的乐观情绪——这是一种个人倾向于发布比他们的真实情绪更积极或乐观的内容的现象[ 44］．之前的研究进一步表明，语言总体上偏向于积极，尤其是在收集一个随机主题的帖子时。 30.］．例如，用于撰写关于COVID-19的帖子的语言可能包含流行词汇或框架设计，包括展示对经常成为新闻周期一部分的群体的支持(例如，推文:“好消息……我们出色的护士和医疗急救人员卸下了负担，这是值得欢迎的”)。同样，用户可能只是通过精心挑选来传达积极的情绪受欢迎的围绕一个热门话题的词汇(例如，推特:“无论疫情暴发期间的情况有多艰难，我们都应该保持积极乐观”)。在VADER词典中，在这种情况下经常使用的许多词都是积极的(伟大的，欢迎的，不可思议的，积极的，乐观的)，这也人为地提高了情绪评分。因此，我们假设主题驱动的推文样本可能不能有效地反映人口情绪的实际变化，而是主题驱动的语言情绪。这证明了我们在主题时间线内分析单个帖子的方法是正确的，这些帖子不一定受到严格与covid -19相关标准的约束，从而增加了反映个人情绪轨迹变化的几率。

用户时间轴情绪:较低的时间轴情绪可能意味着较低的社交幸福感

相比之下，我们发现用户时间轴数据的情绪评分呈负向轨迹。这意味着，尽管COVID-19语料库中的内容相对于它们的整体时间线呈积极趋势(可能是由于启动)，但我们的样本情绪是积极的较低的比以前更好了。因此，这种比较让我们更深入地了解潜在的情绪和情感。这一发现进一步支持了这样一种说法，即社交媒体帖子中传达的积极情绪可能无法有效反映人们在特定时刻的感受。事实上，这种积极可能只是表面现象在这一刻在不确定的时候传达积极的情绪。为了获得对情绪和幸福的准确评估，需要其他参考点(在这种情况下，大流行之前的社交媒体帖子)来检查与之前历史相关的当时情绪。在我们的时间轴数据中，我们捕捉到了大流行之前发生的一个事件，它也影响了相对于时间轴历史的情绪得分——NBA篮球运动员科比·布莱恩特的去世。科比去世的影响导致球迷情绪急剧下降，持续了大约24小时后才恢复到之前的水平。关于大流行，在2020年3月8日pelt确定的转变之后，情绪得分(相对于时间线)不仅降低了，而且持续降低，没有恢复到大流行到达美国之前的水平。这一趋势可能会对大流行的纵向影响及其对美国情绪和社会情绪的后续影响产生影响，因为这一持续的趋势可能表明了情绪和福祉的长期变化。

危机时期的社交媒体使用

对聚合的社交媒体信息流的分析被证明可以充分预测其他现象，包括股票市场[ 45];政治倾向[ 46];而且，当通过时间序列进行分析时，总体情绪的集体变化[ 47］．我们的研究通过强调美国人在社交媒体上如何描绘自己与他们在危机时期可能经历的潜在情绪之间的差异，为这一文献体系做出了贡献。一般来说，在美国出现第一例记录在案的病例之前，美国人没有在社交媒体上发布关于COVID-19的内容。然而，一旦COVID-19在美国成为现实，美国关于新型冠状病毒的推文总数持续增加，这表明我们样本中社交媒体的使用越来越多。通过分别分析COVID-19语料库和用户时间轴数据，但使用相同的分析程序，我们看到了不同的发现，这些发现加强了即时描述与可以从单个时间轴分析中收集到的纵向信息之间的差异。例如，关于COVID-19的推文和帖子可能试图轻松或传达乐观;然而，就个人而言，社交媒体用户可能不像大流行之前那么乐观。因此，在一场前所未有的公共卫生危机中，重要的是要超越社交媒体上将危机本身作为公众情绪代表的信息的主题焦点，因为它们可能受到其他影响(例如政治框架和投射希望)的影响。最终，我们的研究结果将COVID-19作为社交媒体行为的案例研究，其结果应推广到其他与危机相关的事件。

结束语及影响

在撰写本文时，美国新冠肺炎死亡人数刚刚超过13.6万人，数百万人的生活受到大流行的各种影响。本研究通过计算方法分析了2020年1月至4月所有存档的美国COVID-19推文语料库，阐明了COVID-19大流行对推特用户可能的心理健康影响。这些分析在不同程度上揭示了社交媒体上COVID-19内容的普遍性和生活方式的突然转变可能会对社会情绪产生负面影响，相对于大流行之前。鉴于社交媒体上表达的情绪已被用作心理健康的代表[ 48]，这些发现支持了公共卫生和医学学者的呼吁，他们认为，在COVID-19大流行期间，心理健康是一个紧迫的问题，特别是我们的发现表明了情绪下降的趋势。因此，我们鼓励使用调查方法或其他主要数据收集来进一步研究大流行期间美国的心理健康状况，以验证我们的发现。我们还呼吁对COVID-19大流行期间的心理卫生干预措施进行更多研究，特别关注方式(即面对面与虚拟)以及这些努力的有效性。

限制

我们的研究有局限性。Twitter要求用户选择使用地理标记功能。因此，任何关于用户居住城市的信息通常仅限于个人资料页面上指定的自我报告数据。这意味着我们的一些时间轴数据可能不是来自用户指定的城市，因为这些信息很容易被误传。 49)(例如，声称他们住在纽约，但实际上居住在新泽西州的纽瓦克)。我们也承认，在社交媒体用户的年龄、性别和社会经济地位等关键人口统计信息方面可能存在偏见。 50]，此外，时间、空间和地理模式也可能影响情绪在社交媒体上的表达方式(例如，老年人在清晨发帖vs年轻人在深夜发帖，城市用户vs农村用户)[ 51］．到目前为止，仅通过社交媒体feeds还不可能准确地诊断出患有精神健康疾病的人，尽管研究表明，社交媒体内容包含了有关心理健康和生物医学信号的重要指标。因此，我们依靠趋势数据来推断可能性基于平均情绪分数的心理健康下降[ 52］．然而，这些局限性并不会降低本研究的重要性或有效性。相反，他们为进一步的研究创造了途径，这些研究扩展了本文的发现，并利用了社交媒体数据固有的局限性，例如根据发布时间测量Twitter上的认知扭曲，或者通过社交媒体数据测量可诊断的心理健康状况的方法，特别是在恐慌和危机增加的时候。此外，由于社交媒体已被广泛应用，通过大规模的情绪分析程序来得出公众情绪的结论[ 10， 18]，我们认为我们的方法适合于得出本文讨论的结论。看到多媒体附件1源代码。

多媒体附件1

学习语法。

缩写

API

应用程序编程接口

乔治。

潜在狄利克雷分配

NBA

美国篮球协会

毛皮

剪枝精确线性时间

中移动

研究问题

维德

价感字典和情感推理器

谁

世界卫生组织

没有宣布。

奥尔巴赫

米勒

男朋友

COVID-19暴露了我们本已脆弱的精神卫生系统的裂缝

公共卫生 2020 04 09 e1 e2

10.2105 / AJPH.2020.305699

32271609

PMC7287559

Pfefferbaum

北

心理卫生与covid-19大流行

N英语J医学 2020 08 06 383 6 510 512

10.1056 / NEJMp2008017

32283003

Gualano

先生

Lo莫罗

Voglino

伯特

Siliquini

意大利covid-19封锁对心理健康和睡眠障碍的影响

国际环境与公共卫生 2020 07 02 17 13 4779

10.3390 / ijerph17134779

32630821

ijerph17134779

PMC7369943

考夫兰

米

克罗宁

瑞安

调查研究:过程与局限

Int J Ther Rehabil 2009 01 16 1 9 15

10.12968 / ijtr.2009.16.1.37935

浆果

NgydF4y2Ba

Emsley

Lobban

Bucci

年代

社交媒体及其与精神病患者情绪、自尊和偏执的关系

精神病学学报 2018 12 138 6 558 570

10.1111 / acps.12953

30203454

PMC6221086

赵

荣格

公园

2011年日本地震期间社交媒体的使用:Twitter如何改变危机沟通的轨迹

媒体Int 2013 11 149 1 28 40

10.1177 / 1329878 x1314900105

页面

再保险

故事和社交媒体:身份和互动 2013

阿宾顿、英国

劳特利奇

施蒂格利茨

年代

Dang-Xuan

社交媒体中的情绪与信息扩散——微博情绪与分享行为

J管理Inf系统 2014 12 08 29 4 217 248

10.2753 / mis0742 - 1222290408

博伦

Goncalves

阮

毛

幸福在在线社交网络中是选择性的

Artif生活 2011 17 3. 237 51

10.1162 / artl_a_00034

21554117

博伦

Goncalves

van de Leemput

我

阮

幸福悖论:你的朋友比你更幸福

EPJ数据科学 2017 5 18 6 1 1 10

10.1140 / epjds s13688 - 017 - 0100 - 1

希姆斯

Ramstedt

丰富的

米

理查兹

米

马丁内斯

Giraud-Carrier

通过机器学习文本分析检测认知扭曲

2017

2017 IEEE医疗保健信息学国际会议

2017年8月

帕克城，德州

10.1109 / ichi.2017.39

专题

木

博伦

罗查

从社交媒体数据中挖掘生物医学信号和健康相关行为

年度生物数据科学 2020 07 3. 433 458

10.1146 / annurev - biodatasci - 030320 - 040844

32550337

PMC7299233

高德

梅西

兆瓦

在不同的文化中，白天和季节的情绪随着工作、睡眠和白天长度的变化而变化

科学 2011 09 30. 333 6051 1878 81

10.1126 / science.1202775

21960633

333/6051/1878

约翰霍普金斯大学彭博公共卫生学院

青少年使用社交媒体与内化行为有关

医疗Xpress 2019 09 11

2020-07-16

https://medicalxpress.com/news/2019-09-social-media-adolescents-linked-internalizing.html

博伦

佩佩

一个

毛

模拟公众情绪和情感:推特情绪和社会经济现象

arXiv 2009 11 09

2020-05-31

http://arxiv.org/abs/0911.1583

多兹

克拉克

新兴市场

Desu

年代

弗兰克

先生

里根

威廉姆斯

小

米切尔

哈里斯

Kloumann

即时通讯

Bagrow

摩根大通

Megerdoomian

麦克马洪

太

Tivnan

男朋友

丹弗斯

厘米

回复Garcia等人:测量频率相关词特征的常见错误

美国国立自然科学研究院 2015 06 09 112 23 E2984 5

10.1073 / pnas.1505647112

25997446

1505647112

PMC4466739

Bekalu

妈

McCloud

射频

Viswanath

社交媒体使用与社会福祉、积极心理健康和自我评估健康的关联:将日常使用从情感联系中分离出来

健康教育行为 2019 12 46 2 _suppl 69 80

10.1177 / 1090198119863768

31742462

盒饭

人工智能

阮

翼

Lozano-Rojas

安

西蒙

寻求对当地COVID-19病例新闻回应的信息:来自互联网搜索数据的证据

出来了。预印本于4月6日在网上发布， 2020

10.1073 / pnas.2005335117

Koeze

波普尔

NgydF4y2Ba

病毒改变了我们上网的方式

《纽约时报》 2020 04 07

2020-05-31

https://www.nytimes.com/interactive/2020/04/07/technology/coronavirus-internet-use.html

20.

奥尔泰亚努

一个

卡斯蒂略

迪亚兹

Kıcı男人

社会数据:偏见、方法论陷阱和伦理界限

前端大数据 2019 7 11 2 13

10.3389 / fdata.2019.00013

陈

Lerman

费拉拉

COVID-19:第一个公开的冠状病毒推特数据集

预印本于3月16日在网上发布， 2020

Edo-Osagie

De La Iglesia

湖

我

Edeghere

Twitter用于公共卫生研究的范围综述

Comput Biol Med 2020 07 122 103770

10.1016 / j.compbiomed.2020.103770

32502758

s0010 - 4825 (20) 30142 - 6

PMC7229729

刘

情感分析和意见挖掘

合成莱克Hum Lang技术公司 2012 05 23 5 1 1 167

10.2200 / S00416ED1V01Y201204HLT016

Jaidka

Giorgi

年代

施瓦兹

哈

克恩

毫升

杉

韩

Eichstaedt

从Twitter估计地理主观幸福感:字典和数据驱动语言方法的比较

美国国立自然科学研究院 2020 05 12 117 19 10165 10171

10.1073 / pnas.1906364117

32341156

1906364117

PMC7229753

布莱

唉

约旦

心肌梗死

潜在狄利克雷分配

J机器学习Res 2003 01 3. 993 1022

王

丁

唐

越南盾

他

邱

野生

在最近使用Bio-LDA的PubMed文章中发现复杂的生物关系

《公共科学图书馆•综合》 2011 03 23 6 3. e17243

10.1371 / journal.pone.0017243

21448266

PMC3063155

穆贾达姆

年代

酯

米

ILDA:相互依赖的LDA模型，用于从在线产品评论中学习潜在方面及其评级

第34届国际ACM SIGIR信息检索研究与发展会议论文集 2011

" 11

2011年7月

中国,北京

665 674

10.1145/2009916.2010006

巴里

瓦尔迪兹

Padon

罗素

我

推特上的酒类广告——一种主题模式

健康教育 2018 06 29 49 4 256 263

10.1080 / 19325037.2018.1473180

赫托

吉尔伯特

VADER:用于社交媒体文本情感分析的基于规则的简约模型

2014

第八届国际AAAI博客和社交媒体会议

2014年6月

安娜堡，密歇根州

30.

Elbagir

年代

杨

使用自然语言工具包和VADER进行推特情绪分析

国际工程师和计算机科学家多重会议论文集 2019

IMECS 2019

2019年3月

香港

里贝罗

太

辛格

年代

Guestrin

机器学习的模型不可知可解释性

arXiv 2016 06 16

2020-05-19

http://arxiv.org/abs/1606.05386

小锚

Fearnhead

Eckley

具有线性计算代价的最优变化点检测

美国统计协会 2012 10 17 107 500 1590 1598

10.1080 / 01621459.2012.737745

刘

年代

山田

米

科利尔

NgydF4y2Ba

Sugiyama

米

时间序列数据中相对密度比估计的变化点检测

神经 2013 07 43 72 83

10.1016 / j.neunet.2013.01.012

23500502

s0893 - 6080 (13) 00027 - 0

Wambui

Waititu

遗传算法

Wanjoya

一个

剪枝精确线性时间(PELT)测试在多变点检测中的作用

是J理论应用程序统计 2015 4 6 581

10.11648 / j.ajtas.20150406.30

瓦尔迪兹

皮克特

交流

古德森

主题建模:社会科学的潜在语义分析

社会科学Q 2018 09 07 99 5 1665 1679

10.1111 / ssqu.12528

Kuckartz

Radiker

年代

分析编码器之间的协议

用MAXQDA分析定性数据:文本，音频和视频 2019

纽约州纽约

施普林格国际出版

267 282

李

Agrawal

一个

超

一个

使用Twitter数据的实时疾病监测:流感和癌症的演示

第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集 2013

知识发现(KDD)的13

2013年8月

芝加哥,

1474 1477

10.1145/2487575.2487709

加

Rinzivillo

年代

Ronzano

Villatoro

外祖母

Villatoro

从推文到语义轨迹:挖掘反常的城市流动模式

传感器网络中的公民 2014

纽约州纽约

施普林格国际出版

26 35

艾哈迈德

基于“增大化现实”技术

Murad

人力资源

伊拉克库尔德斯坦COVID-19大流行期间社交媒体对恐慌的影响:在线问卷研究

J医疗互联网服务 2020 05 19 22 5 e19556

10.2196/19556

32369026

v22i5e19556

PMC7238863

Depoux

一个

马丁

年代

Karafillakis

普里特

Wilder-Smith

一个

拉森

社交媒体恐慌大流行的传播速度比COVID-19疫情更快

J旅游医疗 2020 05 18 27 3. taaa031

10.1093 / jtm / taaa031

32125413

5775501

PMC7107516

卡斯蒂略

影子

米

菲

Stempeck

米

利用社交媒体反应来描述在线新闻故事的生命周期

第17届ACM计算机支持合作工作和社会计算会议论文集 2014

CSCW的14

2014年2月

马里兰州巴尔的摩

211 223

10.1145/2531602.2531623

费拉拉

杨

衡量社交媒体上的情绪传染

《公共科学图书馆•综合》 2015 10 11 e0142390

10.1371 / journal.pone.0142390

26544688

玉米饼- d - 15 - 26611

PMC4636231

Schleuder

白色

卡梅隆

电视新闻插播和恶搞对注意力和记忆的启动效应

J广播电子媒体 1993 37 437 452

巴拉

社交媒体和不断变化的交流模式

环球传媒j -印度版 2014 06 5 1 1 6

博伦

毛

曾

推特情绪预测股市

计算科学 2011 3. 2 1 1 8

10.1016 / j.jocs.2010.12.007

Makazhanov

一个

Rafiei

Waqar

米

预测推特用户的政治偏好

Soc网络分析挖掘 2014 5 6 4 1 193

10.1007 / s13278 - 014 - 0193 - 5

铜匠

Dredze

米

哈曼

hillingshead的实验

从多动症到SAD:通过自我报告诊断分析推特上的心理健康语言

2015

第二届计算语言学与临床心理学研讨会:从语言信号到临床现实

2015年6月

科罗拉多州丹佛市

10.3115 / v1 / w15 - 1201

Derks

费舍尔

啊

Bos

情感在以计算机为媒介的交流中的作用:综述

计算Hum Behav 2008 5 24 3. 766 785

10.1016 / j.chb.2007.04.004

戈尔

迪亚洛

年代

帕迪拉

你发什么推，你就是什么:将美国肥胖率的地理差异与推特内容联系起来

《公共科学图书馆•综合》 2015 10 9 e0133505

10.1371 / journal.pone.0133505

26332588

玉米饼- d - 15 - 02269

PMC4557976

史密斯

一个

布伦纳

Twitter使用2012

皮尤研究中心 2012 05 31

2020-09-17

https://www.pewresearch.org/internet/2012/05/31/twitter-use-2012/

帕迪拉

Kavak

林奇

戈尔

迪亚洛

推特上旅游景点访问情绪的时空调查

《公共科学图书馆•综合》 2018 13 6 e0198857

10.1371 / journal.pone.0198857

29902270

玉米饼- d - 18 - 02998

PMC6002102

De Choudhury

米

德

年代

Reddit上的心理健康论述:自我表露、社会支持和匿名

2014

第八届国际AAAI博客和社交媒体会议

2014年6月

安娜堡，密歇根州