这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
COVID-19大流行导致了前所未有的缓解努力,打乱了数百万人的日常生活。除了大流行本身对健康的普遍影响外,这些措施还对世界精神卫生和卫生保健系统提出了挑战。考虑到传统的调查方法既耗时又昂贵,我们需要及时和积极的数据来源,以应对卫生政策对我们人口心理健康的迅速变化的影响。许多美国人现在使用推特等社交媒体平台来表达他们日常生活和社会关系的最细微的细节。在COVID-19大流行期间,这种行为预计会增加,使社交媒体数据成为了解个人福祉的丰富领域。
本研究旨在回答三个研究问题:(1)美国关于COVID-19的推文语料库中出现了什么主题?(2)在COVID-19大流行开始期间,社交媒体的使用增加了多少?(3)情绪会因COVID-19大流行而变化吗?
我们分三步分析了从开放访问公共存储库收集的86,581,237条公共领域英语美国推文。首先,我们使用潜在狄利克雷分配(LDA)主题建模来描述标签随时间的演变。其次,我们通过下载来自美国20个主要城市的大量个人(n=354,738)的Twitter时间轴来评估社交媒体使用的变化,从而增加了分析的粒度。最后,使用这些时间轴数据,我们通过使用价感词典和情绪推理器(VADER)工具分析所有时间轴推文的平均每日情绪,研究了与不断演变的大流行新闻周期相关的公众情绪的集体变化。
在数据集最初几个月生成的LDA主题与covid -19特定的重大事件相对应。然而,随着各州和市政府开始发布居家令,潜在的主题转向了与美国相关的生活方式改变,而不是与全球大流行相关的事件。社交媒体流量也显著增加,在居家期间达到峰值。最后,用户时间线的VADER情感分析得分最初较高且稳定,但到3月下旬,下降显著且持续。
我们的研究结果强调了大流行对整个人口情绪的负面影响。使用率的增加表明,对一些人来说,社交媒体可能是一种应对机制,用来对抗与长期社交距离有关的孤独感。然而,鉴于大量使用社交媒体对心理健康的负面影响,长期来看,社交媒体可能会进一步加剧许多人的负面情绪。因此,考虑到负担过重的美国精神卫生保健结构,这些发现对正在进行的缓解工作具有重要意义。
除了COVID-19大流行对身体健康的明显影响外,公共卫生和更大的医学界也在为心理健康危机做准备[
科学家们迅速动员起来,测量了大流行的许多方面,包括潜在的心理健康影响。然而,开展调查工作既费时又费钱[
事实上,在COVID-19大流行期间,个人以更高的能力寻找与危机相关的新闻[
总体而言,本研究回答了以下三个研究问题(RQs):
RQ1:美国关于COVID-19的推文语料库中出现了哪些主题?
RQ2:在COVID-19大流行开始期间,社交媒体的使用增加到了什么程度?
RQ3:在COVID-19大流行开始期间,对情绪的纵向跟踪出现了什么模式?
为了解决这些rq,我们分析了自2020年1月22日起与美国COVID-19主题严格相关的大规模推特数据集。利用这些数据,我们还编制了第二个同一时期的个人地理定位社交媒体时间线数据语料库,以了解个人情绪的变化作为心理健康的代表,以及美国对COVID-19大流行的看法的演变。
我们收集了两个不同的数据集,每个数据集都反映了COVID-19大流行之前和期间社交媒体行为变化的不同方面。第一个推文数据集收集自一个开放访问存储库,其中包含在美国发布的所有与covid -19相关的推文[
为了衡量个人(而非话题)层面上的个人活动和情绪波动,我们从Twitter API(终点:GET状态/user_timeline)下载了为COVID-19语料库做出贡献并居住在每10万人中COVID-19病例最多的20个美国城市的个人社交媒体用户的Twitter时间轴(即3200条最新推文)。这些时间轴捕捉了在COVID-19大流行期间单个Twitter用户行为和情绪的变化,但并不严格适用于仅与COVID-19相关的推文。我们把这个数据称为
为了确保我们在数据中衡量表达的情绪,我们排除了非英语推文,特别是在用户时间轴数据中,排除了转发和偏误关键词,包括“冠状病毒”、“COVID-19”和“大流行”等。因为这些词本身就带有负面的含义,而且由于语料库本身就是由新冠肺炎相关内容组成的,因此删除这些词会人为地降低情绪。换句话说,因为用户会很自然地发推
该图说明了从开放访问的COVID-19存储库获取推文id的过程。这些推文id通过Twitter的API运行,以创建两个不同的数据集。COVID-19语料库,包含2020年1月至4月在美国发布的所有与COVID-19相关的英语推文。用户时间轴数据包含居住在受COVID-19影响最严重的20个城市的用户的3200条最新推文。API:应用程序编程接口;情感推理的价感字典。
潜狄利克雷分配(LDA)主题模型是一种无监督的机器学习工具,它执行概率推断,将大量文本数据整合为可管理的主题[
情感分析是指一套有监督或无监督的机器学习和自然语言处理技术,从文本中提取情感或情感指标(例如,确定一条推文表达了对政策的消极或积极情绪[
我们应用了剪枝精确线性时间(PELT)变化点检测算法来识别推文量和情绪的重大变化[
我们将COVID-19语料库划分为每日片段,每天生成一个主题模型,每个主题包含20个主题。我们选择这个数字是为了在总结在线讨论的主要主题的同时,反映尽可能广泛的主题范围,这是以前研究中使用的过程[
在本分析中,我们使用了用户时间轴数据,而不是一般的COVID-19语料库(参见
情绪可能会因为个人讨论不同的话题而变化(例如,更频繁地使用“病毒”等贬义词),或者因为人们实际感受的个人变化而变化。因此,我们比较了2020年1月22日(数据收集的第一天)至2020年4月9日期间COVID-19语料库的每日VADER情绪评分(以衡量话题情绪)和受试者数据中的用户时间线(以评估个人情绪的变化)。我们用PELT检测算法确定了每日平均VADER情绪时间序列中的变化点,以识别在整个时间段内情绪的重大变化。
我们使用LDA主题模型将COVID-19语料库(n=86,581,237条推文)合并为主题。
如
COVID-19语料库中主题组随时间的排名。每个主题都根据其频率比进行排名。条形图的宽度表示某一天该主题的字数百分比。区域的颜色表示对应区域属于哪个主题。
利用用户时间轴数据,我们比较了疫情前和疫情期间20个受影响最严重的大都市的292000名用户(时间轴从1月22日起)的社交媒体帖子频率(n= 66,725,505条推文)。
总的来说,从3月初到3月下旬,我们观察到Twitter总量呈持续上升趋势。PELT变化点算法在2020年3月8日和12日确定了两次显著的量变化——大约在COVID-19被宣布为全球大流行(3月11日)和特朗普总统宣布美国进入全国紧急状态(3月14日)的时候。此后,上升趋势趋于稳定,尽管观测到的数量高于COVID-19大流行开始之前。这支持了这样一种观点,即我们样本中的个人更多地参与社交媒体,并更多地利用它,可能是为了讨论或获得与新闻周期相关的进一步信息。
用户时间轴数据子样本中的每日推文数。虚线显示用户时间轴数据子样本中的每日推文数量。实线表示每日推文数量的潜在趋势(去除季节性影响后)。菱形标记指示由剪枝精确线性时间算法指示的重要变化点。淡蓝色和粉色的注释分别代表科比·布莱恩特的去世(2020年1月26日)和世界卫生组织宣布COVID-19为全球大流行的日子(2020年3月11日)。棕色条表示在20个被考虑的城市实施封锁的日期(从2020年3月16日至4月1日)。棕色条形图的不透明度表明有多少城市在那一天实施了封锁。LD:锁定;卫生组织:世界卫生组织。
我们将VADER情绪工具应用于COVID-19语料库(评估所有美国关于COVID-19的推文的情绪)和用户时间轴数据(使用他们最近的3200条推文跟踪用户情绪的变化)。
相反,用户时间轴数据(同样包含给定用户最近的3200条推文)显示同一时期情绪下降。用户时间线数据在2020年1月28日(NBA球员科比·布莱恩特死于直升机坠毁的那一天)有一个pelt确定的重大情绪变化。在3月9日(世卫组织将COVID-19列为大流行)之前,情绪出现了显著但短暂的下降。
VADER情绪在COVID-19语料库(橙色)和用户时间轴数据(蓝色)中的非零分布。实线显示14天移动平均线,橙色十字/蓝色三角形表示实际的每日平均VADER情绪值。菱形标记用剪枝精确线性时间算法表示变化点;钻石边缘的颜色表示这个变化点所属的时间序列。浅蓝色、灰色和粉色注释分别表示科比·布莱恩特去世的日子(2020年1月26日)、COVID-19语料库数据缺失的日子(2月23日)和世卫组织宣布COVID-19为全球大流行的日子(3月11日)。棕色条表示在20个被考虑的城市实施封锁的日期(从2020年3月16日至4月1日)。棕色条形图的不透明度表明有多少城市在那一天实施了封锁。LD:锁定;情感推理的价感词典VADER;卫生组织:世界卫生组织。
COVID-19语料库中积极和消极VADER情绪的分布。实线显示了在用户时间轴数据中持有积极或消极VADER情绪的推文的比例(绿色代表积极,红色代表消极情绪)。灰色和粉色注释分别表示数据缺失日(2020年2月23日)和世卫组织宣布COVID-19为全球大流行日(3月11日)。情感推理的价感词典VADER;卫生组织:世界卫生组织。
这项研究的目的是通过对包含所有与COVID-19相关推文的公开存储库的计算性社交媒体分析,得出关于COVID-19大流行期间美国人心理健康的结论。使用Chen和同事发布的COVID-19推文库[
便当及同事[
考虑到一场大流行预计会带来负面的身体和情感后果,我们惊讶地发现,COVID-19语料库的情绪呈积极趋势。然而,这种情绪的增加可能并不表明人口情绪的实际变化,而是一种共同的影响
相比之下,我们发现用户时间轴数据的情绪评分呈负向轨迹。这意味着,尽管COVID-19语料库中的内容相对于它们的整体时间线呈积极趋势(可能是由于启动),但我们的样本情绪是积极的
对聚合的社交媒体信息流的分析被证明可以充分预测其他现象,包括股票市场[
在撰写本文时,美国新冠肺炎死亡人数刚刚超过13.6万人,数百万人的生活受到大流行的各种影响。本研究通过计算方法分析了2020年1月至4月所有存档的美国COVID-19推文语料库,阐明了COVID-19大流行对推特用户可能的心理健康影响。这些分析在不同程度上揭示了社交媒体上COVID-19内容的普遍性和生活方式的突然转变可能会对社会情绪产生负面影响,相对于大流行之前。鉴于社交媒体上表达的情绪已被用作心理健康的代表[
我们的研究有局限性。Twitter要求用户选择使用地理标记功能。因此,任何关于用户居住城市的信息通常仅限于个人资料页面上指定的自我报告数据。这意味着我们的一些时间轴数据可能不是来自用户指定的城市,因为这些信息很容易被误传。
学习语法。
应用程序编程接口
潜在狄利克雷分配
美国篮球协会
剪枝精确线性时间
研究问题
价感字典和情感推理器
世界卫生组织
没有宣布。