发表在第6卷第2期(2020):4月- 6月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/19273,首次出版
追踪关于COVID-19大流行的社交媒体话语:开发一个公共冠状病毒推特数据集

追踪关于COVID-19大流行的社交媒体话语:开发一个公共冠状病毒推特数据集

追踪关于COVID-19大流行的社交媒体话语:开发一个公共冠状病毒推特数据集

原始论文

南加州大学信息科学研究所,美国加利福尼亚州玛丽娜德雷

通讯作者:

埃米利奥·费拉拉博士

信息科学研究所

南加州大学

海军部路4676号1001号

玛丽娜德雷,加利福尼亚州,90292

美国

电话:1 310 448 8661

电子邮件:emiliofe@usc.edu


背景:在撰写本文时,冠状病毒病(COVID-19)大流行疫情已经给世界各地许多国家的公民、资源和经济带来了巨大压力。保持社交距离措施、旅行禁令、自我隔离和企业关闭正在改变世界各地的社会结构。随着人们被迫离开公共场所,现在关于这些现象的大部分讨论都发生在Twitter等社交媒体平台上。

摘要目的:在本文中,我们描述了一个多语言的COVID-19推特数据集,我们将通过我们的COVID-19- tweetids GitHub存储库向研究界提供。

方法:我们于2020年1月28日开始持续收集数据,利用Twitter的流媒体应用程序编程接口(API)和Tweepy跟踪数据收集开始时出现趋势的某些关键字和账户。我们使用Twitter的搜索API来查询过去的推文,结果是我们收集的最早的推文可以追溯到2020年1月21日。

结果:自从我们收集开始以来,我们每周都积极维护和更新我们的GitHub存储库。我们发布了超过1.23亿条推文,其中超过60%的推文是英文的。本文还提供了基本统计数据,显示Twitter活动对covid -19相关事件的反应和反应。

结论:我们希望,我们的贡献将使在线对话动态的研究在一个前所未有的规模和影响的全球性流行病爆发的背景下。该数据集还可以帮助跟踪与covid -19相关的错误信息和未经证实的谣言,或帮助理解恐惧和恐慌——无疑还有更多。

JMIR公共卫生监测2020;6(2):e19273

doi: 10.2196/19273

关键字



2019年12月底,中国武汉报告了第一例冠状病毒疾病(2020年2月11日世界卫生组织[世卫组织]正式命名为COVID-19);第一批死亡病例于2020年初报告[1].由于感染人数和死亡人数迅速上升,中国政府于2020年1月23日对武汉市实施了隔离措施[1].在此期间,其他国家开始报告首例确诊病例,并于2020年1月30日,世卫组织宣布了国际关注的突发公共卫生事件。随着越来越多的国家报告了这种疾病的病例,包括韩国、伊朗和意大利在内的世界一些地区的感染迅速升级,世卫组织宣布COVID-19为大流行[2].在撰写本文时,已有185个国家报告了COVID-19,世界各国政府都在努力设法遏制这一疾病,减轻其对人民健康和经济的不利影响[3.].

国家、州和地方政府实施的预防措施现在影响着全球数百万人的日常生活[4].社会距离是此类措施中使用最广泛的一种,旨在通过减少人与人之间的身体接触来减少新的感染[5].保持社交距离措施已导致体育赛事和会议取消。6],学校和大学关闭[7],并迫使许多企业要求员工在家工作[8].随着越来越多的社交互动转移到网上,围绕COVID-19的对话继续扩大,越来越多的人转向社交媒体寻求信息和陪伴[910].Twitter等平台已成为技术和社会基础设施的核心,使我们即使在危机期间也能保持联系。

我们描述了一个关于我们与研究界共享的与covid -19相关的在线对话的Twitter数据集。世界各地的人们都在Twitter上发表意见,并在公共论坛上进行对话,Twitter的开放应用程序编程接口(API)已被证明是研究广泛主题的宝贵资源。长期以来,Twitter一直被研究界用作理解在线社交网络中可观察到的动态的一种手段,从信息传播[1112]到机器人和错误信息的流行和影响[1314].更重要的是,在当前的COVID-19大流行期间,Twitter为研究人员提供了研究社交媒体在全球健康危机中发挥作用的能力[15-19].我们希望这一数据将促进对这一流行病的社会层面进行新的研究。

我们开始从推特上实时收集数据,通过跟踪与covid -19相关的关键词和账户,最早的推文可以追溯到2020年1月21日。在这里,我们描述数据收集方法,记录初始数据统计,并提供关于如何获取和使用数据的信息。


概述

自2020年1月28日以来,我们一直在利用Twitter的流媒体API积极收集推文[20.]和Tweepy [21来追踪当时流行的特定关键词和账号。当我们开始收集推文时,我们也使用了Twitter的搜索API [22]来收集相关的历史推文。因此,我们收集的最早的推文可以追溯到2020年1月21日。从那以后,我们根据Twitter上任何时候发生的对话,逐步增加了关键字和关注账号。从成立到2020年3月21日,我们已经收集了超过7200万条推文,构成了大约600gb的原始数据,并且直到今天仍在收集数据。

我们的收集依赖于公开的数据,因此被南加州大学IRB(批准协议UP-17-00610)注册为IRB(机构审查委员会)。我们发布数据集的前提是,用户必须遵守Twitter的条款和条件[23].

跟踪关键词和账号

通过持续监测推特上与COVID-19相关的热门话题、关键字和来源,我们尽最大努力捕捉与疫情相关的对话。

Twitter的流媒体API返回任何在推文文本中包含关键字的推文,以及在其元数据中;因此,并不总是需要在跟踪列表中包含特定关键字的每个排列。例如,关键字“Covid”将返回同时包含“Covid19”和“Covid-19”的推文。我们列出了我们正在跟踪的关键字和帐户的子集表1而且2以及我们开始追踪它们的日期。由于所包含的关键字是另一个关键字的子字符串,因此有一些关键字重叠,但为了更好地衡量,我们包括了两个关键字。当前数据集中的关键字选择都是英语,因此对英语推文和与英语国家相关的事件有很大的偏见。由于大流行和在线对话的性质不断变化,随着我们继续监控推特,以寻找更多的关键字和账户加入我们的跟踪列表,这些表格将会扩大。

表1。我们在Twitter收集中积极跟踪的关键字示例;查看GitHub存储库中所有跟踪关键字的完整列表(v1.8 - 2020年5月8日)[24].
跟踪自 关键字
1/21/2020 冠状病毒;电晕;疾病预防控制中心;Ncov;武汉;爆发;中国
1/22/2020 Koronavirus;Wuhanlockdown;N95;Kungflu;流行;惧华
2/16/2020 新型冠状病毒肺炎
3/2/2020 冠状病毒
3/6/2020 Covid19;Sars-cov-2
3/8/2020 COVID-19
3/12/2020 COVD;流感大流行
3/13/2020 Coronapocalypse;CancelEverything;Coronials;SocialDistancing
3/14/2020 抢购;DuringMy14DayQuarantine;恐慌购物;InMyQuarantineSurvivalKit
3/16/2020 stayhomechallenge;DontBeASpreader;封锁
3/18/2020 shelteringinplace;staysafestayhome;trumppandemic;使曲线变平
3/19/2020 PPEshortage;saferathome;stayathome
3/21/2020 GetMePPE
3/26/2020 covidiot
3/28/2020 epitwitter
3/31/2020 Pandemie
表2。我们在Twitter集合中积极跟踪的帐户名称(v1.8 - 2020年5月8日)。
跟踪自 帐户名称
1/22/2020 PneumoniaWuhan;CoronaVirusInfo;V2019N;CDCemergency;CDCgov;谁;HHSGov;NIAIDNews
3/15/2020 DrTedros

释放

在可预见的未来,我们将继续不间断地收集数据。随着大流行继续发展,我们预计数据量将大幅增长。数据集可在GitHub [24并根据推特的条款和条件发布,根据这些条款和条件,我们无法公开发布收集的推文文本。因此,我们将发布推文id,这是与特定推文绑定的唯一标识符。研究人员可以使用Tweet id查询Twitter的API,并获得完整的Tweet对象,包括Tweet内容(文本、url、标签等)和作者的元数据。从Twitter的tweet ID开始检索完整的tweet对象的过程称为水合作用.有几个易于使用的工具已经开发用于此目的,包括保湿液25),Twarc26],但也可以直接使用Twitter的API来检索所需的数据。此数据集也可以在Harvard Dataverse上找到[27].表3显示当前所有版本(截至2020年5月15日)的基本统计信息,包括收集周期和相应版本的推文数量。

数据中有一些已知的空白,列在表4.由于Twitter API对免费数据访问的限制,我们无法从列出的时间中恢复数据,因为Twitter只提供对过去一周从其流媒体API返回的推文的免费访问。为了请求访问权限,感兴趣的研究人员需要就所选许可所规定的使用条款达成一致。

所有推文ID文件都存储在指示发布推文的年份和月份(year - month)的文件夹中。每个单独的推文ID文件都包含一个推文ID集合,文件名都以前缀“冠状病毒-推文ID -”开头,后面是发布推文的年、月、日和小时(year - month - date - hour)。

我们注意到,如果一条推文已从平台上删除,研究人员将无法获得原始推文。

表3。所有发布及其统计信息的列表。
发布版本 发布日期 数据收集周期 微博,
v1.0 3/17/2020 2020年3月5日至3月12日 8919411年
v1.1 3/23/2020 1/21/2020 - 3/12/2020 63616072年
v1.2 3/31/2020 1/21/2020 - 3/21/2020 72403796年
v1.3 4/11/2020 1/21/2020 - 4/03/2020 87209465年
v1.4 4/13/2020 1/21/2020 - 4/10/2020 94671486年
v1.5 4/20/2020 1/21/2020 - 4/17/2020 101771227年
v1.6 4/26/2020 1/21/2020 - 4/24/2020 109013655年
v1.7 5/04/2020 1/21/2020 - 5/01/2020 115929358年
v1.8 5/11/2020 1/21/2020 - 5/08/2020 123113914年
表4。UTC (v1.8 - 2020年5月8日)数据集中的已知空白。
日期 时间
2/1/2020 4:00 - 9:00 utc
2/8/2020 6:00 - 7:00 utc
2/22/2020 21:00 - 24:00 utc
2/23/2020 0:00 - 24:00 utc
2/24/2020 0:00 - 4:00 utc
2/25/2020 0:00 - 3:00 utc
3/2/2020 断断续续的互联网连接问题
最新版本(发布v1.8 - 2020年5月11日)

我们的第九次发布时间为2020年1月21日至2020年5月8日。现在可用的数据集包含从2020年1月21日(22:00 UTC)到2020年5月8日(21:00 UTC)的推文,共有123,113,914条推文。推文的语言分类可以在表5.可以通过引用来识别在此时间段内所跟踪的关键字和帐户的子集表1而且2.有关我们正在跟踪的完整和最新的关键字列表,请参阅GitHub存储库中的“keywords.txt”文件(我们正在跟踪的帐户列表可以在“accounts.txt”文件中找到)[24].一些关键字可能出现早于最初列出的曲目日期表1我们通过Twitter的搜索API系统地运行相同的关键字,在添加要实时跟踪的关键字后不久,收集这些关键字的过去实例。

表5所示。最流行的语言和相关推文数量的细分(v1.8 - 2020年5月8日)。
语言 ISO一个 推文(N=123,113,914), N (%)
英语 80698556 (65.55)
西班牙语 西文 13848449 (11.25)
印尼 4196591 (3.41)
法国 fr 3762601 (3.06)
葡萄牙语 pt 3451196 (2.80)
日本 晶澳 2897046 (2.35)
泰国 th 2754627 (2.24)
(定义) 2711649 (2.20)
意大利 1615916 (1.31)
土耳其 tr 1308989 (1.06)

一个ISO:国际标准化组织。

一般发行说明

为了使用任何面向Twitter的库,包括hydration软件,用户必须首先申请一个Twitter开发人员帐户,并获得必要的身份验证令牌[28].

GitHub社区也慷慨地提供了脚本,使研究人员能够使用推文idTwarc26].


概述

我们对收集的数据集进行了初步分析,以验证Twitter话语统计数据反映了当时的重大事件,并利用Business Insider [29],美国国家广播公司[30.],及CNN [31]发布了时间表,以确定COVID-19大流行发展期间值得关注的这些事件。在其中一些分析中,2020年3月2日出现了下降,这是由于当天的互联网连接故障。我们的讨论基于对v1.2版本(2020年1月21日至2020年3月31日)的推文进行的分析,而最新的版本是v1.8。

标签

我们跟踪了与covid -19相关的标签的频率,特别是在整个收集期间包含“武汉”、“冠状病毒”和“covid”子字符串的标签(图1).我们可以看到,虽然带有“冠状病毒”子串的标签在我们的数据集中一直是使用频率更高的标签,但在世界卫生组织宣布COVID-19为全球公共卫生紧急情况的当天,标签使用率飙升;在美国宣布首例与covid -19相关的死亡病例当天,该指数也出现飙升[2].我们也没有看到提到“covid”的标签被使用,直到2020年2月11日,世卫组织宣布“covid -19”为新型冠状病毒疾病的官方名称。“武汉”在标签中的使用一直持续到2月底,然后稳步下降,这反映了中国病例的减少和病毒在全球的传播。

图1。随着时间的推移,包含“武汉”、“covid”和“冠状病毒”子字符串的标签的使用情况。COVID-19:冠状病毒病;卫生组织:世界卫生组织。
查看此图

语言

然后,我们检查了用不同语言发布的推文总数的百分比(图2).尽管英语是我们数据集中最重要的语言,但我们在分析中排除了英语,以更好地可视化时间轴上较早经历COVID-19疫情的国家的推特活动。特别是,我们发现,在钻石公主号游轮在日本横滨海岸被隔离后,日本的推特活跃度稳步上升,在乘客开始下船时达到峰值。32].

意大利的推特也大幅飙升,当时意大利洛迪报告了第一例与COVID-19有关的病例,威尼托出现了首例死亡病例[33].我们还观察到,在2020年2月1日西班牙宣布首例COVID-19病例后,西班牙推特的百分比达到了峰值[34],在首例与covid -19相关的死亡报告开始出现后,西班牙推特的比例稳步上升(死亡本身发生在2月13日,但死因是在死后诊断出来的)[35].

图2。随着时间推移,西班牙语、意大利语和日语的推文(我们的多语言数据库在2020年1月28日之后开始收集数据)。
查看此图

验证用户

Twitter上经过认证的用户已被Twitter识别为具有公众利益的账户,并已被验证为真实账户[36].我们观察到,当重大事件发生时,包括新闻来源和政治人物在内的认证账户最为活跃,如图所示图3.这是意料之中的,因为有影响力的人物和新闻来源经常使用Twitter作为一个平台来实时权衡和报道突发新闻。由于美国也推动了推特上的大部分讨论,因此,当该国出现首例与covid -19相关的死亡病例时,经过认证的用户的活动大幅飙升也就不足为奇了。

图3。经过验证的用户在一段时间内发布的推文数量。COVID-19:冠状病毒病;卫生组织:世界卫生组织。
查看此图

限制

我们的数据集有几个限制。我们利用Twitter的免费流API收集数据集,它只返回Twitter总量的1%,我们收集的推文量继续依赖于我们的过滤器端点和网络连接[37].

虽然我们的数据集是一个多语言数据集,包含超过67种语言的推文,但我们一直跟踪并将继续跟踪的关键字和账户主要是英语关键字和账户。因此,在我们的数据集中,英语推文比其他语言的推文有明显的偏向。

尽管有这些限制,我们的数据收集每天从1%的推文中收集超过100万条推文,我们的数据集平均包含35%的非英语推文。我们的收集从1月下旬开始,在许多重大进展中捕捉推文,我们计划在可预见的未来继续收集推文。

致谢

作者感谢来自国防高级研究计划局(DARPA)的支持;# w911nf - 17 - c - 0094合同。

作者的贡献

EC负责数据管理。所有作者都对这篇手稿的写作做出了贡献。

利益冲突

没有宣布。

  1. 泰勒·D.《纽约时报》,2020年。冠状病毒大流行的时间轴URL:https://www.nytimes.com/article/coronavirus-timeline.html[2020-04-10]访问
  2. 世界卫生组织2020年。冠状病毒疾病(COVID-19)滚动更新网址:https://www.who.int/emergencies/diseases/novel-coronavirus-2019/events-as-they-happen[2020-04-10]访问
  3. Dong E, Du H, Gardner L.实时跟踪COVID-19的交互式web仪表板。Lancet infection Dis 2020 May;20(5):533-534。[CrossRef
  4. 吴杰,史密斯S, Khurana M, Siemaszko C, DeJesus-Banos B. NBC新闻。全国“居家令”网址:https://www.nbcnews.com/health/health-news/here-are-stay-home-orders-across-country-n1168736[2020-05-15]访问
  5. 疾病控制和预防中心,2020年。社交距离网址:https://www.cdc.gov/coronavirus/2019-ncov/prevent-getting-sick/social-distancing.html[2020-05-15]访问
  6. 哈登J,卡萨多L.商业内幕。以下是由于冠状病毒爆发而取消或推迟的最新重大活动,包括2020年东京奥运会、火人节和第74届托尼奖:https://www.businessinsider.com/major-events-cancelled-or-postponed-due-to-the-coronavirus-2020[2020-05-15]访问
  7. 查韦斯N, Moshtaghian A. CNN。2020.48个州已经下令或建议学校本学年不重开。https://www.cnn.com/2020/04/18/us/schools-closed-coronavirus/index.html[2020-05-15]访问
  8. 哈登J,卡萨多L,索内梅克T.商业内幕。2020。苹果、谷歌和亚马逊等全球最大的公司都限制了旅行或要求员工远程工作,以预防新型冠状病毒。这是完整的列表URL:https://www.businessinsider.com/companies-asking-employees-to-work-from-home-due-to-coronavirus-2020[2020-05-15]访问
  9. Abbas A, Eliyana A, Ekowati D, Saud M, Raza A, Wardani R.关于数字时代应对策略的数据集:心理健康和社会资本在爪哇帝汶,泗水,印度尼西亚大学生中的作用。数据概要2020年6月;30:105583 [免费全文] [CrossRef] [Medline
  10. 菲舍尔·s·AXIOS。2020.大流行期间社交媒体使用量激增URL:https://www.axios.com/social-media-overuse-spikes-in-coronavirus-pandemic-764b384d-a0ee-4787-bd19-7e7297f6d6ec.html[2020-05-15]访问
  11. 信息传染:digg和twitter社交网络上新闻传播的实证研究。华盛顿特区:AAAI出版物;2010年发表于:第四届国际AAAI网络日志和社交媒体会议;2010;华盛顿特区网址:https://arxiv.org/abs/1003.2664
  12. 罗梅罗D,米德B, Kleinberg J.信息扩散机制的差异:习语,政治标签,推特上的复杂传染。美国纽约州纽约:计算机协会;2011年发表于:第20届万维网国际会议WWW '11;2011;美国纽约州纽约,第695页。[CrossRef
  13. Castillo C, Mendoza M, Poblete B.推特信息可信度。:美国计算机协会;2011年发表于:第20届万维网国际会议WWW '11;2011;美国纽约,NY, p. 675-684。[CrossRef
  14. Ferrara E, Varol O, Davis C, Menczer F, Flammini A.社交机器人的崛起。通讯ACM 2016 6月24日;59(7):96-104。[CrossRef
  15. 梁辉,冯志刚,谢志涛,尹杰,陈超,乐佩塔,等。埃博拉信息是如何在推特上传播的:广播还是病毒式传播?BMC公共卫生2019 april 25;19(1):438 [免费全文] [CrossRef] [Medline
  16. Chew C, Eysenbach G.推特时代的流行病:2009年H1N1爆发期间推特的内容分析。PLoS One 2010 11月29日;5(11):e14118 [免费全文] [CrossRef] [Medline
  17. 费拉拉E. #COVID-19在推特上:机器人、阴谋和社交媒体行动主义(arXiv.09531)。arXiv.org 2020 [免费全文
  18. Park HW, Park S, Chong M.推特上的对话和医疗新闻框架:韩国COVID-19的信息流行病学研究。J Med Internet Res 2020 May 05;22(5):e18897 [免费全文] [CrossRef] [Medline
  19. Abd-Alrazaq A, Alhuwail D, Househ M, Hamdi M, Shah Z.在COVID-19大流行期间推特用户最关心的问题:信息监视研究。J Med Internet Res 2020 april 21;22(4):e19016 [免费全文] [CrossRef] [Medline
  20. Twitter。消费流数据URL:https://developer.twitter.com/en/docs/tutorials/consuming-streaming-data[2020-04-10]访问
  21. Tweepy。URL:https://www.tweepy.org/[2020-04-10]访问
  22. Twitter。搜索推文网址:https://developer.twitter.com/en/docs/tweets/search/api-reference/get-search-tweets[2020-04-10]访问
  23. Twitter。2020。开发者协议和政策网址:https://developer.twitter.com/en/developer-terms/agreement-and-policy[2020-04-10]访问
  24. 陈勇,李志强,李志强。2020.COVID-19-TweetIDs URL:https://github.com/echen102/COVID-19-TweetIDs[2020-05-15]访问
  25. DocNow。GitHub。2020.水合器URL:https://github.com/DocNow/hydrator[2020-04-10]访问
  26. DocNow。GitHub。2020.Twarc URL:https://github.com/DocNow/twarc[2020-04-10]访问
  27. Chen E, Lerman K, Ferrara E. COVID-19推文。哈佛数据规避2020 [免费全文] [CrossRef
  28. Twitter。2020。开发人员网址:https://developer.twitter.com/en[2020-04-10]访问
  29. 第二H,伍德沃德A,莫舍D.商业内幕,2020年。新型冠状病毒大流行的综合时间表,从中国第一例COVID-19病例到现在的网址:https://www.businessinsider.com/coronavirus-pandemic-timeline-history-major-events-2020-3[2020-04-10]访问
  30. 马卡里·R,周·d, NBC新闻,2020年。冠状病毒时间线:追踪COVID-19的关键时刻https://www.nbcnews.com/health/health-news/coronavirus-timeline-tracking-critical-moments-covid-19-n1154341[2020-04-10]访问
  31. CNN编辑研究。CNN。2020.冠状病毒爆发时间轴快速事实URL:https://www.cnn.com/2020/02/06/health/wuhan-coronavirus-timeline-fast-facts/index.html[2020-04-10]访问
  32. Helsel P, Yamamoto A. NBC新闻,在日本隔离的游轮上确诊了10例冠状病毒病例https://www.nbcnews.com/news/world/10-coronavirus-cases-confirmed-cruise-ship-quarantined-japan-n1130296[2020-04-10]访问
  33. 吴军,吴建民,吴建民。2020。意大利封锁病毒为时已晚现在会发生什么?URL:https://www.nytimes.com/interactive/2020/04/05/world/europe/italy-coronavirus-lockdown-reopen.html[2020-04-10]访问
  34. 杨杰,乔治,Kottasová I. CNN。2020.2月1日冠状病毒新闻网址:https://www.cnn.com/asia/live-news/coronavirus-outbreak-02-01-20-intl-hnk/h_afcf3a4665521aab11c721c8cc80dd03[2020-04-10]访问
  35. 路透社。2020。西班牙瓦伦西亚报告首例冠状病毒死亡https://www.reuters.com/article/us-health-coronavirus-spain-death/spain-confirms-countrys-first-death-from-coronavirus-health-official-idUSKBN20Q2TG[2020-04-10]访问
  36. Twitter。2020。关于已验证账号https://help.twitter.com/en/managing-your-account/about-twitter-verified-accounts[2020-04-10]访问
  37. 刘海峰,李志刚,李志刚。样本是否足够好?比较来自Twitter的流式API和Twitter的Firehose的数据。arXiv.org 2013 [免费全文


API:应用程序编程接口
COVID-19:冠状病毒病
IRB:机构检讨委员会
人:世界卫生组织


G·艾森巴赫(G Eysenbach)编辑;提交10.04.20;同行评议:A Jonas, E Da Silva, M Saud;对作者12.05.20的评论;订正版本收到15.05.20;接受15.05.20;发表29.05.20

版权

©Emily Chen, Kristina Lerman, Emilio Ferrara。原载于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com), 2020年5月29日。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,http://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。


Baidu
map