这是一篇根据知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR公共卫生与监测上,并适当引用。必须包括完整的书目信息,到http://publichealth.www.mybigtv.com上原始出版物的链接,以及版权和许可信息。
在撰写本文时,冠状病毒病(COVID-19)大流行的爆发已经给世界各地许多国家的公民、资源和经济带来了巨大的压力。社会隔离措施、旅行禁令、自我隔离和企业关闭正在改变世界各地的社会结构。随着人们被迫离开公共场所,关于这些现象的讨论现在大多发生在推特等社交媒体平台上。
在本文中,我们描述了一个多语言的COVID-19 Twitter数据集,我们正在通过我们的COVID-19- tweetids GitHub存储库向研究界提供该数据集。
我们于2020年1月28日开始持续收集数据,利用Twitter的流媒体应用程序编程接口(API)和Tweepy跟踪数据收集开始时流行的某些关键字和账户。我们使用Twitter的搜索API来查询过去的推文,结果我们收集的最早的推文可以追溯到2020年1月21日。
自从我们的集合开始以来,我们每周都积极维护和更新我们的GitHub存储库。我们已经发布了超过1.23亿条推文,其中超过60%的推文是英文的。本文还介绍了显示Twitter活动对covid -19相关事件的响应和反应的基本统计数据。
我们希望,我们的贡献将使在前所未有的规模和影响的全球流行病爆发的背景下研究在线对话动态成为可能。该数据集还可以帮助追踪与covid -19相关的错误信息和未经证实的谣言,或使人们能够理解恐惧和恐慌——毫无疑问还有更多。
2019年12月下旬,中国武汉报告了第一例冠状病毒病(世界卫生组织于2020年2月11日正式命名为COVID-19);第一例死亡报告于2020年初[
由国家、州和地方政府实施的预防措施现在影响着全世界数百万人的日常生活[
我们描述了与研究界分享的与covid -19相关的在线对话的Twitter数据集。世界各地的人们都在Twitter上表达意见,并在公共论坛上进行对话,并且,Twitter的开放应用程序编程接口(API)已被证明是研究广泛主题的宝贵资源。长期以来,Twitter一直被研究界用来理解在线社交网络中可观察到的动态,从信息传播[
我们开始从推特上实时收集数据,通过追踪与covid -19相关的关键词和账户,最早的推文可追溯到2020年1月21日。在这里,我们描述了数据收集方法,记录了初始数据统计,并提供了有关如何获取和使用数据的信息。
自2020年1月28日以来,我们一直在积极收集推文,利用Twitter的流媒体API [
我们的收集依赖于公开可用的数据,因此被南加州大学IRB注册为IRB(机构审查委员会)豁免(批准协议UP-17-00610)。我们发布数据集的条件是,使用它的人必须遵守Twitter的条款和条件[
通过持续监控Twitter上与COVID-19相关的热门话题、关键字和来源,我们尽最大努力捕捉与疫情有关的对话。
Twitter的流媒体API返回在tweet文本以及元数据中包含关键字的任何tweet;因此,并不总是需要在跟踪列表中包含特定关键字的每个排列。例如,关键词“Covid”将返回包含“Covid-19”和“Covid-19”的推文。我们列出了我们正在关注的关键字和帐户的子集
我们在Twitter收集中积极跟踪的关键字样本;查看GitHub存储库获取所有跟踪关键字的完整列表(v1.8 - 2020年5月8日)[
跟踪自 | 关键字 |
1/21/2020 | 冠状病毒;电晕;疾病预防控制中心;Ncov;武汉;爆发;中国 |
1/22/2020 | Koronavirus;Wuhanlockdown;N95;Kungflu;流行;惧华 |
2/16/2020 | 新型冠状病毒肺炎 |
3/2/2020 | 冠状病毒 |
3/6/2020 | Covid19;Sars-cov-2 |
3/8/2020 | COVID-19 |
3/12/2020 | COVD;流感大流行 |
3/13/2020 | Coronapocalypse;CancelEverything;Coronials;SocialDistancing |
3/14/2020 | 抢购;DuringMy14DayQuarantine;恐慌购物;InMyQuarantineSurvivalKit |
3/16/2020 | stayhomechallenge;DontBeASpreader;封锁 |
3/18/2020 | shelteringinplace;staysafestayhome;trumppandemic;使曲线变平 |
3/19/2020 | PPEshortage;saferathome;stayathome |
3/21/2020 | GetMePPE |
3/26/2020 | covidiot |
3/28/2020 | epitwitter |
3/31/2020 | Pandemie |
我们在Twitter收集中积极跟踪的帐户名称(v1.8 - 2020年5月8日)。
跟踪自 | 帐户名称 |
1/22/2020 | PneumoniaWuhan;CoronaVirusInfo;V2019N;CDCemergency;CDCgov;谁;HHSGov;NIAIDNews |
3/15/2020 | DrTedros |
在可预见的未来,我们将继续不间断地收集数据。随着疫情继续蔓延,我们预计数据量将大幅增长。数据集可在GitHub [
数据中有一些已知的空白,列在
所有的Tweet ID文件都存储在指示Tweet发布的年份和月份(year - month)的文件夹中。每个单独的Tweet ID文件都包含Tweet ID的集合,文件名都以前缀“coronavirus-tweet-id-”开头,然后是Tweet发布的年、月、日期和小时(year - month - date - hour)。
我们注意到,如果一条推文从平台上删除,研究人员将无法获得原始推文。
所有版本及其统计数据的列表。
发布版本 | 发布日期 | 数据收集周期 | 微博, |
v1.0 | 3/17/2020 | 2020年3月5日- 2020年3月12日 | 8919411年 |
v1.1 | 3/23/2020 | 1/21/2020 - 3/12/2020 | 63616072年 |
v1.2 | 3/31/2020 | 1/21/2020 - 3/21/2020 | 72403796年 |
v1.3 | 4/11/2020 | 2020年1月21日- 2020年4月3日 | 87209465年 |
v1.4 | 4/13/2020 | 2020年1月21日- 2020年4月10日 | 94671486年 |
v1.5 | 4/20/2020 | 2020年1月21日- 2020年4月17日 | 101771227年 |
v1.6 | 4/26/2020 | 2020年1月21日- 2020年4月24日 | 109013655年 |
v1.7 | 5/04/2020 | 2020年1月21日- 2020年5月1日 | 115929358年 |
v1.8 | 5/11/2020 | 2020年1月21日- 2020年5月8日 | 123113914年 |
UTC (v1.8 - 2020年5月8日)数据集的已知缺口。
日期 | 时间 |
2/1/2020 | 4:00 - 9:00 utc |
2/8/2020 | 世界时6:00 - 7:00 |
2/22/2020 | 21:00 - 24:00 utc |
2/23/2020 | 0:00 - 24:00 utc |
2/24/2020 | 0:00 - 4:00 utc |
2/25/2020 | 0:00 - 3:00 utc |
3/2/2020 | 间歇性的互联网连接问题 |
我们的第9次发布时间为2020年1月21日至2020年5月8日。现在可用的数据集包含从2020年1月21日(22:00 UTC)到2020年5月8日(21:00 UTC)的推文,共有123,113,914条推文。推文的语言分类可以在
最流行语言的细分和相关推文的数量(v1.8 - 2020年5月8日)。
语言 | ISO一个 | Tweets (N=123,113,914), N (%) |
英语 | 在 | 80698556 (65.55) |
西班牙语 | 西文 | 13848449 (11.25) |
印尼 | 在 | 4196591 (3.41) |
法国 | fr | 3762601 (3.06) |
葡萄牙语 | pt | 3451196 (2.80) |
日本 | 晶澳 | 2897046 (2.35) |
泰国 | th | 2754627 (2.24) |
(定义) | 和 | 2711649 (2.20) |
意大利 | 它 | 1615916 (1.31) |
土耳其 | tr | 1308989 (1.06) |
一个ISO:国际标准化组织。
为了使用任何面向Twitter的库,包括补水软件,用户必须首先申请一个Twitter开发者帐户并获得必要的认证令牌[
GitHub社区也慷慨地提供了脚本,使研究人员能够使用twitter id
我们对收集到的数据集进行了初步分析,以验证Twitter话语统计反映了当时的重大事件,并利用Business Insider [
我们在整个收集期间跟踪了与covid -19相关的标签的频率,特别是那些包含子字符串“武汉”、“冠状病毒”和“covid”的标签(
包含子字符串“武汉”、“covid”和“冠状病毒”的标签随时间的使用情况。COVID-19:冠状病毒病;卫生组织:世界卫生组织。
然后,我们检查了用不同语言发布的推文总数的百分比(
当意大利洛迪市报告了第一例与COVID-19相关的病例,威尼托出现首例死亡病例时,意大利的推特也出现了显著增长。
随着时间的推移,西班牙语、意大利语和日语的推文(我们的多语言数据库在2020年1月28日之后开始数据收集)。
Twitter上的认证用户已被Twitter识别为具有公共利益的帐户,并被验证为真实帐户[
经过验证的用户在一段时间内发出的tweet数。COVID-19:冠状病毒病;卫生组织:世界卫生组织。
我们的数据集有几个限制。我们利用Twitter的免费流媒体API收集数据集,它只返回Twitter总流量的1%,我们收集的推文数量继续依赖于我们的过滤器端点和网络连接[
虽然我们的数据集是一个多语言数据集,包含超过67种语言的推文,但我们一直在跟踪和继续跟踪的关键字和账户主要是英语关键字和账户。因此,在我们的数据集中,英语推文比其他语言的推文更受青睐。
尽管有这些限制,我们的数据收集每天从Twitter的API提供给我们的1%的推文中收集超过100万条推文,我们的数据集平均包含35%的非英语推文。我们的收集从1月下旬开始,在许多重大开发过程中捕捉tweet,我们计划在可预见的将来继续收集tweet。
应用程序编程接口
冠状病毒病
院校审查委员会
世界卫生组织
作者感谢美国国防高级研究计划局(DARPA)的支持;# w911nf - 17 - c - 0094合同。
EC负责数据管理。所有作者都对这份手稿的撰写做出了贡献。
没有宣布。