JPH 公共卫生监测 公共卫生和监测 2369 - 2960 卡塔尔世界杯8强波胆分析 加拿大多伦多 v6i2e19273 32427106 10.2196/19273 原始论文 原始论文 追踪关于COVID-19大流行的社交媒体话语:开发公共冠状病毒推特数据集 Eysenbach 冈瑟 乔纳斯 亚当 达席尔瓦 埃德森 沙特 默罕默德 艾米丽 二元同步通信 1 https://orcid.org/0000-0003-2363-9889 Lerman 克里斯蒂娜 博士学位 1 https://orcid.org/0000-0002-5071-0575 费拉拉 埃米利奥 博士学位 1
信息科学研究所 南加州大学 金钟路4676号1001号 玛丽娜德尔雷伊,加利福尼亚州,90292 美国 1 310 448 8661 emiliofe@usc.edu
https://orcid.org/0000-0002-1942-2831
信息科学研究所 南加州大学 玛丽娜德尔雷伊,加州 美国 通讯作者:Emilio Ferrara emiliofe@usc.edu Apr-Jun 2020 29 5 2020 6 2 e19273 10 4 2020 12 5 2020 15 5 2020 15 5 2020 ©Emily Chen, Kristina Lerman, Emilio Ferrara。原发表于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com), 2020年5月29日。 2020

这是一篇根据知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR公共卫生与监测上,并适当引用。必须包括完整的书目信息,到http://publichealth.www.mybigtv.com上原始出版物的链接,以及版权和许可信息。

背景

在撰写本文时,冠状病毒病(COVID-19)大流行的爆发已经给世界各地许多国家的公民、资源和经济带来了巨大的压力。社会隔离措施、旅行禁令、自我隔离和企业关闭正在改变世界各地的社会结构。随着人们被迫离开公共场所,关于这些现象的讨论现在大多发生在推特等社交媒体平台上。

客观的

在本文中,我们描述了一个多语言的COVID-19 Twitter数据集,我们正在通过我们的COVID-19- tweetids GitHub存储库向研究界提供该数据集。

方法

我们于2020年1月28日开始持续收集数据,利用Twitter的流媒体应用程序编程接口(API)和Tweepy跟踪数据收集开始时流行的某些关键字和账户。我们使用Twitter的搜索API来查询过去的推文,结果我们收集的最早的推文可以追溯到2020年1月21日。

结果

自从我们的集合开始以来,我们每周都积极维护和更新我们的GitHub存储库。我们已经发布了超过1.23亿条推文,其中超过60%的推文是英文的。本文还介绍了显示Twitter活动对covid -19相关事件的响应和反应的基本统计数据。

结论

我们希望,我们的贡献将使在前所未有的规模和影响的全球流行病爆发的背景下研究在线对话动态成为可能。该数据集还可以帮助追踪与covid -19相关的错误信息和未经证实的谣言,或使人们能够理解恐惧和恐慌——毫无疑问还有更多。

新型冠状病毒肺炎 SARS-CoV-2 社交媒体 网络分析 计算社会科学
介绍

2019年12月下旬,中国武汉报告了第一例冠状病毒病(世界卫生组织于2020年2月11日正式命名为COVID-19);第一例死亡报告于2020年初[ 1]。快速上升的感染和死亡人数促使中国政府于2020年1月23日对武汉市实施隔离。 1]。在此期间,其他国家开始报告首例确诊病例,并于2020年1月30日,世卫组织宣布了国际关注的突发公共卫生事件。随着越来越多的国家报告了这种疾病的病例,以及韩国、伊朗和意大利等世界一些地区的感染迅速升级,世界卫生组织宣布COVID-19为大流行[ 2]。在撰写本文时,已有185个国家报告了COVID-19,世界各国政府都在争先恐后地寻找控制疾病的方法,并减轻其对人民健康和经济的不利影响[ 3.]。

由国家、州和地方政府实施的预防措施现在影响着全世界数百万人的日常生活[ 4]。 社会距离是这类措施中使用最广泛的,目的是通过减少人与人之间的身体接触来减少新的感染[ 5]。社会保持距离措施已导致体育赛事和会议取消。[ 6]、学校及学院停课[ 7],并迫使许多企业要求员工在家工作[ 8]。随着越来越多的社交互动转移到网上,围绕COVID-19的对话不断扩大,越来越多的人转向社交媒体寻求信息和陪伴[ 9 10]。Twitter等平台已经成为技术和社会基础设施的核心,使我们即使在危机期间也能保持联系。

我们描述了与研究界分享的与covid -19相关的在线对话的Twitter数据集。世界各地的人们都在Twitter上表达意见,并在公共论坛上进行对话,并且,Twitter的开放应用程序编程接口(API)已被证明是研究广泛主题的宝贵资源。长期以来,Twitter一直被研究界用来理解在线社交网络中可观察到的动态,从信息传播[ 11 12机器人和错误信息的流行和影响[ 13 14]。更重要的是,在当前的COVID-19大流行期间,Twitter为研究人员提供了研究社交媒体在全球卫生危机中所起作用的能力[ 15- 19]。我们希望,这些数据将促使人们对这一流行病的社会层面进行新的研究。

我们开始从推特上实时收集数据,通过追踪与covid -19相关的关键词和账户,最早的推文可追溯到2020年1月21日。在这里,我们描述了数据收集方法,记录了初始数据统计,并提供了有关如何获取和使用数据的信息。

方法 概述

自2020年1月28日以来,我们一直在积极收集推文,利用Twitter的流媒体API [ 20.]和Tweepy [ 21来关注当时流行的特定关键词和账户。当我们开始收集推文时,我们也使用了Twitter的搜索API [ 22]来收集相关的历史推文。因此,我们收集的最早的推文可以追溯到2020年1月21日。从那时起,我们就根据Twitter上随时发生的对话,逐步添加关键字和关注账户。从成立到2020年3月21日,我们已经收集了超过7200万条推文,构成了大约600gb的原始数据,并且至今仍在收集数据。

我们的收集依赖于公开可用的数据,因此被南加州大学IRB注册为IRB(机构审查委员会)豁免(批准协议UP-17-00610)。我们发布数据集的条件是,使用它的人必须遵守Twitter的条款和条件[ 23]。

跟踪的关键词和账号

通过持续监控Twitter上与COVID-19相关的热门话题、关键字和来源,我们尽最大努力捕捉与疫情有关的对话。

Twitter的流媒体API返回在tweet文本以及元数据中包含关键字的任何tweet;因此,并不总是需要在跟踪列表中包含特定关键字的每个排列。例如,关键词“Covid”将返回包含“Covid-19”和“Covid-19”的推文。我们列出了我们正在关注的关键字和帐户的子集 表1 2,以及我们开始追踪他们的日期。由于包含的关键字是另一个关键字的子字符串,所以有些关键字会重叠,但是为了更好地衡量,我们同时包含了这两个关键字。目前数据集中的关键字选择都是英文的,所以对英文tweets和英语国家相关的事件有很大的偏见。由于疫情和在线对话的性质不断变化,随着我们继续在Twitter上监测更多的关键词和账户,这些表格将会扩大,以添加到我们的跟踪列表中。

我们在Twitter收集中积极跟踪的关键字样本;查看GitHub存储库获取所有跟踪关键字的完整列表(v1.8 - 2020年5月8日)[ 24]。

跟踪自 关键字
1/21/2020 冠状病毒;电晕;疾病预防控制中心;Ncov;武汉;爆发;中国
1/22/2020 Koronavirus;Wuhanlockdown;N95;Kungflu;流行;惧华
2/16/2020 新型冠状病毒肺炎
3/2/2020 冠状病毒
3/6/2020 Covid19;Sars-cov-2
3/8/2020 COVID-19
3/12/2020 COVD;流感大流行
3/13/2020 Coronapocalypse;CancelEverything;Coronials;SocialDistancing
3/14/2020 抢购;DuringMy14DayQuarantine;恐慌购物;InMyQuarantineSurvivalKit
3/16/2020 stayhomechallenge;DontBeASpreader;封锁
3/18/2020 shelteringinplace;staysafestayhome;trumppandemic;使曲线变平
3/19/2020 PPEshortage;saferathome;stayathome
3/21/2020 GetMePPE
3/26/2020 covidiot
3/28/2020 epitwitter
3/31/2020 Pandemie

我们在Twitter收集中积极跟踪的帐户名称(v1.8 - 2020年5月8日)。

跟踪自 帐户名称
1/22/2020 PneumoniaWuhan;CoronaVirusInfo;V2019N;CDCemergency;CDCgov;谁;HHSGov;NIAIDNews
3/15/2020 DrTedros
结果 释放

在可预见的未来,我们将继续不间断地收集数据。随着疫情继续蔓延,我们预计数据量将大幅增长。数据集可在GitHub [ 24并根据Twitter的条款和条件发布,根据该条款和条件,我们无法公开发布收集到的推文文本。因此,我们发布了Tweet id,这是与特定Tweet绑定的唯一标识符。研究人员可以使用Tweet id查询Twitter的API,获取完整的Tweet对象,包括Tweet内容(文本、url、标签等)和作者元数据。从tweet ID开始从Twitter检索完整的tweet对象的过程称为 水合作用.已经为此目的开发了几个易于使用的工具,包括 保湿液 25), Twarc 26],但也可以直接使用Twitter的API来检索所需的数据。这个数据集也可以在Harvard Dataverse [ 27]。 表3显示所有当前版本(截至2020年5月15日)的基本统计信息,包括相应版本中的收集周期和tweet数量。

数据中有一些已知的空白,列在 表4.由于Twitter API对免费数据访问的限制,我们无法从列出的时间中恢复数据,因为Twitter只提供免费访问从过去一周的流媒体API返回的tweet。为了请求访问,感兴趣的研究人员需要同意所选许可证规定的使用条款。

所有的Tweet ID文件都存储在指示Tweet发布的年份和月份(year - month)的文件夹中。每个单独的Tweet ID文件都包含Tweet ID的集合,文件名都以前缀“coronavirus-tweet-id-”开头,然后是Tweet发布的年、月、日期和小时(year - month - date - hour)。

我们注意到,如果一条推文从平台上删除,研究人员将无法获得原始推文。

所有版本及其统计数据的列表。

发布版本 发布日期 数据收集周期 微博,
v1.0 3/17/2020 2020年3月5日- 2020年3月12日 8919411年
v1.1 3/23/2020 1/21/2020 - 3/12/2020 63616072年
v1.2 3/31/2020 1/21/2020 - 3/21/2020 72403796年
v1.3 4/11/2020 2020年1月21日- 2020年4月3日 87209465年
v1.4 4/13/2020 2020年1月21日- 2020年4月10日 94671486年
v1.5 4/20/2020 2020年1月21日- 2020年4月17日 101771227年
v1.6 4/26/2020 2020年1月21日- 2020年4月24日 109013655年
v1.7 5/04/2020 2020年1月21日- 2020年5月1日 115929358年
v1.8 5/11/2020 2020年1月21日- 2020年5月8日 123113914年

UTC (v1.8 - 2020年5月8日)数据集的已知缺口。

日期 时间
2/1/2020 4:00 - 9:00 utc
2/8/2020 世界时6:00 - 7:00
2/22/2020 21:00 - 24:00 utc
2/23/2020 0:00 - 24:00 utc
2/24/2020 0:00 - 4:00 utc
2/25/2020 0:00 - 3:00 utc
3/2/2020 间歇性的互联网连接问题
最新版本(v1.8 - 2020年5月11日)

我们的第9次发布时间为2020年1月21日至2020年5月8日。现在可用的数据集包含从2020年1月21日(22:00 UTC)到2020年5月8日(21:00 UTC)的推文,共有123,113,914条推文。推文的语言分类可以在 表5.可以通过引用来识别在此时间段内遵循的关键字和帐户的子集 表1 2.有关我们正在跟踪的关键字的完整和最新列表,请参阅GitHub存储库中的“keywords.txt”文件(我们正在跟踪的帐户列表可在“accounts.txt”文件中找到)[ 24]。中的一些关键字可能出现在初始列出的曲目日期之前 表1我们系统地通过Twitter的搜索API运行相同的关键字,在添加要实时跟踪的关键字后不久收集这些关键字的过去实例。

最流行语言的细分和相关推文的数量(v1.8 - 2020年5月8日)。

语言 ISO一个 Tweets (N=123,113,914), N (%)
英语 80698556 (65.55)
西班牙语 西文 13848449 (11.25)
印尼 4196591 (3.41)
法国 fr 3762601 (3.06)
葡萄牙语 pt 3451196 (2.80)
日本 晶澳 2897046 (2.35)
泰国 th 2754627 (2.24)
(定义) 2711649 (2.20)
意大利 1615916 (1.31)
土耳其 tr 1308989 (1.06)

一个ISO:国际标准化组织。

一般发行说明

为了使用任何面向Twitter的库,包括补水软件,用户必须首先申请一个Twitter开发者帐户并获得必要的认证令牌[ 28]。

GitHub社区也慷慨地提供了脚本,使研究人员能够使用twitter id Twarc 26]。

讨论 概述

我们对收集到的数据集进行了初步分析,以验证Twitter话语统计反映了当时的重大事件,并利用Business Insider [ 29], NBC [ 30.], CNN [ 31]发布了时间表,以确定2019冠状病毒病大流行发展过程中值得关注的这些事件。在其中一些分析中,2020年3月2日出现了下降,这是由于当天互联网连接故障造成的。我们的讨论是基于对v1.2版本(2020年1月21日至2020年3月31日)的推文进行的分析,而最新的版本是v1.8。

标签

我们在整个收集期间跟踪了与covid -19相关的标签的频率,特别是那些包含子字符串“武汉”、“冠状病毒”和“covid”的标签( 图1)。我们可以看到,虽然在我们的数据集中,带有子字符串“冠状病毒”的标签一直是使用率更高的标签,但在世卫组织宣布COVID-19为全球突发公共卫生事件的当天,标签的使用率飙升;在美国宣布首例covid -19相关死亡的当天,它也飙升了。 2]。直到2020年2月11日,当世界卫生组织宣布“covid -19”为新型冠状病毒疾病的正式名称时,我们才看到提到“covid”的标签被使用。直到2月底,标签中的关键词“武汉”一直在使用,然后稳步下降,这反映了中国病例的减少和病毒的全球传播。

包含子字符串“武汉”、“covid”和“冠状病毒”的标签随时间的使用情况。COVID-19:冠状病毒病;卫生组织:世界卫生组织。

语言

然后,我们检查了用不同语言发布的推文总数的百分比( 图2)。虽然英语是我们数据集中最重要的语言,但我们从分析中排除了英语,以便更好地可视化在时间线较早经历COVID-19爆发的国家的推特活动。我们特别发现,在“钻石公主”号邮轮在日本横滨海岸被隔离后,日本的推特活动稳步增加,在乘客开始下船前后达到峰值[ 32]。

当意大利洛迪市报告了第一例与COVID-19相关的病例,威尼托出现首例死亡病例时,意大利的推特也出现了显著增长。 33]。我们还观察到,在2020年2月1日西班牙宣布第一例COVID-19病例后,西班牙语推文的百分比达到峰值[ 34在第一例与covid -19相关的死亡报告开始出现后(死亡本身发生在2月13日,但死因是在尸检后诊断出来的),西班牙语推文的百分比稳步上升[ 35]。

随着时间的推移,西班牙语、意大利语和日语的推文(我们的多语言数据库在2020年1月28日之后开始数据收集)。

验证用户

Twitter上的认证用户已被Twitter识别为具有公共利益的帐户,并被验证为真实帐户[ 36]。我们观察到,包括新闻来源和政治人物在内的经过核实的帐户在重大事件发生时最活跃,如 图3.这是意料之中的,因为有影响力的人物和新闻来源经常利用Twitter作为平台,实时报道突发新闻。由于美国也推动了推特上的大部分讨论,因此,当美国出现首例与covid -19相关的死亡病例时,经过验证的用户的活动大幅增加也就不足为奇了。

经过验证的用户在一段时间内发出的tweet数。COVID-19:冠状病毒病;卫生组织:世界卫生组织。

限制

我们的数据集有几个限制。我们利用Twitter的免费流媒体API收集数据集,它只返回Twitter总流量的1%,我们收集的推文数量继续依赖于我们的过滤器端点和网络连接[ 37]。

虽然我们的数据集是一个多语言数据集,包含超过67种语言的推文,但我们一直在跟踪和继续跟踪的关键字和账户主要是英语关键字和账户。因此,在我们的数据集中,英语推文比其他语言的推文更受青睐。

尽管有这些限制,我们的数据收集每天从Twitter的API提供给我们的1%的推文中收集超过100万条推文,我们的数据集平均包含35%的非英语推文。我们的收集从1月下旬开始,在许多重大开发过程中捕捉tweet,我们计划在可预见的将来继续收集tweet。

缩写 API

应用程序编程接口

新型冠状病毒肺炎

冠状病毒病

IRB

院校审查委员会

世界卫生组织

作者感谢美国国防高级研究计划局(DARPA)的支持;# w911nf - 17 - c - 0094合同。

EC负责数据管理。所有作者都对这份手稿的撰写做出了贡献。

没有宣布。

泰勒 D 纽约时报 2020 2020-04-10 冠状病毒大流行的时间表 https://www.nytimes.com/article/coronavirus-timeline.html 世界卫生组织 2020 2020-04-10 关于冠状病毒疾病(COVID-19)的滚动更新 https://www.who.int/emergencies/diseases/novel-coronavirus-2019/events-as-they-happen 越南盾 E H 加德纳 l 基于web的交互式仪表板,实时跟踪COVID-19 柳叶刀感染病 2020 05 20. 5 533 534 10.1016 / s1473 - 3099 (20) 30120 - 1 J 史密斯 年代 Khurana认为 Siemaszko C DeJesus-Banos B NBC新闻 2020 2020-05-15 全国范围内的居家命令 https://www.nbcnews.com/health/health-news/here-are-stay-home-orders-across-country-n1168736 疾病控制和预防中心 2020 2020-05-15 社会距离 https://www.cdc.gov/coronavirus/2019-ncov/prevent-getting-sick/social-distancing.html 海登 J Casado l 商业内幕 2020-05-15 以下是因新冠肺炎疫情而取消或推迟的最新重大活动,包括2020年东京奥运会、火人节和第74届托尼奖 https://www.businessinsider.com/major-events-cancelled-or-postponed-due-to-the-coronavirus-2020 查韦斯 N Moshtaghian 一个 美国有线电视新闻网 2020 2020-05-15 48个州已经下令或建议学校不要在本学年重新开学 https://www.cnn.com/2020/04/18/us/schools-closed-coronavirus/index.html 海登 J Casado l Sonnemaker T 商业内幕 2020 2020-05-15 为预防新型冠状病毒,苹果、谷歌和亚马逊等全球最大的公司都限制了旅行或要求员工远程工作。以下是完整的清单 https://www.businessinsider.com/companies-asking-employees-to-work-from-home-due-to-coronavirus-2020 阿巴斯 一个 Eliyana 一个 Ekowati D 沙特 拉扎。 一个 Wardani R 数字时代应对策略的数据集:心理健康和社会资本在爪哇帝汶大学生中的作用,泗水,印度尼西亚 简单的数据 2020 06 30. 105583 10.1016 / j.dib.2020.105583 32368599 s2352 - 3409 (20) 30477 - 7 PMC7184248 费舍尔 年代 AXIOS 2020 2020-05-15 大流行期间社交媒体使用高峰 https://www.axios.com/social-media-overuse-spikes-in-coronavirus-pandemic-764b384d-a0ee-4787-bd19-7e7297f6d6ec.html Lerman K 戈什 R 信息传染:digg和twitter社交网络上新闻传播的实证研究 2010 第四届国际AAAI博客和社交媒体会议 2010 华盛顿特区 华盛顿特区 AAAI出版物 罗梅罗 D 报酬 B jonkleinberg J 跨主题信息传播机制的差异:习语、政治标签、推特上的复杂传染 2011 2011年第20届国际万维网会议 2011 纽约,纽约,美国 纽约,纽约,美国 计算机协会 695 10.1145/1963405.1963503 卡斯蒂略 C 门多萨 Poblete B 推特的信息可信度 2011 2011年第20届国际万维网会议 2011 纽约,纽约,美国 计算机协会 675 684 10.1145/1963405.1963500 费拉拉 E Varol O 戴维斯 C Menczer F Flammini 一个 社交机器人的兴起 Commun ACM 2016 06 24 59 7 96 104 10.1145 / 2818717 H 集成电路 谢霆锋 那种 J C Pechta 史密斯 BJ Marquez-Lameda 理查德·道金斯 Meltzer 心肌梗死 卢贝尔 公里 K 埃博拉信息是如何在twitter上传播的:广播还是病毒传播? BMC公共卫生 2019 04 25 19 1 438 10.1186 / s12889 - 019 - 6747 - 8 31023299 10.1186 / s12889 - 019 - 6747 - 8 PMC6485141 咀嚼 C Eysenbach G 推特时代的流行病:2009年H1N1流感爆发期间推特的内容分析 《公共科学图书馆•综合》 2010 11 29 5 11 e14118 10.1371 / journal.pone.0014118 21124761 PMC2993925 费拉拉 E 推特上的#COVID-19:机器人、阴谋和社交媒体行动主义(arXiv.09531) arXiv.org 2020 公园 HW 公园 年代 推特上的对话和医学新闻框架:韩国COVID-19的信息流行病学研究 J Med Internet Res 2020 05 05 22 5 e18897 10.2196/18897 32325426 v22i5e18897 PMC7202309 Abd-Alrazaq 一个 Alhuwail D Househ 哈姆迪 沙阿 Z COVID-19大流行期间推特用户最关心的问题:信息监测研究 J Med Internet Res 2020 04 21 22 4 e19016 10.2196/19016 32287039 v22i4e19016 PMC7175788 推特 2020-04-10 使用流数据 https://developer.twitter.com/en/docs/tutorials/consuming-streaming-data Tweepy 2020-04-10 https://www.tweepy.org/ 推特 2020-04-10 搜索微博 https://developer.twitter.com/en/docs/tweets/search/api-reference/get-search-tweets 推特 2020 2020-04-10 发展商协议及政策 https://developer.twitter.com/en/developer-terms/agreement-and-policy E Lerman K 费拉拉 E GitHub 2020 2020-05-15 COVID-19-TweetIDs https://github.com/echen102/COVID-19-TweetIDs DocNow GitHub 2020 2020-04-10 保湿液 https://github.com/DocNow/hydrator DocNow GitHub 2020 2020-04-10 Twarc https://github.com/DocNow/twarc E Lerman K 费拉拉 E COVID-19 TweetIDs 哈佛Dataverse 2020 10.7910 /天地数码(控股)机顶盒/ DKOVLA 推特 2020 2020-04-10 开发人员 https://developer.twitter.com/en Secon H 伍德沃德 一个 莫舍 D 商业内幕 2020 2020-04-10 新的冠状病毒大流行的综合时间表,从中国的第一个COVID-19病例到现在 https://www.businessinsider.com/coronavirus-pandemic-timeline-history-major-events-2020-3 Muccari R 周润发 D NBC新闻 2020 2020-04-10 冠状病毒时间表:追踪COVID-19的关键时刻 https://www.nbcnews.com/health/health-news/coronavirus-timeline-tracking-critical-moments-covid-19-n1154341 CNN编辑研究 美国有线电视新闻网 2020 2020-04-10 冠状病毒爆发时间表快速事实 https://www.cnn.com/2020/02/06/health/wuhan-coronavirus-timeline-fast-facts/index.html Helsel P 山本 一个 NBC新闻 2020-04-10 在日本被隔离的游轮上确诊10例冠状病毒病例 https://www.nbcnews.com/news/world/10-coronavirus-cases-confirmed-cruise-ship-quarantined-japan-n1130296 麦肯 一个 波波维奇 N J 纽约时报 2020 2020-04-10 意大利对病毒的封锁来得太晚了。现在该怎么办? https://www.nytimes.com/interactive/2020/04/05/world/europe/italy-coronavirus-lockdown-reopen.html J 乔治 年代 Kottasova 美国有线电视新闻网 2020 2020-04-10 2月1日冠状病毒新闻 https://www.cnn.com/asia/live-news/coronavirus-outbreak-02-01-20-intl-hnk/h_afcf3a4665521aab11c721c8cc80dd03 艾伦 N 海因里希 路透 2020 2020-04-10 西班牙瓦伦西亚报告首例冠状病毒死亡病例 https://www.reuters.com/article/us-health-coronavirus-spain-death/spain-confirms-countrys-first-death-from-coronavirus-health-official-idUSKBN20Q2TG 推特 2020 2020-04-10 关于验证账户 https://help.twitter.com/en/managing-your-account/about-twitter-verified-accounts Morstatter F J H Carley K 样品够好吗?比较Twitter的流媒体API和Twitter的Firehose的数据 arXiv.org 2013
Baidu
map