JMIR公共卫生和监测-社交媒体上的COVID-19疫苗犹豫:建立反疫苗内容，疫苗错误信息和阴谋的公共Twitter数据集

原始论文

¹南加州大学信息科学研究所，马里纳德尔雷伊，加利福尼亚州，美国

²南加州大学计算机科学系，美国加州洛杉矶

^3.南加州大学安嫩伯格传播与新闻学院，洛杉矶，加州，美国

这些作者的贡献相同

通讯作者:

戈兰·穆瑞克博士

信息科学研究所

南加州大学

金钟路4676号

1001套房

玛丽娜德尔雷伊，加利福尼亚州，90292

美国

电话:1 213 740 2467

电子邮件:gmuric@isi.edu

背景:关于COVID-19疫苗的虚假声明可能会破坏公众对正在进行的疫苗接种运动的信任，对全球公共卫生构成威胁。自新冠肺炎大流行开始以来，各种来源的错误信息一直在网络上传播。反疫苗活动人士也开始利用Twitter等平台宣传他们的观点。要通过社交媒体的视角正确理解疫苗犹豫现象，收集相关数据至关重要。

摘要目的:在本文中，我们描述了一组公开表现出强烈反疫苗立场的Twitter帖子和Twitter账户的数据集。该数据集通过我们的AvaxTweets数据集GitHub存储库提供给研究社区。我们根据突出的标签、共享的新闻来源以及最有可能的政治倾向来描述收集到的账户。

方法:我们于2020年10月18日开始持续收集数据，利用Twitter流媒体应用程序编程接口(API)跟踪一组特定的抗疫苗相关关键词。然后，我们利用学术跟踪推特API，收集了2020年10月至2020年12月期间传播反疫苗叙事的一组账户的历史推文。这些账户的政治倾向是通过衡量它们所分享的媒体的政治偏见来估计的。

结果:我们收集了两个精心策划的Twitter数据集，并将它们公开提供:(1)一个以关键字为中心的流数据集，其中包含超过180万条推文;(2)一个历史账户级数据集，其中包含超过1.35亿条推文。参与反疫苗叙事的报道倾向于政治光谱的右翼(保守)方向。对疫苗的犹豫是由来自已经存在可信度问题的网站的错误信息所推动的。

结论:社交媒体上与疫苗相关的错误信息可能会加剧疫苗犹豫的程度，阻碍疫苗诱导的群体免疫的进展，并可能增加与新的COVID-19变体相关的感染数量。出于这些原因，通过社交媒体了解疫苗犹豫至关重要。由于数据访问是实现这一目标的第一个障碍，我们发布了一个数据集，可用于研究社交媒体上的抗疫苗错误信息，并能够更好地理解疫苗犹豫。

中华医学会公共卫生监测杂志2021;7(11):e30642

doi: 10.2196/30642

关键字

疫苗犹豫； COVID-19疫苗；数据集；新型冠状病毒肺炎； SARS-CoV-2；社交媒体；网络分析；犹豫；疫苗；推特；错误信息；阴谋；信任；公共卫生；利用

对疫苗接种的反对可以追溯到19世纪，就在英国医生爱德华·詹纳(Edward Jenner)发明了人类历史上第一种疫苗之后。反对接种疫苗的声音非常响亮，在社会各个阶层都可以找到:宗教团体抗议在人类身上使用动物感染是不自然的，父母们担心这一程序的侵入性，接种疫苗的人经常被画上一个牛头从他们的脖子上长出来。1]。尽管疫苗接种是预防白喉、破伤风、百日咳、流感和麻疹等疾病的有效方法，但仍有近五分之一的儿童没有接受常规的挽救生命的免疫接种，估计每年仍有150万儿童死于可通过现有疫苗预防的疾病[2]。这些死亡不仅是由于客观原因造成的，例如由于贫穷而无法获得疫苗，而且还由于这些儿童的父母不愿意和害怕接种疫苗。"疫苗犹豫"一词是指尽管有疫苗服务，但仍延迟接受或拒绝接种疫苗。[3.]。疫苗犹豫已成为成人延迟和拒绝接种疫苗的一个因素。一个常见的例子是每年季节性流感疫苗。据观察，对流感疫苗的一般和特异性更大的犹豫与较低的疫苗吸收率有关[4，5]。多种因素导致对疫苗的犹豫，包括安全问题、宗教原因、个人信仰、哲学原因和对进一步教育的渴望[6]。在2019冠状病毒病大流行期间，尽管大规模人群接种日益重要，但反疫苗言论正在迅速传播，危及公共卫生、人类生命和社会秩序。

随着社交媒体的兴起，信息的传播(因此也可能是错误信息)变得比以往任何时候都容易。不出所料，反疫苗活动人士也开始利用Twitter等平台分享他们的观点。结果，他们的行动主义扩大了其管辖范围，包括网络宣传。与传统的传播渠道相比，社交媒体为反疫苗信息的传播提供了前所未有的机会，并使社区围绕反疫苗情绪形成[7]。社交媒体可以放大反疫苗接种错误信息的影响;多项研究表明，对错误信息的易感性与疫苗犹豫和遵守卫生指导措施的可能性降低之间存在联系[7-10]。基于这些发现，社交媒体上与疫苗相关的错误信息可能会加剧疫苗犹豫的程度，在美国和全球造成疫苗接种率低的地区;这可能会阻碍疫苗诱导的群体免疫的进展，并可能增加与新的COVID-19变体相关的感染数量，可能导致疫苗抗性突变。出于这些原因，通过社交媒体了解疫苗犹豫至关重要。由于数据访问是实现这一目标的第一个障碍，为了使研究界能够开展工作，我们建立并公开了一个反疫苗内容、疫苗错误信息和相关阴谋的社交媒体数据集。尽管研究人员一直在收集与COVID-19疫苗相关的数据[11据我们所知，目前还没有专门针对Twitter上反疫苗账号历史活动的公开数据集。

在这里，我们提供了一个数据集，重点关注Twitter上的反疫苗叙述。数据集由两个互补的集合组成:(1)流集合包含使用Twitter Streaming应用程序编程接口(API)从一组抗疫苗关键字中收集的tweet，以及(2)账户集合包含大约7万个参与传播反疫苗叙事的账户的历史推文。此外，我们对数据进行了初步的统计分析，包括标签的频率、新闻来源的分析、账户最可能的政治倾向和地理分布。

发布的数据集包括符合Twitter服务条款的公开可用帖子的tweet id [12]。该集合建立在DeVerna等人先前发布的数据集基础上[11]，它侧重于一般疫苗叙述，它补充了Chen等人先前的工作[13]和Lamsal [14]，她发布了迄今为止与COVID-19相关的一些最大的Twitter数据集。完整的数据集以tweet id列表的形式在GitHub上公开提供[15]。

流收集的跟踪关键字

为了创建一组表明反对疫苗的关键字，我们使用了类似于DeVerna等人的滚雪球抽样技术[11]。我们从一组人工整理的关键字开始，这些关键字专门用于Twitter上出现的强烈的疫苗犹豫，例如# vaccineskill或# vaccinedamage．使用Twitter Streaming API和种子关键字集，我们收集了一天(2020年10月18日)的数据，之后我们提取了与种子关键字同时出现的其他关键字。我们将新收集的关键字添加到种子关键字列表中，手动检查它们的相关性。然后我们重复这个步骤几次，直到我们耗尽了所有重要的共同出现，并将我们的选择缩小到大约60个关键词。可以使用较长的关键字的子字符串查询Twitter API，它将返回包含该子字符串的tweet。例如，关键字novaccine将返回包含novaccineforme．我们试图只保留信息量最大和最相关的词干词，以捕获大多数与疫苗相关的推文，并避免收集不太相关的推文。中列出了用于收集流集合的所有关键字的列表表1．

表1。用于收集流集合中的tweet的关键字集。

关键字	跟踪开始的日期
abolishbigpharma	12/30/2020
反对疫苗接种的	12/30/2020
ArrestBillGates	10/19/2020
betweenmeandmydoctor	12/30/2020
bigpharmafia	10/19/2020
bigpharmakills	12/30/2020
BillGatesBioTerrorist	10/19/2020
billgatesevil	12/30/2020
BillGatesIsEvil	10/19/2020
billgatesisnotadoctor	12/23/2020
billgatesvaccine	12/14/2020
cdcfraud	10/19/2020
cdctruth	10/19/2020
cdcwhistleblower	10/19/2020
covidvaccineispoison	12/23/2020
人口减少	10/19/2020
DoctorsSpeakUp	10/19/2020
educateb4uvax	10/19/2020
exposebillgates	12/30/2020
forcedvaccines	12/30/2020
Fuckvaccines	10/19/2020
idonotconsent	12/30/2020
informedconsent	12/14/2020
learntherisk	10/19/2020
medicalfreedom	12/30/2020
medicalfreedomofchoice	12/30/2020
momsofunvaccinatedchildren	12/30/2020
mybodymychoice	12/30/2020
noforcedflushots	12/30/2020
NoForcedVaccines	10/19/2020
notomandatoryvaccines	12/30/2020
NoVaccine	10/19/2020
NoVaccineForMe	10/19/2020
novaccinemandates	12/30/2020
parentalrights	12/30/2020
parentsoverpharma	12/30/2020
saynotovaccines	12/30/2020
stopmandatoryvaccination	10/19/2020
syringeslaughter	12/30/2020
未接种疫苗	12/30/2020
v4vglobaldemo	12/30/2020
vaccinationchoice	12/30/2020
VaccineAgenda	10/19/2020
vaccinedamage	10/19/2020
vaccinefailure	10/19/2020
vaccinefraud	10/19/2020
vaccineharm	10/19/2020
vaccineinjuries	12/30/2020
vaccineinjury	10/19/2020
VaccinesAreNotTheAnswer	10/19/2020
vaccinesarepoison	10/19/2020
vaccinescause	10/19/2020
vaccineskill	10/19/2020
vax	11/02/2020
yeht	11/02/2020

收集推文用于帐户收集

首先，我们确定了一组随机抽样的大约7万个账户，这些账户出现在流媒体收集中，并在2020年10月至12月期间通过发布一些跟踪关键字或转发包含一些跟踪关键字的推文来进行反疫苗言论。然后，对于这些帐户，我们使用Twitter API收集它们的历史推文。通过利用Twitter的学术研究产品轨道，我们能够访问完整的存档搜索，并克服了标准API的3200条历史tweet的限制。通过这种方式，我们收集了查询次数最多的账户的几乎所有历史推文。

我们的收集依赖于根据Twitter开发者协议和政策下的内容再分发条款提供的公开数据[12]。我们发布数据集的前提是，使用它的人必须遵守Twitter的条款和条件。完整的数据集在GitHub存储库上公开可用，并且可以在web上访问[15]。

计算账目的政治倾向

我们通过衡量每个账户所分享的媒体的政治偏见来计算每个账户的政治倾向。我们使用先前工作中提出的方法[16-18我们确定了90家知名媒体和账户出现在Twitter上。根据无党派服务机构AllSides提供的评级，这些媒体及其相关的Twitter账户都被划分为政治派别(左、偏左、中、偏右、右)。19]。对于数据集中的每个帐户，我们维护了所有转发和原始tweet的记录，其中包含与所选媒体机构相关的域名。每个账户的政治偏见是根据其分享内容的所有媒体的平均政治偏见来计算的。

识别低可信度和高可信度的媒体来源

我们利用urllibPython URL处理模块，用于解析在数据集中找到的URL。每个URL被分解成几个组件，包括寻址方案、网络位置和路径。第三方数据集包含与分享错误信息的网站相关的域名，被用作标记域名的基本事实[20.]。对于不在数据集中的url，我们查询了媒体偏见/事实核查网站[21]以作进一步鉴定。因为像Bitly [22]在Twitter上被广泛使用，短网址频繁出现。我们使用urlExpander［23]来扩展缩短的url并在可能的情况下检索完整的url。Twitter、Facebook、Instagram、Periscope、YouTube等热门新闻聚合网站和社交网络的域名在分析中被忽略。

生成地理位置分布图

为了推断推文的地理位置，我们使用了该账户自我报告的位置信息，并将其与美国相应的州相匹配。为了计算每个人口的平均活动水平，推文的绝对数量由该州2010年人口普查报告的人口归一化如下:I =N_我/P_我× 1,000,000，其中N_我发推的数量是否在状态中我和P_我是该州2010年的人口。这种规范化提供了关于每百万居民收集的推文的平均数量的信息。请注意，我们没有为帐户集合生成地理位置地图，因为它包含相对较少的具有自我报告位置的帐户。

话题网络分析

构建主题网络，分析流数据集中标签的共现性。图中的每个节点代表一个标签，如果同一条推文中出现两个标签，则添加一条边。节点大小与其中心性程度成正比，边缘权值为两个标签同时出现的次数。为了更好的可视化，邻居少于25个的节点被忽略。为了研究网络的社区结构，我们使用了Louvain算法[24]，这为反疫苗主题之间的联系提供了进一步的见解。

这项研究的主要贡献是我们公开提供的数据集。在撰写本文(2021年5月)时，我们已经收集了超过1.37亿条推文，分为两个集合。流式收集使用中的抗疫苗关键字集进行表1．另一方面，帐户收集包含易于传播反疫苗叙述的帐户的历史活动;因此，与流收集相比，它是一个大得多的数据集。两个数据集的基本统计数据见表2．数据集可在GitHub [15并根据Twitter的条款和条件发布。我们无法提供推文的全文;因此，我们发布了Tweet id，这是与特定Tweet绑定的唯一标识符。研究人员可以通过查询Twitter API检索全文和相关元数据。由于流数据收集仍在进行中，因此下面显示的统计数据在数据集的未来版本中可能会有所不同。在下面的部分中，我们将分别描述流收集和帐户收集。

表2。在流收集和帐户收集中收集的tweet的基本统计信息。

	流集合	账户集合
微博,	1832333年	135949773年
账户,n	719652年	78954年
每个帐户的平均tweet数	2．5	1721.8
验证帐户，n	9032	239
带有位置的帐户，n	5661	363
最老推文日期	10/19/2020	3/6/2007
最近推文的日期	4/21/2021	2/2/2021

流集合

该流媒体集合由71.9万个独立账户在2020年10月18日至2021年4月21日期间创建的180万条推文组成。如图所示图1，流媒体集合中相关推文的数量从开始日期开始逐渐增加。颤振相对稳定，有小的尖峰，通常不与有关疫苗研究或疫苗授权的重大公告相对应。我们对此感到惊讶，因为这条新闻通常会在推特上引发讨论。此外，我们观察到2020年11月底附近的活动大幅增加，这不是由任何单一事件引起的，而是由少数账户的活动增加引起的。

绝大多数推文来自以英语人口为主的国家。在流媒体收集的1,832,333条推文中，有1,245,986条(68%)来自美国，229,041条(12.5%)来自英国，100,778条(5.5%)来自加拿大，21,987条(1.2%)来自爱尔兰，20,155条(1.1%)来自澳大利亚;其余的推文来自其他国家。在图2，我们展示了推文在美国的地理分布。不出所料，加利福尼亚、德克萨斯、佛罗里达和纽约等人口众多的州，推特的绝对数量更多(图2,最高)。按州人口归一化的tweet数量如图所示图2(下图)，人均推文最多的分别来自夏威夷、阿拉斯加和缅因州。

图2。来自美国流媒体集合的推文的地理分布。推文的位置是从该账户自我报告的位置推断出来的。Top:每个州tweet的绝对数量;底部:按州人口标准化的tweet数。

表3列出了流媒体收藏中推特次数最多的15个标签。count列表示某个hashtag出现的总次数，proportion列量化包含特定hashtag的tweet占所有带有任何hashtag的tweet的比例。请注意，许多tweet不包含hashtag，而许多带有hashtag的tweet包含多个hashtag。除了我们期望找到的最常见的一般标签，比如#疫苗和# covid19，我们观察到带有强烈反疫苗情绪的标签比例很高，例如# novaccineforme，# vax和# vaccineinjury．例如,# novaccineforme可以在超过25,000条推文中找到，占流媒体集合中包含任何标签的所有推文的6.6%。一大批常见的话题标签与一些被揭穿的阴谋论有关，这些阴谋论声称，富人在全球密谋减少世界人口，通常通过诸如“#灭绝，# billgatesbioterrorist和# arrestbillgates．另一组非常频繁的标签从表面上看是良性的。标签，比如# learntherisk和# informedconsent似乎传达了对疫苗安全性的真正担忧;然而，这些标签通常是诱饵，经常被强烈反对接种疫苗的同一账户使用，否则经常使用更明确的反疫苗标签。

表3。流数据集中的前15个标签。计数是一个标签出现的总次数，比例量化了包含特定标签的推文占所有带有标签的推文的比例。

标签	数n	比例(%)
疫苗	41069年	10.66
疫苗	33050年	8.58
covid19	26616年	6.91
novaccineforme	25642年	6.66
learntherisk	23340年	6.06
billgatesbioterrorist	20197年	5.24
研究	20166年	5.23
novaccine	19410年	5.04
mybodymychoice	19166年	4.97
informedconsent	16578年	4.30
人口减少	15021年	3.90
vax	12691年	3.29
vaccineinjury	12640年	3.28
疫苗接种	10873年	2.82
arrestbillgates	9991	2.59

账户集合

帐户收集不同于流收集，因为它专注于一组帐户的历史tweet。收集历史推文的过程在方法部分。目前的账户集合包括超过78000个独立账户发布的1.35亿条推文，时间跨度从2007年3月3日到2021年2月8日。在图3，我们将从该数据收集中说明一些最重要的统计数据。左边的面板图3显示每个帐户tweet数量的分布。在78,954个账户中，39,350个(49.8%)账户发布的推文少于1500条，31,581个(40%)账户发布的推文超过2000条，1184个(1.5%)账户发布的推文超过5000条。右边的面板图3显示随时间变化的tweet数量。大多数推文都来自2020年，最古老的推文可以追溯到2007年。在78954个账户中，有55267个(70%)账户收集到的最古老的推文可以追溯到2020年。有相当一部分账户的历史推文日期要早得多;78,954个账户中，有14,211个(18%)账户最早的推文日期在2018年之前，5368个(6.8%)账户最早的推文日期在2014年之前。这种相对较长时间跨度的账户级历史推文收集可能允许对Twitter上几年来疫苗犹豫发展的全面时间分析。

图3。帐户集合中的tweet。左:每个帐户的推文分布;右:随着时间的推移，tweet的分布。

帐户集合中出现的15个最常见的标签显示在表4．除了常见的新冠肺炎相关话题外，我们还看到许多涉及美国政治的话题。在美国2020年总统大选和政治竞选期间，我们收集的账户特别活跃。因此，我们可以看到，数据中许多具有政治动机的叙述都是在那个时期产生的。

表4。帐户集合中的前15个标签。计数是一个标签出现的总次数，比例量化了包含特定标签的推文占所有带有标签的推文的比例。

标签	数	比例(%)
covid19	474481年	2.55
endsars	203297年	1．09
米加	164332年	0.88
冠状病毒	158574年	0.85
特朗普	156262年	0.84
stopthesteal	121069年	0.65
trump2020	115002年	0.62
打破	111274年	0.60
obamagate	110046年	0.59
covid	106095年	0.57
中国	98026年	0.53
oann	96943年	0.52
antifa	79157年	0.43
拜登	77728年	0.42
fakenews	66599年	0.36

流媒体集合中的新闻来源

对疫苗的犹豫通常是由可信度可疑的网站上的错误信息引起的。在图4，我们列出了可以在流集合中找到的前10个url，并说明了每个url出现的次数。这些网站绝大多数都可以在Iffy+低可信度网站数据库中找到[20.]。最常见的信息来源之一是美国反疫苗组织“了解风险”的网站;它以反对接种疫苗的运动而闻名，这些运动声称疫苗是造成大量幼儿死亡的原因。紧随其后的是宣传伪科学的知名新闻信息网站“疫苗影响”(Vaccine Impact);这个网站经常分享反疫苗宣传和推广替代医学，整体主义和替代营养。唯一一个可信度高的网站是PubMed母公司国家生物技术信息中心(NCBI)的网站。

帐户集合中的新闻来源

在图5，我们列出了可以在帐户集合中找到的前10个url，并说明了每个url出现的次数。图5可见，不少极右新闻媒体网站频繁出现在账号收集中。门户专家[25以发布谎言、骗局和阴谋论而闻名的网站，出现了40多万次。其他极右翼媒体，如布莱巴特新闻[2627，也经常出现。考虑到通常属于主流新闻媒体网站的来源，如Fox news [28]和纽约邮报［29]，阴谋传播者有选择地引用这些来源的报道，以增加往往是虚假声明的可信度。

反疫苗帐户的政治倾向

在图6，我们展示了账户的政治倾向分布。一个账户的政治倾向是根据它的媒体习惯来估计的方法部分)。x轴代表该账户的政治倾向，可以取“极左”和“极右”之间的任意值。y轴是具有相应政治倾向的规范化账户数量。参与反疫苗叙事的账户的政治倾向用橙色表示。我们观察到双峰分布，右峰明显更高。蓝条表示随机Twitter账户的政治倾向分布。随机Twitter账户是Chen等人先前发布的与美国2020年总统大选相关的Twitter数据集中的约6000个账户的随机样本[30.]。之前的研究表明，Twitter用户平均年龄更小，比普通公众更有可能投票给民主党。31，32]。这些结果并不令人惊讶，因为它们与早期的研究一致，表明政治倾向是美国疫苗犹豫的有力预测因素[33，34]。

图6。基于政治倾向和对疫苗接种态度的Twitter账户分布。每个账户的政治倾向都是根据其媒体饮食计算出来的。Anti-vax:反疫苗。

串流收集中的反疫苗叙述簇

为了进一步了解所提供的数据集，我们通过确定通常同时发生的抗疫苗主题来探索抗疫苗叙述的集群。我们在主题共现网络上运行Louvain社区检测算法，如方法部分。主题网络在图7．我们确定了三个不同的群体;它们都包含抗疫苗关键词，但重点不同。最大的主题社区(紫色)关注的是被揭穿的阴谋论，即疫苗是富人减少世界人口的阴谋。第二个主题社区(橙色)主要关注疫苗安全性，如标签# doctorsspeakup，# vaccinesafety,# vaccineinjury经常出现。最小的主题社区，用绿色表示，包含了各种标签的混合物，从强烈反疫苗，比如# informedconsent，# learntherisk,# vax，变成了一些中性的话题标签，比如#疫苗到一些关于provvaccine的话题标签，比如# vaccineswork．

图7。数据集中突出的标签概述，分为3个社区。节点是标签，链接是在同一条推文中同时出现的两个标签之间绘制的。采用Louvain算法进行聚类。为了便于阅读，我们没有显示所有的节点标签。

主要研究结果

在本文中，我们提出了一个全面的数据集，包括与反疫苗接种叙述相关的推文，组织在流媒体和帐户集合中。我们以几种方式对数据进行了表征，包括突出关键词的频率、新闻来源、账户的地理位置和账户的政治倾向。流媒体集合由tweet的随机样本组成，这些tweet包含任何促进强烈反疫苗接种情绪的特定关键词。这是一种常用的方法，用于收集关于疫苗接种犹豫和其他类似主题的Twitter数据[35-42]。学者们很好地理解了这一点，并且经常用来提供关于特定时期特定主题的网络讨论的有用见解。帐户收集使用了一种相对较新的收集Twitter数据的方法，即从一组跟踪的帐户中查询历史活动。在Twitter引入学术研究产品跟踪API之后，这个集合成为可能。通过这种方式，通过收集大量的历史推文，研究人员可以描述个人账户，而不是平均人群。这组数据对于那些对倾向于传播反疫苗叙事的Twitter用户的人口统计学和心理特征感兴趣的科学家来说是有用的。

用户在流媒体合集中分享的新闻来源主要是可信度较低的网站。然而，分享最多的网址是NCBI的网站[25]，它是美国国家医学图书馆的一部分，是美国国立卫生研究院的一个分支。NCBI拥有最大的生物医学文献书目数据库PubMed。这一发现可能会造成一种错误的印象，即来自流媒体集合的推文包含来自合法科学来源的信息。当我们检查这些论文被分享的背景时，我们发现大多数来自PubMed的论文都被引用了错误和误导性的结论。有时，反疫苗倡导者会分享合法的科学论文，记录疫苗的罕见副作用，同时过分强调观察到的副作用，并呼吁抵制疫苗。在推特上分享科学研究提供了一种可信度的错觉。精心挑选合适的句子，并依赖于大多数读者不会努力去细读一篇科学论文的事实，这是一种非常有效的操纵策略。

了解分享反疫苗叙述的用户的政治派别通常是有价值的。了解用户的政治立场有助于确定他们最有可能的道德价值观和对特定社会问题的可能立场。这些知识可用于设计适当的未来消息传递和活动。我们能够识别这些账户的政治派别，因为每个账户都有足够的推文。分享与疫苗有关的常见错误信息的账户通常会分享其他阴谋叙事，通常是带有政治色彩的。易受这种叙述影响的人群强烈倾向于保守[18];因此，我们预计在账户催收中会有大量的账户右倾。

限制

尽管这些数据集概述了Twitter上对疫苗的犹豫，但潜在的局限性值得考虑。首先，流集合依赖于一组定义好的关键字。随着COVID-19大流行的展开，反疫苗术语也在不断演变。尽管我们已尽最大努力寻找最具代表性的关键词，但它们可能无法完全涵盖所有抗疫苗主题。我们使用的这组关键词是为了捕捉最强烈的反疫苗情绪而设计的，可能忽略了疫苗犹豫的多方面本质中的各种细微差别。其次，这个数据集不应该被用来为一般人群得出结论，因为Twitter用户群体比一般公众更年轻，更参与政治[31];这意味着我们的数据可能在各个方面存在偏差。此外，用于收集的关键字来自英语词汇，这使得推文的地理分布高度偏向世界上讲英语的地区。最后，为了防止误导性COVID-19信息的传播，推特制定了具体的规则和政策。违反这些规定和政策的账户可能会被推特封禁，无法访问他们的推文。在撰写本文时，我们估计超过40%的流媒体收集账户和30%的账户收集账户已被禁止或删除。随着流数据集的每次更新，我们预计这个比例会发生变化。

结论

除了实时跟踪推文的流媒体收集之外，本研究最重要的贡献可能是账户收集，这是一个由积极分享反疫苗叙述的用户样本中几乎所有历史推文组成的数据集。该数据集可用于进一步了解参与反疫苗宣传的账户。我们发表这篇论文和数据集的目的是为研究人员提供资产，以便进一步探索围绕疫苗犹豫的问题，并通过社交媒体的视角进行研究。这里收集和提供的数据集可能对有兴趣追踪与抗疫苗叙述有关的帐户的纵向特征的研究人员有用。它有助于更好地了解疫苗犹豫的社会经济、政治和文化决定因素。

使用笔记

数据集的发布符合Twitter条款和条件以及开发者协议和政策[12]。希望使用此数据集的研究人员必须同意遵守相关许可中的规定，并遵守Twitter的政策和法规。

数据可用性

数据可在GitHub [15]。

致谢

作者感谢美国国防高级研究计划局(DARPA)的支持，合同编号为W911NF-17-C-0094。作者感谢安嫩伯格基金会的支持。

作者的贡献

所有作者都构思和设计了这项研究。GM和YW收集并分析数据。所有作者都撰写并修改了手稿。

利益冲突

没有宣布。

Jacobson RM, St Sauver JL, Finney Rutten LJ。疫苗踌躇。《中国临床杂志》2015年11月;90(11):1562-1568。［CrossRef] [Medline]
疫苗犹豫:免疫规划面临的日益严峻的挑战。世界卫生组织，2015。URL:https://www.who.int/news/item/18-08-2015-vaccine-hesitancy-a-growing-challenge-for-immunization-programmes[2021-11-02]访问
Butler R, MacDonald NE, SAGE疫苗犹豫问题工作组。诊断特定亚群中疫苗犹豫的决定因素:定制免疫规划指南(TIP)。疫苗2015 8月14日;33(34):4176-4179 [j]免费全文] [CrossRef] [Medline]
奎因S, Jamison A, Freimuth V, An J, Hancock G, Musa D.种族对流感疫苗接种态度和行为的影响:一项针对美国白人和非洲裔成年人的全国性调查结果。疫苗2017 Feb 22;35(8):1167-1174 [j]免费全文] [CrossRef] [Medline]
Quinn S, Jamison A, An J, Hancock G, Freimuth V.测量疫苗犹豫，信心，信任和流感疫苗接种:一项针对白人和非裔美国成年人的全国调查结果。2019年2月21日;37(9):1168-1173 [j]免费全文] [CrossRef] [Medline]
McKee C, Bohannon K.探讨父母拒绝接种疫苗的原因。儿科药学杂志，2016;21(2):104-109 [J]免费全文] [CrossRef] [Medline]
疫苗错误信息和社交媒体。柳叶刀数字健康2019 Oct;1(6):e258-e259 [j]免费全文] [CrossRef]
Broniatowski D, Jamison A, Qi S, AlKulaib L, Chen T, Benton A，等。武器化的健康传播:推特机器人和俄罗斯喷子放大了疫苗辩论。中华卫生杂志;2018;38 (10):1378-1384 [J]免费全文] [CrossRef]
罗森贝克，施耐德C, Dryhurst S, Kerr J, Freeman A, Recchia G，等。世界各地对COVID-19错误信息的易感性。社会科学进展，2020;7(10):20199 [j]免费全文] [CrossRef] [Medline]
刘国强，Velásquez N, Restrepo N, Leahy R, Gabriel N, El Oud S，等。支持和反对接种疫苗的观点之间的在线竞争。自然科学学报;2010;33 (6):391 - 391 [j]免费全文] [CrossRef] [Medline]
DeVerna M, Pierri F, Truong B, Bollenbacher J, Axelrod D, Loynes N，等。CoVaxxy:关于COVID-19疫苗的全球英语推特帖子集合。出来了。
开发商协议和政策2021。Twitter开发者平台。预印本发布于2021年1月19日。URL:https://developer.twitter.com/en/developer-terms/agreement-and-policy[2021-09-01]访问
Chen E, Lerman K, Ferrara E.追踪社交媒体关于COVID-19大流行的话语:开发公共冠状病毒Twitter数据集。JMIR公共卫生监测2020年5月29日;6(2):e19273 [j]免费全文] [CrossRef] [Medline]
冠状病毒(COVID-19)推文数据集。IEEE数据接口。2020。URL:https://doi.org/10.21227/781w-ef42[2021-11-02]访问
Muric G, Wu Y, Ferrara E. AvaxTweets数据集。GitHub。URL:https://github.com/gmuric/avax-tweets-dataset[2021-05-17]访问
2016年美国总统大选期间推特上假新闻的影响。生态学报，2019,01 (1):7 [j]免费全文] [CrossRef] [Medline]
Badawy A, Lerman K, Ferrara E.谁会爱上网络政治操纵?2019年5月提交于:WWW '19:网络会议;2019年5月13日至17日;旧金山，CA第162-168页。［CrossRef]
ferara E, Chang H, Chen E, Muric G, Patel J.社交媒体在2020年美国总统大选中的操纵特征。2020年10月19日星期一[免费全文] [CrossRef]
AllSides。URL:https://www.allsides.com/unbiased-balanced-news[2021-05-17]访问
Iffy+ mis/disinfo网站。不确定的。URL:https://iffy.news/iffy-plus/[2021-05-17]访问
媒体偏见/事实核查。URL:https://mediabiasfactcheck.com/[2021-05-17]访问
网址缩短服务。Bitly的。URL:https://bitly.com/[2021-05-17]访问
尹玲，Brown M. SMAPPNYU/urlExpander:首次发布2018。Zenodo。URL:https://doi.org/10.5281/zenodo.1345144[2021-11-02]访问
Blondel V, Guillaume J, lambitte R, Lefebvre E.大型网络社区的快速展开。统计机械学报;2008 Oct 09;2008(10):P10008 [J]免费全文] [CrossRef]
门户专家。URL:https://www.thegatewaypundit.com/[2021-05-23]访问
布莱巴特新闻网。URL:https://www.breitbart.com/[2021-05-23]访问
URL:[2021-05-23]访问
福克斯新闻。URL:https://www.foxnews.com/[2021-05-23]访问
纽约邮报。URL:https://nypost.com/[2021-05-23]访问
Chen E, Deb A, Ferrara E. #Election2020:关于2020年美国总统大选的第一个公开Twitter数据集。[J]计算机工程学报，2016,21 (4):559 - 559 [J]免费全文] [CrossRef] [Medline]
沃西克S，休斯A.评估Twitter用户。皮尤研究中心2019年4月24日发布。URL:https://www.pewresearch.org/internet/2019/04/24/sizing-up-twitter-users/[2021-05-22]访问
Eady G, Nagler J, Guess A, Zilinsky J, Tucker J，有多少人生活在社交媒体上的政治泡沫中?来自相关调查和Twitter数据的证据。SAGE Open 2019 Feb 28;9(1):215824401983270 [免费全文] [CrossRef]
Fridman A, Gershon R, Gneezy A. COVID-19和疫苗犹豫:一项纵向研究。科学通报，2011;16(4):825 - 825 [j]免费全文] [CrossRef] [Medline]
接种COVID-19疫苗意向的预测因素:一项全国性调查的结果。疫苗2021 Feb 12;39(7):1080-1086 [j]免费全文] [CrossRef] [Medline]
Guntuku S, Sherman G, Stokes D, Agarwal A, Seltzer E, Merchant R.追踪COVID-19期间推特上的心理健康和症状提及情况。中华临床医学杂志(英文版);2009;35:17 - 17 [J]免费全文] [CrossRef]
Elhadad M, Li K, Gebali F. COVID-19- fakes:用于检测COVID-19误导性信息的Twitter(阿拉伯语/英语)数据集。正确:《国际贸易条例2020》。智能系统和计算的进展，第1263卷。第12届智能网络与协同系统国际会议(INCoS-2020);2020年8月31日至9月2日;维多利亚,BC。［CrossRef]
Gargiulo F, Cafiero F, Guille-Escuret P, Seror V, Ward J.疫苗捍卫者和批评者在法语推特上辩论的不对称参与。科学通报2020;10(1):6599 [j]免费全文] [CrossRef] [Medline]
Shapiro G, Surian D, Dunn A, Perry R, Kelaher M.比较Twitter上对人乳头瘤病毒疫苗的关注:澳大利亚、加拿大和英国用户的横断面研究。BMJ Open 2017 Oct 05;7(10):e016869 [j]免费全文] [CrossRef] [Medline]
Surian D, Nguyen D, Kennedy G, Johnson M, Coiera E, Dunn A.使用主题建模和社区检测表征HPV疫苗的Twitter讨论。医学互联网研究，2016年8月29日;18(8):e232 [J]免费全文] [CrossRef] [Medline]
杨建军，杨建军，杨建军，杨建军，等。推特上儿童反疫苗和支持疫苗群体的研究进展。在线Soc网媒2020年11月;20:100 - 105 [j]免费全文] [CrossRef]
Gunaratne K, Coomes E, Haghbayan H. Twitter上反疫苗话语的时间趋势。疫苗2019 Aug 14;37(35):4867-4871 [j]免费全文] [CrossRef] [Medline]
Tomeny T, Vargo C, El-Toukhy S. Twitter上与自闭症相关的反疫苗信念的地理和人口相关性，2009-15。中国生物医学工程学报(英文版);2017;31 (1):391 - 391 [j]免费全文] [CrossRef] [Medline]

‎

API:应用程序编程接口

美国国防部高级研究计划局:国防高级研究计划局

NCBI:国家生物技术信息中心

桑切斯编辑;提交23.05.21;DeVerna, A Ramachandran, M Das, U Sakar的同行评议;对作者05.08.21的评论;收到修订版本26.08.21;接受12.10.21;发表17.11.21

这是一篇根据知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR公共卫生与监测上，并适当引用。必须包括完整的书目信息，到https://publichealth.www.mybigtv.com上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

社交媒体上的COVID-19疫苗犹豫:建立反疫苗内容，疫苗错误信息和阴谋的公共Twitter数据集