JMIR形成性研究-使用Twitter数据监测妊娠期COVID-19疫苗安全性:队列识别的概念验证研究

短论文

美国宾夕法尼亚州费城宾夕法尼亚大学佩雷尔曼医学院生物统计、流行病学和信息学系

通讯作者:

阿里·Z·克莱因博士

生物统计、流行病学和信息学学系

佩雷尔曼医学院

宾夕法尼亚大学

布洛克利大厦四楼

423守护者博士。

费城，宾夕法尼亚州，1904年

美国

电话:1 215 746 1101

电子邮件:ariklein@pennmedicine.upenn.edu

背景:妊娠期间感染COVID-19与孕产妇死亡、入住重症监护病房和早产风险增加有关;然而，由于缺乏安全性数据，许多孕妇拒绝接种COVID-19疫苗。

摘要目的:本初步研究的目的是评估Twitter数据是否可用于确定妊娠期COVID-19疫苗接种流行病学研究的队列。具体而言，我们研究了是否有可能确定报告(1)在怀孕期间或围孕期接种了COVID-19疫苗的用户，以及(2)其妊娠结局。

方法:我们开发了正则表达式来搜索2021年7月初之前在推特上宣布怀孕的用户发布的大量推文中关于COVID-19疫苗接种的报告。为了帮助确定用户是否在怀孕期间接种了疫苗，我们利用自然语言处理(NLP)工具来估计产前期间的时间框架。对于发布tweet的用户，时间戳表明他们在怀孕期间接种了疫苗，我们利用额外的NLP工具来帮助识别报告其怀孕结果的tweet。

结果:我们手动验证了自动检测到的推文内容，确定了150名在推特上报告他们在怀孕或围孕期至少接种了一剂COVID-19疫苗的用户。我们手工验证了60例(75%)妊娠中45例的至少一项报告结果。

结论:鉴于妊娠期COVID-19疫苗安全性数据的可得性有限，Twitter可以作为一种补充资源，潜在地提高妊娠人群对COVID-19疫苗接种的接受程度。这项初步研究的结果证明了可扩展方法的发展，以确定更大的流行病学研究队列。

JMIR学报，2022;6(1):e33792

doi: 10.2196/33792

关键字

自然语言处理; 社交媒体; 新型冠状病毒肺炎; 数据挖掘; COVID-19疫苗; 妊娠结局

妊娠期感染COVID-19与孕产妇死亡、入住重症监护病房和早产风险增加有关[1];然而，在美国，怀孕期间接种COVID-19疫苗的比例很低[2]。调查显示，怀孕期间拒绝接种COVID-19疫苗的最常见原因是缺乏安全性数据[3.，这是有限的，因为怀孕的人被排除在预先授权的临床试验之外。美国疾病控制与预防中心(CDC)最近根据自愿参加V-safe的参与者报告的疫苗接种后健康信息，发布了美国首个关于妊娠期COVID-19疫苗安全性的数据。4]。美国疾病控制与预防中心表示，虽然初步数据没有显示任何明显的安全信号，但仍需要继续监测，特别是在妊娠早期和围孕期(最后一次月经前30天内)。疾病预防控制中心建议，关于妊娠期COVID-19疫苗安全性的更多证据对于提高妊娠人群对COVID-19疫苗的接受度至关重要[2]。

在美国，42%的18-29岁的人和27%的30-49岁的人使用Twitter [5]。我们之前的工作[6证明Twitter数据可以用来评估怀孕期间药物暴露的相关结果。因此，我们假设Twitter也可以作为评估怀孕期间接种COVID-19疫苗相关结果的数据来源。尽管用户生成的Twitter数据可能受到类似于CDC讨论的参与者报告数据的潜在限制[4(例如，选择偏倚、报告偏倚、误报、样本量小、关于其他风险因素的信息有限)，目前其他数据来源的可用性非常有限。本初步研究的目的是评估Twitter数据是否可用于确定妊娠期COVID-19疫苗接种流行病学研究的队列。特别是，我们探讨了是否有可能确定报告(1)在怀孕期间或围孕期接种了COVID-19疫苗的用户，以及(2)其妊娠结局。

宾夕法尼亚大学机构审查委员会对该研究进行了审查，并认为根据美国联邦法规第45节46.101第b段第4类，对公开可用的数据源(45 CFR§46.101(b)(4))，该研究豁免于人体受试者研究。

为了便于对Twitter上关于COVID-19疫苗接种的自我报告进行初步评估，我们开发了6个手写的高精度正则表达式，旨在匹配提到用户至少接种了一剂COVID-19疫苗的推文(多媒体附录1)。在前期工作中[7]，我们开发了一个自动的自然语言处理(NLP)管道，它可以检测Twitter流应用程序编程接口中宣布用户怀孕的推文，然后持续收集所有公开可用的推文。我们在这些用户发布到2021年7月初的tweet集合上部署了6个正则表达式。为了帮助确定用户是否在怀孕期间(或围怀孕期)接种了疫苗，我们手动将匹配正则表达式的tweet的时间戳与其产前期间的时间框架进行比较。为了帮助估计用户产前的时间范围，我们利用了在我们之前的工作中开发的自动NLP工具[8]，它使用一种基于规则的方法来搜索推特上关于婴儿的胎龄、预产期或出生日期的报告，并根据推特中的特定信息提取出怀孕开始和结束日期的估计。

对于那些在推特上发布时间戳表明他们在怀孕期间或围孕期接种了疫苗的用户，我们利用了在我们之前的工作中开发的额外的自动化NLP工具[9-11]，它使用监督分类来搜索推特上不良妊娠结果的报告，包括流产、死胎、早产、低出生体重、出生缺陷和新生儿重症监护病房入住。为了减少潜在的报告偏差，假设缺乏推文自我报告的不良妊娠结果代表没有不良结果，我们还部署了一个自动化的NLP工具，在我们之前的工作中开发[12]，在用户的推文中搜索婴儿出生在至少37周的报道(即用户至少怀孕37周，或预产期在3周或更短时间内)，体重至少为5磅8盎司。至少37周的胎龄表明没有流产或早产。出生体重至少为5磅8盎司表明缺乏低出生体重，或者作为活产，流产或死产的报告。如果我们没有自动检测到明确报告孕龄至少为37周的推文，我们将手动分析在此期间发布的推文，以寻找用户仍怀孕的证据。

我们手动验证了自动检测到的推文内容，确定了150名在推特上报告他们在怀孕或围孕期至少接种了一剂COVID-19疫苗的用户。表1给出了我们用来识别这150个用户的tweet示例。例如，用户1报告在2021年6月15日怀孕16周，因此我们的自动化工具[8估计怀孕始于2021年2月23日。用户1报告于2021年3月24日接种了COVID-19疫苗，大约在怀孕1个月后。用户2在2021年6月21日报告怀孕13周，我们的自动化工具[8估计怀孕始于2021年3月22日。用户2于2021年3月6日报告接种新冠疫苗，与围孕期相对应。在推特上表1还显示一些用户报告了疫苗制造商(如“#辉瑞疫苗”)或剂量号(如“第二种疫苗”)，这有助于将mRNA疫苗与其他类型的疫苗区分开来。根据我们对这150名使用者产前期的估计，其中90人(60.0%)的怀孕可能正在进行中。我们手工验证了60例(75%)妊娠中45例的至少一项报告结果。表2给出了这45个用户报告的结果。

表1。表明在怀孕期间或围孕期接种COVID-19疫苗的推文样本。

微博		时间戳	怀孕开始	怀孕结束
用户1
	我给这个世界带来了一个生命，这真是太不可思议了。# 16 weekspregnant	2021年6月15日	2021年2月23日	2021年11月30日
	今天我接种了第一剂COVID疫苗，对科学感到非常兴奋和感激	2021年3月24日	2021年2月23日	2021年11月30日
用户2
	我醒着是因为我已经怀孕13周了……嗯……”早上好病”	2021年6月21日	2021年3月22日	2021年12月27日
	昨晚我买了#辉瑞疫苗!	2021年3月7日	2021年3月22日	2021年12月27日
用户3
	离预产期还有93天	2021年4月17日	2020年11月11日	2021年8月18日
	我刚打了第二支疫苗。到目前为止我感觉还好……我祈祷这一天都是这样	2021年3月1日	2020年11月11日	2021年8月18日
用户4
	我怀孕8个月了。我的家人和我一起开车去了坦帕以防孩子提前出生	2021年6月9日	2020年10月9日	2021年7月16日
	很高兴告诉大家我今天接种了现代疫苗	2021年3月6日	2020年10月9日	2021年7月16日

表2。在怀孕期间或围孕期接受COVID-19疫苗接种的Twitter用户自我报告的妊娠结局(N=45)。

自我报告的结果		结果，n (%)^一个	样品推
不利的结果
	新生儿重症监护病房(NICU)	5 (11)	我做了一个小人类。这很酷。现在是几周的新生儿重症监护室时间。
	早产(<37周)	4 (9)	她出生于1月11日……提前3个月……在医院呆了两个半星期
	低出生体重(小于5磅8盎司)	1 (2)	他出生时体重3磅9盎司，我们没有一件东西接近适合他。
	流产	1 (2)	在过去的四个星期里，我流产了一次……家人的死亡……宠物死亡……我的车坏了……
	死胎	0 (0)	N/A^b
	出生缺陷	0 (0)	N/A
正常的结果
	学期(≥37周)^c	39 (87)	他在第37周首次亮相。我们6点15分到达医院，7点45分完全扩张，他8点22分就到了!
	正常出生体重(≥5磅8盎司)	7 (16)	他昨晚8点49分乘飞机到达。他重7磅11盎司，真不敢相信他是我的!

^一个在一些怀孕中发现了多种结果;因此，总结果的总和和百分比分别大于45%和100%。

^b-不适用。

^c我们没有发现后来的推特明确指出活产的怀孕也包括在内。

主要研究结果

我们的研究表明，有用户在Twitter上报告他们在怀孕期间接种了疫苗，包括怀孕早期和围孕期，其中许多人报告了他们的怀孕结果。因此，本研究的结果证明了开发可扩展的方法，以在Twitter上确定更大的队列，用于妊娠期COVID-19疫苗接种的流行病学研究。这项研究中的150名用户是根据截至2021年7月初发布的推文确定的。自确定这些用户以来，我们重新部署了用于检测自我报告COVID-19疫苗接种的推文的6个正则表达式和用于估计产前时间框架的NLP工具[8]用户的推文[7收集到2021年11月。即使仅使用正则表达式，我们也自动识别出大约2000名发布了匹配tweet的额外用户，预计到期日期在2021年或2022年。在未来的工作中，我们将手动验证他们的推文，以确定将这些额外的用户纳入我们在怀孕期间或围孕期接种COVID-19疫苗的队列中。因此，初始队列的规模很小——150个用户——似乎在很大程度上反映了这项研究开始的时间点，而不是Twitter数据的大规模效用。

我们的初步结果表明，早产和流产的报告在很大程度上不受潜在报告偏倚的影响，因为我们在40例(98%)未发现早产或流产的妊娠中检测到39例胎龄至少为37周。然而，低出生体重的报告可能受到潜在的报告偏倚的影响，因为我们在44例(16%)未确定低出生体重的妊娠中仅检测到7例出生体重至少为5磅8盎司。考虑到我们最初的Twitter用户样本很小，我们没有发现任何出生缺陷或死胎的报告也就不足为奇了，这在美国的发生率为3% [13]及少于1% [14),分别。尽管如此，我们之前的工作[9-11表明用户确实会在Twitter上报告这些罕见的结果。虽然完整的比较超出了本研究的范围，但在报告的胎龄至少为20周的怀孕总数中，Twitter上报告的早产比例(9.09%)与美国在COVID-19大流行之前的发病率(10.23%)相似[15]及V-safe参与者报告的比例(9.4%)[4]。

结论

鉴于妊娠期COVID-19疫苗安全性数据的可得性有限，推特可作为持续监测的补充资源，并有可能提高妊娠人群对COVID-19疫苗接种的接受度。未来的工作方向包括开发方法来检测更大的队列，并进行流行病学研究，将他们的怀孕结果与在Twitter上宣布怀孕的用户的怀孕结果进行比较[7但在COVID-19疫苗可用之前分娩。

致谢

这项工作得到了美国国立卫生研究院国家医学图书馆(资助号R01LM011176)的支持。

作者的贡献

AK开发了正则表达式，分析了Twitter上的怀孕结果数据，并撰写了手稿。KO分析了推特数据，以确定在怀孕期间接种COVID-19疫苗的用户，并编辑了手稿。GGH指导了整个研究设计并编辑了稿件。

利益冲突

没有宣布。

‎

多媒体附录1

用于检测自我报告COVID-19疫苗接种的推文的正则表达式。

TXT文件，1kb

李建军，李建军，李建军，李建军，中国妊娠期新冠病毒研究进展。2019冠状病毒病妊娠期临床表现、危险因素及母婴结局:活系统评价和荟萃分析中国医学杂志2020年09月01日;37:m3320 [j]免费全文] [CrossRef] [Medline]
Razzaghi H, Meghani M, Pingali C, Crane B, Naleway A, Weintraub E，等。2020年12月14日至2021年5月8日，美国八个综合卫生保健组织，怀孕期间孕妇COVID-19疫苗接种覆盖率。MMWR Morb Mortal weekly Rep 2021年6月18日;70(24):895-899。［CrossRef] [Medline]
Goncu Ayhan S, Oluklu D, Atalay A, Menekse Beser D, Tanacan A, Moraloglu Tekin O，等。孕妇接受COVID-19疫苗的情况。中华妇产科杂志(英文版);2004(2):391 - 396。［CrossRef] [Medline]
Shimabukuro T, Kim S, Myers T, Moro P, Oduyebo T, Panagiotakopoulos L, CDC v-safe COVID-19妊娠登记小组。mRNA - Covid-19疫苗在孕妇中的安全性初步发现中华医学杂志[J]; 2011; 31 (4): 563 - 568 [J]免费全文] [CrossRef] [Medline]
Auxier B, Anderson M. 2021年社交媒体使用情况。皮尤研究中心，2021年4月7日。URL:https://www.pewresearch.org/internet/2021/04/07/social-media-use-in-2021/[2021-08-02]访问
Golder S, Chiuve S, Weissenbacher D, Klein A, O'Connor K, Bland M，等。怀孕期间社交媒体上与健康相关的帖子对出生缺陷的药物流行病学评估医药安全2019;42(3):389-400 [j]免费全文] [CrossRef] [Medline]
Sarker A, Chandrashekar P, Magge A, Cai H, Klein A, Gonzalez G.从社交媒体中发现孕妇队列进行安全监测和分析。医学互联网研究，2017 Oct 30;19(10):e361 [J]免费全文] [CrossRef] [Medline]
Rouhizadeh M, Magge A, Klein A, Sarker A, Gonzalez G.基于规则的方法从上下文社交媒体帖子中确定怀孕时间表。2018年发表于:国际数字健康会议;2018年4月23日至26日;里昂，法国，第16-20页。［CrossRef]
Klein AZ, Sarker A, Cai H, Weissenbacher D, Gonzalez-Hernandez G.出生缺陷研究的社交媒体挖掘:一种基于规则的、自引导的方法来收集Twitter上罕见的健康相关事件的数据。[J]中国生物医学工程学报，2018;37 (2):391 - 391 [J]免费全文] [CrossRef] [Medline]
张建军，张建军，张建军。基于微博的出生缺陷流行病学研究进展。中华医学杂志2019;2:96。［CrossRef] [Medline]
Klein AZ, Cai H, Weissenbacher D, Levine LD, Gonzalez-Hernandez G.一种自然语言处理管道，促进Twitter数据在不良妊娠结局数字流行病学中的应用。[J]中国生物医学工程学报，2010;31 (2):391 - 391 [J]免费全文] [CrossRef] [Medline]
Klein AZ, Gebreyesus A, Gonzalez-Hernandez G.在Twitter上自动识别怀孕结果的数字流行病学比较组。[j]中国科学:自然科学进展，2020;20 (3):357 - 357 .]免费全文] [Medline]
疾病控制和预防中心(CDC)。主要出生缺陷总体流行率的最新情况——1978-2005年佐治亚州亚特兰大市。MMWR Morb Mortal weekly Rep 2008 Jan 11;57(1):1-5 [免费全文] [Medline]
2015-2017年胎儿死亡档案的死因数据。全国生命统计报告2020年4月;69(4):1-20 [免费全文] [Medline]
Martin JA, Hamilton BE, Osterman MJK, Driscoll AK。出生人数:2019年的最终数据。Natl Vital Stat Rep 2021 Apr;70(2):1-51。［Medline]

‎

疾病预防控制中心:疾病控制和预防中心

NLP:自然语言处理

G·艾森巴赫编辑;提交23.09.21;由V Foufi, MN Islam, M Beazely, D Huang同行评审;对作者04.11.21的评论;修订版本收到15.11.21;接受22.11.21;发表06.01.22

©Ari Z Klein, Karen O'Connor, Graciela Gonzalez-Hernandez。最初发表于JMIR Formative Research (https://formative.www.mybigtv.com)， 06.01.2022。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒体上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR Formative Research上，并适当引用。必须包括完整的书目信息，到https://formative.www.mybigtv.com上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

利用Twitter数据监测妊娠期COVID-19疫苗安全性:队列识别的概念验证研究

利用Twitter数据监测妊娠期COVID-19疫苗安全性:队列识别的概念验证研究

短论文

通讯作者:

摘要

关键字

介绍

方法

结果

讨论

主要研究结果

结论

致谢

作者的贡献

利益冲突

参考文献

缩写