发表在第1卷第1期(2021年):1月至12月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/31983,首次出版
推特上关于COVID-19大流行期间流感、疫苗和疫苗接种的话题变化:基于人工智能的信息流行病学研究

推特上关于COVID-19大流行期间流感、疫苗和疫苗接种的话题变化:基于人工智能的信息流行病学研究

推特上关于COVID-19大流行期间流感、疫苗和疫苗接种的话题变化:基于人工智能的信息流行病学研究

原始论文

1以色列霍伦理工学院工业工程与技术管理学院

2以色列霍伦霍伦理工学院医学数字技术学院

3.以色列霍伦霍伦理工学院理学院

4以色列阿里尔大学阿德尔森医学院

通讯作者:

阿里尔·贝尼斯博士

工业工程与技术管理学院“,

霍伦理工学院

戈罗姆街52号

子整体,5810201

以色列

电话:972 35026892

电子邮件:arrielb@hit.ac.il


背景:社交媒体上对健康问题的讨论是一个重要的信息来源,反映了现实世界对事件和观点的反应。它们在公共卫生保健中往往很重要,因为它们影响着影响犹豫不决的个人接种疫苗决策的途径。基于互联网搜索引擎查询的人工智能方法已被建议用于检测疾病爆发和人群行为。在社交媒体中,推特是搜索和分享关于卫生保健问题的意见和(错误)信息的常用平台,包括疫苗接种和疫苗。

摘要目的:我们的主要目标是支持在社交媒体上设计和实施未来的电子卫生战略和干预措施,以提高有针对性的传播运动的质量,从而提高流感疫苗接种率。我们的目标是定义一种基于人工智能的方法,以阐明推特上关于流感疫苗接种的帖子在COVID-19大流行期间是如何变化的。这些发现可支持适当的疫苗接种运动,并可推广到其他与健康有关的大众传播。

方法:该研究包括以下5个阶段:(1)收集Twitter上有关美国流感、疫苗和疫苗接种的推文;(2)使用机器学习技术进行数据清理和存储;(3)识别与流感、疫苗和疫苗接种相关的术语、标签和主题;(4)建立以前定义的词汇(术语和主题)的动态大众分类法,以支持对其趋势的理解;(5)对大众分类法进行标记和评价。

结果:我们收集并分析了2019年12月30日至2021年4月30日期间420,617名独立用户的2,782,720条推文。这些推文是用英语写的,来自美国,包括以下至少一个术语:“流感”、“流感”、“疫苗”、“疫苗”和“vaxx”。我们注意到,疫苗和疫苗接种这两个词的流行度在2020年有所上升,“流感”和“covid”的出现呈负相关,因为“流感”一词随着时间的推移从推特上消失了。通过结合词嵌入和聚类,我们确定了一个围绕以下3个主题建立的大众分类法,这些主题主导了收集到的推文的内容:“健康和医学(生物学和临床方面)”,“保护和责任”,以及“政治”。通过分析经常一起出现的词汇,我们注意到这些推文主要与COVID-19大流行事件有关。

结论:这项研究最初侧重于流感疫苗接种,后来转向COVID-19疫苗接种。在推特和其他社交媒体上,由机器学习支持的关于疫苗和传染病疫苗接种及其趋势相关主题的信息监测可以导致设计个性化信息,鼓励目标亚群体参与疫苗接种。目标人群收到个性化信息的可能性越大,目标人群对疫苗接种过程的反应、参与度和主动性就越高。

中国生物医学工程学报(英文版)

doi: 10.2196/31983

关键字



背景

随着以网络为媒介的交流环境的增加,社交媒体平台使个人能够讨论不同的问题,表达他们的想法,并进行辩论。1-3.].Twitter是一家提供微博服务的领先社交网络。用户可以发布被称为“tweet”的帖子,长度限制为280个字符。因此,用户可以通过回复、分享或通过“喜欢”推文来显示他们的兴趣来与其他人互动。这些互动能力是社交网络连接本质的基本组成部分,也是全球平台上用户之间思想传递的呼应。4].从推文内容中检索信息很有挑战性,但比其他长信息的社交媒体平台更容易管理。5].事实上,来自社交媒体和推特的结构化和非结构化数据的数量在过去几年里呈指数级增长[67].数据挖掘和文本挖掘能够发现潜在的新知识,并有助于开发有效的基于证据的决策工具[8-10]通过提取有意义的摘要,如统计摘要,或受控词汇表(如术语、大众分类法、分类学和本体论)[11-15].

现代医学最重要的成就之一是开发和广泛使用安全有效的疫苗。然而,由于对疫苗的犹豫和拒绝,它们被部分接受是一个重大的健康威胁。就流感而言,与其他疫苗相比,流感疫苗的依从性相对较低,主要是因为必须每年重复接种疫苗[16].像其他疫苗一样,流感在现实世界和网上都引起了讨论[17-20.].The COVID-19 vaccine is no exception.

此外,新冠肺炎疫情的全球蔓延[21],它对日常生活的重大影响,以及针对它的疫苗的相对快速开发,使COVID-19疫苗成为社交媒体上讨论的重要卫生话题。减少流感和COVID-19等传染性疾病的发病率需要实现群体免疫[2223],最好是接种疫苗。这一公共卫生目标只有通过人口参与才能实现[1819].

社交媒体平台,如推特,是一个分享观点和搜索(错误)信息的地方。2425]关于医疗保健问题[2627],包括疫苗[171828].这些公开论坛可以影响犹豫不决的个人的意见和疫苗接种决定[29].计划性疫苗倡导者和“反vaxx”激进分子之间关于疫苗的必要性、有效性和安全性的讨论是持续不断的。此外,整个互联网能够发现疾病暴发的早期预警、追踪其传播和恢复能力[30.],以及循证信息的传播[3132].在过去十年中,人工智能方法和算法(即数据挖掘、文本挖掘和自然语言处理)已根据互联网搜索引擎查询和社交媒体线索中的新兴趋势,有效地用于检测流感等疫情[33-36].有必要采取公共卫生干预措施[37]坚决反对疫苗反对者传播的错误信息[1938].相关工具应基于人工智能,对社交媒体产生的大数据进行高效、自动化的分析[3940].

了解一些健康相关事件讨论过程中发生的变化对于提高健康沟通效率至关重要[4142].疾病预防规划需要纳入各种方法,使广泛人群能够利用在线资源获得基于证据的信息,并加强对有偏见和误导性的公告的控制。主要关注的是社交媒体上的广告政策和活动。30.43].

目的、目标和假设

我们的主要目标是支持在社交媒体上设计和实施未来的电子卫生战略和干预措施,以提高有针对性的传播运动的质量,从而提高流感疫苗接种率[18194445].

我们的主要目的是定义一种基于人工智能的方法来分析推文,包括与流感和COVID-19疫苗接种相关的术语。我们的重点是检测与流感疫苗接种相关的共同出现的术语,并强调与这些术语相关的主要主题。因此,这些结果必须用来建立一个大众分类法[46-49],从而支持加强疫苗接种运动。该方法可推广到其他与健康有关的大众传播。我们的研究目标是建立一个及时和动态的词汇表,以英语发布与流感、疫苗和疫苗接种相关的各种主题。这些词汇可以作为卫生传播专家和卫生政策制定者的决策支持工具,有助于理解不同主题随时间的变化,例如本研究中建议的主题(与“流感”、“疫苗”和“疫苗接种”相关的推文)。

以下4个假设指导了本研究:

  1. 推特是理解接种疫苗原因的一个来源。
  2. “流感”、“疫苗”和“疫苗接种”主题与其他主题(如政治、经济和恐惧)没有直接联系,但与健康问题有关。
  3. 与疫苗和接种相关的现状和新闻影响推文内容。
  4. 关于流感、疫苗和疫苗接种的推文的术语和标签可以在动态词汇表中组织[50].它可以反映社交媒体平台上随着时间的推移所讨论的主要话题及其术语。

这项研究获得了以色列霍伦理工学院技术管理学院伦理委员会的伦理批准(TM/2/2020/AB/004)。本研究期间在Twitter上收集的信息以安全加密的方式存储,由机构向主要研究员(AB)提供限制性访问权限。


概述

本研究分为以下5个阶段:

  1. 使用Twitter流应用程序编程接口(API)收集推文及相关数据的数据来源[51];
  2. 数据清理和存储;
  3. 识别与“流感”、“疫苗”和“疫苗接种”相关的术语、标签和主题;
  4. 建立一个动态词汇,一个大众分类法,以支持对它们之间关系的理解;而且
  5. 评估词汇集群。

数据来源

从2019年12月30日到2021年4月30日,我们通过Twitter API提取和收集了16个月的推文。这些推文是用英语写的,来自北美,包括以下至少一个术语:“流感”、“疫苗”、“疫苗”和“vaxx”(最后一个术语是用来捕捉这些人使用的与疫苗反对者有关的信息)。我们选择这些术语是为了最大限度地检索关于疫苗作为一种产品、疫苗作为一种行为或政策、疫苗接种犹豫和流感的讨论。此外,由于Twitter参与者使用非正式语言来提取与流感相关的内容,我们使用了流行术语“流感”。提取过程中忽略了转发和点赞。16个月的随访期使我们能够捕获与流感、疫苗和疫苗接种相关的推特主题和术语。事实上,在美国,2020年涉及COVID-19大流行和总统选举。

数据预处理和清理

To ensure efficient use of machine learning methods [52]在推文集合上[53,我们对帖子中出现的相似词进行了预处理。数据清理包括删除标点符号[54]、提到用户、符号、网站地址和停顿词[55].此外,由于推文是用自然语言和简洁的方式写的(由于280个字符的限制),由于各种原因(例如拼写错误和缩写形式),一个单词可能有几种写法,这些写法都具有相同或相似的含义。词根化是克服这一问题的方法之一。它包括用词根形式替换单词(例如,“vaccine”替换“vaccines”)。[56].例如,由于covid -19大流行,在收集过程中检索到的推文包含“covid”一词的多种表示形式,如“covid -19”、“covid -19”和“冠状病毒”。我们使用Python自然语言工具包(NLTK)包进行词元化[55].由于推文的性质是非正式的,因此假设使用这些单词的单一表示不会显著改变推文的上下文,从而提高了模型的准确性。因此,经常出现的“COVID”一词被单一形式“COVID”取代,与“流感”相关的术语被引申为“流感”,成为推特上使用的流行语言。所有引理都以小写形式存储。

识别与流感、疫苗和接种有关的术语和主题

我们通过以下3步过程处理了与流感、疫苗和疫苗接种相关的术语、标签和主题的识别:(1)使用词嵌入和n-grams进行聚类,(2)构建folksonomy,以及(3)评估folksonomy聚类。

聚类

聚类的目标是将一组点划分成组,每个点尽可能相似,并且与其他点不同[57].例如,在文本挖掘上下文中,特别是在挖掘twitter语料库时,可以使用聚类对语义相似或经常出现在同一消息中的术语进行分组。每个集群,根据其内容,可以用一个主题进行注释。

字嵌入

随着时间的推移,处理大量收集的推文意味着处理维度的诅咒[58].因此,与降维相关的符号-数字重新表述[59]可以在合理的时间内处理大量的数据,降低处理的复杂性。词嵌入是支持这两个目标的相关方法;它由文本的学习数字表示组成,在特定上下文中具有相似含义的单词在向量中具有相等的数字表示。在全局范围内,单词嵌入允许在特定上下文中预测单词。因此,Word2Vec是一种基于神经网络模型的单词嵌入算法,该模型从大型文本语料库(即上下文)中学习单词或术语之间的关联。在第一步训练之后,Word2Vec可以检测同义词或术语,或建议完整的句子。的空间(即语料库)中两个向量(即词和术语)之间的余弦或欧几里得距离(即相似性或关系)表示语义相似的向量和词n维度(即语料库中单词或术语的数量)[60].As an example, words related to time, such as “day,” “week,” “month,” “season,” and “year,” will be used in similar contexts and will be defined as semantically closed.The preprocessed data were used for creating the Gensim Word2Vec model in Python [61].为了看到每个单词与其他单词在上下文中的关系,我们使用K-means算法[6263],以帮助决策者更好地了解公众对疫苗和流感和COVID-19疫苗接种的看法。随着讨论的不断发展,单词嵌入和聚类过程每月都会在新收集的推文中重复。

字格

作为单词嵌入的补充方法,我们构建了一个n-gram语言模型,预测单词序列(经过停词清洗)出现在我们的推文语料库中的概率。我们提取了每周由1到4项(n)组成的最频繁的n-gram。此外,该过程使用了Gensim Python库[61].这种方法使卫生传播决策者能够在与疫苗接种和流感有关的讨论中了解新的增长或缩小的孤立术语和术语集。

定义集群的数量作为主题

聚类是一种无监督学习任务,由于需要定义,因此具有挑战性k以及要构建的集群数量。“轮廓法”允许评估聚类的质量,因为它确定了一个对象(例如,一个词也称为unigram)与其聚类内容的相似性,以及与其他聚类的相似性。剪影显示哪些对象(例如,单词、向量和值)在一个集群中位置很好,哪些不太相关。整个集群轮廓的图形组合(例如,与k将聚类)整合到一个地块中,可以欣赏每个聚类的相对质量和整体聚类本身。总体平均轮廓宽度(即每个聚类的平均轮廓宽度)提供了聚类有效性的评估。整体平均轮廓宽度值(即轮廓分数)越高,聚类效果越好k, and therefore, it must be selected as the better partitioning.The silhouette method is independent of the partitioning algorithm used [64].从我们的研究角度来看,每个术语必须有最少的出现次数才能包含在分析中。此外,在一条推文中,两个词之间必须有最大距离(其他词的数量),以考虑它们潜在的语义链接。

集群可视化

聚类可视化是通过使用t分布随机邻居嵌入(t-SNE)产生的,t-SNE是一种非线性降维技术,用于嵌入高维数据并将其可视化到低维(即2或3)空间[65].

聚类和N-grams中的术语的评估

为了评估我们的方法和识别与流感、疫苗和疫苗接种相关的术语、标签和主题的结果,我们实施了一个基于互补方法的验证过程。其中一项关注的是单词嵌入结果,第二项关注的是n-grams,第三项通过涉及社交媒体用户来关注整体。因此,这些术语首先从语义角度进行分组,首先从词汇嵌入的角度进行分组,然后从高共出现频率进行分组,因为n-grams以总结的方式描述了所探索的Twitter线程的内容。

第二种评估方法包括使用谷歌趋势[66],以获得特定时期和特定地理区域内搜索词的相对频率。在本研究中,从推文中提取n-gram (n在1到4之间),并计算其每周频率。接下来,连续出现在前150名列表中至少12周的n-grams被用作谷歌Trends查询的输入,该查询在Twitter上发布。最后,对n-gram (bi-gram)和谷歌Trends查询结果进行归一化。他们的Pearson相关系数是通过考虑每周基于推文的n-gram和谷歌搜索引擎上每周查询的相对数量(包括n-gram术语)来计算的。

第三项评估包括计算疫苗、疫苗接种、流感和COVID-19特异性n-grams每周频率(2020年12月至2021年4月)与COVID-19疫苗接种人口比例之间的Pearson相关性。

知情同意声明

The social network data were collected in an anonymized way and following Twitter’s rules.评估调查的参与者在平台上以电子方式提供匿名知情同意,然后才能继续完成问卷调查。

数据可用性声明

由于Twitter的规章制度,无法获得支持本研究结果的Twitter数据。支持调查结果的调查数据可根据合理要求从通讯作者(AB)处获得,这些数据需要经过调查人员所在机构的伦理和法律批准。本研究的方法将在AIMe生物医学研究人工智能注册表中报告[67].


描述性统计

从2019年12月30日到2021年4月30日,共有420,617名独立用户的2,782,720条推文被收集。图中图1显示每月包含以下至少一个术语(或清除和词根化后的类似术语)的推文数量(柱列):(1)“流感”,(2)“疫苗”,(3)“疫苗”,(4)“vaxx”和(5)“covid”。里面的线条图1显示这些术语在收集的推文中所占的百分比。虽然“covid”及其同义词并不是最初用于查询推文的关键词,但它的出现反映了covid -19大流行在2020年和2021年关于疫苗接种和流感讨论中的重要主题的影响。

图1还显示,从2020年12月至2021年4月期间,全球范围内包含“流感”、“疫苗”、“疫苗”、“vaxx”和“covid”等词汇中的至少一个的推文数量急剧增加(另见多媒体附件1).我们注意到两个峰。第一次是在2020年3月,世界卫生组织宣布COVID-19为大流行(2020年3月11日),唐纳德·特朗普总统宣布COVID-19为国家紧急状态(2020年3月13日)。2020年12月的第二个高峰主要与“疫苗”有关,以响应COVID-19疫苗的批准(美国食品和药物管理局(FDA)于2020年12月11日紧急批准辉瑞BioNTech疫苗,并于2020年12月18日批准Moderna疫苗)。因此,“疫苗”一词从2020年1月的约35%增加到一年后的约80%。相比之下,术语“vaxx”(用于术语“反vaxx”、“反vaxxer”、“反vaxx”和“反vaxxer”)在整个数据收集期间稳定在1%至3%。然而,重要的是要考虑到疫苗接种反对者使用了各种工具和交流话语,而不是唤起“反vaxx”术语本身[68-70].与流感(“flu”)和covid(“covid”)相关的词汇呈负相关(r=−0.83,P<.001) (多媒体附件1).从2020年1月开始,随着covid -19的首批病例从中国蔓延到欧洲和美国,“covid”一词的使用呈线性增长[71直到2021年2月,它是收集的推文中大约35%的一部分。与此同时,“流感”一词的使用稳步减少,可能是由于2020-2021年流感季节流感活动较低[7273].

图1。2019年12月30日至2021年4月30日期间,每月包含“流感”、“疫苗”、“疫苗”、“vaxx”和“covid”等词汇中的至少一个的推文数量分布情况。
查看此图

识别与流感、疫苗和接种有关的术语和主题

字嵌入

Word2Vec算法每月运行一次,以找到支持查找主要趋势主题的最佳参数。通过使用每个参数的不同值创建模型,并使用sklearn的“silhouette te_score”函数计算每次迭代的剪影分数,来确定最佳参数的值。Python中的度量[74].多媒体附件2显示每个月各车型的参数值和剪影得分。此外,每周只调查在同一周收集的推文中检测到的词汇总数中出现次数最高的词汇。这些属性的值随着时间的推移而变化,以考虑受现状影响的社交媒体用户词汇的动态变化。

k - means聚类

Using the monthly word embedding model as an input, word clusters were generated with the NLTK KMeansClusterer [75].聚类方法将给定的数据集组合在一起k预定数目的组别[6676].分区的目的是最小化集群内的方差,并最大化来自不同集群的元素之间的方差。要确定最优簇数[77],我们计算了k-均值聚类运行的轮廓分数k∈(3、6)。聚类模型的剪影分数是在2019年12月30日至2021年4月30日期间,420,617名独立用户的2,782,720条推文上生成的,与141,407个n-gram有关n∈(2、4)。最高的轮廓分数反映了这种分组,其中不同的物体对它们的集群有很好的影响,与邻近的和不太相关的集群联系较少。A higher silhouette score (年代=0.72)k= 3。这个分数可以被认为很好,因为我们将与不同主题相关的术语聚类,并且聚类可以部分重叠[7879].此外,通过计算Ray-Turi指数[80]k在2和10之间,并建立不同的生成值的曲线允许用肘关节法,最优k等于3 [81].

事实上,我们在领域专家(公共卫生、感染学和信息学)的共识下解释了研究的推文集合中的3个聚类的内容。这些群体是“在COVID-19大流行期间接种流感疫苗”大众分类法的基本组成部分。We defined the 3 topics dominating the content of the collected tweets as follows:

  1. “健康和医学(生物学和临床方面)”,包括“大流行”、“COVID-19”、“疫苗”、“疾病”、“死亡”、“变异”、“儿童”、“流感”、“流感”和“健康”等术语;
  2. 用“保护”、“保持社交距离”、“接种疫苗”、“抗击新冠肺炎”、“责任”等词语来表达“保护和责任”
  3. “政治”由“特朗普”、“拜登”、“谎言”、“政府”、“信任”、“账单门”、“免费”、“钱”、“总统”、“政治”、“政治家”、“选举”、“疫苗”和“政策”等词汇支持。

图2显示了3个集群的2维图形表示,每个集群有1000个最频繁的n-grams (n∈[1;4])(多媒体而且多媒体附件4),由t-SNE算法[65].

明确地,此可视化(图2)可以让我们看到前面计算的每个集群的推文中使用最多的前1000个术语。值得注意的是,集群之间存在重叠,当我们意识到推文在许多情况下同时涉及几个主题时(例如,来自一个处理政治问题:“疫苗提供良好的保护80%以上的效果。大多数人都不会生病的而那些愿意的人,不会认真对待生病了”)。

图2。具有1000个最频繁n-grams (n∈(1;4))。橙色、海绿色(便于色盲者阅读的蓝绿色)和紫色分别代表“健康和医学(生物学和临床方面)”、“保护和责任”和“政治”。
查看此图
字格

经过预处理的推文被用来提取每周的n-gram。多媒体附件4显示了10个最常见的n-gramn∈(1;4)。例如,在这项研究的几个月里,在单词嵌入模型中,“流感”和“坏的”这两个词被发现彼此很接近(多媒体这两个单词也是一个常见的n-gram,无论是一个biggram还是一个更高程度的n-gram的一部分。虽然包含在单词嵌入表示中,但我们可以看到这两个单词之间的一般关系,因为它们彼此更接近,并且处于相同的语义集群中。

提取后,每个n-gram都有其增长值,表明n-gram的频率较前一周增加或减少。增长是用来强调n-grams中的显著变化,因此在一般讨论中也是如此。例如,2020年11月9日,辉瑞生物科技公司发布了COVID-19疫苗试验的初步结果,显示出对疾病的高疗效。同一周的n-grams有明显的增加,具体如下:,疫苗, " 774.6% (1207/51,553 vs 138/51,553)和"得到疫苗, " 557.9% (1987/149,333 vs 302/149,333) [82].

此外,在2021年3月中旬,我们还注意到与COVID-19疫苗接种相关的n-grams显著增加,原因是推特上有报道称,个人接种了疫苗,或地方当局邀请人们安排接种疫苗的预约(例如,“疫苗,预约,可用”,+264.9%[2021年3月15日开始的一周为748/18,678,而2021年3月8日开始的一周为205/18,678],以及“代码,疫苗,预约,可用”,+251.5%[2021年3月29日起当周942/6264,vs 2021年3月22日起当周268/6264])[83].

推特用户反应的另一个例子是在2020年5月11日开始的一周内。开头的n-gram是"社会距离,平坦曲线,王牌,测试"和"平坦曲线王牌测试疫苗(其中“社交距离”和“平坦曲线”是标签)。两者都比前一周增长了693.0%(从2020年5月4日开始的一周内出现了43次,而516次中的341次)。就在那一周,《福布斯》杂志发表了一篇文章,报道美国各地的医院都在“不要被压垮这表明,让曲线变平的努力取得了成功。总体结果显示,从2019年底到2021年年中,关于流感、疫苗、疫苗接种和COVID-19的推文是如何动态演变的。

评估

谷歌趋势验证

作为互联网的一个组成部分,像推特这样的社交媒体是人们获取和分享信息和知识的一部分。因此,查看像谷歌这样的搜索引擎上的查询,可以根据社交媒体上检测到的术语和主题来评估全球兴趣。因此,我们计算了推文中n-grams的每周出现次数与谷歌搜索引擎中每周查询次数与谷歌Trends报告次数之间的Pearson相关性[84].作为先前披露的结果一致性的一个例子,Twitter上“流感,症状”的n-gram与谷歌上的查询数量高度相关(r= 0.85,P<.001) 2020年1月1日至2021年3月4日(表1).在这65周内,这个n-gram(即“流感,症状”)也被用于搜索关于“流感”和“症状”的信息。

Moreover, as we noticed the decreasing popularity of its use on Twitter, we also noticed similar behavior on Google.Additionally, the n-gram “covid, vaccine” also showed a high correlation between Twitter and Google (r= 0.85,P<.001),在2个平台上,其发生率在2020年1月至2021年1月之间呈上升趋势,然后呈平行下降趋势。在全球范围内,社交网络和搜索引擎上与疫苗、疫苗接种和COVID-19相关的热门话题相似(表1).因此,互联网用户在搜索引擎上的查询与通过分析我们的Twitter消息数据集的文本定义的主题的时间相关。

表1。n-gram在tweet中的趋势频率和谷歌搜索查询之间具有高相关性的例子。
语法 时间段(开始日期到结束日期) 皮尔森相关 P价值
第二剂 2021年1月4日至4月30日 0.91 <措施
先注射疫苗 2021年1月18日至4月25日 0.89 <措施
第二,疫苗 2021年2月1日至4月30日 0.86 <措施
流感症状 2020年1月1日至2021年4月4日 0.85 <措施
covid、疫苗 2020年1月20日至2021年4月30日 0.85 <措施
认为,流感 2020年1月1日至3月30日 0.84 <措施
第二,剂量,疫苗 2021年1月4日至4月30日 0.84 <措施
第二,接种疫苗 2021年2月1日至4月30日 0.84 <措施
去接种covid疫苗 2020年3月30日至2021年4月30日 0.84 <措施
得到疫苗 2020年1月1日至2021年4月30日 0.80 <措施
实际验证

2020年12月11日,FDA发布了COVID-19疫苗的紧急使用授权。几天后,即2020年12月20日,开始对人群接种辉瑞BioNTech疫苗。我们从美国疾病控制及预防中心(CDC)的刊物下载每日疫苗接种率,并按每周水平汇总[85].我们注意到,从2020年12月开始到2021年4月30日,每周COVID-19疫苗接种n-grams与每周疫苗接种率之间的Pearson相关性(表2)均高且显著(r> 0.81,P<措施)(86].这些结果表明,这项研究的推文反映了大流行期间的“现实生活”重大事件。

表2。2020年12月20日至2021年4月30日期间,疾病控制和预防中心报告的5个最高n-gram趋势与疫苗接种率趋势的相关性。
语法 皮尔森相关 发生次数 P价值
先, 0.88 17133年 <措施
疫苗,今天 0.87 9205 <措施
首先,疫苗 0.83 9260 <措施
首先,剂量 0.82 11357年 <措施
疫苗, 0.81 11113年 <措施

主要研究结果

这项研究旨在阐明网上公众对疫苗接种(主要是针对季节性流感)的看法。然而,推特上讨论的重点发生了重大变化,令人印象深刻地反映了2020年的COVID-19大流行。本研究最重要的方面是建立基于推文文本分析、词嵌入和聚类的大众分类法。在本大众分类法中确定的3个主题如下:

  1. General issues from the “health and medicine (biological and clinical aspects)” perspective.The initial terms used for the tweet extraction were “flu,” “vaccination,” “vaccine,” and “vaxx.”These terms are de facto strongly related to health and medicine, and generate a large spectrum of threats (ie, from asking/answering questions about symptoms, reporting health conditions, and sharing positions).The presence of terms related to the COVID-19 pandemic is understandable given the period of the data collection.
  2. “保护和责任”是决定是否接种疫苗的中心因素。COVID-19大流行表明,需要保持社交距离和戴口罩以减少病毒的传播。出于这些原因,与流感(“流感”)或免疫(“疫苗”和“接种”)相关的推文,以及与COVID-19相关的推文,包括讨论保护措施(如接种疫苗)和使用这些措施的责任(如接种疫苗)的帖子。有必要强调的是,基于之前的研究[198788,即有意接种疫苗被美国年轻人视为一种集体责任行为。
  3. “政治”是一个集合,显示美国政治领导人(即共和党和民主党)对危机的严重性和减少疾病传播的努力的意见和信息的分歧[89].除了这一集群外,重要的是要记住,与COVID-19大流行的第一年和第一波平行,2020年是选举年。因此,地方和国家对这种全球流行病的管理成为政治辩论的来源,以及对政府、行政部门和卫生保健系统的支持或批评。

大众分类法背后的机制依赖于一系列复杂的因素。首先,如上所述,每个集群出现的原因取决于文化和现实事件。其次,这些机制可以通过分析经常一起出现的术语(n-grams)来量化。因此,在这项研究的背景下,我们观察到推文的主要焦点主要与COVID-19大流行事件(疾病、隔离、政治家谈话、疫苗批准和疫苗接种)有关,并且随着时间的推移而增加,就像“疫苗”和“疫苗接种”一词的流行程度一样,这与“流感”一词形成对比,随着时间的推移,“流感”一词从推文中消失了。这反映出,在2020-2021年期间,保持社交距离和佩戴口罩等COVID-19措施显著降低了季节性流感发病率[739091].然而,这些趋势变化的潜在主要原因和机制可能与公民对年度流感传播的注意力转移有关,这是由破坏性和威胁性的COVID-19大流行引起的。这些干扰会导致不同的行为或感觉,比如破坏、恐惧、担心,以及需要理解[9293].

优势与局限

越来越多地利用社交媒体和社交网络及时传播多方式和多来源的健康相关信息。在季节性流感和COVID-19等流行病和大流行的背景下,卫生保健组织和政府机构如今在社交媒体上传播信息并开展传播运动,例如,提高公民对疫苗接种的参与。与此同时,个人分享他们的立场,即使这与反疫苗趋势有关,有时也会传播错误信息[94].我们研究的优势在于,它能够为卫生当局提供每周、每月和长期的大众分类法,以了解与卫生保健问题或事件相关的社交媒体线索中出现的或持续存在的主题,例如疫苗接种或与病毒相关的问题。使用这些工具在相同或其他集群中提供大众分类法和共同出现的术语,可以增强与健康相关的社交媒体活动,重点关注大型公众即时兴趣和查询,类似于在其他业务领域中使用的方法。

事实证明,通过及时获得报告,可以指出社交媒体上经常使用的各种主题、词汇和术语,从而使卫生传播专家,更具体地说,是处理社交媒体的专家,能够专注于增加人口参与的最新运动,例如在其他商业领域所做的运动[95],以及与促进健康有关的行动,特别是在流行病和危机期间[96](例如,H1N1 [97]及埃博拉[98]),正如之前的研究中所建议的那样,不涉及术语、主题和目标人群的发现或指定[99].

探索社交媒体,特别是社交网络,由于被动地排除了这些通信渠道的非用户或不活跃的用户,这些用户只阅读帖子,而不自己发布,也不回复其他用户的消息,因此受到了限制。

这项研究的另一个局限性是,它仅基于来自北美的英语推文。这种过滤限制了结果的泛化。美国人口的多样性表明,在美国以其他语言开展此类研究将能够对健康沟通进行微调,并提高非英语社区(即约22.0%的美国人口)的疫苗接种依从性[19One hundred.].

与我们的研究并行,另一项专门严格涉及疫苗接种和COVID-19的研究于2020年1月至10月(与我们的研究中2019年12月至2021年4月的研究相比)在澳大利亚推特用户(与我们的研究中美国推特用户)中进行,并收集了31,100条推文(与我们收集的2,782,720条推文相比)。分析基于潜狄利克雷分配,这是一种无监督学习方法,可以大规模集中消耗系统资源[101].澳大利亚的推文分析揭示了以下3个主要主题:(1)“COVID-19及其疫苗接种”,(2)“感染控制措施和疫苗试验的倡导”,以及(3)“阴谋论、投诉和错误信息”[102].尽管存在一些趋同,但这些结果与我们的结果不同,因为它们更具体地关注与covid -19相关的问题。

此外,最初用于提取推文的词汇集(“流感”或“疫苗”或“疫苗接种”或“vaxx”)使我们能够捕获与我们感兴趣的每个术语相关的更大范围的线索,而不是像之前的其他研究那样,采用严格的过滤方法[101].然而,如果不扩展提取词集,使用COVID-19大流行的术语,可能有趣但不包含这些术语之一的推文就不会被提取。例如,以下发布于2021年4月中旬的推文,包括在n-gram分析中检测到的单词,但没有明确显示用于提取推文的单词,但未能检索到:“我很兴奋,我在我的县城接受我的第一针辉瑞。”增强趋势跟踪动态的未来展望可以考虑使用其他由于现状而具有破坏性的术语更新推文提取查询的术语(例如,“covid”、“剂量”、“注射”和疫苗的商品名称)。这种增强可以由领域专家(即人类行为)或通过自动选择在大众分类法和共现频率分析(即n-grams)的聚类中出现的趋势词汇来实现[95].

此外,在处理每分钟生成的大量推文时,如果不部署高计算基础设施,实时查看所有推文是不可能的,而专用中心可以提供高计算基础设施。因此,本研究的目标是定义一个框架,使卫生系统决策者能够专注于特定问题,以便通过理解在特定背景下讨论的主题(即疫苗接种和流感)来加强他们的社交媒体活动。此外,每天收集推文(由于Twitter的限制,不使用付费平台),并使用方法中描述的机器学习流程,在每周、每月和历史级别上进行分析。为了处理其他人的兴趣条件,改变推文提取查询的条件将允许扩展当前的数据集或使用相同的方法开始新的研究。这项研究表明,将社交媒体数据(如推文)和人工智能方法(如用于文本和数据挖掘的机器学习算法)相结合,可以使信息流行病学和信息监控研究成为一个整体。更具体地说,在这项研究中,我们通过跟踪推文内容和主题随时间的变化以及实际事件的影响,注意到这种组合方法的优势。与其他基于twitter的公共卫生研究一样,近实时收集、分析和评估信息内容的方法为卫生决策者提供了强有力的指示,以适应和加强应急响应和规划中的沟通[103].换句话说,这些预警必须支持基于社交媒体的健康信息,根据社交媒体用户在以前的帖子、分享或点赞中被动披露的兴趣和焦点(即出现在大众分类法聚类中的术语),针对推荐、说明和指示的广告。此外,社交媒体平台可以根据年龄、性别、婚姻状况、地点、口语、教育和专业背景等社会人口统计属性对广告活动进行分层,从而实现准确的目标定位[104].因此,基于社交媒体的卫生信息旨在通过传递个性化信息,同时考虑到社会人口统计学和感兴趣的领域,提高人们对卫生政策的遵守程度,例如针对流行性或大流行性疾病(如流感和COVID-19)的疫苗接种。例如,一个打篮球的年轻人,生活在一个年轻人急性流感发病率经常很高的地区,关注与篮球有关的社交媒体群,分享与疫苗接种犹豫有关的帖子,将获得具有个性化内容的广告,针对正在进行集体运动的疫苗接种犹豫的年轻人,并强调疫苗接种是在流行病期间继续进行这项活动的最佳解决方案[105].

结论

Twitter是一个领先的社交网络平台,允许任何人在任何领域分享位置和信息。因此,任何关于流感和COVID-19以及针对它们的疫苗的发布和传播的信息都可以被认为是可靠的,并可以影响社交媒体用户。具体而言,在COVID-19大流行期间,世界各国领导人广泛使用Twitter与公民交流公共卫生信息。这些信息对疫苗接种依从性有很大影响[106],能够动态地改进社交媒体上的健康传播活动的内容和目标。

这项研究使我们能够验证我们最初的假设。推文是了解为什么建议接种疫苗以及公众对疫苗看法的信息来源[107-109].事实上,我们定义了在16个月收集的信息中共存的3个主要主题的大众分类法。因此,关于“流感”、“疫苗”和“疫苗接种”的推文术语和标签可以在动态词汇表中组织,例如大众分类法,反映社交媒体平台上随时间讨论的主要主题及其术语。此外,随着时间的推移,与COVID-19相关的术语的出现和主导地位,在大众分类法中报告了经常同时出现的词汇,这表明,尽管这项研究最初并没有关注这一主题,但健康变化反映在与疫苗和疫苗接种相关的Twitter帖子中。

这项研究最初侧重于流感疫苗接种,后来转向COVID-19疫苗接种。在推特(和其他社交媒体)上对与疫苗和传染病疫苗接种有关的主题进行信息监测,可以创造机会设计和传达个性化信息,鼓励特定目标亚群体参与疫苗接种。目标人群收到个性化信息的可能性越大,目标人群对疫苗接种或其他公共卫生措施的反应、参与度和主动性就越高[110].

致谢

AB、EL和SA得到了以色列Ariel大学和Holon理工学院的资助:人工智能在提高疫苗接种计划效率方面的应用(RA19000000649)。

作者的贡献

所有作者证明他们符合国际医学期刊编辑委员会的作者资格标准,已经审阅了要提交的手稿版本,并同意其内容和提交。AB负责项目监理;研究的概念、设计和实施;准备并向伦理委员会提交相关文件;数据分析;数据解释;初稿的撰写;并对重要的知识内容进行批判性的审查和修改。AC是以色列Holon理工学院的技术管理硕士(在AB的指导下),负责这项研究的概念、设计和实施;数据收集; data curation; data analysis; data interpretation; writing of the first draft of the manuscript; and critical review and revision of the manuscript for important intellectual content. EL was responsible for data interpretation, and critical review and revision of the manuscript for important intellectual content. SA was responsible for data analysis, data interpretation, and critical review and revision of the manuscript for important intellectual content.

利益冲突

没有宣布。

多媒体附件1

每月至少包含“流感”、“疫苗”、“疫苗”、“vaxx”和“covid”其中之一的推文数量。

PDF档案(adobepdf档案),44 KB

多媒体附件2

集群的最佳数量,每个月相关的最大轮廓分数,以及用于创建主题集群的参数。

PDF档案(adobepdf档案),53 KB

多媒体

列出三个集群中1000个最常见的n-gram。

PDF档案(adobepdf档案),99 KB

多媒体附件4

N-grams的发生率每周增加最多。

PDF档案(adobepdf档案),53 KB

  1. Bello-Orgaz G, Hernandez-Castro J, Camacho D.在twitter上发现关于疫苗接种的讨论社区。未来一代计算机系统2017年1月;66:125-136。[CrossRef
  2. Grajales FJ, Sheps S, Ho K, Novak-Lauscher H, Eysenbach G.社交媒体:在医学和卫生保健中的应用综述和教程。J Med Internet Res 2014 Feb 11;16(2):e13 [免费全文] [CrossRef] [Medline
  3. 基于twitter的公共论坛的两步传播流。社会科学计算机评论2014年11月07日;33(6):696-711。[CrossRef
  4. Mosleh M, Pennycook G, Arechar AA, Rand DG。认知反思与推特上的行为相关。Nat Commun 2021 Feb 10;12(1):921 [免费全文] [CrossRef] [Medline
  5. 特莱D,卡卢德AS,布拉沃-马尔克斯F,基冈TT。混合标签:# youknowyoureakiwi#当你的推文包含马āori语和英语。Front Artif Intell 2020;3:15 [免费全文] [CrossRef] [Medline
  6. Inmon WH。数据架构:数据科学家入门||数据基础设施。马萨诸塞州剑桥:学术出版社;2015.
  7. 大数据。Gartner。URL:https://www.gartner.com/en/information-technology/glossary/big-data[2021-05-02]访问
  8. 周松,乔志,杜强,王佳,范伟,闫旭。基于大数据文本分析的在线评论客户敏捷性研究。管理信息系统学报2018年5月15日;35(2):510-539。[CrossRef
  9. 周勇,邓胜,张平。基于语篇分析的社交媒体语义生成研究。MISQ 2018 Feb 2;42(2):427-464。[CrossRef
  10. 胡佳文,王丽丽,王文杰,王文杰。网络论坛检索与文本分析研究。FNT在信息检索中的应用,2018;12(1):1-163。[CrossRef
  11. Mokkink LB, Terwee CB, Patrick DL, Alonso J, Stratford PW, Knol DL,等。COSMIN研究在分类、术语和与健康相关的患者报告结果的测量属性定义方面达成了国际共识。中华临床流行病学杂志2010 7月;63(7):737-745。[CrossRef] [Medline
  12. 韦金思,李志刚,李志刚,李志刚,等。描述和定义药物依从性的新分类学。中国临床药物学杂志2012 05;73(5):691-705 [免费全文] [CrossRef] [Medline
  13. Šmite D, Wohlin C, galvia Z, Prikladnicki R.一个基于经验的全球软件工程术语和分类。帝国软件工程2012 july 18;19(1):105-153。[CrossRef
  14. 陈华,曾东,陈华。微博情感分析的研究进展。ACM反式。管理。Inf. Syst 2018 9月05日;9(2):1-29。[CrossRef
  15. de Lusignan S, Liyanage H, McGagh D, Jani BD, Bauwens J, Byford R,等。初级保健哨点网络中的COVID-19监测:大流行中应用本体的开发。JMIR公共卫生监测2020年11月17日;6(4):e21434 [免费全文] [CrossRef] [Medline
  16. 免疫覆盖率。世界卫生组织。URL:https://www.who.int/en/news-room/fact-sheets/detail/immunization-coverage[2021-05-30]访问
  17. 阿希肯纳兹,利夫尼,克莱恩,克雷默,哈夫林,伯科维茨。父母麻疹/麻疹疫苗信息和知识来源与疫苗接种犹豫的关系。Vaccine 2020 Oct 27;38(46):7292-7298.[CrossRef] [Medline
  18. Benis A, Khodos A, Ran S, Levner E, Ashkenazi S. COVID-19大流行期间的社交媒体参与和流感疫苗接种:横断面调查研究。J Med Internet Res 2021 3月16日;23(3):e25977 [免费全文] [CrossRef] [Medline
  19. Benis A, Seidmann A, Ashkenazi S.美国社交媒体用户接种COVID-19疫苗的原因。疫苗(巴塞尔)2021年3月29日;9(4)[免费全文] [CrossRef] [Medline
  20. 戴娜,范西,金J,尼迈耶K,拉米雷斯D,阿克利SF,等。脸书和推特对麻疹疫情的反应。卫生信息学杂志2019年9月01日;25(3):1116-1132 [免费全文] [CrossRef] [Medline
  21. 世卫组织冠状病毒(COVID-19)仪表盘。世界卫生组织。URL:https://covid19.who.int/[2021-05-30]访问
  22. Randolph HE, Barreiro LB. Herd Immunity: Understanding COVID-19.Immunity 2020 May 19;52(5):737-741 [免费全文] [CrossRef] [Medline
  23. McDermott A.核心概念:群体免疫是一个重要的——但经常被误解的——公共卫生现象。Proc Natl Acad Sci U S A 2021年5月25日;118(21)[免费全文] [CrossRef] [Medline
  24. 韦尔曼。B.网络化:新的社会操作系统。马萨诸塞州剑桥:麻省理工学院出版社;2014.
  25. 吴林,刘华,刘华。社会媒体中的错误信息研究。SIGKDD空洞。2019年11月26日;21(2):80-90。[CrossRef
  26. 信息流行病学:(错误)信息的流行病学。美国医学杂志2002年12月15日;13(9):763-765。[CrossRef] [Medline
  27. Morley J, Cowls J, Taddeo M, Floridi L.信息时代的公共卫生:认识到信息领域是健康的社会决定因素。J Med Internet Res 2020 Aug 03;22(8):e19311 [免费全文] [CrossRef] [Medline
  28. Cordina M, Lauri MA, Lauri J.对COVID-19疫苗接种的态度、疫苗犹豫和接种意愿。医药实践(格拉纳达)2021;19(1):2317 [免费全文] [CrossRef] [Medline
  29. MacDonald NE, SAGE疫苗犹豫工作组。疫苗犹豫:定义、范围和决定因素。2015年8月14日;33(34):4161-4164 [免费全文] [CrossRef] [Medline
  30. Gupta A, Katarya R.使用机器学习的基于社交媒体的医疗保健监控系统:系统回顾。J Biomed Inform 2020年8月;108:103500 [免费全文] [CrossRef] [Medline
  31. Thomson A, Vallée-Tourangeau G, Suggs LS.提高疫苗接受和接受的战略:从行为见解到针对具体情况、文化适宜的循证沟通和干预。Vaccine 2018 Oct 22;36(44):6457-6458 [免费全文] [CrossRef] [Medline
  32. Alessa A, Faezipour M.通过社交网站进行流感检测和预测的综述。Theor Biol Med Model 2018 Feb 01;15(1):2 [免费全文] [CrossRef] [Medline
  33. 爱玛木E, Maskawa S,森田M.推特捕捉流感:使用推特检测流感流行。在:EMNLP '11:自然语言处理经验方法会议论文集。2011年发表于:自然语言处理经验方法会议;2011年7月27-31日;爱丁堡,英国p. 1568-1576网址:https://dl.acm.org/doi/10.5555/2145432.2145600
  34. Talvis K, Chorianopoulos K, Kermanidis K.通过推特信息的语言和统计分析实时监测流感流行。2014发表于:第九届语义和社交媒体适应与个性化国际研讨会;2014年11月6日至7日;希腊科孚岛网址:https://ieeexplore.ieee.org/document/6978958
  35. 若宫S, Kawai Y, Aramaki E.基于推特的流感高峰后通过间接信息的推文检测:文本挖掘研究。JMIR公共卫生监测2018年9月25日;4(3):e65 [免费全文] [CrossRef] [Medline
  36. Hassan Zadeh A, Zolbanin HM, Sharda R, Delen D. Social Media for Nowcasting Flu Activity:时空大数据分析。Inf系统前沿2019年1月5日;21(4):743-760。[CrossRef
  37. Faasse K, Chatman CJ, Martin LR。A comparison of language use in pro- and anti-vaccination comments in response to a high profile Facebook post.Vaccine 2016 Nov 11;34(47):5808-5814.[CrossRef] [Medline
  38. Sturm L, Kasting ML, Head KJ, Hartsock JA, Zimet GD。COVID-19期间的流感疫苗接种:一项针对美国成年人的全国性调查。疫苗2021年4月01日;39(14):1921-1928 [免费全文] [CrossRef] [Medline
  39. 甘多米A,海德尔M.超越炒作:大数据概念,方法和分析。国际信息管理杂志2015年4月,35(2):137-144。[CrossRef
  40. Secinaro S, Calandra D, Secinaro A, Muthurangu V, Biancone P.人工智能在医疗保健中的作用:结构化文献综述。BMC Med Inform Decis Mak 2021年4月10日;21(1):125 [免费全文] [CrossRef] [Medline
  41. 医生沟通与病人、同行和公众的联系。英国牛津:牛津大学出版社;2019.
  42. Benis A, Barak Barkan R, Sela T, Harel N. 9年来糖尿病患者与医疗保健提供者之间的沟通行为变化:回顾性队列研究。J Med Internet Res 2020 Aug 11;22(8):e17186 [免费全文] [CrossRef] [Medline
  43. 戴X, Bikdash M, Meyer B.从社交媒体到公共卫生监测:基于词嵌入的推特分类聚类方法。2017出席:东南展2017;2017年3月30日- 4月2日;Concord, NC p. 1-7。[CrossRef
  44. 亨里奇新泽西。通过有效沟通提高大流行疫苗接种率。Hum Vaccin 2011 6月;7(6):663-666 [免费全文] [CrossRef] [Medline
  45. Feemster KA。通过沟通和宣传建立对疫苗的接受程度。Hum Vaccin Immunother 2020 May 03;16(5):1004-1006 [免费全文] [CrossRef] [Medline
  46. 辛克莱J,卡杜-霍尔M.大众分类法标签云:什么时候有用?信息科学学报2007年5月31日;34(1):15-29。[CrossRef
  47. Robu V, Halpin H, Shepherd H.协同标签系统中共识和共享词汇的出现。ACM反式。Web 2009 9月3日(4):1-34。[CrossRef
  48. Wetzker R, Zimmermann C, Bauckhage C, Albayrak S. I标签,you标签:高级用户模型的翻译标签。在:WSDM '10:第三届ACM网络搜索和数据挖掘国际会议论文集。2010发表于:第三届ACM网络搜索和数据挖掘国际会议;2010年2月4日至6日;纽约,纽约,第71-80页。[CrossRef
  49. Hönings H, Knapp D, nguybc, Richter D, Williams K, Dorsch I,等。推特上的卫生信息传播:世卫组织推特的内容和设计很重要。健康信息图书馆J 2021 3月8日。[CrossRef] [Medline
  50. 动态分类法:大型信息库的模型。IEEE反式。"。数据工程2000;12(3):468-479。[CrossRef
  51. Twitter API。Twitter开发者平台。URL:https://developer.twitter.com/en/docs/twitter-api[2021-05-04]访问
  52. 张志刚,张志刚,张志刚,张志刚,等。早期研究人员的系统医学术语入门。Netw Syst Med 2021 Feb;4(1):2-50 [免费全文] [CrossRef] [Medline
  53. 《人工智能:现代方法》。纽约州纽约州:皮尔逊;2020.
  54. 施特劳斯J,考夫曼L,斯特恩T.语法和标点符号蓝本:一个易于使用的指南与明确的规则,现实世界的例子,和可复制的测验。新泽西州霍博肯:威利;2014.
  55. Bird S, Klein E, Loper E.用Python进行自然语言处理:用自然语言工具包分析文本。加利福尼亚州塞瓦斯托波尔:O'Reilly Media;2009.
  56. 语境敏感神经lemm化与Lematus。见:计算语言学协会北美分会2018年会议记录:人类语言技术,第1卷(长论文)。2018年发表于:计算语言学协会北美分会会议:人类语言技术;2018;新奥尔良(1391-1400页)[CrossRef
  57. 数据聚类:算法与应用。佛罗里达州博卡拉顿:查普曼和霍尔/CRC;2014.
  58. 基奥·E,缪恩·A.《维度诅咒》。入职:Sammut C, Webb GI,编辑。机器学习和数据挖掘百科全书。马萨诸塞州波士顿:施普林格;2017.
  59. 维数缩减。入职:Sammut C, Webb GI,编辑。机器学习和数据挖掘百科全书。马萨诸塞州波士顿:施普林格;2017.
  60. 陈凯,陈志强,陈志强。基于向量空间的词表示估计算法。出来了。2013.URL:https://arxiv.org/abs/1301.3781[2021-10-02]访问
  61. gensim 4.1.2。Python包索引。URL:https://pypi.org/project/gensim/[2021-06-04]访问
  62. 张志强,张志强,张志强,等。一种基于聚类词嵌入的图像文本分类方法。计算机科学进展,2017;[CrossRef
  63. 李B, Drozd A,郭勇,刘涛,Matsuoka S,杜欣。基于大语料库的Word2Vec标度。科学数据。工程2019年6月25日;4(2):157-175。[CrossRef
  64. Rousseeuw PJ。轮廓:用于解释和验证聚类分析的图形辅助。计算与应用数学杂志1987年11月;20:53-65。[CrossRef
  65. 范德玛顿,李国强。基于t-SNE的数据可视化。机器学习研究,2008;9(86):2579-2605 [免费全文
  66. 谷歌趋势。URL:https://trends.google.com/trends/[2021-06-13]访问
  67. Matschinske J, Alcaraz N, Benis A, Golebiewski M, Grimm DG, Heumos L,等。生物医学研究中的人工智能AIMe注册表。Nat方法2021 8月25日。[CrossRef] [Medline
  68. 胡文杰,张文杰,张文杰,等。这并不完全是关于自闭症:Facebook上出现的反疫苗接种情绪。2019年4月10日;37(16):2216-2223。[CrossRef] [Medline
  69. Burki T.疫苗错误信息和社交媒体。柳叶刀数字健康2019年10月1日(6):e258-e259。[CrossRef
  70. 艾哈迈德·I.瓦解反疫苗产业。Nat Med 2021 Mar;27(3):366.[CrossRef] [Medline
  71. Lopreite M, Panzarasa P, Puliga M, Riccaboni M.通过社交媒体对欧洲各地COVID-19疫情的早期预警。科学通报2021年1月25日;11(1):2147 [免费全文] [CrossRef] [Medline
  72. 每周美国流感监测报告。疾病控制和预防中心。URL:https://www.cdc.gov/flu/weekly/index.htm[2021-06-21]访问
  73. Uyeki TM, Wentworth DE, Jernigan DB。2020-2021年流感季节美国的流感活动美国医学杂志2021年6月08日;325(22):2247-2248。[CrossRef] [Medline
  74. 利用KMeans聚类的剪影分析选择聚类数量。Scikit-learn开发者。URL:https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html[2021-07-27]访问
  75. NLTK 3.6文档。NLTK。URL:https://www.nltk.org/_modules/nltk/cluster/kmeans.html[2021-06-20]访问
  76. Capó M, Pérez A,洛萨诺JA。大规模数据的k均值聚类的有效逼近。基于知识的系统2017 Feb;117:56-69。[CrossRef
  77. Škrlj B, Kralj J, Lavrač N.基于嵌入的剪影社区检测。Mach Learn 2020;109(11):2161-2193 [免费全文] [CrossRef] [Medline
  78. Lovmar L, Ahlford A, Jonsson M, Syvänen AC. SNP基因型簇评估的剪影评分。BMC Genomics 2005 3月10日;6:35 [免费全文] [CrossRef] [Medline
  79. Maugeri A, Barchitta M, Agodi A.基于SARS-CoV-2病例流行和趋势的意大利地区和省份分类的聚类方法。国际环境与公共卫生2020年7月22日;17(15)[免费全文] [CrossRef] [Medline
  80. Ray S, Turi RH。k -均值聚类中簇数的确定及其在颜色分割中的应用。1999年发表于:第四届模式识别和数字技术国际会议(ICAPRDT'99);1999年12月28日至31日;印度加尔各答,第137-143页。
  81. 桑代克RL。谁属于这个家庭?心理测量学1953 Dec;18(4):267-276。[CrossRef
  82. 辉瑞和BioNTech宣布,针对COVID-19的候选疫苗在3期研究的首次中期分析中取得成功。辉瑞公司,2020年11月https://www.pfizer.com/news/press-release/press-release-detail/pfizer-and-biontech-announce-vaccine-candidate-against[2021-06-27]访问
  83. 美国管理着2.937亿剂COVID-19疫苗。路透社,2021年5月URL:https://www.reuters.com/world/us/us-administers-2937-mln-doses-covid-19-vaccines-cdc-2021-05-29/[2021-06-27]访问
  84. pytrends 4.7.3。Python包索引。URL:https://pypi.org/project/pytrends/[2021-06-14]访问
  85. 报告美国COVID-19疫苗接种情况。疾病控制和预防中心。URL:https://www.cdc.gov/coronavirus/2019-ncov/vaccines/reporting-vaccinations.html[2021-06-14]访问
  86. Dong E, Du H, Gardner L.实时跟踪COVID-19的交互式web仪表板。《柳叶刀》传染病2020年5月;20(5):533-534 [免费全文] [CrossRef
  87. 鲍姆加特纳B, Carlisle JE, Justwan F.政治意识形态和信任对疫苗接种意愿的影响。PLoS One 2018年1月25日;13(1):e0191728 [免费全文] [CrossRef] [Medline
  88. 王志刚,王志刚。政治意识形态与疫苗接种意愿:政策设计的启示。政策科学2021年6月:1-15 [免费全文] [CrossRef] [Medline
  89. Allcott H, Boxell L, Conway J, Gentzkow M, Thaler M, Yang D.两极分化与公共卫生:冠状病毒大流行期间社会距离的党派差异。J Public economics 2020年11月;191:104254 [免费全文] [CrossRef] [Medline
  90. Servick K. COVID-19措施目前也抑制流感。科学2021年1月15日;371(6526):224。[CrossRef] [Medline
  91. 冯磊,张涛,王强,谢勇,彭智,郑洁,等。中国和美国COVID-19疫情暴发和干预措施对流感的影响Nat Commun 2021年5月31日;12(1):3249 [免费全文] [CrossRef] [Medline
  92. Razai M, Doerholt K, Ladhani S, Oakeshott P. 2019年冠状病毒疾病(covid-19):英国全科医生指南。BMJ 2020 Mar 05;368:m800 [免费全文] [CrossRef] [Medline
  93. Bagus P, Peña-Ramos JA, Sánchez-Bayón A. COVID-19 and the Political Economy of Mass Hysteria.国际环境与公共卫生2021年2月03日;18(4)[免费全文] [CrossRef] [Medline
  94. Ortiz-Sánchez E, Velando-Soriano A, Pradas-Hernández L, Vargas-Román K, Gómez-Urquiza JL, Cañadas-De la Fuente GA,等。社会网络中的反疫苗运动分析:系统综述。国际环境与公共卫生2020年7月27日;17(15)[免费全文] [CrossRef] [Medline
  95. US 2015-0235246 A1 -跨渠道受众细分。专利中心2015。URL:https://patentcenter.uspto.gov/ !/应用程序/ 14623738[2021-05-02]访问
  96. 温德林C, Radisch J,雅各布佐恩S.社会媒体在风险和危机沟通中的使用。24. OECD公共治理工作文件2013;[CrossRef
  97. Freberg K, Palenchar MJ, Veil SR.使用社交媒体书签服务管理和分享H1N1危机信息。公共关系评论2013年9月39日(3):178-184。[CrossRef
  98. Guidry JP, Jin Y, Orr CA, Messner M, Meganck S. Instagram和Twitter上的埃博拉:卫生组织如何在社交媒体参与中应对卫生危机。公共关系评论2017年9月43日(3):477-486。[CrossRef
  99. 小泽S, Clark S, Portnoy A, Grewal S, Stack ML, Sinha A,等。2001-2020年,疫苗接种对73个低收入和中等收入国家的经济影响估计。公牛世界卫生机构2017 Sep 01;95(9):629-638 [免费全文] [CrossRef] [Medline
  100. 精选美国的社会特征。美国人口调查局。URL:https://data.census.gov/cedsci/table?tid=ACSDP5Y2019.DP02[2021-06-24]访问
  101. Xie X, Liang Y, Li X, Tan W. CuLDA: Solving Large-scale LDA Problems on GPUs.在:HPDC '19:第28届高性能并行和分布式计算国际研讨会论文集。2019发表于:第28届高性能并行和分布式计算国际研讨会;June 22-29, 2019;New York, NY p. 195-205.[CrossRef
  102. Kwok SWH, Vadde SK, Wang G.澳大利亚推特用户中与COVID-19疫苗接种相关的推文主题和情绪:机器学习分析。J Med Internet Res 2021年5月19日;23(5):e26953 [免费全文] [CrossRef] [Medline
  103. 薛娟,陈杰,胡睿,陈超,郑超,苏勇,等。关于COVID-19大流行的推特讨论和情绪:机器学习方法。J Med Internet Res 2020年11月25日;22(11):e20550 [免费全文] [CrossRef] [Medline
  104. US-20150088636-A1 -地理性能数据分类。专利中心2015。URL:https://patentcenter.uspto.gov/ !/应用程序/ 14555758[2021-05-02]访问
  105. US 2014-0236715 A1 -社交媒体网络中的定向广告。专利中心,2014。URL:https://patentcenter.uspto.gov/ !/应用程序/ 14036494[2021-05-02]访问
  106. Rufai S, Bunce C. World leaders' usage of Twitter in response to the COVID-19 pandemic: a content analysis.J Public Health (Oxf) 2020 Aug 18;42(3):510-516 [免费全文] [CrossRef] [Medline
  107. Read W, Robertson N, McQuilken L, Ferdous A.消费者在Twitter上的参与:对品牌的认知很重要。EJM 2019 9月09日;53(9):1905-1933。[CrossRef
  108. Dyer J, Kolic B.在Covid-19大流行期间推特上的公众风险认知和情绪。科学通报2020;5(1):99 [免费全文] [CrossRef] [Medline
  109. Saleh SN, Lehmann CU, McDonald SA, Basit MA, Medford RJ。了解公众对2019冠状病毒病(COVID-19)在推特上的社交距离的看法。感染控制和流行病学2021 Feb;42(2):131-138 [免费全文] [CrossRef] [Medline
  110. Benis A, Tamburis O, Chronaki C, Moen A.一个数字健康:未来健康生态系统的统一框架。J Med Internet Res 2021 Feb 05;23(2):e22189 [免费全文] [CrossRef] [Medline


API:应用程序编程接口
食品药品监督管理局:食品和药物管理局
NLTK:自然语言工具包
t-SNE:t分布随机邻居嵌入


G·艾森巴赫(G Eysenbach)编辑;提交12.07.21;E Fernandes de Mello Araujo, Q Zou同行评审;对作者26.07.21的评论;订正版本收到05.08.21;接受18.09.21;发表14.10.21

版权

©Arriel Benis, Anat Chatsubi, Eugene Levner, Shai Ashkenazi。最初发表在JMIR信息流行病学(https://infodemiology.www.mybigtv.com), 14.10.2021。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用最初发表在JMIR Infodemiology上的原创作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map