卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

霁

JMIR Infodemiology

2564 - 1891

卡塔尔世界杯8强波胆分析

加拿大多伦多

v1i1e31983

34693212

10.2196/31983

原始论文

在COVID-19大流行期间，推特上关于流感、疫苗和疫苗接种的帖子的变化:基于人工智能的信息流行病学研究

Eysenbach

冈瑟

费尔南德斯·德梅洛·阿劳霍

埃里克

邹

气

贝尼省

阿赫耶

博士学位 1

工业工程与技术管理学院“，霍伦理工学院

格罗姆街52号

子整体,5810201

以色列 972 35026892 arrielb@hit.ac.il

https://orcid.org/0000-0002-9125-8300

Chatsubi

阿娜特

二元同步通信 1

https://orcid.org/0000-0002-0972-3251

Levner

尤金

博士学位 3.

https://orcid.org/0000-0003-0430-408X

德系犹太人

Shai

硕士,博士 4

https://orcid.org/0000-0001-7244-0679

1 工业工程与技术管理学院“，霍伦理工学院

子整体

以色列 2 医学数字技术学院“，霍伦理工学院

子整体

以色列 3. 理学院霍伦理工学院

子整体

以色列 4 阿德尔森医学院爱丽儿大学

爱丽儿

以色列

通讯作者:Arriel Benis arrielb@hit.ac.il

Jan-Dec 2021

14 10 2021

1 1

e31983

12 7 2021 26 7 2021 5 8 2021 18 9 2021

©Arriel Benis, Anat Chatsubi, Eugene Levner, Shai Ashkenazi。最初发表于JMIR信息流行病学(https://infodemiology.www.mybigtv.com)， 2021年10月14日。

2021

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是必须正确引用在JMIR信息流行病学上首次发表的原始作品。必须包括完整的书目信息，https://infodemiology.www.mybigtv.com/上的原始出版物链接，以及版权和许可信息。

背景

在社交媒体上对健康问题的讨论是一个重要的信息来源，反映了现实世界对事件和意见的反应。它们在公共卫生保健中往往很重要，因为它们影响着影响犹豫不决的个人接种疫苗决策的途径。基于互联网搜索引擎查询的人工智能方法已被建议用于检测疾病爆发和群体行为。在社交媒体中，Twitter是搜索和分享关于卫生保健问题(包括疫苗接种和疫苗)的意见和(错误)信息的常用平台。

客观的

我们的主要目标是支持在社交媒体上设计和实施未来的电子卫生战略和干预措施，以提高有针对性的传播运动的质量，从而提高流感疫苗接种率。我们的目标是定义一种基于人工智能的方法，以阐明Twitter上关于流感疫苗接种的帖子在COVID-19大流行期间的变化。这些研究结果可能支持适当的疫苗接种运动，并可推广到其他与健康有关的大众传播中。

方法

该研究包括以下5个阶段:(1)从Twitter上收集有关美国流感、疫苗和疫苗接种的推文;(2)使用机器学习技术进行数据清理和存储;(3)确定与流感、疫苗和接种相关的术语、标签和主题;(4)对之前定义的词汇(术语和主题)建立动态的大众分类法，以支持对其趋势的理解;(5)对大众分类法进行标签和评价。

结果

我们收集并分析了2019年12月30日至2021年4月30日期间420,617名独立用户的2,782,720条推文。这些推文是用英语写的，来自美国，至少包含以下词汇中的一个:“流感”、“流感”、“疫苗”、“疫苗”和“vaxx”。我们注意到，在2020年，“疫苗”和“接种疫苗”这两个词的流行度增加了，“流感”和“covid”的出现率呈负相关，因为“流感”随着时间的推移从推特上消失了。通过结合单词嵌入和聚类，我们确定了一个围绕以下3个主题构建的大众分类法，这3个主题主导了收集到的推文内容:“健康和医学(生物和临床方面)”、“保护和责任”和“政治”。通过分析经常同时出现的词汇，我们注意到这些推文主要与COVID-19大流行事件有关。

结论

这项研究最初侧重于流感疫苗接种，后来转向COVID-19疫苗接种。在推特和其他社交媒体上，由机器学习支持的信息监测可导致设计个性化信息，鼓励目标亚人群参与接种疫苗。目标人群收到个性化信息的可能性越大，目标人群对疫苗接种过程的反应、参与和主动性就越高。

流感疫苗疫苗接种社交媒体社交网络健康传播人工智能机器学习文本挖掘 infodemiology 新型冠状病毒肺炎 SARS-CoV-2

简介背景

随着以网络为媒介的交流环境的增加，社交媒体平台使个人能够讨论不同的问题，表达他们的想法和辩论[ 1- 3.］．Twitter是一家提供微博服务的领先社交网络。用户可以发布被称为tweet的帖子，其长度限制为280个字符。因此，用户可以通过回复、分享或通过“点赞”来表达自己的兴趣，与他人进行互动。这些互动能力是社交网络连接本质的基本构建模块，是全球平台上用户之间思想转移的呼应[ 4］．从推文内容中检索信息是一项挑战，但比其他长信息社交媒体平台更容易管理。 5］．事实上，来自社交媒体和Twitter的结构化和非结构化数据的数量多年来一直呈指数级增长[ 6， 7］．数据挖掘和文本挖掘能够发现潜在的新知识，并有助于开发高效的循证决策工具[ 8- 10]通过提取有意义的摘要，如统计摘要或受控词汇表(如术语、大众分类法、分类学和本体论)[ 11- 15］．

现代医学最重要的成就之一是开发和广泛使用安全有效的疫苗。然而，由于对疫苗的犹豫和拒绝而部分接受疫苗是一个重大的健康威胁。至于流感，与其他疫苗相比，疫苗依从性较低，主要是因为疫苗必须每年重复接种[ 16］．与其他疫苗一样，流感在现实世界和网上引起讨论[ 17- 20.］．COVID-19疫苗也不例外。

此外，新冠肺炎疫情在全球的蔓延[ 21]，它对日常生活的重大影响，以及对抗它的疫苗的相对快速开发，使COVID-19疫苗成为社交媒体上讨论的重要健康话题。减少流感和COVID-19等传染性疾病的发病率需要实现群体免疫[ 22， 23]，最好是接种疫苗。只有通过人口参与才能实现这一公共卫生目标[ 18， 19］．

社交媒体平台，如Twitter，是人们分享观点和搜索(错误)信息的首选场所。 24， 25关于医疗保健问题[ 26， 27]，包括疫苗[ 17， 18， 28］．这些开放论坛可以影响犹豫不决的个人的意见和接种疫苗的决定[ 29］．关于疫苗的必要性、有效性和安全性，疫苗倡导者和“反疫苗”激进分子之间的讨论仍在继续。此外，整个互联网能够发现疾病爆发的早期预警、跟踪其传播和恢复能力[ 30.]，以及循证信息的传播[ 31， 32］．人工智能方法和算法(即数据挖掘、文本挖掘和自然语言处理)在过去十年中已根据互联网搜索引擎查询和社交媒体线程的新趋势有效地用于检测流感等疫情[ 33- 36］．有必要采取公共卫生干预措施[ 37对疫苗反对者传播的错误信息采取严厉的措施[ 19， 38］．相关工具应基于人工智能，对社交媒体产生的大数据进行高效、自动化的分析[ 39， 40］．

了解一些与卫生相关的事件讨论期间发生的变化对于提高卫生传播效率至关重要[ 41， 42］．疾病预防项目需要纳入一些方法，使基于证据的信息能够通过在线资源向广泛的人群提供，并加强对有偏见和误导性公告的控制。主要关注的是社交媒体上的广告政策和活动[ 30.， 43］．

目的，目的和假设

我们的主要目标是支持在社交媒体上设计和实施未来的电子卫生战略和干预措施，以提高有针对性的传播运动的质量，从而提高流感接种率[ 18， 19， 44， 45］．

我们的主要目的是定义一种基于人工智能的方法来分析推文，包括与流感和COVID-19疫苗接种相关的术语。我们专注于发现与流感疫苗接种相关的共出现术语，并突出与这些术语相关的主要主题。因此，这些结果必须用于建立大众分类法[ 46- 49]，然后可支持加强疫苗接种运动。该方法可推广到其他与健康有关的大众传播。我们的研究目标是建立一个及时和动态的词汇表，以英语发布与流感、疫苗和疫苗接种相关的各种主题。该词汇表可作为卫生传播专家和卫生政策制定者的决策支持工具，有助于理解不同主题随时间的变化，如本研究中建议的主题(与“流感”、“疫苗”和“疫苗接种”相关的推文)。

以下4个假设指导了本研究:

推特是理解接种疫苗的理由的来源。

“流感”、“疫苗”和“疫苗接种”主题与其他主题(如政治、经济和恐惧)没有直接联系，但与健康问题有关。

与疫苗和接种相关的推特内容的现状和新闻影响。

关于流感、疫苗和疫苗接种的推文的术语和标签可以用动态词汇表组织[ 50］．它可以反映社交媒体平台上长期以来讨论的主要话题和相关术语。

本研究获得了以色列Holon理工学院技术管理学院伦理委员会的伦理批准(TM/2/2020/AB/004)。研究期间在Twitter上收集的信息以安全加密的方式存储，由机构向首席研究员(AB)提供有限制的访问权限。

方法概述

本研究分为以下5个阶段:

使用Twitter流应用程序编程接口(API)收集推文及相关数据的数据源[ 51];

数据清理和存储;

确定与“流感”、“疫苗”和“疫苗接种”相关的术语、标签和主题;

建立一个动态词汇表，一个大众分类法，来支持对它们之间关系的理解;而且

评估词汇簇。

数据来源

从2019年12月30日到2021年4月30日，我们通过Twitter API提取和收集了16个月的推文。这些推文是用英语写的，来自北美，至少包含以下词汇中的一个:“流感”、“疫苗”、“疫苗”和“vaxx”(最后一个词汇是用来捕捉与反对接种疫苗相关的信息的，因为这些人使用它)。我们选择这些术语是为了尽可能多地检索有关疫苗作为一种产品、疫苗作为一种行为或政策、疫苗接种犹豫和流感的讨论。此外，由于Twitter参与者使用非正式语言，为了提取与流感相关的内容，我们使用了流行术语“流感”。提取过程中省略了转发和点赞。在16个月的随访期间，我们捕捉到了与流感、疫苗和疫苗接种相关的推特词条和主题。事实上，在美国，2020年涉及COVID-19大流行和总统选举。

数据预处理和清理

确保有效使用机器学习方法[ 52关于推文集合[ 53，我们对它进行预处理，对出现在帖子中的相似词进行清理和lemmatize。数据清理包括删除标点符号[ 54，提及用户、符号、网站地址和停顿词[ 55］．此外，由于推文是用自然语言和简洁的方式写的(由于280个字符的限制)，一个词可能由于各种原因(如拼写错误和简短的形式)而写成多种形式，它们都具有相同或相似的含义。词元化是克服这一问题的方法之一。它包括用词根形式替换单词(例如，用" vaccine "替换" vaccines ")。［ 56］．例如，由于covid -19大流行，在收集过程中检索到的推文包含术语“covid”的多种表示形式，如“COVID19”、“covid -19”和“冠状病毒”。我们使用Python自然语言工具包(NLTK)包进行术语化[ 55］．由于推文的性质是非正式的，因此假设使用这些词的单一表示不会显著改变推文的上下文，从而提高模型的准确性。因此，经常出现的“COVID”一词被单一形式的“COVID”取代，与“流感”相关的术语被引申为“流感”，成为推特上的流行语言。所有的引理都以小写形式存储。

确定与流感、疫苗和疫苗接种相关的术语和主题

我们通过以下三个步骤处理与流感、疫苗和疫苗接种相关的术语、标签和主题的识别:(1)使用单词嵌入和n-grams进行聚类;(2)构建大众分类法;(3)评估大众分类法聚类。

聚类

聚类的目的是将一组点划分为组，每个点尽可能相似，且与其他点不同[ 57］．例如，在文本挖掘的上下文中，特别是在挖掘tweet语料库的上下文中，可以使用聚类来对语义相似或频繁出现在同一消息中的术语进行分组。每个集群，根据其内容，可以用一个主题进行注释。

字嵌入

随着时间的推移，处理大量收集的tweet意味着处理维度的诅咒[ 58］．因此，与降维相关的符号-数字重新表述[ 59]必须用来在合理的时间内处理大量的数据，降低处理的复杂性。单词嵌入是支持这两个目标的相关方法;它由一种习得的文本数字表示形式组成，其中在特定上下文中具有相似含义的单词在向量中具有相同的数字表示形式。在全局范围内，单词嵌入允许预测特定上下文中的单词。因此，Word2Vec是一种基于神经网络模型的单词嵌入算法，该模型从大量文本(即上下文)中学习单词或术语之间的关联。在第一个训练步骤之后，Word2Vec可以检测同义词或术语，或建议完整的句子。的空间(语料库)中两个向量(即词和术语)之间的余弦或欧氏距离(即相似度或关系)表示语义相似的向量和词 n维度(即语料库中单词或术语的数量)[ 60］．例如，与时间相关的单词，如“日”、“周”、“月”、“季”和“年”，将在类似的上下文中使用，并被定义为语义封闭的。预处理数据用于在Python中创建Gensim Word2Vec模型[ 61］．为了在上下文中查看每个单词与其他单词的关系，我们使用K-means算法生成了集群[ 62， 63]，以协助决策者更好地了解公众对疫苗和预防流感和COVID-19疫苗接种的看法。随着讨论的不断发展，单词嵌入和聚类过程每月都会在新收集的推文中重复。

字格

作为单词嵌入的一种补充方法，我们建立了一个n-gram语言模型，预测单词序列(在停止词清理后)出现在我们的推文语料库中的概率。我们提取了每个星期最频繁的n-gram，包含1到4项(n)。此外，该过程使用了Gensim Python库[ 61］．这种方法使卫生传播决策者能够在与疫苗接种和流感有关的讨论中了解新的增长或缩小的孤立术语和术语集。

将集群的数量定义为主题

聚类是一种无监督学习任务，因为需要定义而具有挑战性 k以及要建立的集群数量。“轮廓法”允许评估聚类的质量，因为它确定了一个对象(例如，一个词也称为unigram)与其聚类内容的相似性，以及与其他聚类的相似性。剪影显示了哪些对象(例如，单词、向量和值)在一个簇中位置很好，哪些对象不太相关。整个集群轮廓的图形组合(例如，与 k集群)到一个单一的地块允许欣赏每个集群的相对质量和整体集群本身。总体平均轮廓宽度(即每个聚类的平均轮廓宽度)提供了聚类有效性的评估。较高的整体平均轮廓宽度值(即轮廓得分)与较好的聚类相关 k，因此，必须选择它作为更好的分区。轮廓法与所使用的分割算法无关[ 64］．从我们的研究角度来看，每个术语必须有最少的出现次数才能包含在分析中。此外，在一条tweet中，两个术语之间必须有最大距离(其他术语的数量)，以考虑它们潜在的语义链接。

集群可视化

聚类可视化是通过使用t分布随机邻居嵌入(t-SNE)产生的，t-SNE是一种非线性降维技术，用于嵌入高维数据并将其可视化到低维(即2或3)空间[ 65］．

聚类和n -格中术语的求值

为了评估我们的方法和识别与流感、疫苗和接种相关的术语、标签和主题的结果，我们实现了一个建立在互补方法上的验证过程。第一个研究的是单词嵌入结果，第二个研究的是n-grams，第三个研究的是社交媒体用户的整体嵌入结果。因此，这些术语被分组一次是从语义角度进行分组，首先是单词嵌入，另一次是从高共出现频率分组，因为n-grams以总结的方式描述了探索的Twitter线程的内容。

第二种评估方法包括使用谷歌趋势[ 66]以获取特定时期和特定地理区域内搜索词的相对频率。本研究从推文中提取n个g (n在1到4之间)，并计算其每周出现频率。接下来，在前150名列表中连续出现至少12周的n-grams被用作谷歌Trends查询的输入，该查询在Twitter上发布。最后，对n-g(双g)和谷歌Trends查询结果进行归一化处理。通过考虑每周基于tweet的n-gram和每周在谷歌搜索引擎上的查询相对数量(包括n-gram术语)，计算出它们的皮尔逊相关系数。

第三次评估包括计算特定于疫苗、疫苗接种、流感和COVID-19的每周频率(2020年12月至2021年4月)与接种COVID-19疫苗的人口比例之间的皮尔逊相关性。

知情同意声明

这些社交网络数据是以匿名的方式收集的，并遵循Twitter的规则。评估调查的参与者在平台上以电子方式提供匿名知情同意，然后才能继续完成问卷。

数据可用性声明

由于Twitter的规章制度，无法获得支持这项研究结果的Twitter数据。支持调查结果的调查数据可根据合理要求从通讯作者(AB)处获得，这些数据需要经过调查者所在机构的伦理和法律批准。本研究的方法将在生物医学研究中的人工智能AIMe注册中报告[ 67］．

结果描述性统计

在2019年12月30日至2021年4月30日期间，共收集了420,617名独立用户的2,782,720条推文。的图图1显示每月包含以下至少一个术语(或在清洗和术语化后类似术语)的推文数量(柱状列):(1)“流感”，(2)“疫苗”，(3)“疫苗”，(4)“疫苗”，以及(5)“covid”。里面的线条图1显示这些术语在收集的tweet中的比例。尽管“covid”及其同义词最初并不是用于查询推文的关键词，但它的出现反映了covid -19大流行作为2020年和2021年关于疫苗接种和流感讨论的一个重要主题的影响。

图1还显示，从2020年12月到2021年4月，全球范围内包含至少一个词汇“流感”、“疫苗”、“疫苗”、“vaxx”和“covid”的推文数量急剧增加多媒体附件1)．发现了两个峰值。第一次是在2020年3月，世界卫生组织宣布COVID-19为大流行(2020年3月11日)，唐纳德·特朗普总统宣布COVID-19为全国紧急状态(2020年3月13日)。2020年12月的第二个高峰主要与“疫苗”有关，以应对COVID-19疫苗的批准(美国食品和药物管理局(FDA)于2020年12月11日和2020年12月18日批准辉瑞BioNTech疫苗和Moderna疫苗的紧急使用授权)。因此，“疫苗”一词从2020年1月的约35%增加到一年后的约80%。相比之下，“vaxx”一词(包括“antivaxx”、“antivaxxer”、“anti-vaxx”和“anti-vaxxer”)在整个数据收集期间稳定在1% - 3%。然而，必须考虑到疫苗接种反对者使用了各种工具和交流话语，而不是唤起“反疫苗接种”一词本身[ 68- 70］．与流感(" flu ")和covid -19 (" covid ")相关的词汇呈负相关关系( r=−0.83, P<.001) ( 多媒体附件1)．从2020年1月开始，随着首批covid -19病例从中国传播到欧洲和美国，“covid”一词的使用呈线性增加[ 71]，直到2021年2月，它是收集的推文中大约35%的一部分。与此同时，"流感"一词的使用稳步减少，可能是由于2020-2021年流感季节流感活动较低[ 72， 73］．

图1

在2019年12月30日至2021年4月30日期间，按月分列的推文数量分布，其中至少包含一个术语“流感”、“疫苗”、“疫苗”、“vaxx”和“covid”。

与流感、疫苗和疫苗接种相关的术语和主题的识别字嵌入

Word2Vec算法每月运行一次，以找到支持主要趋势主题的最优参数。确定最优参数值的方法是使用每个参数的不同值创建模型，并使用sklearn的“silhouette te_score”函数计算每次迭代的轮廓分数。Python中的度量[ 74］．多媒体附件2显示每个月各车型的参数值和廓形得分。此外，每周只对同一周收集的推文中检测到的词汇总数中出现次数最高的词汇进行调查。这些属性的值随着时间的推移而变化，以考虑社交媒体用户词汇的动态变化受到现实的影响。

k - means聚类

使用每月的单词嵌入模型作为输入，使用NLTK KMeansClusterer [ 75］．聚类方法将给定的数据集分组为a k预定簇数[ 66， 76］．在执行分区时，目标是最小化集群内的方差，并最大化来自不同集群的元素之间的方差。以确定最佳簇数[ 77，我们计算k-均值聚类运行的轮廓分数 k∈(3、6)。聚类模型的轮廓分数是在2019年12月30日至2021年4月30日期间，420,617名独特用户的2,782,720条推文上生成的，涉及141,407 n-grams n∈(2、4)。最高的轮廓分数反映了这种分组，其中不同的对象很好地影响到它们的集群，与相邻的和不太相关的集群联系较少。较高的廓形分数( 年代=0.72)得到 k= 3。这个分数可以被认为是不错的，因为我们对与不同主题相关的术语进行了聚类，并且聚类可以部分重叠[ 78， 79］．此外，通过计算Ray-Turi指数[ 80] k在2和10之间，并用肘法建立不同生成值的曲线，最优 k等于3 [ 81］．

事实上，我们根据领域专家(公共卫生、感染学和信息学)的共识，对研究的推文集合中的3个集群的内容进行了解释。这些集群是“COVID-19大流行期间预防流感疫苗接种”民间分类法的光秃秃的砖块。我们将收集到的推文内容中占主导地位的3个主题定义如下:

“健康和医学(生物学和临床方面)”，包括“大流行”、“COVID-19”、“疫苗”、“疾病”、“死亡”、“变体”、“儿童”、“流感”、“流感”和“健康”等词汇;

“保护和责任”，包括“保护”、“保持社交距离”、“接种疫苗”、“抗击COVID-19”和“责任”等词汇

“政治”由诸如“特朗普”、“拜登”、“谎言”、“政府”、“信任”、“法案门”、“免费”、“钱”、“总统”、“政治”、“政客”、“选举”、“疫苗”和“政策”等词汇支持。

图2显示3个集群的二维图形表示，每个集群有1000个最频繁的n-g ( n∈[1;4])( 多媒体附件3而且多媒体附件4)，由t-SNE算法生成[ 65］．

显然，此可视化( 图2)可以让我们看到之前计算的每个集群的推文中使用最多的前1000个术语。值得注意的是，集群之间存在重叠，这是相当合乎逻辑的，当我们意识到推文在很多情况下与几个主题同时相关(例如，来自一个帐户处理政治问题:“ 疫苗提供良好的保护有效率80%以上。大多数人不会生病的而那些愿意的人，也不会认真对待生病了或死”)。

图2

具有1000个最频繁n-g的3个主题簇的t分布随机近邻嵌入图形表示( n∈(1;4))。橙色、海泡色(绿色-蓝色便于色盲人士阅读图表)和紫色分别代表“健康和医学(生物学和临床方面)”、“保护和责任”和“政治”。

字格

使用预处理的推文提取每周的n克。多媒体附件4显示了每种最常见的10个n-gram n∈(1;4)。例如，在这项研究的几个月里，单词“流感”和“坏的”在词汇嵌入模型中被发现非常接近( 多媒体附件3这两个词也是一个常见的n-gram，无论是重音还是n-gram的高阶部分。虽然包含在单词嵌入表示中，但我们可以看到这两个单词之间的关系，因为它们彼此更接近，并且处于相同的语义集群中。

在提取之后，每个n-gram都得到了它的增长值，表明与前一周相比n-gram的频率增加或减少。在一般的讨论中，增长被用来强调n字格的显著变化。例如，2020年11月9日，辉瑞生物技术公司公布了COVID-19疫苗试验的初步结果，显示对该疾病具有很高的疗效。同周的n-g显著增加如下: ,疫苗，“774.6% (1207/ 51553 vs 138/ 51553)和” 得到疫苗，”557.9% (1987/149,333 vs 302/149,333) [ 82］．

此外，在2021年3月中旬，我们还注意到与COVID-19疫苗接种相关的n-g显著增加，原因是推特上有报道称，个人接种了疫苗，或地方当局邀请民众安排接种疫苗的预约(例如，“疫苗，预约，可用”+264.9%[2021年3月15日开始的一周为748/18,678，而2021年3月08日开始的一周为205/18,678]，以及“代码，疫苗，预约，可用”，+251.5%[从2021年3月29日开始的那一周为942/6264，从2021年3月22日开始的那一周为268/6264])[ 83］．

推特用户回应的另一个例子是在2020年5月11日开始的那一周。前导n格是" 社交距离、平曲线、王牌、测试和" 平曲线，王牌，测试，疫苗(其中“社交距离”和“平坦曲线”都是话题标签)。两者均较前一周增长了693.0%(从2020年5月4日开始的一周内发生了43起，而总共516起中发生了341起)。那一周，《福布斯》杂志发表了一篇文章，称美国各地的医院都在“ 不要被压垮，这表明扁平化曲线的努力取得了成功。总体结果显示了从2019年底到2021年年中，关于流感、疫苗、疫苗接种和COVID-19的推文是如何动态演变的。

评估谷歌趋势验证

作为互联网的一个组成部分，像Twitter这样的社交媒体是人们获取和分享信息和知识的一部分。因此，在像谷歌这样的搜索引擎上查看查询，可以评估在社交媒体上检测到的术语和主题的全球兴趣。因此，我们计算了推文中n-grams的每周出现次数和谷歌搜索引擎每周查询次数与谷歌趋势上报告的n-grams的Pearson相关性[ 84］．作为先前披露的结果一致性的一个例子，Twitter上“流感，症状”的n-gram与谷歌上的查询数量高度相关( r= 0.85, P在2020年1月1日至2021年3月4日之间<.001)( 表1)．在这65周内，这个n-gram(即“流感，症状”)也被用来搜索关于“流感”和“症状”的信息。

此外，当我们注意到它在Twitter上的使用越来越不受欢迎时，我们也注意到谷歌上的类似行为。此外，n-gram的“covid，疫苗”也显示了推特和谷歌( r= 0.85, P<.001)，且在2020年1月至2021年1月期间，2个平台上均呈现先增加后减少的趋势。在全球范围内，社交网络和搜索引擎上与疫苗、疫苗接种和COVID-19相关的热门话题相似( 表1)．因此，互联网用户在搜索引擎上的查询与通过分析我们的Twitter消息数据集的文本定义的主题的时间有关。

表1

n-gram在tweet和谷歌搜索查询的趋势频率之间具有高度相关性的例子。

语法	期间(开始日期至结束日期)	皮尔森相关	P价值
第二剂	2021年1月4日至4月30日	0.91	<措施
先接种疫苗打针	2021年1月18日至4月25日	0.89	<措施
第二,疫苗	2021年2月1日至4月30日	0.86	<措施
流感症状	2020年1月1日至2021年4月4日	0.85	<措施
covid、疫苗	2020年1月20日至2021年4月30日	0.85	<措施
认为,流感	2020年1月1日至3月30日	0.84	<措施
第二，剂量，疫苗	2021年1月4日至4月30日	0.84	<措施
第二，接种疫苗	2021年2月1日至4月30日	0.84	<措施
接种新冠病毒疫苗	2020年3月30日至2021年4月30日	0.84	<措施
得到疫苗	2020年1月1日至2021年4月30日	0.80	<措施

实际验证

2020年12月11日，FDA发布了COVID-19疫苗的紧急使用授权。几天后，即2020年12月20日，开始为人群接种辉瑞BioNTech疫苗。我们从美国疾病控制和预防中心(CDC)的出版物下载了每日疫苗接种率，并在每周水平上汇总了它们[ 85］．我们注意到，从2020年12月到2021年4月30日，每周COVID-19疫苗接种次数n克与每周疫苗接种率之间的皮尔逊相关性( 表2)高且显著( r> 0.81, P<措施)( 86］．这些结果表明，这项研究的推特反映了大流行期间的“现实生活”重大事件。

表2

2020年12月20日至2021年4月30日期间，美国疾病控制和预防中心报告的5个最高n克趋势与接种率趋势的相关性。

语法	皮尔森相关	出现次数	P价值
先,	0.88	17133年	<措施
疫苗,今天	0.87	9205	<措施
首先,疫苗	0.83	9260	<措施
首先,剂量	0.82	11357年	<措施
疫苗,	0.81	11113年	<措施

讨论主要研究结果

这项研究是为了阐明网上公众对疫苗接种的看法，主要是针对季节性流感。然而，基于推特的讨论的焦点发生了重大变化，令人印象深刻地反映了2020年的COVID-19大流行。本研究最重要的方面是建立基于推文文本分析、词嵌入和聚类的大众分类法。在这个大众分类法中确定的3个主题如下:

从"健康和医学(生物学和临床方面)"角度的一般性问题。最初用于提取推文的术语是“流感”、“疫苗”、“疫苗”和“vaxx”。这些术语实际上与健康和医学密切相关，并产生了大量的威胁(例如，询问/回答有关症状的问题、报告健康状况和分享立场)。考虑到数据收集的时间，出现与COVID-19大流行有关的术语是可以理解的。

"保护和责任"是决定是否接种疫苗的一个中心方面。COVID-19大流行表明，有必要保持社交距离和戴口罩，以减少病毒的传播。由于这些原因，与流感(“流感”)或免疫(“疫苗”和“疫苗”)相关的推文，以及与COVID-19相关的推文，包括讨论保护措施(如接种疫苗)和使用这些措施的责任(如接种疫苗)的线程。需要强调的是，基于之前的研究[ 19， 87， 88]，有意接种疫苗被美国年轻人视为一种集体责任行为。

“政治”是一组显示美国政治领导人(即共和党和民主党)在危机严重性和减少疾病传播努力方面的意见和信息的分歧[ 89］．除了这一集群外，重要的是要记住，与2019冠状病毒病大流行的第一年和第一波疫情平行，2020年是选举年。因此，地方和国家对这一全球性流行病的管理是政治辩论的来源，也是对政府、行政部门和卫生保健系统的支持或批评的来源。

民间分类法背后的机制依赖于一系列复杂的因素。首先，如上所述，每个集群出现的原因取决于文化和现实事件。其次，可以通过分析经常出现在一起的术语(n-grams)来量化这些机制。因此，在这项研究的背景下，我们观察到推特的主要焦点主要与COVID-19大流行事件(疾病、禁闭、政治家谈话、疫苗批准和疫苗接种)有关，并随着时间的推移而增加，如术语“疫苗”和“疫苗接种”的流行，这与术语“流感”形成对比，随着时间的推移，“流感”从推特中消失了。这表明，保持社交距离和戴口罩等COVID-19措施显著降低了2020-2021年期间的季节性流感发病率[ 73， 90， 91］．然而，这些趋势变化以及民俗分类内容变化的一个潜在的主要原因和机制可能与公民对每年流感传播的注意力转移有关，这是由破坏性和威胁性的COVID-19大流行引起的。这些干扰引起了不同的行为或感受，如毁灭、恐惧、担忧和理解的需要。 92， 93］．

优势与局限

越来越多地利用社交媒体和社交网络及时传播多方式和多来源的健康相关信息。在季节性流感和COVID-19等流行病和大流行的背景下，卫生保健组织和政府机构现在在社交媒体上传播信息并开展传播运动，例如，提高公民对疫苗接种的参与。与此同时，个人分享他们的立场，即使这与反疫苗趋势有关，有时也会传播错误信息[ 94］．我们的研究的优势在于，它能够为卫生当局提供与卫生保健问题或事件(如接种疫苗或与病毒相关的事项)相关的社交媒体线程中出现的或持续的主题的每周、每月和长期大众分类法。使用这些工具，提供一个大众分类法和在相同或额外的集群中共同出现的术语，可以加强与健康相关的社交媒体活动，关注大的公众及时的兴趣和查询，类似于在其他商业领域中使用的方法。

事实证明，通过及时获得报告，有可能指出社交媒体上经常使用的各种主题、词汇和术语，从而使卫生传播专家，特别是与社交媒体打交道的专家，能够集中精力开展最新的活动，以增加人口参与，如在其他商业领域开展的活动[ 95以及与促进健康有关的行动，特别是在流行病和危机期间[ 96例如，H1N1 [ 97]和埃博拉[ 98])，正如在先前的研究中所建议的那样，不涉及术语、主题和目标人群的发现或指定[ 99］．

对社交媒体，特别是社交网络的探索，由于被动地排除了这些沟通渠道的非用户或只阅读帖子而不自己发帖或回复其他用户消息的不活跃用户而受到限制。

这项研究的另一个局限性是，它只基于来自北美的英语推文。这种筛选限制了结果的泛化。美国人口的多样性表明，在美国以其他语言开展这类研究将使健康沟通得以微调，并提高非英语社区(即约22.0%的美国人口)的疫苗接种依从性[ 19， One hundred.］．

与我们的研究并行的是，2020年1月至10月(与我们的研究中2019年12月至2021年4月(与我们的研究中2019年12月至2021年4月)在澳大利亚推特用户(与我们的研究中美国推特用户)中进行了另一项专门和严格处理疫苗接种和COVID-19的研究，收集了31100条推文(与我们收集的2782720条推文)。该分析基于潜狄利克雷分配，这是一种无监督学习方法，可以大规模密集地消耗系统资源[ 101］．澳大利亚的推特分析显示了以下3个主要主题:(1)“COVID-19及其疫苗接种”，(2)“对感染控制措施和疫苗试验的宣传”，以及(3)“阴谋论、抱怨和错误信息”[ 102］．尽管存在一些趋同之处，但这些结果与我们的结果不同，因为它们更具体地关注与covid -19相关的问题。

此外，最初用于提取推文的词汇集(“流感”或“疫苗”或“疫苗”或“vaxx”)使我们能够捕捉到与我们感兴趣的每个术语相关的更大范围的线程，而不需要像其他之前的研究那样采用严格的过滤方法[ 101］．然而，如果不扩展提取词集，加上与COVID-19大流行相关的词汇，可能有趣但不包含这些词汇之一的推文就不会被提取出来。例如，2021年4月中旬发布的以下推文包含了在n-gram分析中检测到的词汇，但没有明确表示用于提取推文的词汇未能被检索:“我很兴奋，我在我的县城获得我的第一针辉瑞(Pfizer)疫苗。”增强趋势跟踪动态的未来观点是，可以考虑使用其他因现状而产生干扰的术语(如“covid”、“剂量”、“注射”和疫苗的商品名称)更新推文提取查询的术语。这种增强可以通过领域专家(即人的动作)或通过自动选择在大众分类法和共现频率分析(即n-grams)的群集中出现的趋势词汇来实现[ 95］．

此外，在处理每分钟生成的大量推文时，如果不部署高计算基础设施，实时查看所有推文是不可能的，这可以在专门的中心获得。因此，本研究的目的是确定一个框架，使卫生系统决策者能够专注于特定的问题，以便通过理解在特定背景下讨论的主题(即疫苗接种和流感)来加强他们的社交媒体活动。此外，推文每天都被收集(由于Twitter的限制，不使用付费平台)，并使用方法中描述的机器学习流程在每周、每月和所有级别上进行分析。为了处理其他人感兴趣的条件，改变推文提取查询的条件将允许扩展当前的数据集或使用相同的方法开始新的研究。这项研究表明，将社交媒体数据(如推特)和人工智能方法(如用于文本和数据挖掘的机器学习算法)结合起来，可以使信息流行病学和信息监控研究成为一个整体。更具体地说，在这项研究中，我们通过跟踪推文内容和主题随时间的变化以及实际事件的影响，注意到这种组合方法的优势。与其他基于twitter的公共卫生研究一样，收集、分析和近乎实时评估信息内容的方法为卫生决策者提供了强有力的指示，以适应和加强作为应急响应和规划的通信[ 103］．换句话说，这些预警必须支持基于社交媒体的健康信息，根据社交媒体用户在以前的帖子、分享或点赞中被动披露的兴趣和焦点(即出现在大众分类法集群中的术语)，针对推荐、指示和指示广告。此外，社交媒体平台可以根据社会人口学属性(如年龄、性别、婚姻状况、地点、口语以及教育和职业背景)对广告活动进行分层，从而实现准确的目标定位[ 104］．因此，基于社交媒体的卫生信息旨在通过提供考虑到社会人口统计学和兴趣领域的个性化信息，提高人口对卫生政策的遵守程度，例如对流行病或大流行性疾病(如流感和COVID-19)的疫苗接种。例如，一个打篮球的年轻人，生活在一个年轻人急性流感发病率经常很高的地区，关注与篮球有关的社交媒体群，并分享与疫苗接种犹豫有关的帖子，将得到个性化内容的广告，目标是从事集体运动的疫苗接种犹豫的年轻人，并强调疫苗接种是在流行病期间继续开展这项活动的最佳解决方案[ 105］．

结论

Twitter是领先的社交网络平台之一，允许任何人在任何领域分享职位和信息。因此，任何关于流感和COVID-19以及针对它们的疫苗的发布和传播的信息都可以被认为是可靠的，并可以影响社交媒体用户。具体来说，在COVID-19大流行期间，世界各国领导人广泛使用Twitter与公民交流公共卫生信息。这些信息对疫苗接种依从性产生了强烈影响[ 106，能够动态改进社交媒体上的内容和目标健康传播活动。

这项研究证实了我们最初的假设。推特是了解为什么建议接种疫苗和公众对此看法的信息来源[ 107- 109］．事实上，我们定义了在16个月的收集信息中共存的3个主要主题的大众分类法。因此，关于“流感”、“疫苗”和“疫苗接种”的推文的术语和标签可以被组织在一个动态词汇中，如大众分类法，反映出社交媒体平台上长期以来讨论的主要话题和相关术语。此外，据《大众分类法》报道，随着时间的推移，与COVID-19相关的词汇出现并占据主导地位，与经常出现的词汇一起出现，这表明，尽管该研究最初并没有关注这一主题，但健康变化反映在与疫苗和接种相关的推特帖子中。

这项研究最初侧重于流感疫苗接种，后来转向COVID-19疫苗接种。在推特(和其他社交媒体)上开展有关疫苗和预防传染病疫苗接种主题的信息监测，可以创造机会设计和传播个性化信息，鼓励特定目标亚群体参与疫苗接种。目标人群收到个性化信息的可能性越大，目标人群对疫苗接种或其他公共卫生措施的反应、参与和主动性就越高[ 110］．

多媒体附件1

每月包含“流感”、“疫苗”、“疫苗”、“vaxx”和“covid”中至少一个词汇的推特数量。

多媒体附件2

簇的最佳数量，每个月相关的最大轮廓分数，以及用于创建主题聚类的参数。

多媒体附件3

3个集群中最频繁出现的1000个n-g的列表。

多媒体附件4

N-grams的发生率每周增加最多。

缩写

API

应用程序编程接口

食品及药物管理局

食品和药物管理局

NLTK

自然语言工具包

t-SNE

t分布随机近邻嵌入

AB、EL和SA得到了以色列Ariel大学和Holon理工学院的一项赠款:人工智能在提高疫苗接种项目效率方面的应用(RA19000000649)。

所有作者证明他们符合国际医学期刊编辑委员会的作者标准，已经审阅了将要提交的手稿版本，并同意其内容和提交。AB负责项目监理;研究的概念、设计和实施;准备并向伦理委员会提交相关文件;数据分析;数据解释;初稿的撰写;对重要的知识内容进行批判性的审查和修改。AC是以色列荷伦理工学院技术管理理学硕士(师从AB)，负责研究的构思、设计和实施;数据收集; data curation; data analysis; data interpretation; writing of the first draft of the manuscript; and critical review and revision of the manuscript for important intellectual content. EL was responsible for data interpretation, and critical review and revision of the manuscript for important intellectual content. SA was responsible for data analysis, data interpretation, and critical review and revision of the manuscript for important intellectual content.

没有宣布。

Bello-Orgaz

Hernandez-Castro

卡马乔

在推特上发现关于疫苗接种的讨论社区

未来一代计算机系统 2017 01 66 125 136

10.1016 / j.future.2016.06.032

Grajales

谢普

年代

何

Novak-Lauscher

Eysenbach

社交媒体:医学和卫生保健应用综述和教程

J医学网络杂志 2014 02 11 16 2 e13

10.2196 / jmir.2912

24518354

v16i2e13

PMC3936280

崔

年代

基于twitter的公共论坛中的两步传播流

社会科学计算机评论 2014 11 07 33 6 696 711

10.1177 / 0894439314556599

Mosleh

米

Pennycook

Arechar

兰德

认知反思与推特上的行为相关

Nat Commun 2021 02 10 12 1 921

10.1038 / s41467 - 020 - 20043 - 0

33568667

10.1038 / s41467 - 020 - 20043 - 0

PMC7875970

Trye

Calude

作为

Bravo-Marquez

基冈

混合标签:# youknowyoureakiwi#当你的推特包含茂ori语和英语

前方Artif Intell 2020 3. 15

10.3389 / frai.2020.00015

33733134

PMC7861263

Inmon

数据架构:数据科学家入门||数据基础设施 2015

剑桥,麻

学术出版社

大数据

Gartner 2021-05-02

https://www.gartner.com/en/information-technology/glossary/big-data

周

年代

乔

杜

问

王

遗传算法

风扇

杨ydF4y2Ba

利用大数据文本分析从在线评论中衡量客户敏捷性

管理信息系统杂志 2018 05 15 35 2 510 539

10.1080 / 07421222.2018.1451956

阿巴斯

一个

周

邓

年代

张

支持社交媒体意义生成的文本分析:语言-行动视角

MISQ 2018 2 2 42 2 427 464

10.25300 / MISQ / 2018/13239

设备

王

鲍德温

Verspoor

网络论坛检索与文本分析:综述

信息检索中的FNT 2018 12 1 1 163

10.1561 / 1500000062

Mokkink

磅

Terwee

帕特里克

戴斯。莱纳姆:

阿隆索

斯特拉特福德

Knol

戴斯。莱纳姆:

布特

de Vet

HCW

COSMIN研究就与健康相关的患者报告结果的分类、术语和测量特性的定义达成了国际共识

临床流行病学杂志 2010 07 63 7 737 45

10.1016 / j.jclinepi.2010.02.006

20494804

s0895 - 4356 (10) 00090 - 9

Vrijens

De地表古积

年代

休斯

达

Przemyslaw

Demonceau

Ruppar

Dobbels

Fargher

莫里森

Lewek

Matyjaszczyk

米

Mshelia

Clyne

阿伦森

厄克特

项目团队

美国广播公司

描述和定义药物依从性的新分类法

临床药典 2012 05 73 5 691 705

10.1111 / j.1365-2125.2012.04167.x

22486599

PMC3403197

Š螨

沃林表示

Galviņ一

Prikladnicki

一种基于经验的全球软件工程术语和分类法

Empir软件工程师 2012 7 18 19 1 105 153

10.1007 / s10664 - 012 - 9217 - 9

Zimbra

Abbasi

一个

曾

陈

最新的推特情绪分析

ACM反式。管理。正系统。 2018 09 05 9 2 1 29

10.1145 / 3185045

de Lusignan

年代

Liyanage

McGagh

贾尼

双相障碍

Bauwens

Byford

埃文斯

费伊

格林哈尔希

琼斯

其余的

Okusi

Parimalanathan

佩尔

摩根大通

《神探夏洛克》

Tamburis

Tripathy

米

费雷拉

威廉姆斯

霍布斯

罗斯福

初级保健哨点网络中的COVID-19监测:应用本体在大流行期间的开发

JMIR公共卫生监测 2020 11 17 6 4 e21434

10.2196/21434

33112762

v6i4e21434

PMC7674143

免疫覆盖率

世界卫生组织 2021-05-30

https://www.who.int/en/news-room/fact-sheets/detail/immunization-coverage

德系犹太人

年代

利夫尼

克莱因

一个

克雷默

Havlin

一个

干了

父母对麻疹/麻疹疫苗的信息和知识来源与接种犹豫的关系

疫苗 2020 10 27 38 46 7292 7298

10.1016 / j.vaccine.2020.09.044

32981777

s0264 - 410 x 31204 - 4 (20)

贝尼省

一个

Khodos

一个

跑

年代

Levner

德系犹太人

年代

社交媒体参与与COVID-19大流行期间的流感疫苗接种:横断面调查研究

J医学网络杂志 2021 03 16 23 3. e25977

10.2196/25977

33651709

v23i3e25977

PMC7968480

贝尼省

一个

Seidmann

一个

德系犹太人

年代

美国社交媒体用户使用COVID-19疫苗的原因

疫苗(巴塞尔) 2021 03 29 9 4

10.3390 / vaccines9040315

33805283

vaccines9040315

PMC8067223

20.

我

女士

Fathy

金

尼迈耶

拉米雷斯

《护理

科幻小说

刘

Lietman

Porco

脸书和推特对麻疹疫情的疫苗情绪

卫生信息学J 2019 09 01 25 3. 1116 1132

10.1177 / 1460458217740723

29148313

PMC5930144

世卫组织冠状病毒(COVID-19)仪表盘

世界卫生组织 2021-05-30

https://covid19.who.int/

伦道夫

他

巴雷罗

磅

群体免疫:了解COVID-19

免疫力 2020 05 19 52 5 737 741

10.1016 / j.immuni.2020.04.012

32433946

s1074 - 7613 (20) 30170 - 9

PMC7236739

麦克德莫特

一个

核心概念:群体免疫是一种重要的——但往往被误解的——公共卫生现象

美国国家科学研究院 2021 05 25 118 21

10.1073 / pnas.2107692118

34011611

2107692118

PMC8166024

雷尼

Wellman

网络化:新的社交操作系统 2014

剑桥,麻

麻省理工学院出版社

吴

Morstatter

Carley

公里

刘

社交媒体上的错误信息

SIGKDD空洞。Newsl 2019 11 26 21 2 80 90

10.1145/3373464.3373475

Eysenbach

信息流行病学:(错误)信息的流行病学

Am J medical 2002 12 15 113 9 763 5

10.1016 / s0002 - 9343 (02) 01473 - 0

12517369

S0002934302014730

莫理

修道士

Taddeo

米

Floridi

信息时代的公共卫生:承认信息圈是健康的社会决定因素

J医学网络杂志 2020 08 03 22 8 e19311

10.2196/19311

32648850

v22i8e19311

PMC7402642

Cordina

米

罗莉

妈

罗莉

对COVID-19疫苗接种的态度、疫苗犹豫和接种疫苗的意愿

医药实践(格拉纳达) 2021 19 1 2317

10.18549 / PharmPract.2021.1.2317

33828623

pharmpract - 19 - 2317

PMC8005329

麦克唐纳

不

SAGE疫苗犹豫问题工作组

疫苗犹豫:定义、范围和决定因素

疫苗 2015 08 14 33 34 4161 4

10.1016 / j.vaccine.2015.04.036

25896383

s0264 - 410 x (15) 00500 - 9

30.

古普塔

一个

Katarya

使用机器学习的基于社交媒体的医疗保健监控系统:系统综述

J生物医学杂志 2020 08 108 103500

10.1016 / j.jbi.2020.103500

32622833

s1532 - 0464 (20) 30128 - 3

PMC7331523

汤姆森

一个

Vallee-Tourangeau

搁浅船受浪摇摆

增加疫苗接受和接受的战略:从行为洞察到具体情况、文化适宜、循证沟通和干预

疫苗 2018 10 22 36 44 6457 6458

10.1016 / j.vaccine.2018.08.031

30201305

s0264 - 410 x (18) 31140 - x

Alessa

一个

Faezipour

米

通过社交网站检测和预测流感的综述

生物医学理论模型 2018 02 01 15 1 2

10.1186 / s12976 - 017 - 0074 - 5

29386017

10.1186 / s12976 - 017 - 0074 - 5

PMC5793414

Aramaki

Maskawa

年代

盛田昭夫

米

推特感染流感:使用推特检测流感流行

EMNLP '11:自然语言处理经验方法会议论文集 2011

自然语言处理的经验方法研讨会

2011年7月27日至31日

英国爱丁堡

1568 1576

Talvis

Chorianopoulos

Kermanidis

通过对推特信息的语言和统计分析实时监测流感流行

2014

第九届语义和社交媒体适应与个性化国际研讨会

2014年11月6日至7日

科孚岛,希腊

Wakamiya

年代

卡瓦依

Aramaki

基于推特的流感高峰后通过推特的间接信息检测:文本挖掘研究

JMIR公共卫生监测 2018 09 25 4 3. e65

10.2196 / publichealth.8627

30274968

v4i3e65

PMC6231889

哈桑德

一个

Zolbanin

嗯

Sharda

临近预报流感活动的社交媒体:时空大数据分析

系统前端 2019 1 5 21 4 743 760

10.1007 / s10796 - 018 - 9893 - 0

Faasse

查特曼

马丁

在回应一篇高调的Facebook帖子时，支持和反对疫苗接种评论的语言使用比较

疫苗 2016 11 11 34 47 5808 5814

10.1016 / j.vaccine.2016.09.029

27707558

s0264 - 410 x (16) 30842 - 8

Sturm

卡斯汀

毫升

头

哈索克

晶澳

Zimet

COVID-19期间的流感疫苗接种:一项针对美国成年人的全国性调查

疫苗 2021 04 01 39 14 1921 1928

10.1016 / j.vaccine.2021.03.003

33715898

s0264 - 410 x (21) 00271 - 1

PMC7931729

Gandomi

一个

海德尔

米

炒作之外:大数据概念、方法和分析

国际信息管理杂志 2015 04 35 2 137 144

10.1016 / j.ijinfomgt.2014.10.007

Secinaro

年代

Calandra

Secinaro

一个

Muthurangu

Biancone

人工智能在医疗保健中的作用:结构化文献综述

BMC Med通知Decis Mak 2021 04 10 21 1 125

10.1186 / s12911 - 021 - 01488 - 9

33836752

10.1186 / s12911 - 021 - 01488 - 9

PMC8035061

Schraeder

医生沟通与患者、同行和公众的联系 2019

英国牛津

牛津大学出版社

贝尼省

一个

巴拉巴坎

塞拉

Harel

9年来糖尿病患者与医疗服务提供者之间的沟通行为变化:回顾性队列研究

J医学网络杂志 2020 08 11 22 8 e17186

10.2196/17186

32648555

v22i8e17186

PMC7448191

戴

Bikdash里

米

迈耶

从社交媒体到公共卫生监测:基于词嵌入的推特分类聚类方法

2017

SoutheastCon 2017

2017年3月30日至4月2日

康科德、数控

1 7

10.1109 / secon.2017.7925400

亨利克先生

新泽西

通过有效沟通提高大流行疫苗接种率

哼菌苗 2011 06 7 6 663 6

10.4161 / hv.7.6.15007

21445004

15007

Feemster

卡

通过沟通和宣传，提高对疫苗的接受程度

Hum Vaccin Immunother 2020 05 03 16 5 1004 1006

10.1080 / 21645515.2020.1746603

32401681

PMC7227644

辛克莱

Cardew-Hall

米

大众分类法标签云:它什么时候有用?

信息科学杂志 2007 05 31 34 1 15 29

10.1177 / 0165551506078083

Robu

哈尔平

牧羊人

在协作标记系统中出现共识和共享词汇

ACM反式。网络 2009 09 3. 4 1 34

10.1145/1594173.1594176

Wetzker

齐默尔曼

Bauckhage

Albayrak

年代

我打标签，你打标签:为高级用户模型翻译标签

WSDM '10:第三届ACM网络搜索和数据挖掘国际会议论文集 2010

第三届ACM网络搜索与数据挖掘国际会议

2010年2月4-6日

纽约，纽约

71 80

10.1145/1718487.1718497

珩磨

克纳普

Nguyễn

公元前

里希特

威廉姆斯

Dorsch

我

Fietkiewicz

在推特上传播卫生信息:世卫组织推特的内容和设计很重要

健康信息图书馆 2021 03 08

10.1111 / hir.12361

33682996

焦点在于

动态分类法:大型信息库的模型

IEEE反式。"。数据中 2000 12 3. 468 479

10.1109/69.846296

Twitter API

Twitter开发者平台 2021-05-04

https://developer.twitter.com/en/docs/twitter-api

Zanin

米

Aitya

乙酰天冬氨酸

巴西利奥

皇后”

贝尼省

一个

Behera

Bucholc

米

马匹

Chouvarda

我

伯爵

刀

丁

Pujos-Guillot

Filipovic

芬恩

玻璃

Harel

Iesmantas

Ivanoska

我

Joshi

一个

Boudjeltia

Kaoui

考尔

马奎尔

McClean

McCombe

米兰达

莱托

Moisescu

妈

搜集

垫状

一个

普拉萨德

Rozman

Sacala

我

Sanchez-Bornot

施密德

晶澳

锋利的

Sole-Casals

Spiwok

Spyrou

通用汽车

Stalidzans

度假

Sustersic

Symeonidis

我

Tieri

托德

年代

范斯蒂恩

Veneva

米

王

沃特森

年代

Wong-Lin

杨

年代

邹

施密特

HHHW

早期研究人员的系统医学术语入门

Netw Syst Med 2021 02 4 1 2 50

10.1089 / nsm.2020.0003

33659919

10.1089 / nsm.2020.0003

PMC7919422

罗素

年代

Norvig

人工智能:一种现代方法 2020

纽约，纽约

皮尔森

施特劳斯

考夫曼

斯特恩

语法和标点符号蓝皮书:一个易于使用的指南，有明确的规则，现实世界的例子，和可重复的测验 2014

新泽西州霍博肯,

威利

鸟

年代

克莱因

洛佩尔

用Python进行自然语言处理:用自然语言工具包分析文本 2009

塞瓦斯托波尔,

O ' reilly媒体

Bergmanis

戈德华特

年代

上下文敏感神经与Lematus的lem化

计算语言学协会北美分会2018年会议论文集:人类语言技术，第一卷(长论文) 2018

计算语言学协会北美分会会议:人类语言技术

2018

新奥尔良，洛州

1391 1400

10.18653 / v1 / n18 - 1126

Aggarwal

Reddy

数据聚类:算法和应用 2014

佛罗里达州博卡拉顿市

查普曼和霍尔/CRC

基奥计划

Mueen

一个

Sammut

韦伯

胃肠道

维度诅咒

机器学习和数据挖掘百科全书 2017

波士顿

施普林格

Vlachos

米

Sammut

韦伯

胃肠道

降维

机器学习和数据挖掘百科全书 2017

波士顿

施普林格

Mikolov

陈

柯拉

迪安

向量空间中词表示的高效估计

arXiv 2013

2021-10-02

https://arxiv.org/abs/1301.3781

gensim 4.1.2

Python包索引(PyPI) 2021-06-04

https://pypi.org/project/gensim/

Butnaru

一个

Ionescu

从图像到文本分类:一种基于聚类词嵌入的新方法

程序计算机科学 2017 112 1783 1792

10.1016 / j.procs.2017.08.211

李

Drozd

一个

郭

刘

松岗

年代

杜

在大语料库上伸缩Word2Vec

科学数据。英格 2019 6 25 4 2 157 175

10.1007 / s41019 - 019 - 0096 - 6

Rousseeuw

剪影:用于解释和验证聚类分析的图形辅助工具

计算与应用数学学报 1987 11 20. 53 65

10.1016 / 0377 - 0427 (87) 90125 - 7

范德马腾

辛顿

使用t-SNE可视化数据

机器学习研究杂志 2008 9 86 2579 2605

谷歌趋势 2021-06-13

https://trends.google.com/trends/

Matschinske

Alcaraz

贝尼省

一个

Golebiewski

米

格林

Heumos

Kacprowski

Lazareva

列表

米

Louadi

鲍林

具有

Rottger

Schwammle

Sturm

Traverso

一个

范斯蒂恩

de Freitas

Villalba席尔瓦

凌晨

Wenke

Zanin

米

Zolotareva

皇后”

布卢门撒尔

生物医学研究中的人工智能AIMe注册表

Nat方法 2021 08 25

10.1038 / s41592 - 021 - 01241 - 0

34433960

10.1038 / s41592 - 021 - 01241 - 0

霍夫曼

提单

跳纱

新兴市场

楚

Shensa

一个

赫尔曼

Wolynn

威廉姆斯

Primack

英航

这并不完全是关于自闭症:Facebook上反疫苗接种情绪的新景观

疫苗 2019 04 10 37 16 2216 2223

10.1016 / j.vaccine.2019.03.003

30905530

s0264 - 410 x (19) 30303 - 2

Burki

疫苗错误信息和社交媒体

《柳叶刀数字健康》 2019 10 1 6 e258 e259

10.1016 / s2589 - 7500 (19) 30136 - 0

艾哈迈德

我

解散反疫苗产业

Nat地中海 2021 03 27 3. 366

10.1038 / s41591 - 021 - 01260 - 6

33723446

10.1038 / s41591 - 021 - 01260 - 6

Lopreite

米

Panzarasa

Puliga

米

Riccaboni

米

来自社交媒体的欧洲各地COVID-19疫情早期预警

Sci代表 2021 01 25 11 1 2147

10.1038 / s41598 - 021 - 81333 - 1

33495534

10.1038 / s41598 - 021 - 81333 - 1

PMC7835375

美国流感监测每周报告

疾病控制和预防中心 2021-06-21

https://www.cdc.gov/flu/weekly/index.htm

Uyeki

温特沃斯

德

Jernigan

2020-2021年季节美国的流感活动

《美国医学会杂志》 2021 06 08 325 22 2247 2248

10.1001 / jama.2021.6125

34028492

2780518

利用KMeans聚类的轮廓分析选择聚类数量

Scikit-learn开发者 2021-07-27

https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html

NLTK 3.6文档

NLTK 2021-06-20

https://www.nltk.org/_modules/nltk/cluster/kmeans.html

品柱

米

佩雷斯

一个

Lozano

晶澳

大规模数据的K-means聚类的有效近似

以知识为基础的系统 2017 02 117 56 69

10.1016 / j.knosys.2016.06.031

Škrlj

Kralj

Lavrač

基于嵌入的剪影社区检测

马赫学习 2020 109 11 2161 2193

10.1007 / s10994 - 020 - 05882 - 8

33191975

5882

PMC7652809

Lovmar

Ahlford

一个

琼森

米

Syvanen

交流

评估SNP基因型簇的剪影评分

BMC基因组学 2005 03 10 6 35

10.1186 / 1471-2164-6-35

15760469

1471-2164-6-35

PMC555759

Maugeri

一个

Barchitta

米

Agodi

一个

基于SARS-CoV-2病例流行率和趋势的意大利地区和省份聚类分类方法

国际环境保留区公共卫生 2020 07 22 17 15

10.3390 / ijerph17155286

32707989

ijerph17155286

PMC7432053

雷

年代

Turi

k -均值聚类中聚类数的确定及其在颜色分割中的应用

1999

第四届模式识别与数字技术进展国际会议(ICAPRDT'99)

1999年12月28日至31日

加尔各答,印度

137 143

桑代克

谁属于这个家庭?

心理测量学 1953 12 18 4 267 276

10.1007 / BF02289263

辉瑞和bioontech宣布新冠肺炎候选疫苗在三期研究的初步中期分析中取得成功

辉瑞 2020 11

2021-06-27

https://www.pfizer.com/news/press-release/press-release-detail/pfizer-and-biontech-announce-vaccine-candidate-against

美国管理着2.937亿剂COVID-19疫苗

路透 2021 05

2021-06-27

https://www.reuters.com/world/us/us-administers-2937-mln-doses-covid-19-vaccines-cdc-2021-05-29/

pytrends 4.7.3

Python包索引(PyPI) 2021-06-14

https://pypi.org/project/pytrends/

报告美国COVID-19疫苗接种情况

疾病控制和预防中心 2021-06-14

https://www.cdc.gov/coronavirus/2019-ncov/vaccines/reporting-vaccinations.html

越南盾

杜

加德纳

一个基于web的交互式仪表盘，实时跟踪COVID-19

《柳叶刀传染病》 2020 05 20. 5 533 534

10.1016 / s1473 - 3099 (20) 30120 - 1

Baumgaertner

卡莱尔

我

Justwan

政治意识形态和信任对接种意愿的影响

《公共科学图书馆•综合》 2018 1 25 13 1 e0191728

10.1371 / journal.pone.0191728

29370265

玉米饼- d - 17 - 32930

PMC5784985

卸下

米

Tosun

政治意识形态与疫苗接种意愿:对政策设计的启示

政策科学 2021 06 16 1 15

10.1007 / s11077 - 021 - 09428 - 0

34149102

9428

PMC8206899

Allcott

Boxell

康威

根茨科

米

泰勒

米

杨

两极分化和公共卫生:在冠状病毒大流行期间，在社会距离方面的党派差异

公共经济学 2020 11 191 104254

10.1016 / j.jpubeco.2020.104254

32836504

104254

PMC7409721

Servick

COVID-19措施目前也抑制了流感

科学 2021 01 15 371 6526 224

10.1126 / science.371.6526.224

33446538

371/6526/224

冯

张

王

问

谢

彭

郑

秦

张

米

赖

年代

王

冯

李

高

女朋友

中国和美国COVID-19疫情和干预措施对流感的影响

Nat Commun 2021 05 31 12 1 3249

10.1038 / s41467 - 021 - 23440 - 1

34059675

10.1038 / s41467 - 021 - 23440 - 1

PMC8167168

Razai

米

Doerholt

Ladhani

年代

奥克肖特

2019冠状病毒病(covid-19):英国全科医生指南

BMJ 2020 03 05 368 m800

10.1136 / bmj.m800

32144127

Bagus

Pena-Ramos

晶澳

Sanchez-Bayon

一个

2019冠状病毒病与集体歇斯底里的政治经济学

国际环境保留区公共卫生 2021 02 03 18 4

10.3390 / ijerph18041376

33546144

ijerph18041376

PMC7913136

Ortiz-Sanchez

Velando-Soriano

一个

Pradas-Hernandez

Vargas-Roman

Gomez-Urquiza

莱托

Cañadas-De la Fuente

遗传算法

Albendin-Garcia

社会网络中的反疫苗运动分析:系统回顾

国际环境保留区公共卫生 2020 07 27 17 15

10.3390 / ijerph17155394

32727024

ijerph17155394

PMC7432886

US 2015-0235246 A1 -跨渠道受众细分

专利中心 2015

2021-05-02

https://patentcenter.uspto.gov/ !/应用程序/ 14623738

Wendling

Radisch

Jacobzone

年代

社交媒体在风险和危机沟通中的使用

经合组织公共治理工作文件 2013 24

10.1787/5 k3v01fskp9s-en

弗雷伯格

Palenchar

乔丹

面纱

老

使用社交媒体书签服务管理和分享H1N1危机信息

公共关系检讨 2013 9 39 3. 178 184

10.1016 / j.pubrev.2013.02.007

古伯伯

摩根大通

金

奥尔

Messner

米

Meganck

年代

Instagram和Twitter上的埃博拉:卫生组织如何在其社交媒体参与中应对卫生危机

公共关系检讨 2017 09 43 3. 477 486

10.1016 / j.pubrev.2017.04.009

小泽

年代

克拉克

年代

Portnoy

一个

Grewal编写

年代

堆栈

毫升

Sinha

一个

Mirelman

一个

富兰克林

弗里

本土知识

Tam

沃克

克拉克

一个

法拉利

米

Suraratdecha

甜蜜的

年代

戈尔迪

Garske

李

米

汉森

点

约翰逊

霍奇金淋巴瘤

沃克

2001-2020年，疫苗接种对73个低收入和中等收入国家的经济影响估计数

公牛世界卫生机构 2017 09 01 95 9 629 638

10.2471 / BLT.16.178475

28867843

BLT.16.178475

PMC5578376

One hundred.

选择美国的社会特征

美国人口调查局 2021-06-24

https://data.census.gov/cedsci/table?tid=ACSDP5Y2019.DP02

101

谢

梁

李

棕褐色

CuLDA:解决gpu上的大规模LDA问题

HPDC '19:第28届高性能并行和分布式计算国际研讨会论文集 2019

第28届高性能并行与分布式计算国际研讨会

2019年6月22-29日

纽约，纽约

195 205

10.1145/3307681.3325407

102

郭

片

Vadde

王

澳大利亚推特用户中与COVID-19疫苗接种相关的推特话题和情绪:机器学习分析

J医学网络杂志 2021 05 19 23 5 e26953

10.2196/26953

33886492

v23i5e26953

PMC8136408

103

雪

陈

胡

陈

郑

苏

朱

关于COVID-19大流行的推特讨论和情绪:机器学习方法

J医学网络杂志 2020 11 25 22 11 e20550

10.2196/20550

33119535

v22i11e20550

PMC7690968

104

US-20150088636-A1 -地理性能数据分类

专利中心 2015

2021-05-02

https://patentcenter.uspto.gov/ !/应用程序/ 14555758

105

美国2014-0236715 A1 -社交媒体网络中的定向广告

专利中心 2014

2021-05-02

https://patentcenter.uspto.gov/ !/应用程序/ 14036494

106

Rufai

年代

Bunce

世界领导人在应对COVID-19大流行时使用Twitter的情况:内容分析

公共卫生(牛津) 2020 08 18 42 3. 510 516

10.1093 / pubmed / fdaa049

32309854

5822639

PMC7188178

107

读

罗伯逊

McQuilken

Ferdous

一个

Twitter上的消费者参与度:对品牌的认知很重要

EJM 2019 09 09 53 9 1905 1933

10.1108 / ejm - 10 - 2017 - 0772

108

戴尔

Kolic

2019冠状病毒病大流行期间推特上的公众风险感知和情绪

应用网络科学 2020 5 1 99

10.1007 / s41109 - 020 - 00334 - 7

33344760

334

PMC7739810

109

萨利赫

莱曼

铜

麦当劳

巴西

妈

梅德福

了解公众对2019冠状病毒病(COVID-19)在推特上保持社交距离的看法

感染控制流行病学 2021 02 42 2 131 138

10.1017 / ice.2020.406

32758315

S0899823X20004067

PMC7450231

110

贝尼省

一个

Tamburis

Chronaki

摩恩

一个

一个数字卫生:未来卫生生态系统的统一框架

J医学网络杂志 2021 02 05 23 2 e22189

10.2196/22189

33492240

v23i2e22189

PMC7886486