这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是必须正确引用在JMIR信息流行病学上首次发表的原始作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
在社交媒体上对健康问题的讨论是一个重要的信息来源,反映了现实世界对事件和意见的反应。它们在公共卫生保健中往往很重要,因为它们影响着影响犹豫不决的个人接种疫苗决策的途径。基于互联网搜索引擎查询的人工智能方法已被建议用于检测疾病爆发和群体行为。在社交媒体中,Twitter是搜索和分享关于卫生保健问题(包括疫苗接种和疫苗)的意见和(错误)信息的常用平台。
我们的主要目标是支持在社交媒体上设计和实施未来的电子卫生战略和干预措施,以提高有针对性的传播运动的质量,从而提高流感疫苗接种率。我们的目标是定义一种基于人工智能的方法,以阐明Twitter上关于流感疫苗接种的帖子在COVID-19大流行期间的变化。这些研究结果可能支持适当的疫苗接种运动,并可推广到其他与健康有关的大众传播中。
该研究包括以下5个阶段:(1)从Twitter上收集有关美国流感、疫苗和疫苗接种的推文;(2)使用机器学习技术进行数据清理和存储;(3)确定与流感、疫苗和接种相关的术语、标签和主题;(4)对之前定义的词汇(术语和主题)建立动态的大众分类法,以支持对其趋势的理解;(5)对大众分类法进行标签和评价。
我们收集并分析了2019年12月30日至2021年4月30日期间420,617名独立用户的2,782,720条推文。这些推文是用英语写的,来自美国,至少包含以下词汇中的一个:“流感”、“流感”、“疫苗”、“疫苗”和“vaxx”。我们注意到,在2020年,“疫苗”和“接种疫苗”这两个词的流行度增加了,“流感”和“covid”的出现率呈负相关,因为“流感”随着时间的推移从推特上消失了。通过结合单词嵌入和聚类,我们确定了一个围绕以下3个主题构建的大众分类法,这3个主题主导了收集到的推文内容:“健康和医学(生物和临床方面)”、“保护和责任”和“政治”。通过分析经常同时出现的词汇,我们注意到这些推文主要与COVID-19大流行事件有关。
这项研究最初侧重于流感疫苗接种,后来转向COVID-19疫苗接种。在推特和其他社交媒体上,由机器学习支持的信息监测可导致设计个性化信息,鼓励目标亚人群参与接种疫苗。目标人群收到个性化信息的可能性越大,目标人群对疫苗接种过程的反应、参与和主动性就越高。
随着以网络为媒介的交流环境的增加,社交媒体平台使个人能够讨论不同的问题,表达他们的想法和辩论[
现代医学最重要的成就之一是开发和广泛使用安全有效的疫苗。然而,由于对疫苗的犹豫和拒绝而部分接受疫苗是一个重大的健康威胁。至于流感,与其他疫苗相比,疫苗依从性较低,主要是因为疫苗必须每年重复接种[
此外,新冠肺炎疫情在全球的蔓延[
社交媒体平台,如Twitter,是人们分享观点和搜索(错误)信息的首选场所。
了解一些与卫生相关的事件讨论期间发生的变化对于提高卫生传播效率至关重要[
我们的主要目标是支持在社交媒体上设计和实施未来的电子卫生战略和干预措施,以提高有针对性的传播运动的质量,从而提高流感接种率[
我们的主要目的是定义一种基于人工智能的方法来分析推文,包括与流感和COVID-19疫苗接种相关的术语。我们专注于发现与流感疫苗接种相关的共出现术语,并突出与这些术语相关的主要主题。因此,这些结果必须用于建立大众分类法[
以下4个假设指导了本研究:
推特是理解接种疫苗的理由的来源。
“流感”、“疫苗”和“疫苗接种”主题与其他主题(如政治、经济和恐惧)没有直接联系,但与健康问题有关。
与疫苗和接种相关的推特内容的现状和新闻影响。
关于流感、疫苗和疫苗接种的推文的术语和标签可以用动态词汇表组织[
本研究获得了以色列Holon理工学院技术管理学院伦理委员会的伦理批准(TM/2/2020/AB/004)。研究期间在Twitter上收集的信息以安全加密的方式存储,由机构向首席研究员(AB)提供有限制的访问权限。
本研究分为以下5个阶段:
使用Twitter流应用程序编程接口(API)收集推文及相关数据的数据源[
数据清理和存储;
确定与“流感”、“疫苗”和“疫苗接种”相关的术语、标签和主题;
建立一个动态词汇表,一个大众分类法,来支持对它们之间关系的理解;而且
评估词汇簇。
从2019年12月30日到2021年4月30日,我们通过Twitter API提取和收集了16个月的推文。这些推文是用英语写的,来自北美,至少包含以下词汇中的一个:“流感”、“疫苗”、“疫苗”和“vaxx”(最后一个词汇是用来捕捉与反对接种疫苗相关的信息的,因为这些人使用它)。我们选择这些术语是为了尽可能多地检索有关疫苗作为一种产品、疫苗作为一种行为或政策、疫苗接种犹豫和流感的讨论。此外,由于Twitter参与者使用非正式语言,为了提取与流感相关的内容,我们使用了流行术语“流感”。提取过程中省略了转发和点赞。在16个月的随访期间,我们捕捉到了与流感、疫苗和疫苗接种相关的推特词条和主题。事实上,在美国,2020年涉及COVID-19大流行和总统选举。
确保有效使用机器学习方法[
我们通过以下三个步骤处理与流感、疫苗和疫苗接种相关的术语、标签和主题的识别:(1)使用单词嵌入和n-grams进行聚类;(2)构建大众分类法;(3)评估大众分类法聚类。
聚类的目的是将一组点划分为组,每个点尽可能相似,且与其他点不同[
随着时间的推移,处理大量收集的tweet意味着处理维度的诅咒[
作为单词嵌入的一种补充方法,我们建立了一个n-gram语言模型,预测单词序列(在停止词清理后)出现在我们的推文语料库中的概率。我们提取了每个星期最频繁的n-gram,包含1到4项(n)。此外,该过程使用了Gensim Python库[
聚类是一种无监督学习任务,因为需要定义而具有挑战性
聚类可视化是通过使用t分布随机邻居嵌入(t-SNE)产生的,t-SNE是一种非线性降维技术,用于嵌入高维数据并将其可视化到低维(即2或3)空间[
为了评估我们的方法和识别与流感、疫苗和接种相关的术语、标签和主题的结果,我们实现了一个建立在互补方法上的验证过程。第一个研究的是单词嵌入结果,第二个研究的是n-grams,第三个研究的是社交媒体用户的整体嵌入结果。因此,这些术语被分组一次是从语义角度进行分组,首先是单词嵌入,另一次是从高共出现频率分组,因为n-grams以总结的方式描述了探索的Twitter线程的内容。
第二种评估方法包括使用谷歌趋势[
第三次评估包括计算特定于疫苗、疫苗接种、流感和COVID-19的每周频率(2020年12月至2021年4月)与接种COVID-19疫苗的人口比例之间的皮尔逊相关性。
这些社交网络数据是以匿名的方式收集的,并遵循Twitter的规则。评估调查的参与者在平台上以电子方式提供匿名知情同意,然后才能继续完成问卷。
由于Twitter的规章制度,无法获得支持这项研究结果的Twitter数据。支持调查结果的调查数据可根据合理要求从通讯作者(AB)处获得,这些数据需要经过调查者所在机构的伦理和法律批准。本研究的方法将在生物医学研究中的人工智能AIMe注册中报告[
在2019年12月30日至2021年4月30日期间,共收集了420,617名独立用户的2,782,720条推文。的图
在2019年12月30日至2021年4月30日期间,按月分列的推文数量分布,其中至少包含一个术语“流感”、“疫苗”、“疫苗”、“vaxx”和“covid”。
Word2Vec算法每月运行一次,以找到支持主要趋势主题的最优参数。确定最优参数值的方法是使用每个参数的不同值创建模型,并使用sklearn的“silhouette te_score”函数计算每次迭代的轮廓分数。Python中的度量[
使用每月的单词嵌入模型作为输入,使用NLTK KMeansClusterer [
事实上,我们根据领域专家(公共卫生、感染学和信息学)的共识,对研究的推文集合中的3个集群的内容进行了解释。这些集群是“COVID-19大流行期间预防流感疫苗接种”民间分类法的光秃秃的砖块。我们将收集到的推文内容中占主导地位的3个主题定义如下:
“健康和医学(生物学和临床方面)”,包括“大流行”、“COVID-19”、“疫苗”、“疾病”、“死亡”、“变体”、“儿童”、“流感”、“流感”和“健康”等词汇;
“保护和责任”,包括“保护”、“保持社交距离”、“接种疫苗”、“抗击COVID-19”和“责任”等词汇
“政治”由诸如“特朗普”、“拜登”、“谎言”、“政府”、“信任”、“法案门”、“免费”、“钱”、“总统”、“政治”、“政客”、“选举”、“疫苗”和“政策”等词汇支持。
显然,此可视化(
具有1000个最频繁n-g的3个主题簇的t分布随机近邻嵌入图形表示(
使用预处理的推文提取每周的n克。
在提取之后,每个n-gram都得到了它的增长值,表明与前一周相比n-gram的频率增加或减少。在一般的讨论中,增长被用来强调n字格的显著变化。例如,2020年11月9日,辉瑞生物技术公司公布了COVID-19疫苗试验的初步结果,显示对该疾病具有很高的疗效。同周的n-g显著增加如下:
此外,在2021年3月中旬,我们还注意到与COVID-19疫苗接种相关的n-g显著增加,原因是推特上有报道称,个人接种了疫苗,或地方当局邀请民众安排接种疫苗的预约(例如,“疫苗,预约,可用”+264.9%[2021年3月15日开始的一周为748/18,678,而2021年3月08日开始的一周为205/18,678],以及“代码,疫苗,预约,可用”,+251.5%[从2021年3月29日开始的那一周为942/6264,从2021年3月22日开始的那一周为268/6264])[
推特用户回应的另一个例子是在2020年5月11日开始的那一周。前导n格是"
作为互联网的一个组成部分,像Twitter这样的社交媒体是人们获取和分享信息和知识的一部分。因此,在像谷歌这样的搜索引擎上查看查询,可以评估在社交媒体上检测到的术语和主题的全球兴趣。因此,我们计算了推文中n-grams的每周出现次数和谷歌搜索引擎每周查询次数与谷歌趋势上报告的n-grams的Pearson相关性[
此外,当我们注意到它在Twitter上的使用越来越不受欢迎时,我们也注意到谷歌上的类似行为。此外,n-gram的“covid,疫苗”也显示了推特和谷歌(
n-gram在tweet和谷歌搜索查询的趋势频率之间具有高度相关性的例子。
语法 | 期间(开始日期至结束日期) | 皮尔森相关 |
|
第二剂 | 2021年1月4日至4月30日 | 0.91 | <措施 |
先接种疫苗打针 | 2021年1月18日至4月25日 | 0.89 | <措施 |
第二,疫苗 | 2021年2月1日至4月30日 | 0.86 | <措施 |
流感症状 | 2020年1月1日至2021年4月4日 | 0.85 | <措施 |
covid、疫苗 | 2020年1月20日至2021年4月30日 | 0.85 | <措施 |
认为,流感 | 2020年1月1日至3月30日 | 0.84 | <措施 |
第二,剂量,疫苗 | 2021年1月4日至4月30日 | 0.84 | <措施 |
第二,接种疫苗 | 2021年2月1日至4月30日 | 0.84 | <措施 |
接种新冠病毒疫苗 | 2020年3月30日至2021年4月30日 | 0.84 | <措施 |
得到疫苗 | 2020年1月1日至2021年4月30日 | 0.80 | <措施 |
2020年12月11日,FDA发布了COVID-19疫苗的紧急使用授权。几天后,即2020年12月20日,开始为人群接种辉瑞BioNTech疫苗。我们从美国疾病控制和预防中心(CDC)的出版物下载了每日疫苗接种率,并在每周水平上汇总了它们[
2020年12月20日至2021年4月30日期间,美国疾病控制和预防中心报告的5个最高n克趋势与接种率趋势的相关性。
语法 | 皮尔森相关 | 出现次数 |
|
先, | 0.88 | 17133年 | <措施 |
疫苗,今天 | 0.87 | 9205 | <措施 |
首先,疫苗 | 0.83 | 9260 | <措施 |
首先,剂量 | 0.82 | 11357年 | <措施 |
疫苗, | 0.81 | 11113年 | <措施 |
这项研究是为了阐明网上公众对疫苗接种的看法,主要是针对季节性流感。然而,基于推特的讨论的焦点发生了重大变化,令人印象深刻地反映了2020年的COVID-19大流行。本研究最重要的方面是建立基于推文文本分析、词嵌入和聚类的大众分类法。在这个大众分类法中确定的3个主题如下:
从"健康和医学(生物学和临床方面)"角度的一般性问题。最初用于提取推文的术语是“流感”、“疫苗”、“疫苗”和“vaxx”。这些术语实际上与健康和医学密切相关,并产生了大量的威胁(例如,询问/回答有关症状的问题、报告健康状况和分享立场)。考虑到数据收集的时间,出现与COVID-19大流行有关的术语是可以理解的。
"保护和责任"是决定是否接种疫苗的一个中心方面。COVID-19大流行表明,有必要保持社交距离和戴口罩,以减少病毒的传播。由于这些原因,与流感(“流感”)或免疫(“疫苗”和“疫苗”)相关的推文,以及与COVID-19相关的推文,包括讨论保护措施(如接种疫苗)和使用这些措施的责任(如接种疫苗)的线程。需要强调的是,基于之前的研究[
“政治”是一组显示美国政治领导人(即共和党和民主党)在危机严重性和减少疾病传播努力方面的意见和信息的分歧[
民间分类法背后的机制依赖于一系列复杂的因素。首先,如上所述,每个集群出现的原因取决于文化和现实事件。其次,可以通过分析经常出现在一起的术语(n-grams)来量化这些机制。因此,在这项研究的背景下,我们观察到推特的主要焦点主要与COVID-19大流行事件(疾病、禁闭、政治家谈话、疫苗批准和疫苗接种)有关,并随着时间的推移而增加,如术语“疫苗”和“疫苗接种”的流行,这与术语“流感”形成对比,随着时间的推移,“流感”从推特中消失了。这表明,保持社交距离和戴口罩等COVID-19措施显著降低了2020-2021年期间的季节性流感发病率[
越来越多地利用社交媒体和社交网络及时传播多方式和多来源的健康相关信息。在季节性流感和COVID-19等流行病和大流行的背景下,卫生保健组织和政府机构现在在社交媒体上传播信息并开展传播运动,例如,提高公民对疫苗接种的参与。与此同时,个人分享他们的立场,即使这与反疫苗趋势有关,有时也会传播错误信息[
事实证明,通过及时获得报告,有可能指出社交媒体上经常使用的各种主题、词汇和术语,从而使卫生传播专家,特别是与社交媒体打交道的专家,能够集中精力开展最新的活动,以增加人口参与,如在其他商业领域开展的活动[
对社交媒体,特别是社交网络的探索,由于被动地排除了这些沟通渠道的非用户或只阅读帖子而不自己发帖或回复其他用户消息的不活跃用户而受到限制。
这项研究的另一个局限性是,它只基于来自北美的英语推文。这种筛选限制了结果的泛化。美国人口的多样性表明,在美国以其他语言开展这类研究将使健康沟通得以微调,并提高非英语社区(即约22.0%的美国人口)的疫苗接种依从性[
与我们的研究并行的是,2020年1月至10月(与我们的研究中2019年12月至2021年4月(与我们的研究中2019年12月至2021年4月)在澳大利亚推特用户(与我们的研究中美国推特用户)中进行了另一项专门和严格处理疫苗接种和COVID-19的研究,收集了31100条推文(与我们收集的2782720条推文)。该分析基于潜狄利克雷分配,这是一种无监督学习方法,可以大规模密集地消耗系统资源[
此外,最初用于提取推文的词汇集(“流感”或“疫苗”或“疫苗”或“vaxx”)使我们能够捕捉到与我们感兴趣的每个术语相关的更大范围的线程,而不需要像其他之前的研究那样采用严格的过滤方法[
此外,在处理每分钟生成的大量推文时,如果不部署高计算基础设施,实时查看所有推文是不可能的,这可以在专门的中心获得。因此,本研究的目的是确定一个框架,使卫生系统决策者能够专注于特定的问题,以便通过理解在特定背景下讨论的主题(即疫苗接种和流感)来加强他们的社交媒体活动。此外,推文每天都被收集(由于Twitter的限制,不使用付费平台),并使用方法中描述的机器学习流程在每周、每月和所有级别上进行分析。为了处理其他人感兴趣的条件,改变推文提取查询的条件将允许扩展当前的数据集或使用相同的方法开始新的研究。这项研究表明,将社交媒体数据(如推特)和人工智能方法(如用于文本和数据挖掘的机器学习算法)结合起来,可以使信息流行病学和信息监控研究成为一个整体。更具体地说,在这项研究中,我们通过跟踪推文内容和主题随时间的变化以及实际事件的影响,注意到这种组合方法的优势。与其他基于twitter的公共卫生研究一样,收集、分析和近乎实时评估信息内容的方法为卫生决策者提供了强有力的指示,以适应和加强作为应急响应和规划的通信[
Twitter是领先的社交网络平台之一,允许任何人在任何领域分享职位和信息。因此,任何关于流感和COVID-19以及针对它们的疫苗的发布和传播的信息都可以被认为是可靠的,并可以影响社交媒体用户。具体来说,在COVID-19大流行期间,世界各国领导人广泛使用Twitter与公民交流公共卫生信息。这些信息对疫苗接种依从性产生了强烈影响[
这项研究证实了我们最初的假设。推特是了解为什么建议接种疫苗和公众对此看法的信息来源[
这项研究最初侧重于流感疫苗接种,后来转向COVID-19疫苗接种。在推特(和其他社交媒体)上开展有关疫苗和预防传染病疫苗接种主题的信息监测,可以创造机会设计和传播个性化信息,鼓励特定目标亚群体参与疫苗接种。目标人群收到个性化信息的可能性越大,目标人群对疫苗接种或其他公共卫生措施的反应、参与和主动性就越高[
每月包含“流感”、“疫苗”、“疫苗”、“vaxx”和“covid”中至少一个词汇的推特数量。
簇的最佳数量,每个月相关的最大轮廓分数,以及用于创建主题聚类的参数。
3个集群中最频繁出现的1000个n-g的列表。
N-grams的发生率每周增加最多。
应用程序编程接口
食品和药物管理局
自然语言工具包
t分布随机近邻嵌入
AB、EL和SA得到了以色列Ariel大学和Holon理工学院的一项赠款:人工智能在提高疫苗接种项目效率方面的应用(RA19000000649)。
所有作者证明他们符合国际医学期刊编辑委员会的作者标准,已经审阅了将要提交的手稿版本,并同意其内容和提交。AB负责项目监理;研究的概念、设计和实施;准备并向伦理委员会提交相关文件;数据分析;数据解释;初稿的撰写;对重要的知识内容进行批判性的审查和修改。AC是以色列荷伦理工学院技术管理理学硕士(师从AB),负责研究的构思、设计和实施;数据收集; data curation; data analysis; data interpretation; writing of the first draft of the manuscript; and critical review and revision of the manuscript for important intellectual content. EL was responsible for data interpretation, and critical review and revision of the manuscript for important intellectual content. SA was responsible for data analysis, data interpretation, and critical review and revision of the manuscript for important intellectual content.
没有宣布。