JMIR公共卫生和监测-推特上COVID-19疫苗话语流行和病毒传播的驱动因素:文本挖掘和数据可视化研究

原始论文

¹美国纽约布鲁克林长岛大学波尔克传播学院

²美国肯塔基州路易斯维尔市路易斯维尔大学传播系

^3.美国肯塔基州路易斯维尔

⁴北京大学新媒体学院，北京

通讯作者:

王秀丽博士

新媒体学院

北京大学

怡和园路5号

海淀区

北京,100871

中国

电话:86 10 6276 6689

电子邮件:xiuli.wang@pku.edu.cn

背景:COVID-19疫苗接种被认为是帮助结束大流行的关键预防措施。推特等社交媒体平台在公众讨论COVID-19疫苗方面发挥了重要作用。

摘要目的:本研究的目的是使用基于机器的文本挖掘技术，调查有关COVID-19疫苗的推文受欢迎程度和病毒式传播的消息级驱动因素。我们进一步旨在使用网络分析和可视化来检查最喜欢和转发最多的推文的主题社区。

方法:我们收集了2020年1月1日至2021年4月30日期间美国关于COVID-19疫苗的英语公开推文(N=501,531)。主题建模和情感分析用于识别潜在的主题和价，并与媒体存在、语言特征和账户验证的自动提取信息一起用于回归模型来预测点赞和转发。在2500条点赞数最多的推文和2500条转发数最多的推文中，利用网络分析和可视化技术检测话题社区，呈现话题与推文之间的关系。

结果:主题建模产生了12个主题。回归分析显示，正向预测点赞数的话题有8个，正向预测转发数的话题有7个，其中，“疫苗研制与民众看法”和“疫苗功效与推广”的影响相对较大。网络分析和可视化显示，2500条最受欢迎和转发最多的转发集中在疫苗获取、疫苗功效和推广、疫苗开发和人们的观点以及疫苗接种状况等主题上。这些推文的总体效果是积极的。正价会增加点赞量，但对转发量没有影响。媒体(照片、视频、动图)的出现和账户验证增加了点赞和转发。语言特征对点赞和转发有不同的影响。

结论:这项研究表明，公众对有关疫苗开发和人们看法的信息，以及关于疫苗功效和推广的信息感兴趣和需求。这些话题，加上媒体和认证账户的使用，增强了推文的受欢迎程度和病毒式传播。这些主题可以在疫苗运动中加以讨论，以帮助在Twitter上传播内容。

中华医学会公共卫生监测杂志2021;7(12):e32814

doi: 10.2196/32814

关键字

新型冠状病毒肺炎；疫苗；主题建模；乔治。；价；分享；病毒；推特；社交媒体

背景

自世界卫生组织(世卫组织)于2020年3月宣布新冠肺炎疫情为大流行以来[1美国是确诊病例和死亡人数最多的国家。2]。许多卫生组织，包括世界卫生组织[3.]和美国疾病控制及预防中心[4]，将疫苗接种视为一项关键的预防措施，以帮助结束大流行并使社会恢复正常状态。由于疫苗学的显著进步，科学家们在前所未有的短时间内开发出了COVID-19疫苗。2021年12月，在该病毒被发现不到1年后，首批两种疫苗被批准在美国紧急使用:辉瑞- biontech疫苗和Moderna疫苗[5]。这两种疫苗都使用基于信使RNA (mRNA)的技术，这种技术以前未被批准在人类中普遍使用[5]。强生公司的杨森疫苗基于一种略成熟的病毒载体技术，于2020年2月成为美国批准用于紧急用途的第三种疫苗[6]。由于其新颖性，COVID-19疫苗有可能加剧现有的疫苗辩论，包括关于疫苗安全性和有效性的争论，这在大流行前的近年来受到了显著关注[7]。此外，在2020年总统选举中得到重申的政治两极分化，体现在广泛的问题上，包括应对COVID-19大流行[8]和疫苗[9]。总体而言，民主党人对COVID-19疫苗的态度比共和党人更有利[9]。这些政治分歧有可能进一步推动有关疫苗的辩论。在有关新冠肺炎疫苗的热议中，美国开展了有史以来最大规模的疫苗接种运动，以抗击新冠肺炎。10]。

调查公众对COVID-19疫苗的看法将有助于了解人们的看法和态度。作为一个主要的社交媒体平台和基于文本的公共话语的重要来源，研究人员对Twitter进行了研究，以了解有关疫苗的公共话语[11-14以及特定疫苗，包括COVID-19疫苗[15，16]。文本挖掘技术在最近的研究中越来越多地用于调查有关COVID-19大流行的推文(例如，[17-21])和COVID-19疫苗[15，16]。这些研究使用了机器学习算法来自动分析大量的推文，并捕获潜在的文本信息，如主题、情绪和趋势。

虽然文本挖掘显然是一种从大量tweet中识别潜在文本集群和模式的有效方法，但对于这些信息如何帮助理解Twitter上信息和观点的传播，我们所知甚少。本研究的目的是使用文本挖掘技术调查有关COVID-19疫苗的推文受欢迎程度和病毒式传播的消息级驱动因素。具体来说，这项研究的目的是调查文本挖掘主题和价值，以及社交媒体信息特征如何影响点赞和转发。该研究的另一个目的是使用网络分析和可视化来检查最喜欢和转发最多的推文的主题社区。这些发现对疫苗运动的方向具有启示意义。

文献综述

一条信息在社交媒体上的最佳传播程度可以通过用户的积极回应来评估，例如点击“喜欢”和“分享”按钮，以公开表明个人的兴趣和支持[22，23]。在Twitter上，用户可以点击“喜欢”图标来表示对一条推文的欣赏，或者点击“转发”图标来与他们的关注者公开分享。24]。先前的研究将推文的点赞数视为其受欢迎程度的指标，将推文的转发数视为其病毒式传播的指标[23，25]。根据这些研究[23，25我们通过点赞数来评估一条推文的受欢迎程度，通过转发数来评估一条推文的病毒式传播能力。与点赞相比，转发是一种更社会化的行为[26]。对于这两种回答，从众效应都假定，与已经这样做的人数相比，接受趋势的人数会增加得更多[22]。

根据先前的研究，本研究调查了三类消息级因素，这些因素可以驱动媒体内容的在线传播:信息、情感和社交媒体消息特征。由于Twitter是基于文本的信息的主要来源，我们借鉴了与网络文本信息的社会传播相关的文献，包括新闻文章和推文。过去对网络新闻病毒式传播的研究表明了两类决定因素:信息性和情绪性。从信息的角度来看，以整体内容有用性衡量的信息效用被发现促进了一般新闻文章的社交媒体分享[27]。在健康环境中，利用信息效用的内容属性是功效信息的存在[26]，提供促进健康或克服健康风险的方法[28]。研究表明，整体内容有用性和功效信息的存在都有助于在社交媒体上浏览和分享健康新闻文章[26]。在2019冠状病毒病大流行的情况下，美国很早就明显存在对新型冠状病毒的认识差距[29]和对实用价值信息的需求是预期的[25，30.]。此外，根据不确定性减少理论，为了减轻危机中的风险，人们倾向于通过收集可信信息并与他人分享来减少不确定性[25]。纳纳特和乔伊的[25文本挖掘研究显示，乐观和解决方案主题以及心理健康主题是与covid -19相关推文转发数量的积极预测因素。除了信息效用外，健康新闻中的新颖内容也被发现可以增加分享[26]。新开发的COVID-19疫苗有助于抗击新型冠状病毒;因此，与发展和功效等方面有关的内容具有新颖性的内在特征，可能有助于缩小知识差距。

过去的研究普遍表明，Twitter上对疫苗的正面推文多于负面推文[11-13]，尤其是COVID-19疫苗[15，16]。尽管人们发现积极的内容可以增加社交媒体上的点赞量[22，23]，关于价格对在线内容病毒式传播的影响，研究结果好坏参半。伯杰和米尔克曼[27发现积极情绪增加了社交媒体对一般新闻的分享。一个合理的解释是，积极的分享反映了发送者的积极态度[26]，这可以增强自我表现[31]和身份交流[27]。然而，纳纳特和喜悦[25发现负面情绪增加了与covid -19相关的推文的社交传播。此外，Blankenship等[11结果显示，反疫苗的推文比接种疫苗的推文被转发的次数更多。相比之下，金[26结果显示，内容价与社交媒体上健康新闻的病毒式传播无关。

除了内容主题和价格之外，社交媒体信息的特征，包括媒体存在、语言特征和账户验证，可能会影响在线内容的受欢迎程度和病毒式传播。媒体存在和语言特征可以影响内容处理的流畅性，并进一步影响喜欢和转发等有利的在线反应。社交媒体上的内容可以是任何模式，如文字、照片和视频。过去的研究表明，嵌入媒体(即照片或视频)的推文会激发点赞和转发[23]。假设照片的认知加工比文字的更流畅，因为照片的语义激活比文字的更快[32，33]。因此，嵌入媒体的推文更有可能引发良好的在线反应。

相比之下，过去的研究表明，语言特征，如标签、提及和外部链接的数量，会减少点赞[23]和转发[23，25]。这些特征从两个方面增加了内容加工的不流畅性。首先，相对于文字使用的黑色，标签、提及和外部链接使用的蓝色降低了字体与背景的对比，造成视觉上的永久不流畅[23，34]。其次，标签、提及和外部链接使用的非字母数字符号(如#、@、://)造成拼写不流畅[23，35]。内容不流畅需要更多的认知努力来处理信息，因此减少了有利的反应[23]。

最后，账户功能可能会影响点赞和转发。面对数字时代的信息爆炸，账户真实性在信息传播中显得尤为重要。在Twitter上，经过验证的账户在个人资料名称旁边有一个蓝色徽章，让用户知道它是真实的。Twitter在2017年暂停了公众提交的账户验证申请，并于2021年5月使用新的申请流程重新开放了该门户[36]。我们的数据检索截止日期为2021年4月30日，因此数据不能反映新验证的账户。此外，值得注意的是，经过验证的账户发布的推文可能没有经过验证。

研究模式与问题

本研究通过提供一个概念模型来理解上述三类因素——内容主题、内容价值和社交媒体消息特征(包括媒体存在、语言特征和账户验证)对COVID-19疫苗推文的受欢迎程度和病毒式传播的综合影响，从而为文献做出了贡献。我们采用主题建模来识别推文的潜在主题。我们采用情感分析来评估推文的效价。自动提取有关社交媒体特征的数据。因此，我们提出了以下研究问题:

研究问题1 (RQ1):内容主题、内容价和社交媒体信息特征如何影响有关COVID-19疫苗的推文的受欢迎程度?

研究问题2 (RQ2):内容主题、内容价和社交媒体信息特征如何影响有关COVID-19疫苗的推文的病毒式传播?

此外，在2500条点赞数最多的推文和转发数最多的推文中，我们分别使用网络分析和可视化来检测话题社区，并呈现话题与推文之间的关系。我们的研究问题如下:

研究问题3 (RQ3):最受欢迎的推文的突出主题是什么?

研究问题4 (RQ4):转发最多的推文的突出主题是什么?

在美国激烈的疫苗辩论背景下，这项研究可以帮助提高对有关COVID-19疫苗的推文流行和病毒性的复杂驱动因素的了解，使用基于机器的文本挖掘和网络可视化。这些发现为医疗从业者使用更有效的社交媒体内容提供了实际意义。

数据源

我们收集了2020年1月1日至2021年4月30日期间公开可获得的关于COVID-19疫苗的原始推文，使用snscraper [37]，根据用户资料数据进一步过滤，只包括英语和美国用户的推文。这种方法在最终数据集中记录了501,531条tweet。

参考先前关于疫苗的社会媒体研究[38，39]，我们通过平衡COVID-19疫苗的一般信息和品牌信息来开发关键词。截至2021年4月30日，即我们的数据检索截止日期，辉瑞- biontech、Moderna和强生/杨森疫苗被授权在美国紧急使用[40]。当时，这三种疫苗与阿斯利康疫苗一起在欧盟国家获得了有条件的上市许可[41]。虽然阿斯利康的疫苗没有在美国使用，但它在美国获得了媒体和公众的关注，因此我们也将该品牌纳入了搜索范围。此外，由于COVID-19疫苗在基础技术方面各不相同，我们考虑了技术特定信息。辉瑞- biontech和Moderna使用mRNA技术，强生和阿斯利康-牛津使用病毒载体技术。此外，我们还检查了美国疾病控制与预防中心(CDC)和美国食品和药物管理局(Food and Drug Administration)等政府推特账户，以探索标签。最后，使用以下策略来抓取Twitter数据。一条推文必须包含关键字“疫苗”(除非另有说明，否则不区分大小写)，以及关键字“COVID”、“COVID-19”、“COVID-19”、“辉瑞”、“辉瑞- biontech”、“Moderna”、“强生”、“杨森”、“阿斯利康”和“牛津-阿斯利康”之一;或包含关键字“疫苗”以及以下组合之一:“mRNA”和“COVID”，“病毒载体”和“COVID”，以及“腺病毒”和“COVID”;或者包含“#covid - 19vaccine”和“#covid - vaccine”两个标签中的任何一个。

数据处理

通过genism对最终数据集进行预处理[42]进行主题建模和情感分析。我们将每条推文标记为单词列表[43]，除标准NLTK停止词库外，还删除了“https”和“covid”等高频停止词[44]，我们并不期望它们有助于每个主题的独特性。然后，使用gensim双语料库模型训练文本语料库识别常见的双语料库，如“New York”[42]。接下来，所有的单词都被归纳为它们的字典形式[43以减少字袋(BOW)编码中的冗余。最后，这些由双元图模型识别的词源化的单字(即双元图)和双元图被用来为我们的潜在狄利克雷分配(LDA)模型构建BOW表示。也就是说，语料库被编码为一个向量空间，每个向量组件表示一个引理。

措施

像数

每条推文的点赞数，即一条推文获得的点赞数，在数据集中被捕获。由于少量的推文产生了大量的点赞，所以分布是右偏的。为了减少右偏度，我们在统计分析中使用了类似计数的自然对数，就像在过去的研究中一样[23]。

转发数

每条推文的转发计数，即一条推文获得的转发数量，在数据集中被捕获。与点赞数类似，转发数呈右偏分布。为了减少右偏度，我们在统计分析中使用了转发次数的自然对数，就像过去的研究一样[23，25]。

内容主题

使用LDA模型对推文进行主题建模[45]。主题建模是一种常用的无监督学习方法，它为文本数据的语料库生成概率模型[46]。作为两大主题模型之一[46]， LDA越来越多地被用于分析文本数据[47]，包括推文(例如，[16-18，20.，25])。

LDA依赖于两个矩阵来定义潜在的主题结构:词-主题矩阵和文档-主题矩阵[47]。在我们的研究中，文件是一条推文。一般的思想是，一条推文由潜在主题的狄利克雷分布表示，其中每个潜在主题由单词的狄利克雷分布表示[46]。

词-主题矩阵揭示了一个词可能出现在主题中的条件概率。词-话题矩阵用于解释话题。一个主题可以用3到30个单词来解释，通过检查一个最可能的单词列表，仅根据它们在该主题中出现的频率进行排名[48]。为了帮助主题解释，我们还考虑了根据频率和相关性对最可能的主题特定单词进行排名，如Sievert和Shirley所建议的[48]。对主题中单词排序的相关性由权重参数λ索引，其值范围为0到1。接近0的值突出显示罕见但不排他的主题单词，接近1的值突出显示频繁但不一定排他的主题单词[48]。我们采用了推荐的λ为0.6 [48]。最后，我们审查了具有最高主题特定负载的样本推文，以确定主题解释。

文档-主题矩阵揭示了一个主题在tweet中可能出现的条件概率。换句话说，它显示了每条推文的主题加载。这些信息被用于回归模型预测，以及网络分析和可视化。主题加载值的取值范围为0 ~ 1，值越接近1表示tweet的主题加载越高。

价的内容

我们使用TextBlob [49]是一个开源的python库，用来生成每条推文的价值。效价评分范围为-1 ~ 1，-1为最负效价，1为最正效价。

媒体的存在

分别提取了一条推文是否包含照片、gif或视频的数据。

语言特征

分别提取了标签、提及和超链接的数量。

帐户验证

对于每条推文，无论发布该推文的账户是否经过验证，都被提取出来。

数据分析

我们进行了线性回归分析，以检验点赞和转发的预测因素。由于本研究的目的是通过点赞数和转发数来调查影响推文受欢迎程度和病毒式传播的因素，因此与过去的研究一样，我们只考虑了被点赞和转发的推文[23，25]。在模型中，分别对从主题建模中提取的12个主题负载、从情感分析中生成的效价评分、三个媒体存在变量、三个语言特征变量和账户验证变量进行了对数变换后的like计数和转发计数的回归。

网络分析与可视化

我们使用双模式可视化分别表示主题与2500条最喜欢的推文和2500条最被转发的推文之间的关系。为了准备呈现每个关系网络的数据，我们创建了一个由主题和推文节点组成的节点列表，以及一个由推文id、每条推文所连接的主题和代表每条推文的主题加载的边权重组成的边列表。每个具有其名称的主题节点的大小与所有tweet的主题加载的总和成比例。为了帮助观众识别主题，我们使用了Gephi中内置的社区检测算法[50]，该方法基于先前研究中使用的Louvain模块化方法[12]。社区检测算法[51]识别网络中有凝聚力的群体[52，53]。在网络可视化中，节点的颜色反映了主题社区的成员关系。

内容主题

我们使用LDA训练了一个主题模型，主题号的搜索空间从3到21。利用Dirichlet浓度参数的统一搜索网格，对模型参数进行训练以优化相干分数C_v［54]，这是对同一主题中单词重合的可能性测量。在12个主题中获得了最佳模型C_v= 0.42。表1总结了12个主题。每个主题的解释是基于单独按频率排名的前10个可能单词，以及频率和相关性的联合排名，以及对具有高主题特定负载的样本推文的审查。

表1。题目和效价的总结。

主题数量	主题标签	频率排名前10的单词(λ=1)	频率和相关性排名前10的单词(λ=0.6)	价
1	疫苗的访问	疫苗、社区、健康、帮助、获取、需求、工作、大流行、国家、支持	疫苗、社区、健康、获取、帮助、支持、努力、全球、分配、确保	0.137
2	疫苗的功效和推广	疫苗，病例，新的，变种，显示，死亡，测试，风险，病毒，报告	病例，疫苗，变异，显示，新的，测试，死亡，研究，暂停，报告	0.147
3.	疫苗的发展和人们的看法	疫苗，人，拿，说，会，做，想，想，给，女人	疫苗，会，拿，女人，人，想，够了，做，说，尝试	0.158
4	免疫状态	接种疫苗，接种疫苗，注射，人们，注射，接种疫苗，首先，完全，等待	接种，接种，注射，注射，人们，完全接种，家庭，等待，死亡	0.143
5	感觉及副作用	Get, vaccine, feel, go, good, day，副作用，make, work, arm	感觉，得到，副作用，好，去，手臂，天，事实，科学，正常	0.117
6	疫苗的约会	疫苗，预约，今天，地点，时间表，开放，访问，电话，诊所，疫苗接种	预约，地点，疫苗，开放，时间表，访问，诊所，加入，注册，呼叫	0.133
7	疫苗可用性	疫苗，可用，周，说，年，问，老，上，下，来	Available, question, old, year, week, say, last, next, answer, month	0.149
8	疫苗接种资格及管理	剂量，疫苗，接受，今天，第一，第二，合格，管理，天，开始	剂量，接收，第二，合格，今天，第一，接种，疫苗，天，开始	0.354
9	年龄和问题	年龄，疫苗，提供，人，群体，鼓励，阅读，推出，问题，关注	年龄，提议，团体，鼓励，推出，理由，文章，问题，解释，医生	0.107
10	预防措施	安全，口罩，保持，传播，停止，停留，佩戴，静止，继续，护照	安全、口罩、keep、spread、stop、stay、wear、passport、place、home	0.089
11	学生和县	转发，检查，学生，活动，步行，转弯，县，员工，请，团队	转发，检查，学生，活动，步行，转弯，县，员工，请，团队	0.093
12	信任与沟通	分享，信任，观看，视频，说话，播放，分钟，下降，头部，可用性	分享，信任，视频，说话，播放，分钟，观看，跌落，头部，可用性	0.089

价的内容

总体效价为阳性，得分为0.145。效价评分范围为-1 ~ 1，-1为最负效价，1为最正效价。如图所示表1， 12个主题均与正效价相关。

相似数的决定因素

表2揭示了四类自变量对类对数变换计数的影响。回归模型在P<措施(调整后R²= 0.151)。RQ1与“喜欢”的决定因素有关。在主题建模确定的12个潜在主题中，主题1至8对点赞有微弱但显著的影响。效价对喜欢也有微弱但显著的影响。积极的推文增加了点赞。媒体(照片、动图或视频)的出现增加了点赞。在语言特征中，标签和外部链接的数量减少了点赞数，而提及的数量增加了点赞数。账户验证增加了点赞。

表2。推文流行度和病毒性预测因子的线性回归模型。

变量			Ln(类似计数)^一个(n = 286657)				Ln(转发数)^一个(n = 168961)
			β		P价值		β		P价值
主题
	T1:疫苗获取	.029		.048		.062		<措施
	T2:疫苗效力和推广	.049		<措施		重建		<措施
	T3:疫苗的发展和人们的看法	.055		<措施		.078		<措施
	T4:疫苗接种状况	.048		<措施		.068		<措施
	T5:感觉及副作用	.040		<措施		.052		<措施
	T6:预约接种疫苗	.027		<措施		.033		<措施
	T7:疫苗供应	.018		<措施		.019		<措施
	T8:疫苗接种资格	.011		<措施		.006		。08
	年龄和问题	.009		13。		.009		.10
	T10:预防措施	-.030		点		-.037		二十五分
	T11:学生和县	.076		.14点		-.080		.14点
	T12:信任和沟通	-.079		厚		-.072		. 21
情感(价)			.059		<措施		.0003		公布
媒体的存在
	有照片	.188		<措施		.088		<措施
	有gif	.019		<措施		．001		.64点
	有视频	.100		<措施		.084		<措施
语言特征
	标签数量	-.072		<措施		-.059		<措施
	提及次数	.007		.005		-.002		。45
	外部链接数	-.126		<措施		.003		只要
验证帐户			.452		<措施		.378		<措施

^一个为了考虑数据分布的正确偏度，在分析中使用了自然对数转换的类计数和转发计数。

转发数的决定因素

表2还揭示了四类自变量对对数转换后的转发数的影响。回归模型在P<措施(调整后R²= 0.130)。RQ2关注的是转发的决定因素。在主题建模确定的12个潜在主题中，主题1至7对转发有微弱但显著的影响。价格对转发没有影响。媒体上出现的照片或视频增加了转发量。在语言特征中，标签数量减少了转发量。账户验证增加了转发。

主题和推特关系网络

RQ3关注最受欢迎推文中的突出话题。如图所示图1在2500条被点赞最多的推文中，Louvain聚类识别出了12个话题中的4个。这些推文围绕疫苗可及性(主题1)聚集，紧随其后的是疫苗功效和推广(主题2)，然后是疫苗开发和人们的观点(主题3)。其他主题不突出，作为一个剩余的集群呈现。每个主题社区用一种颜色表示。

表3总结了10条最受欢迎的意译推文，比如计数、主导话题和话题加载。第一条最受欢迎的推文是在2020年7月发布的，截至2021年4月30日，它有91163个赞，主要围绕疫苗获取(主题1)。它呼吁全民医疗保险以及免费的COVID检测、治疗和疫苗。

RQ4关注的是转发次数最多的推文的突出主题。如图所示图2，在转发最多的2500条推文中，Louvain聚类识别了LDA在总推文中识别的12个主题中的5个。转发量最高的推文主要围绕疫苗功效和推广(话题2)，紧随其后的是疫苗可及性(话题1)，然后是疫苗开发和人们的观点(话题3)和疫苗接种状态(话题5)。其他话题不突出，作为一个剩余的聚类呈现。每个主题社区用一种颜色表示。

图1所示。2500条最受欢迎推文的主题社区。使用双模式可视化来呈现主题与2500条最喜欢的推文之间的关系。主题和tweet通过每个tweet的主题加载加权的边连接起来。每个具有其名称的主题节点的大小与所有tweet的主题加载的总和成比例。颜色表示由Louvain算法划分的主题社区。

表3。最喜欢的10条推文。

像等级	像数	推特	主导主题号和标签	主导主题负载
1	91163年	全民医疗保险以及免费的COVID检测、治疗和疫苗是一个体面社会的必需品(2020年7月)。^一个	主题1:疫苗获取	0.518
2	90177年	特朗普拒绝向纽约提供疫苗的企图是在拿人民的生命玩政治(2020年11月)。^一个	主题2:疫苗功效和推广	0.578
3.	63681年	我参加了Moderna的疫苗和加强剂是否安全有效的实验(2021年4月)	议题3:疫苗的发展和人们的看法	0.373
4	55223年	拜登总统从特朗普总统那里获得了疫苗的荣誉(2021年3月)^一个	主题1:疫苗获取	0.964
5	48631年	接种的疫苗剂量数量与新病例数量的比例为10:1(2021年2月)	主题2:疫苗功效和推广	0.514
6	46997年	我已经不再支持特朗普，开始认真对待COVID。多亏了拜登和卫生工作者，我接种了疫苗(2021年3月)	议题4:疫苗接种状况	0.578
7	36753年	与天花一样，疫苗接种以及监测和接触者追踪对于消除COVID至关重要(2020年4月)^一个	主题2:疫苗功效和推广	0.547
8	36250年	辉瑞mRNA候选疫苗显示出初步疗效(2020年11月)^一个	议题3:疫苗的发展和人们的看法	0.844
9	35604年	特朗普总统实现了到今年年底(2020年5月)研制出安全有效的新冠疫苗的目标。	议题3:疫苗的发展和人们的看法	0.533
10	35514年	目前的疫苗接种速度需要10年才能达到群体免疫。我们需要加快这一进程(2020年12月)^一个	主题2:疫苗功效和推广	0.385

^一个推特是最受欢迎的10条推文之一，同时也是最受欢迎的10条推文之一。

图2。2500条被转发最多的推文的主题社区。使用双模式可视化来呈现主题与转发最多的2500条推文之间的关系。主题和tweet通过每个tweet的主题加载加权的边连接起来。每个具有其名称的主题节点的大小与所有tweet的主题加载的总和成比例。颜色表示由Louvain算法划分的主题社区。

表4总结了转发次数最多的10条意译推文，它们的转发量和主要话题。第一条转发最多的推文是在2020年12月发布的，到2021年4月，它的转发量达到了17427次，主要围绕疫苗的功效和推广(主题2)。这强调了根据当时的疫苗接种速度，达到群体免疫需要很长时间。

表4。转发次数最多的10条意译推文。

转发排名	转发数	推特	主导主题号和标签	主导主题负载
1	17427年	目前的疫苗接种速度需要10年才能达到群体免疫。我们需要加快这一进程(2020年12月)^一个	主题2:疫苗功效和推广	0.385
2	16288年	全民医疗保险以及免费的COVID检测、治疗和疫苗是一个体面社会的必需品(2020年7月)^一个	主题1:疫苗获取	0.518
3.	15575年	特朗普试图拒绝向纽约提供疫苗，这是在拿人民的生命玩政治(2020年11月)^一个	主题2:疫苗功效和推广	0.578
4	14536年	美国食品药品监督管理局^b和美国疾控中心^c建议暂停使用强生covid - 19疫苗(2021年4月)	主题1:疫苗获取	0.417
5	12473年	辉瑞mRNA候选疫苗显示出初步疗效(2020年11月)^一个	议题3:疫苗的发展和人们的看法	0.844
6	11684年	拜登总统从特朗普总统那里获得了疫苗的荣誉(2021年3月)^一个	主题1:疫苗获取	0.964
7	11046年	俄罗斯疫苗试验显示高效力(2021年2月)	主题2:疫苗功效和推广	0.618
8	10151年	英国疫苗安全，可诱导免疫反应(2020年7月)	主题2:疫苗功效和推广	0.844
9	8586	与天花一样，疫苗接种以及监测和接触者追踪对于消除COVID至关重要(2020年4月)^一个	主题2:疫苗功效和推广	0.547
10	8282	为什么我们需要两剂mRNA疫苗(2021年4月)	主题1:疫苗获取	0.488

^一个推特是转发次数最多的10条推文之一，同时也是最受欢迎的10条推文之一。

^bFDA:食品和药物管理局。

^cCDC:美国疾病控制与预防中心。

主要结果

本研究使用文本挖掘技术调查了三类消息级因素对有关COVID-19疫苗的推文的受欢迎程度和病毒性的综合影响。我们还使用网络分析和可视化检查了最喜欢和转发最多的推文的主题社区。在本节中，我们首先讨论文本挖掘的主题和价，以及关于社交媒体信息特征的自动提取信息如何影响点赞和转发。我们进一步讨论了疫苗运动方向的局限性和影响。

在主题建模确定的12个潜在主题中，主题1-8增加了点赞量，主题1-7增加了转发量。疫苗发展和人们的观点(主题3)对点赞和转发的积极影响最大，反映在β系数。COVID-19疫苗的内在新颖性可以提供合理的解释。这些疫苗是新开发的，旨在帮助对抗新型冠状病毒，研究中检测的四个品牌中有两个使用了mRNA，这是一种以前未被批准用于人类普遍使用的技术。5]。因此，有关疫苗开发和技术的信息更受欢迎和传播。与此相关，前10个点赞推文中有3个反映了话题3，其中两个是关于mRNA疫苗的。转发次数最多的10条推文中有1条反映了主题3，即mRNA疫苗。这一发现与过去的研究结果一致，即新内容对健康新闻的社会传播有影响[26]。

疫苗功效和推广(主题2)对点赞和转发的积极影响第二大，如图所示β系数。先前的研究揭示了疗效信息对在线健康新闻传播的影响[26以及关于COVID-19大流行的推文[25]。这项研究还强调了关于COVID-19疫苗的推文病毒性的功效信息的重要性。

研究结果表明，以疫苗开发和民众观点为主题的推文，以及以疫苗功效和推广为主题的推文，高度满足了公众在新冠肺炎大流行期间的信息需求，因此在推特上容易受到欢迎和传播。这些推文似乎提供了有用和新颖的信息，有助于减少健康危机中的不确定性。疫苗运动可以提供有关这些主题的更多信息，以帮助信息在社交媒体上传播。

值得注意的是，支持某一政党等两极化的政治信息可能与不同的话题交织在一起。前10个点赞推文中有5个包含两极分化的政治信息，前10个转发推文中有3个包含两极分化的政治信息。由于政治立场可能在美国的疫苗辩论中发挥作用[9]，未来研究除其他因素外，它的影响将是有趣的。

这项研究表明，推文的总体效价是积极的。这与之前对有关疫苗的推文的研究结果一致[11-13特别是COVID-19疫苗，无论国家如何[15，16]。结果表明，正效增加了喜欢度。这与之前的研究结果一致[22，23]。相比之下，结果显示价格对转发没有影响。过去的研究揭示了关于价对转发的影响的混合结果[11，25-27]。这种解释可能基于转发行为背后复杂的认知来源。与点赞相比，转发是一种更社会化的行为，可能涉及到接受者对内容和/或发送者的预期反应[26]。

在社交媒体消息功能方面，在所有因素中，账户验证对点赞和转发的积极影响最大，体现为β系数。这一发现强调了账户认证在面对海量信息时对推文的受欢迎程度和病毒式传播的重要性。根据不确定性减少理论，可信信息对于减少危机中的不确定性至关重要[25，55]。然而，值得注意的是，帐户身份验证并不总是意味着内容身份验证。因此，经核实的帐户传播的错误信息可能对疫苗运动构成更大的挑战。疫苗运动可以尝试使用和激励不同的经过验证的帐户，包括机构和个人帐户，以分享可信的信息，以扩大影响范围，并防止错误信息的传播。

此外，根据文献[32，33，照片或视频的出现会增加点赞和转发。动图的出现增加了点赞量，但不影响转发量。此外，与文献[23，34，35]，话题标签的数量减少了点赞和转发。外部链接的数量减少了点赞，但不影响转发。与文献不符的[23，25]，提到的次数促进了点赞，但不影响转发。

结果显示，在研究的因素中，影响点赞的因素比影响转发的因素要多。8个主题预测点赞，7个预测转发。价能预测点赞，但不能预测转发。gif的存在、被提及的次数和外部链接的数量预测了点赞，但不是转发。对前10条推文的点赞数和转发数的比较也表明，一条推文更有可能被点赞，而不是被转发。点赞数最多的推文的点赞数是转发数最多的推文的五倍多。这些发现表明，让一条推文像病毒一样传播比受欢迎更具挑战性。

限制

这项研究有几个局限性。我们使用基于机器的文本挖掘来识别大量关于COVID-19疫苗的推文中的潜在主题和价格。然后，我们将文本挖掘的主题和价格，以及社交媒体消息特征的自动提取信息纳入回归模型，用于预测推文的受欢迎程度和病毒性。虽然这种方法减少了手工编码，但结果大多局限于自动识别和自动提取因素。我们对每个主题的样本推文以及前10个点赞和转发推文的人工审查提供了线索，表明政治两极分化的信息可能与不同的主题交织在一起。这将是有趣的未来研究如何影响twitter的受欢迎程度和病毒式传播。例如，转发推文可能源于复杂的认知来源，如自我表现[31]和身份交流[27]。一个问题是，发送者和接收者之间政治立场的一致性是否会影响转发。

此外，研究结果仅限于美国在推特上关于COVID-19疫苗的公开讨论。在2019冠状病毒病大流行期间，社交媒体平台在传播信息和意见方面发挥了重要作用[56]。未来的研究将Twitter与其他社交媒体平台进行比较，这将是一件有趣的事情。例如，在预测受欢迎程度和病毒式传播方面，所研究的因素的相对重要性可能因所分析的社交媒体平台而异，因为每个平台都有自己的特点。

最后，结果揭示了有关COVID-19疫苗的推文受欢迎程度和病毒性的消息级驱动因素。我们将账户验证作为自变量纳入回归模型，结果显示它对点赞和转发有积极影响。然而，我们并没有在大量的推文中发现社交机器人。未来研究社交机器人的影响将会很有趣。

结论

这项研究表明，在新冠肺炎大流行期间，公众对疫苗开发和人们看法的信息以及疫苗功效和推广的兴趣和需求。这些话题，以及媒体和认证账户的使用，增强了推文的受欢迎程度和病毒式传播。这些问题可以在疫苗运动中得到解决，以帮助Twitter上的内容传播。

利益冲突

没有宣布。

世卫组织总干事在3月11日COVID-19媒体吹风会上的开幕词。2020年3月11日。URL:https://www.who.int/director-general/speeches/detail/who-director-general-s-opening-remarks-at-the-media-briefing-on-covid-19---11-march-2020[2020-03-15]访问
COVID-19仪表板。约翰霍普金斯大学。URL:https://coronavirus.jhu.edu/map.html[2021-04-15]访问
COVID-19疫苗。世界卫生组织，2021。URL:https://www.who.int/emergencies/diseases/novel-coronavirus-2019/covid-19-vaccines[2021-07-20]访问
科学简报:COVID-19疫苗和疫苗接种。疾病控制和预防中心，2021年7月27日。URL:https://www.cdc.gov/coronavirus/2019-ncov/science/science-briefs/fully-vaccinated-people.html[2021-07-28]访问
对COVID疫苗的闪电般的探索——以及对其他疾病的意义。2020年12月18日。URL:https://www.nature.com/articles/d41586-020-03626-1[2020-12-20]访问
新的疫苗方法带来了新的可能性，但也带来了新的挑战。2021年6月1日URL:https://www.nature.com/articles/d43747-021-00079-x[2021-06-05]访问
Iannelli V.疫苗辩论概述:从争论的双方看。2021年6月4日。URL:https://www.verywellhealth.com/the-vaccine-debate-2633685[2021-06-10]访问
柯尔杰，潘纳哥波洛斯，范德林登。美国应对新冠肺炎疫情的政治两极分化。2021年9月179:110892。［CrossRef]
Fridman A, Gershon R, Gneezy A. COVID-19与疫苗犹豫:一项纵向研究。PLoS One 2021;16(4):e0250123 [j]免费全文] [CrossRef] [Medline]
为什么COVID-19疫苗分发起步缓慢?2021年1月1日URL:https://www.npr.org/2021/01/01/952652202/why-the-covid-19-vaccine-distribution-has-gotten-off-to-a-slow-start[2021-01-10]访问
Blankenship E, Goff ME，尹杰，谢志泰，付光华，梁辉，等。情绪、内容和转发:两个与疫苗相关的Twitter数据集的研究烫发杂志2018;22:17-138 [J]免费全文] [CrossRef] [Medline]
Gunaratne K, Coomes EA, Haghbayan H. Twitter上反疫苗话语的时间趋势。疫苗2019 8月14日;37(35):4867-4871。［CrossRef] [Medline]
Love B, Himelboim I, Holton A, Stewart K. Twitter作为疫苗接种信息的来源:内容驱动者和他们在说什么。[J]中华传染病杂志，2013;41(6):568-570。［CrossRef] [Medline]
Ortiz-Sánchez E, Velando-Soriano A, Pradas-Hernández L, Vargas-Román K, Gómez-Urquiza JL, Cañadas-De la Fuente GA，等。社会网络中反疫苗运动的分析:系统回顾。国际环境与卫生杂志2020年7月27日;17(15):5394 [J]免费全文] [CrossRef] [Medline]
Hussain A, Tahir A, Hussain Z, Sheikh Z, Gogate M, Dashtipour K，等。英国和美国Facebook和Twitter上公众对COVID-19疫苗态度的人工智能分析:观察性研究[J]医学互联网研究，2021年4月05日;23(4):e26627 [J]免费全文] [CrossRef] [Medline]
吕家杰，韩磊，吕丽GK。推特上与COVID-19疫苗相关的讨论:主题建模和情绪分析[J] .中国医学信息学报，2009;23(6):563 - 567 [J]免费全文] [CrossRef] [Medline]
Abd-Alrazaq A, Alhuwail D, Househ M, Hamdi M, Shah Z. 2019冠状病毒病大流行期间推特用户最关注的问题:信息监测研究。医学互联网研究，2020年4月21日;22(4):e19016 [J]免费全文] [CrossRef] [Medline]
Chandrasekaran R, Mehta V, Valkunde T, Moustakas E.关于COVID-19大流行的推文的主题、趋势和情绪:时间信息监测研究。[J]互联网研究，2020,10 (2):1 - 2 [J]免费全文] [CrossRef] [Medline]
dogan C, Buntine W, Linger H, brent S.六个国家公众对COVID-19非药物干预措施的看法和态度:Twitter数据的主题建模分析。[J]医学互联网研究，2020,03;22(9):e21419 [J]免费全文] [CrossRef] [Medline]
Kwok SWH, Vadde SK, Wang G.澳大利亚推特用户与COVID-19疫苗接种相关的推文主题和情绪:机器学习分析。[J]互联网研究与发展[J]; 2009;23(5): 563 - 567 [J]免费全文] [CrossRef] [Medline]
刘强，郑忠，郑健，陈强，刘刚，陈生，等。新冠肺炎疫情早期中国新闻媒体健康传播:数字主题建模方法医学互联网研究2020年4月28日;22(4):e19118 [J]免费全文] [CrossRef] [Medline]
李俊，洪毅波。社交媒体广告对用户正面反应的预测:情感诉求、信息性和创造力的作用。国际情报学报，2016;36(3):360-373。［CrossRef]
政治社交媒体的受欢迎程度和病毒式传播:标签、提及和链接预测2016年美国总统候选人推文的点赞和转发。生态学报，2016;11(4):259-270。［CrossRef]
使用Twitter。Twitter。URL:https://help.twitter.com/en/using-twitter/[2021-01-05]访问
利用Twitter数据分析Covid-19推文的病毒式传播:一种文本挖掘方法。行为信息技术，2021年6月17:1-19。［CrossRef]
金海关。吸引浏览量和病毒式传播:信息特征和新闻分享渠道如何影响卫生新闻传播。[J]中国农业大学学报，2015;65(3):512-534 [J]免费全文] [CrossRef] [Medline]
是什么让网络内容病毒式传播?[J]市场研究，2012;49(2):192-205。［CrossRef]
Moriarty CM, Stryker JE。报纸上关于癌症报道的预防和筛查功效信息。健康教育，2008;01;23(3):487-498。［CrossRef] [Medline]
McCormack LA, Squiers L, Frasier AM, Lynch M, Bann CM, MacDonald PDM在疫情爆发初期，美国居民对COVID-19的认识存在差距。公共卫生报告2021年11月11日;136(1):107-116。［CrossRef] [Medline]
李超，余华。突发自然灾害中语言对微博转发的影响:不确定性降低和语言预期的视角。工业数据管理系统，2020,6,29(8):1501-1519。［CrossRef]
口碑作为自我提升。ssn . J 2008 Apr 28:06-01。［CrossRef]
李建平，李建平。图像-文字刺激的处理:图像和文字优势的偶然性质。[J] .心理学报，2002;28(1):221-232。［CrossRef] [Medline]
李建军，李建军。符号比较中语义一致性的本质与位置:来自Stroop效应的证据。中华医学杂志，2002;30(1):3-17。［CrossRef] [Medline]
李晓明，李晓明。加工流畅性与审美愉悦:美是否存在于知觉者的加工经验中?心理学报，2004;12(4):364-382。［CrossRef] [Medline]
联合流利部落形成元认知民族。社会心理学报2009;8;13(3):219-235。［CrossRef] [Medline]
重新启动验证和下一个Twitter是什么。2021年5月20日。URL:https://blog.twitter.com/en_us/topics/company/2021/relaunching-verification-and-whats-next[2021-05-25]访问
snscrape。GitHub。URL:https://github.com/JustAnotherArchivist/snscrape[2021-04-05]访问
Massey PM, Leader A, yo - tov E, Budenz A, Fisher K, Klassen AC.应用多种数据收集工具量化Twitter上的人乳头瘤病毒疫苗传播。医学互联网研究，2016年12月05日;18(12):e318 [J]免费全文] [CrossRef] [Medline]
Massey PM, Kearney MD, Hauer MK, Selvan P, Koku E, Leader AE。Instagram上关于HPV疫苗的错误信息维度:社交媒体特征的内容和网络分析。[J]医学互联网研究，2020年12月03日;22(12):e21451 [J]免费全文] [CrossRef] [Medline]
不同的COVID-19疫苗。疾病控制和预防中心，2021年5月27日。URL:https://www.cdc.gov/coronavirus/2019-ncov/vaccines/different-vaccines.html[2021-06-02]访问
为欧洲人提供安全的COVID-19疫苗。欧盟委员会，2021。URL:https://ec.europa.eu/info/live-work-travel-eu/coronavirus-response/safe-covid-19-vaccines-europeans_en[2021-04-15]访问
Rehurek R, Sojka P. gensim -统计语义在Python. 2011发表于:欧洲会议上的Python in Science;2011年8月25日至28日;巴黎,法国。
李建军，陈建军，李建军，等。信息检索技术的研究进展。英国剑桥:剑桥大学出版社;2008.
刘志强，刘志强。自然语言工具集。2002年在计算语言学协会-02“自然语言处理和计算语言学教学的有效工具和方法”研讨会上发表;2002年7月;莫里斯敦，新泽西州，第63-70页。［CrossRef]
李建平，李建平，李建平，等。[J] .中国机械工程学报，2003;3(1):993-1022。［CrossRef]
Allahyari M, Pouriyeh S, Assefi M, Safaei S, Trippe ED, Gutierrez JB，等。文本摘要技术:简要概述。计算机应用学报，2017;8(10):397-405 [J]免费全文] [CrossRef]
Maier D, Waldherr A, Miltner P, Wiedemann G, Niekler A, Keinert A，等。LDA主题建模在传播学研究中的应用:一个有效可靠的方法论。普通方法平均值2018年2月16日;12(2-3):93-118。［CrossRef]
Sievert C, Shirley K. LDAvis:一种可视化和解释主题的方法。2014年发表于:计算语言学协会交互式语言学习，可视化，界面研讨会论文集;6月2014;巴尔的摩，马里兰州。[CrossRef]
TextBlob:简化的文本处理。URL:https://textblob.readthedocs.io/[2021-01-05]访问
Gephi。0.9.2版本。URL:https://gephi.org/[2021-04-15]访问
纽曼MEJ，葛文M.网络中社区结构的发现与评价。物理学报，2002,26(2):026113。［CrossRef]
图中的社区检测。Phys Rep 2010 Feb;486(3-5):75-174。［CrossRef]
姜广军，wwing - nelson SR, Mackey L, Schlitt JT, Marathe A, Abbas KM，等。网络社交媒体中疫苗情绪的语义网络分析疫苗2017 Jun 22;35(29):3621-3638 [j]免费全文] [CrossRef] [Medline]
Röder M, Both A, Hinneburg A.话题连贯测度的空间探索。2015年发表于:第八届ACM网络搜索与数据挖掘国际会议论文集;2015;上海，中国，p. 399-408。［CrossRef]
Berger CR, Bradac JJ。语言和社会知识:人际关系中的不确定性(第2卷).伦敦，英国:霍德教育;1982.
社交媒体和应对新型冠状病毒的应急准备。中国医学杂志，2020;33(5):391 - 391。［CrossRef] [Medline]

‎

弓:一袋话

疾病预防控制中心:疾病控制和预防中心

LDA:潜在狄利克雷分配

信使rna:信使核糖核酸

人:世界卫生组织

G·艾森巴赫编辑;提交10.08.21;W . Xie, J . Turner同行评议;对作者的评论01.09.21;修订版本收到12.10.21;接受13.10.21;发表03.12.21

这是一篇根据知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR公共卫生与监测上，并适当引用。必须包括完整的书目信息，到https://publichealth.www.mybigtv.com上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

推特上COVID-19疫苗话语流行和病毒传播的驱动因素:文本挖掘和数据可视化研究

推特上COVID-19疫苗话语流行和病毒传播的驱动因素:文本挖掘和数据可视化研究

原始论文

通讯作者:

摘要

关键字

介绍

背景

文献综述

研究模式与问题

方法

数据源

数据处理

措施

像数

转发数

内容主题

价的内容

媒体的存在

语言特征

帐户验证

数据分析

网络分析与可视化

结果

内容主题

价的内容

相似数的决定因素

转发数的决定因素

主题和推特关系网络

讨论

主要结果

限制

结论

利益冲突

参考文献

缩写