这是一篇根据知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR公共卫生与监测上,并适当引用。必须包括完整的书目信息,到https://publichealth.www.mybigtv.com上原始出版物的链接,以及版权和许可信息。
COVID-19疫苗接种被认为是帮助结束大流行的关键预防措施。推特等社交媒体平台在公众讨论COVID-19疫苗方面发挥了重要作用。
本研究的目的是使用基于机器的文本挖掘技术,调查有关COVID-19疫苗的推文受欢迎程度和病毒式传播的消息级驱动因素。我们进一步旨在使用网络分析和可视化来检查最喜欢和转发最多的推文的主题社区。
我们收集了2020年1月1日至2021年4月30日期间美国关于COVID-19疫苗的英语公开推文(N=501,531)。主题建模和情感分析用于识别潜在的主题和价,并与媒体存在、语言特征和账户验证的自动提取信息一起用于回归模型来预测点赞和转发。在2500条点赞数最多的推文和2500条转发数最多的推文中,利用网络分析和可视化技术检测话题社区,呈现话题与推文之间的关系。
主题建模产生了12个主题。回归分析显示,正向预测点赞数的话题有8个,正向预测转发数的话题有7个,其中,“疫苗研制与民众看法”和“疫苗功效与推广”的影响相对较大。网络分析和可视化显示,2500条最受欢迎和转发最多的转发集中在疫苗获取、疫苗功效和推广、疫苗开发和人们的观点以及疫苗接种状况等主题上。这些推文的总体效果是积极的。正价会增加点赞量,但对转发量没有影响。媒体(照片、视频、动图)的出现和账户验证增加了点赞和转发。语言特征对点赞和转发有不同的影响。
这项研究表明,公众对有关疫苗开发和人们看法的信息,以及关于疫苗功效和推广的信息感兴趣和需求。这些话题,加上媒体和认证账户的使用,增强了推文的受欢迎程度和病毒式传播。这些主题可以在疫苗运动中加以讨论,以帮助在Twitter上传播内容。
自世界卫生组织(世卫组织)于2020年3月宣布新冠肺炎疫情为大流行以来[
调查公众对COVID-19疫苗的看法将有助于了解人们的看法和态度。作为一个主要的社交媒体平台和基于文本的公共话语的重要来源,研究人员对Twitter进行了研究,以了解有关疫苗的公共话语[
虽然文本挖掘显然是一种从大量tweet中识别潜在文本集群和模式的有效方法,但对于这些信息如何帮助理解Twitter上信息和观点的传播,我们所知甚少。本研究的目的是使用文本挖掘技术调查有关COVID-19疫苗的推文受欢迎程度和病毒式传播的消息级驱动因素。具体来说,这项研究的目的是调查文本挖掘主题和价值,以及社交媒体信息特征如何影响点赞和转发。该研究的另一个目的是使用网络分析和可视化来检查最喜欢和转发最多的推文的主题社区。这些发现对疫苗运动的方向具有启示意义。
一条信息在社交媒体上的最佳传播程度可以通过用户的积极回应来评估,例如点击“喜欢”和“分享”按钮,以公开表明个人的兴趣和支持[
根据先前的研究,本研究调查了三类消息级因素,这些因素可以驱动媒体内容的在线传播:信息、情感和社交媒体消息特征。由于Twitter是基于文本的信息的主要来源,我们借鉴了与网络文本信息的社会传播相关的文献,包括新闻文章和推文。过去对网络新闻病毒式传播的研究表明了两类决定因素:信息性和情绪性。从信息的角度来看,以整体内容有用性衡量的信息效用被发现促进了一般新闻文章的社交媒体分享[
过去的研究普遍表明,Twitter上对疫苗的正面推文多于负面推文[
除了内容主题和价格之外,社交媒体信息的特征,包括媒体存在、语言特征和账户验证,可能会影响在线内容的受欢迎程度和病毒式传播。媒体存在和语言特征可以影响内容处理的流畅性,并进一步影响喜欢和转发等有利的在线反应。社交媒体上的内容可以是任何模式,如文字、照片和视频。过去的研究表明,嵌入媒体(即照片或视频)的推文会激发点赞和转发[
相比之下,过去的研究表明,语言特征,如标签、提及和外部链接的数量,会减少点赞[
最后,账户功能可能会影响点赞和转发。面对数字时代的信息爆炸,账户真实性在信息传播中显得尤为重要。在Twitter上,经过验证的账户在个人资料名称旁边有一个蓝色徽章,让用户知道它是真实的。Twitter在2017年暂停了公众提交的账户验证申请,并于2021年5月使用新的申请流程重新开放了该门户[
本研究通过提供一个概念模型来理解上述三类因素——内容主题、内容价值和社交媒体消息特征(包括媒体存在、语言特征和账户验证)对COVID-19疫苗推文的受欢迎程度和病毒式传播的综合影响,从而为文献做出了贡献。我们采用主题建模来识别推文的潜在主题。我们采用情感分析来评估推文的效价。自动提取有关社交媒体特征的数据。因此,我们提出了以下研究问题:
研究问题1 (RQ1):内容主题、内容价和社交媒体信息特征如何影响有关COVID-19疫苗的推文的受欢迎程度?
研究问题2 (RQ2):内容主题、内容价和社交媒体信息特征如何影响有关COVID-19疫苗的推文的病毒式传播?
此外,在2500条点赞数最多的推文和转发数最多的推文中,我们分别使用网络分析和可视化来检测话题社区,并呈现话题与推文之间的关系。我们的研究问题如下:
研究问题3 (RQ3):最受欢迎的推文的突出主题是什么?
研究问题4 (RQ4):转发最多的推文的突出主题是什么?
在美国激烈的疫苗辩论背景下,这项研究可以帮助提高对有关COVID-19疫苗的推文流行和病毒性的复杂驱动因素的了解,使用基于机器的文本挖掘和网络可视化。这些发现为医疗从业者使用更有效的社交媒体内容提供了实际意义。
我们收集了2020年1月1日至2021年4月30日期间公开可获得的关于COVID-19疫苗的原始推文,使用snscraper [
参考先前关于疫苗的社会媒体研究[
通过genism对最终数据集进行预处理[
每条推文的点赞数,即一条推文获得的点赞数,在数据集中被捕获。由于少量的推文产生了大量的点赞,所以分布是右偏的。为了减少右偏度,我们在统计分析中使用了类似计数的自然对数,就像在过去的研究中一样[
每条推文的转发计数,即一条推文获得的转发数量,在数据集中被捕获。与点赞数类似,转发数呈右偏分布。为了减少右偏度,我们在统计分析中使用了转发次数的自然对数,就像过去的研究一样[
使用LDA模型对推文进行主题建模[
LDA依赖于两个矩阵来定义潜在的主题结构:词-主题矩阵和文档-主题矩阵[
词-主题矩阵揭示了一个词可能出现在主题中的条件概率。词-话题矩阵用于解释话题。一个主题可以用3到30个单词来解释,通过检查一个最可能的单词列表,仅根据它们在该主题中出现的频率进行排名[
文档-主题矩阵揭示了一个主题在tweet中可能出现的条件概率。换句话说,它显示了每条推文的主题加载。这些信息被用于回归模型预测,以及网络分析和可视化。主题加载值的取值范围为0 ~ 1,值越接近1表示tweet的主题加载越高。
我们使用TextBlob [
分别提取了一条推文是否包含照片、gif或视频的数据。
分别提取了标签、提及和超链接的数量。
对于每条推文,无论发布该推文的账户是否经过验证,都被提取出来。
我们进行了线性回归分析,以检验点赞和转发的预测因素。由于本研究的目的是通过点赞数和转发数来调查影响推文受欢迎程度和病毒式传播的因素,因此与过去的研究一样,我们只考虑了被点赞和转发的推文[
我们使用双模式可视化分别表示主题与2500条最喜欢的推文和2500条最被转发的推文之间的关系。为了准备呈现每个关系网络的数据,我们创建了一个由主题和推文节点组成的节点列表,以及一个由推文id、每条推文所连接的主题和代表每条推文的主题加载的边权重组成的边列表。每个具有其名称的主题节点的大小与所有tweet的主题加载的总和成比例。为了帮助观众识别主题,我们使用了Gephi中内置的社区检测算法[
我们使用LDA训练了一个主题模型,主题号的搜索空间从3到21。利用Dirichlet浓度参数的统一搜索网格,对模型参数进行训练以优化相干分数
题目和效价的总结。
主题 |
主题标签 | 频率排名前10的单词(λ=1) | 频率和相关性排名前10的单词(λ=0.6) | 价 |
1 | 疫苗的访问 | 疫苗、社区、健康、帮助、获取、需求、工作、大流行、国家、支持 | 疫苗、社区、健康、获取、帮助、支持、努力、全球、分配、确保 | 0.137 |
2 | 疫苗的功效和推广 | 疫苗,病例,新的,变种,显示,死亡,测试,风险,病毒,报告 | 病例,疫苗,变异,显示,新的,测试,死亡,研究,暂停,报告 | 0.147 |
3. | 疫苗的发展和人们的看法 | 疫苗,人,拿,说,会,做,想,想,给,女人 | 疫苗,会,拿,女人,人,想,够了,做,说,尝试 | 0.158 |
4 | 免疫状态 | 接种疫苗,接种疫苗,注射,人们,注射,接种疫苗,首先,完全,等待 | 接种,接种,注射,注射,人们,完全接种,家庭,等待,死亡 | 0.143 |
5 | 感觉及副作用 | Get, vaccine, feel, go, good, day,副作用,make, work, arm | 感觉,得到,副作用,好,去,手臂,天,事实,科学,正常 | 0.117 |
6 | 疫苗的约会 | 疫苗,预约,今天,地点,时间表,开放,访问,电话,诊所,疫苗接种 | 预约,地点,疫苗,开放,时间表,访问,诊所,加入,注册,呼叫 | 0.133 |
7 | 疫苗可用性 | 疫苗,可用,周,说,年,问,老,上,下,来 | Available, question, old, year, week, say, last, next, answer, month | 0.149 |
8 | 疫苗接种资格及管理 | 剂量,疫苗,接受,今天,第一,第二,合格,管理,天,开始 | 剂量,接收,第二,合格,今天,第一,接种,疫苗,天,开始 | 0.354 |
9 | 年龄和问题 | 年龄,疫苗,提供,人,群体,鼓励,阅读,推出,问题,关注 | 年龄,提议,团体,鼓励,推出,理由,文章,问题,解释,医生 | 0.107 |
10 | 预防措施 | 安全,口罩,保持,传播,停止,停留,佩戴,静止,继续,护照 | 安全、口罩、keep、spread、stop、stay、wear、passport、place、home | 0.089 |
11 | 学生和县 | 转发,检查,学生,活动,步行,转弯,县,员工,请,团队 | 转发,检查,学生,活动,步行,转弯,县,员工,请,团队 | 0.093 |
12 | 信任与沟通 | 分享,信任,观看,视频,说话,播放,分钟,下降,头部,可用性 | 分享,信任,视频,说话,播放,分钟,观看,跌落,头部,可用性 | 0.089 |
总体效价为阳性,得分为0.145。效价评分范围为-1 ~ 1,-1为最负效价,1为最正效价。如图所示
推文流行度和病毒性预测因子的线性回归模型。
变量 | Ln(类似计数)一个(n = 286657) | Ln(转发数)一个(n = 168961) | |||||||
|
|
|
|
|
|||||
|
|||||||||
|
T1:疫苗获取 | .029 | .048 | .062 | <措施 | ||||
|
T2:疫苗效力和推广 | .049 | <措施 | 重建 | <措施 | ||||
|
T3:疫苗的发展和人们的看法 | .055 | <措施 | .078 | <措施 | ||||
|
T4:疫苗接种状况 | .048 | <措施 | .068 | <措施 | ||||
|
T5:感觉及副作用 | .040 | <措施 | .052 | <措施 | ||||
|
T6:预约接种疫苗 | .027 | <措施 | .033 | <措施 | ||||
|
T7:疫苗供应 | .018 | <措施 | .019 | <措施 | ||||
|
T8:疫苗接种资格 | .011 | <措施 | .006 | 。08 | ||||
|
年龄和问题 | .009 | 13。 | .009 | .10 | ||||
|
T10:预防措施 | -.030 | 点 | -.037 | 二十五分 | ||||
|
T11:学生和县 | .076 | .14点 | -.080 | .14点 | ||||
|
T12:信任和沟通 | -.079 | 厚 | -.072 | . 21 | ||||
情感(价) | .059 | <措施 | .0003 | 公布 | |||||
|
|||||||||
|
有照片 | .188 | <措施 | .088 | <措施 | ||||
|
有gif | .019 | <措施 | .001 | .64点 | ||||
|
有视频 | .100 | <措施 | .084 | <措施 | ||||
|
|||||||||
|
标签数量 | -.072 | <措施 | -.059 | <措施 | ||||
|
提及次数 | .007 | .005 | -.002 | 。45 | ||||
|
外部链接数 | -.126 | <措施 | .003 | 只要 | ||||
验证帐户 | .452 | <措施 | .378 | <措施 |
一个为了考虑数据分布的正确偏度,在分析中使用了自然对数转换的类计数和转发计数。
RQ3关注最受欢迎推文中的突出话题。如图所示
RQ4关注的是转发次数最多的推文的突出主题。如图所示
2500条最受欢迎推文的主题社区。使用双模式可视化来呈现主题与2500条最喜欢的推文之间的关系。主题和tweet通过每个tweet的主题加载加权的边连接起来。每个具有其名称的主题节点的大小与所有tweet的主题加载的总和成比例。颜色表示由Louvain算法划分的主题社区。
最喜欢的10条推文。
像等级 | 像数 | 推特 | 主导主题号和标签 | 主导主题负载 |
1 | 91163年 | 全民医疗保险以及免费的COVID检测、治疗和疫苗是一个体面社会的必需品(2020年7月)。一个 | 主题1:疫苗获取 | 0.518 |
2 | 90177年 | 特朗普拒绝向纽约提供疫苗的企图是在拿人民的生命玩政治(2020年11月)。一个 | 主题2:疫苗功效和推广 | 0.578 |
3. | 63681年 | 我参加了Moderna的疫苗和加强剂是否安全有效的实验(2021年4月) | 议题3:疫苗的发展和人们的看法 | 0.373 |
4 | 55223年 | 拜登总统从特朗普总统那里获得了疫苗的荣誉(2021年3月)一个 | 主题1:疫苗获取 | 0.964 |
5 | 48631年 | 接种的疫苗剂量数量与新病例数量的比例为10:1(2021年2月) | 主题2:疫苗功效和推广 | 0.514 |
6 | 46997年 | 我已经不再支持特朗普,开始认真对待COVID。多亏了拜登和卫生工作者,我接种了疫苗(2021年3月) | 议题4:疫苗接种状况 | 0.578 |
7 | 36753年 | 与天花一样,疫苗接种以及监测和接触者追踪对于消除COVID至关重要(2020年4月)一个 | 主题2:疫苗功效和推广 | 0.547 |
8 | 36250年 | 辉瑞mRNA候选疫苗显示出初步疗效(2020年11月)一个 | 议题3:疫苗的发展和人们的看法 | 0.844 |
9 | 35604年 | 特朗普总统实现了到今年年底(2020年5月)研制出安全有效的新冠疫苗的目标。 | 议题3:疫苗的发展和人们的看法 | 0.533 |
10 | 35514年 | 目前的疫苗接种速度需要10年才能达到群体免疫。我们需要加快这一进程(2020年12月)一个 | 主题2:疫苗功效和推广 | 0.385 |
一个推特是最受欢迎的10条推文之一,同时也是最受欢迎的10条推文之一。
2500条被转发最多的推文的主题社区。使用双模式可视化来呈现主题与转发最多的2500条推文之间的关系。主题和tweet通过每个tweet的主题加载加权的边连接起来。每个具有其名称的主题节点的大小与所有tweet的主题加载的总和成比例。颜色表示由Louvain算法划分的主题社区。
转发次数最多的10条意译推文。
转发排名 | 转发数 | 推特 | 主导主题号和标签 | 主导主题负载 |
1 | 17427年 | 目前的疫苗接种速度需要10年才能达到群体免疫。我们需要加快这一进程(2020年12月)一个 | 主题2:疫苗功效和推广 | 0.385 |
2 | 16288年 | 全民医疗保险以及免费的COVID检测、治疗和疫苗是一个体面社会的必需品(2020年7月)一个 | 主题1:疫苗获取 | 0.518 |
3. | 15575年 | 特朗普试图拒绝向纽约提供疫苗,这是在拿人民的生命玩政治(2020年11月)一个 | 主题2:疫苗功效和推广 | 0.578 |
4 | 14536年 | 美国食品药品监督管理局b和美国疾控中心c建议暂停使用强生covid - 19疫苗(2021年4月) | 主题1:疫苗获取 | 0.417 |
5 | 12473年 | 辉瑞mRNA候选疫苗显示出初步疗效(2020年11月)一个 | 议题3:疫苗的发展和人们的看法 | 0.844 |
6 | 11684年 | 拜登总统从特朗普总统那里获得了疫苗的荣誉(2021年3月)一个 | 主题1:疫苗获取 | 0.964 |
7 | 11046年 | 俄罗斯疫苗试验显示高效力(2021年2月) | 主题2:疫苗功效和推广 | 0.618 |
8 | 10151年 | 英国疫苗安全,可诱导免疫反应(2020年7月) | 主题2:疫苗功效和推广 | 0.844 |
9 | 8586 | 与天花一样,疫苗接种以及监测和接触者追踪对于消除COVID至关重要(2020年4月)一个 | 主题2:疫苗功效和推广 | 0.547 |
10 | 8282 | 为什么我们需要两剂mRNA疫苗(2021年4月) | 主题1:疫苗获取 | 0.488 |
一个推特是转发次数最多的10条推文之一,同时也是最受欢迎的10条推文之一。
bFDA:食品和药物管理局。
cCDC:美国疾病控制与预防中心。
本研究使用文本挖掘技术调查了三类消息级因素对有关COVID-19疫苗的推文的受欢迎程度和病毒性的综合影响。我们还使用网络分析和可视化检查了最喜欢和转发最多的推文的主题社区。在本节中,我们首先讨论文本挖掘的主题和价,以及关于社交媒体信息特征的自动提取信息如何影响点赞和转发。我们进一步讨论了疫苗运动方向的局限性和影响。
在主题建模确定的12个潜在主题中,主题1-8增加了点赞量,主题1-7增加了转发量。疫苗发展和人们的观点(主题3)对点赞和转发的积极影响最大,反映在
疫苗功效和推广(主题2)对点赞和转发的积极影响第二大,如图所示
研究结果表明,以疫苗开发和民众观点为主题的推文,以及以疫苗功效和推广为主题的推文,高度满足了公众在新冠肺炎大流行期间的信息需求,因此在推特上容易受到欢迎和传播。这些推文似乎提供了有用和新颖的信息,有助于减少健康危机中的不确定性。疫苗运动可以提供有关这些主题的更多信息,以帮助信息在社交媒体上传播。
值得注意的是,支持某一政党等两极化的政治信息可能与不同的话题交织在一起。前10个点赞推文中有5个包含两极分化的政治信息,前10个转发推文中有3个包含两极分化的政治信息。由于政治立场可能在美国的疫苗辩论中发挥作用[
这项研究表明,推文的总体效价是积极的。这与之前对有关疫苗的推文的研究结果一致[
在社交媒体消息功能方面,在所有因素中,账户验证对点赞和转发的积极影响最大,体现为
此外,根据文献[
结果显示,在研究的因素中,影响点赞的因素比影响转发的因素要多。8个主题预测点赞,7个预测转发。价能预测点赞,但不能预测转发。gif的存在、被提及的次数和外部链接的数量预测了点赞,但不是转发。对前10条推文的点赞数和转发数的比较也表明,一条推文更有可能被点赞,而不是被转发。点赞数最多的推文的点赞数是转发数最多的推文的五倍多。这些发现表明,让一条推文像病毒一样传播比受欢迎更具挑战性。
这项研究有几个局限性。我们使用基于机器的文本挖掘来识别大量关于COVID-19疫苗的推文中的潜在主题和价格。然后,我们将文本挖掘的主题和价格,以及社交媒体消息特征的自动提取信息纳入回归模型,用于预测推文的受欢迎程度和病毒性。虽然这种方法减少了手工编码,但结果大多局限于自动识别和自动提取因素。我们对每个主题的样本推文以及前10个点赞和转发推文的人工审查提供了线索,表明政治两极分化的信息可能与不同的主题交织在一起。这将是有趣的未来研究如何影响twitter的受欢迎程度和病毒式传播。例如,转发推文可能源于复杂的认知来源,如自我表现[
此外,研究结果仅限于美国在推特上关于COVID-19疫苗的公开讨论。在2019冠状病毒病大流行期间,社交媒体平台在传播信息和意见方面发挥了重要作用[
最后,结果揭示了有关COVID-19疫苗的推文受欢迎程度和病毒性的消息级驱动因素。我们将账户验证作为自变量纳入回归模型,结果显示它对点赞和转发有积极影响。然而,我们并没有在大量的推文中发现社交机器人。未来研究社交机器人的影响将会很有趣。
这项研究表明,在新冠肺炎大流行期间,公众对疫苗开发和人们看法的信息以及疫苗功效和推广的兴趣和需求。这些话题,以及媒体和认证账户的使用,增强了推文的受欢迎程度和病毒式传播。这些问题可以在疫苗运动中得到解决,以帮助Twitter上的内容传播。
一袋话
疾病控制和预防中心
潜在狄利克雷分配
信使核糖核酸
世界卫生组织
没有宣布。