简介
每年约有13,000名妇女新诊断为侵袭性子宫颈癌,而超过4,000名妇女死于该疾病[
1 ].子宫颈癌是由某些类型的人乳头瘤病毒(HPV)引起的[
2 ,
3. ].HPV是美国最常见的性传播感染,在14至44岁的人群中,每年估计有620万新感染[
4 -
6 ].除宫颈癌外,HPV还是多种头颈癌、生殖器癌和肛门癌的致病媒介[
7 -
9 ].在美国,hpv相关癌症的总体负担一直在增加[
9 ].预防人乳头瘤病毒比大多数性传播感染更具挑战性,因为避孕套并不能完全预防感染[
10 ].因此,通过接种疫苗进行预防对于减少这种无处不在的感染所造成的癌症负担至关重要。
普遍建议所有青少年接种人乳头瘤病毒疫苗[
10 ].尽管在预防由目标HPV类型引起的癌前病变方面具有非凡的功效(高达90%的保护)[
11 -
13 ],在美国,只有56.8%的13至17岁女性和51.8%的13至17岁男性完成了HPV疫苗系列[
14 ].HPV疫苗接种有许多已知的障碍,包括对HPV疫苗副作用和不良事件的误解,对疫苗必要性的误解,从卫生保健人员那里得到的建议不一致,完成疫苗接种的费用,诊所的机会有限,以及对文化信仰的侵犯[
15 -
21 ].在这些障碍中,风险认知的偏差不仅与疫苗接种意愿低有关[
22 -
25 ]也与实际的疫苗接种行为有关[
16 ,
22 ,
26 -
30. ].全国免疫调查显示,父母对HPV疫苗的三大担忧是缺乏知识、疫苗的感知有用性低(HPV感染的感知风险低)、以及对副作用和安全问题的感知风险高[
31 ],强调了在HPV疫苗接种决策中风险认识的重要性。
社交媒体已成为人们交流疫苗相关观点、形成对疫苗态度的重要信息来源[
32 -
38 ].它的影响是惊人的,特别是对Twitter疫苗信息,因为Twitter上与HPV疫苗相关的意见与实际疫苗接受度和覆盖率有关[
39 ].现有的研究调查了关于HPV疫苗的新主题和公众对支持和反对疫苗的在线讨论的态度[
19 ,
24 ,
40 -
44 ].虽然已经确定了围绕HPV疫苗的多个虚假阴谋和神话,但没有研究使用自动计算方法来提取HPV疫苗错误信息传播中使用的主要疫苗接种论点的因果线索。研究表明,无论是内容质量、科学稳健性,还是信息的真实性,都无法证明信息的传播,而虚假或未经证实的信息有时比真实信息更具病毒性[
45 ,
46 ].随着人们对社交媒体上虚假信息传播的关注激增[
45 ,
47 -
50 ],一种自动、系统和可推广的方法来检测社会认可的虚假健康信息仍有待研究。虚假信息的威胁是至关重要的,因为对虚假信息的依赖(即感知准确性)会随着每次接触虚假信息而放大,并通过社交网络进一步放大[
51 -
53 ].由于人们缺乏健康知识,缺乏可信度判断能力,尽管引用了来源,但健康新闻的质量参差不齐,因此用户生成的虚假健康信息的泛滥尤其会使人们受害。[
54 -
56 ].因此,在虚假健康信息传播之前检测虚假健康信息是最大限度减少虚假信息威胁的重要一步[
57 ].
有几部作品针对健康方面的不实信息[
58 ,
59 ]
, 大多数研究使用描述性方法来研究已知的健康错误信息,并进行分析以揭示常见的错误观念、人口和地理模式以及社交媒体用户行为[
25 ,
60 ,
61 ].一些研究已经实现了计算模型,以识别来自其他社交媒体平台(如YouTube和Instagram)的健康错误信息;然而,他们中没有人试图从短且有时不完整的文本信息中识别健康错误信息,例如推文[
62 ,
63 ].与其他相关工作相比,我们将用于识别虚假HPV疫苗信息的分类模型与无监督的因果关系挖掘结合起来,以根据Twitter消息中表达的内容提取被认为是HPV抗疫苗健康担忧的归因原因的风险感知。为此,我们进行了一项信息流行病学研究,使用自然语言处理和机器学习方法,如分类、聚类、依赖分析和短语挖掘,来识别那些经常出现在社交媒体上的虚假HPV疫苗接种论点。我们的方法分析可以应用于其他领域,如COVID-19疫苗接种、食品安全和政治,以提取关于在线分享的真实和误导性声明之间的异同的有见解的信息。
方法
我们收集了2013年12月至2017年12月发布的与HPV疫苗相关的推文语料库。我们使用了以前已知的Crimson Hexagon(现为Brandwatch)的社交媒体分析应用程序编程界面和HPV相关搜索词列表,包括但不限于“HPV疫苗”、“乳头瘤病毒疫苗”、“宫颈癌疫苗”、“HPV疫苗”、“宫颈癌疫苗”和“加德西”。我们的建模管道由几个步骤组成:采样、注释和数据预处理、训练和分析(参见
图1 ).数据预处理阶段包括基于规则的词汇归一化和无监督的词嵌入预训练。
图1
因果关系挖掘数据收集和建模管道。
首先,我们每年随机抽取1000条推文,并在两轮中将它们传递给2名注释者。两名批注员都接受过关于HPV疫苗的基本培训(包括广泛阅读国家癌症研究所、疾病控制和预防中心以及美国癌症协会提供的经过验证的HPV疫苗相关材料),其中1名批注员接受过正规的医学教育培训。与错误信息检测的相关工作类似[
64 -
66 ],我们将任务构建为二元分类,其中每条推文都被分类为真信息或假信息(其中假信息包括部分假信息或部分真信息)。因此,我们不仅要求注释者判断每条推文的内容的真实性,还允许他们选择一个额外的选项作为“不适用”,对于不属于这两类中的任何一类的推文(例如,固执己见的文本和其他非事实或无关的帖子)。标记为不适用的tweet将从注释管道中过滤掉。通过讨论,两个注释者的评分有任何差异。对于评分者之间的可靠性,科恩的kappa系数(κ)为0.75,被认为是对任务的良好一致[
67 ].结果数据集由5000条有标记的推文和702,858条无标记的推文组成。推文的字符长度,包括所有提及、转发和标签,从21到826个字符不等。
为了减少词汇规范化步骤的词汇量,将单词格式化为小写,并删除url;数字和twitter特定的项目,如用户提及(用户名前缀为“@”)或转发,被标记并映射到每个类别的公共特殊令牌(即,分别为NUMBER, MENTION, RT)。一些缩略词被替换为它们的规范形式:例如,“Can't”被替换为“Cannot”,“You'll”被替换为“You will”,“&”被替换为“and”,等等。此外,连字符和正斜杠被替换为空格,字母数字配对被处理,2个或2个以上的用户提到的实例被减少到2个“MENTION”标记,标签引号和其他类型的标点符号被删除,多个前导或尾随空格被替换为一个空格。这个过程减少了每条推文的长度,可以在18到295个字符之间。
基于训练集的最终词汇量为4098个词汇(其中1个词汇表示空白)。根据频率优势比(即每个类别中出现的比例)加权的术语分析显示,某些术语在真实类别中代表过多,但在虚假类别中很少出现,例如,强烈表明HPV疫苗预防癌症有效性的词汇在网上传播,如“预防”、“保护”和“有效”。另一方面,虚假信息包含“危险”、“不利”和“致命”等术语,并更多地关注用于接种疫苗的负面因果影响。
结果
分类模型
词嵌入将离散的词标记映射到实值向量表示,其中语义相似的词具有相似的向量,因此在嵌入空间中更接近。一般来说,这种词嵌入的预训练已经被发现对一些自然语言处理任务是有益的,允许更快的模型收敛和任务性能改进。因此,我们训练了一个无监督嵌入模型FastText [
68 ],用我们完整的Twitter集合作为训练数据,并进行上述预处理。与其他单词表示模型相比,FastText可以为词汇表外的单词生成单词向量,并已被证明是短文本相似性的强大基线,其开源实现允许更快的训练[
69 ].更具体地说,FastText为词汇表中的每个术语生成300维向量表示,用作模型嵌入层的初始化。我们还实验了维基百科预训练的嵌入和没有任何预训练的嵌入:我们的实验表明,当使用hpv相关的预训练单词嵌入初始化时,模型在准确性方面表现得更好。
最后,我们将标注的数据分为60%的训练,20%的验证和20%的测试,在所有模型中保持相同的分割,以进行公平的比较。在每个集合中精确匹配的推文重复数据删除后,总共剩下3661条推文(2142条用于训练,758条用于验证,761条用于测试集)。我们尝试了几种模型架构,包括卷积神经网络(CNN) [
70 ],双向长短期记忆(BiLSTM),传统模型,包括支持向量机和朴素贝叶斯。我们用交叉熵训练,用10的自适应矩估计4 学习率,衰减0.01,神经模型的批处理大小为32。超参数调优使用Tune库[
71 ].在
表1 ,我们报告了前5个执行模型变化的平均值和SD。我们的实验评估表明,cnn的表现比其他模型更好(见
图2 而且
3. 对于各自的混淆矩阵和接收机工作特征曲线下的区域神经网络之间的比较)。在这两个神经网络中表现最好的前5个模型中,CNN比BiLSTM需要更少的训练时间。CNN的平均每epoch训练时间为11.5 ms(标准差1.09,最小值16,最大值16,中位数12),而BiLSTM的平均每epoch训练时间为51.3 ms(标准差34.07,最小值14,最大值88,中位数81)。我们表现最好的CNN模型有256个卷积滤波器,包括-3个宽度的核(3,4和5),并校正线性单元非线性;最大池化层,128个单元的全连接层,具有整流线性单元激活和0.1 dropout,以及产生分类预测的最终软最大输出层。
表1
人乳头瘤病毒疫苗虚假信息识别:分类模型比较。
模型
精度
精度
回忆
F 分数
支持向量机一个 ,意思是
57.424
57.806
56.721
55.532
朴素贝叶斯
51.774
52.485
52.301
51.090
美国有线电视新闻网b ,平均值(SD)
91.958 (0.269)
91.953 (0.272)
91.946 (0.271)
91.946 (0.270) c
BiLSTMd ,平均值(SD)
91.643 (0.432)
91.710 (0.396)
91.574 (0.453)
91.618 (0.438)
一个 支持向量机:支持向量机。
b CNN:卷积神经网络。
c 斜体表示最高
F 得分在表格中。
c BiLSTM:双向长短期存储器。
图2
混淆矩阵的最佳表现CNN模型。BiLSTM:双向长短期存储器;CNN:卷积神经网络。
图3
ROC为最佳性能的卷积神经网络和双向长短期记忆模型。AUC:曲线下面积;ROC:受试者工作特征。
因果关系挖掘
为了识别归因于HPV疫苗的风险认知,我们首先将分类器应用于一组291,037条推文,从中我们能够将124,031条标记为虚假推文,将167,006条标记为真实推文。使用由Kayesh等人推导出的因果术语字典[
72 ]对于Twitter因果关系检测,我们筛选了包含至少1个这些术语的推文,如果分类置信度至少为0.998,则将推文分类为虚假信息,因为这保持了我们的分类器的高保真度。因此,总共有9352条tweet被用于因果关系挖掘过程(
表2 ).然后,我们使用一个依赖解析器来标记和合并多词表达式[
73 ].由于推文可以有多个话语(即独立的句子或片段),我们保留了与因果线索一起出现的名词短语,而不管它们是否与因果线索有依赖关系,这与Kayesh等人的研究相反[
72 ].候选因果短语是一组与推文相关的术语,其中包含因果线索,并包含候选效应短语。
表2
应用多个筛选器后的消息数。
模型
假
真正的
总计
无过滤器,n
124031年
167006年
291037年
+置信阈值,n (%)
72172 (58.19)
105166 (62.97)
177338 (60.93)
+包含因果提示,n (%)
3667 (2.96)
5685 (3.40)
9352 (3.21)
然后,我们可以计算因果集的逐点互信息(PMI)
C = {
c 1 、……
c米
}和效果集
E = {
e 1 、……
e米
其中,候选因果短语c我 效果短语ej ,是包含术语的集合
wc
∈
V
c 而且
w e ∈
Ve
,分别。在这里,
V
c
术语、名词短语和多词表达式的集合是否来自推文中的候选因果短语(不包括最低频率为1的术语,并删除停止词)和
Ve
是由候选效果短语派生出来的词汇。
计算术语的PMI
we
∈
ej
而且
wc
∈
c我
我们有,
我们可以应用拉普拉斯平滑来确保概率分布是非零[
74 ],可以计算归一化逐点互信息(NPMI) [
75 ]如下:
NPMI的取值范围为-1到1,其中-1表示两项从未同时出现,0表示它们相互独立,1表示完全同时出现。
崩溃候选人效果短语和排名效果
由于我们的模型是完全无监督的,并且包括转发,推文消息可能会变得非常冗余,但我们的方法可以检测到许多几乎重复的候选效果短语。为了折叠这些短语,我们使用从候选效果短语的嵌入表示中获得的语义相似性对这些术语进行聚类。特别地,我们使用HuggingFace包[
76 ]从变压器模型中获得双向编码器表示的后4层的和[
77 ].为了计算词嵌入,我们在候选效果短语中对这些词嵌入取平均值,以产生嵌入向量。
基于密度的带噪声应用的空间聚类[
78 ,然后对候选效果短语进行聚类。其中有两个重要参数:(1)可达性,即同一聚类中要考虑的2个“点”之间的最大距离;以及(2)被视为集群的“点”的最小数量。这里的点是指效果集的嵌入实值向量表示。我们将可达性设置为0.1,将最小点数设置为1,因为我们希望只检索语义上最相似的单词,同时保持有意义的集群。注意,除了DBSCAN,还有其他的替代方案,例如对点进行排序以识别集群结构(OPTICS) [
79 ]和基于层次密度的带噪声应用程序空间聚类(HDBSCAN) [
80 ]用于光谱聚类;然而,我们只需要减少查询时比较的效果数量,这意味着DBSCAN就足够了。然后,我们选择聚类核心作为每个聚类的代表来折叠效果。
为了识别与不同因果词相关的感知,我们将其制定为一个检索问题。给定一个与因果关系相关的查询
问 ,我们使用NPMI对相关影响进行了排名。为了计算评分函数,我们使用以下方法:
这个评分函数计算查询和候选效果短语中所有术语对的平均NPMI。然后,我们可以计算一个类别的累计NPMI得分
C一个
效果短语如下:
因果关系挖掘结果
为了验证候选因果挖掘方法,我们采用了与HPV疫苗风险感知(即感知效果)有关的词汇。HPV疫苗风险词典(HPVVR)是一个面向消费者的词典,用于捕捉外行如何描述他们对HPV疫苗的风险认知(包括他们对HPV疫苗的感知危害和益处)[
81 ].HPVVR的研制分为两个阶段。第一阶段涉及采用来自国土安全部风险词汇、MedlinePlus消费者健康主题词汇和消费者健康词汇(统一医学语言系统)的风险表达和hpv疫苗相关面向消费者的词汇[
82 ,
83 ].第二阶段是由2名训练有素的注释人员根据用户生成的内容(来自2013年至2018年随机采样的用户生成内容,包括Twitter和Facebook)提取关于风险感知描述的外行语言(评分者间可靠性:Cohen’s kappa系数(κ)=0.80)。HPVVR涵盖了29类风险感知相关词汇的200多个术语或短语。
这个黄金标准的效果列表,
G ,然后与效果集进行匹配
E .特别地,我们定义了部分匹配,如果ground truth效应短语中的某些项与某些候选效应短语(即,
G∩e≠Ø ).例如,我们从数据中挖掘出了“预防喉癌”,这与HPVVR中的“预防宫颈癌”部分匹配。还有另外两种部分匹配。如果候选效应短语是ground truth效应短语的一个更具体的例子,我们将匹配定义为合适的,
g∈g .例如,我们从数据中挖掘了“早发性绝经”,这与HPVVR中的“绝经”是一个适当的匹配。如果候选效应短语是基本事实效应短语的更一般形式,我们就认为存在反向匹配,
E⊆g .例如,我们从数据中挖掘出“疲劳”,这与HPVVR中的“极度疲劳”相反。在136个ground-truth效应短语中,我们发现55个(40.4%)匹配,78个(57.4%)部分匹配,48个(35.3%)反向匹配,103个(75.7%)部分或正确匹配或两者都匹配。同时,也有一些候选效果短语是新发现的效果。
由于因果关系挖掘方法是一种完全自下而上、无监督的方法,我们可以自动挖掘任何一组推文的候选效果。特别是,对于预测的虚假推文,最大的候选效应集群之一包含了与不同实体的反应有关的术语,如“日本”、“丹麦”和“大学”,关于HPV疫苗的潜在问题,如“召回”、“失去支持”和“禁止”。另一个这样的群集包含与不孕症有关的术语,如“卵巢早衰”和“年轻女孩更年期提前”。另一个大型候选效应聚类是关于严重不良事件和并发症的误解,如“猝死”、“瘫痪”和“中风”。请注意,有些候选效果短语可能与健康影响没有直接关系。因此,为了在进一步的分析中减轻这种限制,我们将影响限制在基本真理中的项(即,
Ve
=
G )
.
讨论
主要结果
本研究中使用的CNN和BiLSTM模型的性能表明,使用推文文本识别关于HPV疫苗的错误信息与事实信息的可行性。平均而言,这两个模型对任何一类的预测都有很高的可信度。尽管在测试过程中,这两个模型在准确性(和置信度)方面表现几乎相同,但CNN的训练比BiLSTM模型更方便,这导致它被选为首选模型。
为了检查与HPV疫苗相关的风险认知,我们利用了虚假信息分类器和效果排序器。
图4 显示了应用“HPV疫苗”和“加德西”效果排名查询后的累计NPMI分数。我们可以围绕HPV疫苗的成本和收益对这些看法进行分类。总的来说,人们讨论了真实的HPV疫苗推文的好处或低风险的伤害,以及虚假的HPV疫苗推文的各种不良事件。在真正的HPV疫苗推文中,与HPV疫苗相关的主要效果是预防HPV感染相关的癌症,并否认接种疫苗的青少年无保护的性行为增加的风险。在虚假的HPV疫苗推文中,与HPV疫苗相关的主要影响是与不孕症相关的疾病(如卵巢损伤)、儿童发育障碍、死亡和HPV疫苗中的有毒成分。在我们之前关于患者驱动的HPVVR的工作之后,因果关系挖掘的发现帮助我们确定了与HPV疫苗相关的主要问题,然后可以优先考虑解决方案。
结果表明,与真实信息中较少的主题和相对有限的术语相比,虚假HPV疫苗信息不仅在风险感知方面涵盖了广泛的主题,而且涉及了更多样化的词汇来描述这些主题。在关于反疫苗和prov疫苗文献的类似工作中,也注意到这种虚假或误导性信息中基于医学的术语频率和主题多样性的现象[
84 ].对这种差异的一种可能的解释是,真实的信息需要有证据的共识,从而将术语和结果限制在用于描述这些主题的特定选择或短语中。虚假信息缺乏对术语或结果的限制,往往使用叙事语言或提及新奇的话题来衡量注意力[
46 ,
85 ].
通过因果关系挖掘,我们还观察到了真实和虚假HPV疫苗信息的信息框架的差异
图4 ).真实的信息包含收益框架和损失框架信息,特别是那些强调疫苗在预防HPV相关癌症方面的有效性,HPV感染与癌症之间的联系,以及否定疫苗的潜在危害,如无忧无虑或无保护的性行为(
图4 ).相反,虚假信息主要是损失框架,关注据称由疫苗引起的负面结果,例如导致hpv相关癌症或其他严重不良事件(不孕、神经障碍或死亡;
图4 ).使用表示风险的使役动词(例如,疫苗是“预防”,而疫苗是“伤害”或“导致”,等等)可能是区分真实和虚假信息的诊断性的。未来的研究应利用先前关于信息框架有效性的研究结果,以检验不同框架下的错误信息的影响[
86 ,
87 ].
图4
查询“HPV疫苗”和“Gardasil”时的累计NMPI评分。条形宽度中的部分对应于每个类别的效应项的NPMI贡献。人乳头瘤病毒;NPMI:归一化点互信息。
与之前工作的比较
与健康相关的错误信息研究涵盖了广泛的学科[
58 ,
59 ],其中几项研究侧重于不同的医学领域,如癌症、性传播疾病和感染、流感,以及最近的COVID-19 [
25 ,
60 ,
61 ].在疫苗相关领域,几篇论文研究了疫苗行为,以及社交媒体上反疫苗和虚假信息推文传播的地理和人口模式,与自闭症谱系障碍有关[
60 ]、流感疫苗[
88 ],以及癌症治疗[
89 ].一些研究努力解决了一些关键问题,比如用额外的弱社会监督信号缓解标签稀缺,用注意机制改善难以处理的问题,以及利用网络和群体或用户信息[
65 ,
90 -
92 ].一般来说,疫苗犹豫识别与疫苗接种行为检测的区别在于,前者涉及一种态度或立场,而后者涉及检测接种疫苗的行为[
93 ].我们的研究更类似于疫苗犹豫的研究,但不同之处在于,我们专注于通过检查风险感知从推特中提取因果关系;HPV疫苗相关的健康问题或预期收益的可归因原因;并使用自然语言处理、机器学习和无监督因果挖掘技术。
我们观察到,具有多个滤波器尺寸的卷积模型[
70 ,
94 ]比BiLSTM模型对短文本域(如推文)的效果更好。直观地说,CNN体系结构捕获最常见的n-gram(长度为3、4和5),因此更善于发现短文本中的判别文本模式。虽然我们测试了更复杂的BiLSTM架构,但总的来说,CNN模型比其他模型变体表现得更好,并且训练速度更快。这些发现对于社交媒体健康相关的分析是有用的,特别是关于该领域的从业者应该探索社交媒体文本分类的一组模型。
关于因果关系挖掘,早期的工作使用手工编码的特定领域知识库[
95 ,
96 ].确定因果关系的一个挑战是通过不同的语言结构观察因果关系的各种方式。先前的研究[
97 ]表明分类器可以确定从预定义的语言模式<名词短语-动词-名词短语>的形式中自动提取的因果关系表达式是否为因果关系。然而,监督方法需要大量手工注释的原因和结果,因此需要大量资源。最近的工作比较了用于因果关系挖掘的无监督方法,包括共现方法(如按点互信息)和基于话语线索的方法(基于信息检索技术),以计算因果查询中的匹配数量[
98 ].这样的比较是在大规模的文档集合上进行的,因此他们的见解不适用于我们的任务,相比之下,数据量有限。最后,推文中的事件因果关系检测将因果关系挖掘限制在某些感兴趣的事件上。“基于上下文词扩展和神经网络的推文事件因果关系检测”[
72 ],作者提出了一种对候选因果短语和候选效应短语进行编码的方法,用于开发前馈网络分类器。我们的方法不局限于某些事件。最重要的是,我们关注与HPV疫苗有关的健康相关信息,这一方法可以推广到其他健康主题。
限制
在应用监督学习方法时,一个常见的瓶颈是需要大量高质量的标注数据进行训练。由于手头任务的复杂性质,以及需要大量的手工工作,我们的数据集大小可能在提供跨其他领域和数据源泛化的见解方面受到限制。此外,由于在非正式的用户生成的语言中发现了频繁的语言变化,用词紧密的实例可能避免了重复数据删除。在未来,我们希望通过结合弱监督方法和去噪机制来解决可用标记数据的短缺问题。尽管如此,我们选择继续使用监督学习以获得更高的精度,因为弱监督可能会导致标签噪声被注入到虚假信息检测模型中,从而影响后续的因果关系挖掘步骤。
另一个限制源于模型置信度和准确性的不一致。换句话说,模型置信度可能并不代表模型的正确性,这是机器学习研究社区中众所周知的问题[
99 ].在我们的实验中,我们观察到BiLSTM模型对大多数假阴性产生了高置信度的估计(即,在预测事实文本时,它错位了更多的置信度),而CNN模型对高置信度的例子有相同数量的假阳性和假阴性。CNN的错误预测中约有20%的可信度较低。总的来说,BiLSTM模型似乎在一个方向上过于自信,可能会被更好地校准。需要对这些高置信度的不准确预测进行进一步分析,以发现可解释的模式,以识别与事实对应部分具有强烈相似性的错误信息子主题和语句。
最后,我们应该注意到,任何额外元数据的使用都需要谨慎,特别是对于用户添加的信息,例如用户配置文件特征,以及报告的时间戳和社交网络链接,因为最近的研究表明,错误信息传播者不仅倾向于通过组建群体来操纵社交网络结构,以增加影响力[[
One hundred. ],还有几种元数据[
101 ].在这项研究中,我们没有使用这些类型的额外数据源,因此我们只能解释基于内容的结果,而不能沿着文本中发现的关系之外的任何其他维度解释。
结论
这项研究展示了一种系统的、自动的方法来开发计算模型,以识别虚假的HPV疫苗相关信息及其在社交媒体上的相关影响。这种方法可以推广到其他社交媒体健康信息,并为估计给定健康主题的潜在影响提供见解。