医学互联网研究杂志-使用基于机器学习的方法检测和分类人类乳头瘤病毒疫苗错误信息:Reddit讨论的信息流行病学研究

原始论文

¹德克萨斯大学休斯顿健康科学中心生物医学信息学院，美国德克萨斯州休斯顿

²美国德克萨斯州休斯敦市德克萨斯大学健康科学中心公共卫生学院

^3.德克萨斯儿童医院，休斯顿，德克萨斯州，美国

⁴贝勒医学院，休斯顿，德克萨斯州，美国

这些作者的贡献相同

通讯作者:

崔涛博士

生物医学信息学院

位于休斯顿的德克萨斯大学健康科学中心

范宁街7000号

# 600

休斯顿，德克萨斯州，77030

美国

电话:1713500981

电子邮件:cui.tao@uth.tmc.edu

背景:社交媒体作为一种信息渠道的迅速发展，使得不准确或虚假的疫苗信息有可能迅速传播，从而给疫苗推广带来了障碍。

摘要目的:本研究的目的是开发和评估一种智能自动化协议，用于使用基于机器学习(ML)的方法识别和分类社交媒体上的人乳头瘤病毒(HPV)疫苗错误信息。

方法:编辑了Reddit上包含HPV疫苗接种相关关键词的帖子(2007年至2017年，N=28,121)。一个随机子集(2200/28,121,7.82%)被人工标记为错误信息，并作为评估的金标准语料库。共有5种基于ml的算法，包括支持向量机、逻辑回归、极端随机树、卷积神经网络和循环神经网络，用于识别疫苗错误信息，评估识别性能。应用主题建模来确定与HPV疫苗错误信息相关的主要类别。

结果:卷积神经网络模型在接收机工作特性曲线下的面积最高，为0.7943。在28,121个Reddit帖子中，7207个(25.63%)被归类为疫苗错误信息，关于一般安全问题的讨论被确定为主要类型的错误信息帖子(2666/7207,36.99%)。

结论:基于ml的方法在识别和分类Reddit上的HPV疫苗错误信息方面是有效的，并且可以推广到其他社交媒体平台。基于机器学习的方法可能提供能力和效用，以应对社交媒体平台上公共卫生错误信息的智能自动监测和分类所涉及的挑战。及时识别互联网上的疫苗错误信息是纠正错误信息和推广疫苗的第一步。

[J] .中国医学信息学报，2011;23(8):663 - 668

doi: 10.2196/26478

关键字

人乳头状瘤病毒疫苗；社交媒体；错误信息； infodemiology； infoveillance；深度学习； Reddit；机器学习

背景

人乳头瘤病毒(HPV)感染是一种非常普遍的性传播感染。在美国，HPV感染每年导致大约33,700例癌症，包括宫颈癌、阴道癌、阴茎癌、肛门癌和头颈部癌[1，2]。自2006年以来，针对最常见的HPV亚型的疫苗已经可用，以预防相关的癌症和生殖器疣[3.]。尽管有无可否认的证据证明其有效性，但HPV疫苗在家长中一直存在争议，这导致了疫苗犹豫甚至拒绝接种[4]以及相对较低的HPV疫苗接种和系列完成率[5]。由于HPV是一种性传播感染，父母担心疫苗对性行为的影响，因此对HPV疫苗产生耐药性，以及疫苗的安全性，以及卫生保健提供者不一致的疫苗建议[6]。

蓬勃发展的反疫苗运动影响了美国疫苗的总体覆盖率，并导致麻疹等疫苗可预防疾病的死灰复燃[7]。研究发现，对疫苗的犹豫主要是由于对疫苗安全性的担忧，并受到通过社交媒体传播的错误信息的推动[8]。社会媒体作为一种信息渠道的迅速发展，使不准确或虚假信息的迅速传播成为可能，并为反疫苗运动提供了一个平台，传播与疫苗有关的错误信息[9]。反疫苗运动的参与者通过各种互联网渠道传播反疫苗情绪和错误信息，并对个人和社区健康产生明显影响[10]。媒体传播专家认为，网络上的错误信息正变得难以控制，尽管人们越来越担心它会损害消费者的健康。11]。限制这一现象的努力，如报道标记和事实核查工具，不足以压制错误信息的倡导者[12，13因为这些工具的效率和可扩展性是有限的，而且错误信息的传播速度和范围比真实信息要快得多。

减少社交媒体上的医疗和公共卫生错误信息非常重要;然而，大量的信息使得有效和准确地识别这些帖子具有挑战性。尽管社交媒体为用户提供了生成、分享、接收和评论社交内容的便利方式[14]，需要采用大规模的创新方法来跟踪和了解社交媒体上健康错误信息的传播[15]。

识别社交媒体上出现的与疫苗有关的错误信息是及时遏制疫苗错误信息持续传播的重要第一步。鉴于社交媒体上大量的帖子和社交媒体语言的独特特征(即句子不完整和拼写错误)，使用自动化方法识别错误信息是具有挑战性的。然而，基于机器学习(ML)的方法先前已被用于识别Twitter上有关争议话题领域的错误信息[16]和关于一系列话题的谣言[17]。机器学习涉及使用算法和统计建模，这些算法和统计建模提供了自动执行任务和学习的能力，而无需使用显式编程[18]。尽管这些机器学习方法很实用，但在医疗或健康主题上的应用却很少。迄今为止，一个基于ml的系统追踪了社交媒体上关于寨卡病毒的错误信息[19]并在特定卫生论坛(例如MedHelp)内对错误信息进行分类[20.]。尽管一直在努力开发用于疫苗主题情感分析的ML [21，22，据我们所知，没有事先的工作自动识别社交媒体上与疫苗相关的错误信息。深度学习(DL)是基于深度神经网络的机器学习算法的一个子集。虽然DL在多个任务中有先进的ML算法[23]， DL在疫苗错误信息识别方面的应用仍不清楚。

客观的

我们报告了各种传统ML和DL算法的效用，使用Reddit上的帖子自动识别和分类关于HPV疫苗的错误信息，Reddit是一个流行的社交媒体平台，每月活跃用户超过3.3亿[24]。Reddit用户主要是35岁以下的匿名年轻用户，超过一半(54%)居住在美国。25])。研究显示，美国年轻人对HPV感染的易感性较低[26]、与人乳头瘤病毒和人乳头瘤病毒疫苗有关的健康知识较低[27]，并且比其他年龄段的人更有可能在社交媒体上寻求健康信息[28]。表1多媒体附录1列出了手稿中与ml相关的术语及其定义。

概述

我们使用混合方法对Reddit上的HPV疫苗错误信息进行识别和分类(图1）.我们的方法可以分为两个步骤:(1)评估用于疫苗错误信息识别的ML算法;(2)对包含疫苗错误信息(ML推断)的Reddit帖子进行主题建模。

首先收集包含HPV疫苗关键字的Reddit帖子，然后将帖子的随机子集标记为包含错误信息或nonmisinformation．标记的Reddit帖子作为训练和评估各种传统ML和DL算法的黄金标准语料库。最佳算法，即在接收机工作特性曲线(AUC)下达到最高面积的算法[29]，然后被选中来推断其余未标记的Reddit帖子的错误信息标签。最后，我们将主题建模应用于被分类为错误信息的Reddit帖子，以探索主要讨论主题及其流行程度。

数据集收集和标记

我们收集了2007年至2017年期间Reddit上与HPV疫苗接种相关的讨论(N=28,121)。30.]。包含不区分大小写表达式的提交(主题启动者)和评论(对主题的响应)cervarix或“加德西”或者两者的结合人乳头状瘤病毒或乳头瘤病毒与拍摄或疫苗收集。

我们从收集到的Reddit帖子(2200/28,121,7.82%)中随机抽取一个样本(简单随机抽样)，并将这些帖子标记为错误信息或非错误信息。这一步的目的是建立一个黄金标准语料库(即带有专家分配标签的Reddit帖子)，用于自动ML算法的训练和评估。疫苗错误信息的定义主要是由反疫苗信息疫苗错误信息本体的分类[31]，一个描述疫苗错误信息的正式本体。在VAXMO中反疫苗信息类包含几个子类，例如疫苗无效，替代医学，公民自由，阴谋论，谎言,意识形态．Reddit帖子的随机样本被用来通过注释者之间的讨论制定指导方针。3个研究注释者达成先验共识，将子类合并公民自由和意识形态再加上两个类别:疫苗的建议和其他。由此产生的决策规则是，如果Reddit帖子包含一种或多种疫苗错误信息，则将其视为错误信息(文本框1）.

对疫苗错误信息类型的描述。

疫苗无效:与对疫苗缺乏有效性的担忧有关的疫苗错误信息。
疫苗安全:与安全问题和假定有害成分有关的疫苗错误信息。
阴谋论:疫苗错误信息与掩盖指控有关，监管机构据称掌握了疫苗信息，但对公众隐瞒了这些信息。
疫苗推荐:与疫苗推荐或疫苗时间表相关的疫苗错误信息。
公民自由和意识形态:侵犯个人和父母的合法权利或个人原则，影响个人基于宗教、道德或其他意识形态原因对反疫苗情绪的看法。
其他:其他类型的疫苗错误信息或混合类型的错误信息。

文本框1。对疫苗错误信息类型的描述。

此外，生物医学信息学和公共卫生领域的3名研究团队成员(JD, SP, HS)参与了注释。前100个帖子作为培训，注释者独立地注释每个帖子，然后作为一个小组讨论每个帖子及其注释。当注释者对所有帖子达成共识(或根据多数投票做出决定)时，培训结束。经过标注训练后，剩余的抽样Reddit帖子被分成3个标注者进行独立标注。为了检查注释的质量，我们从未标记的Reddit帖子中选择了200个额外的帖子，JD、SP和HS分别对这些帖子进行了独立的处理。我们计算了3个注释者之间的Cohen κ [32]。总标记的Reddit样本被用作金标准语料库的基础，该语料库随后用于自动ML算法的训练和评估。

错误信息识别

文本分类

文本分类是自然语言处理(NLP)的一项基本工作，目的是将文本文章分类为预先定义的类别[33]。NLP是人工智能的一个子领域，它允许计算机处理和分析自然语言(即自由文本)数据。我们将从Reddit帖子中识别错误信息作为一个二进制文本分类任务。在基于机器学习的自动算法(如下所述)中，每个Reddit帖子被分配了两个独家标签(即错误信息或非错误信息)中的一个。

ML算法

我们评估了5种基于ml的算法:3种常规算法和2种深度学习算法。传统的机器学习算法(即基于非深度神经网络的算法)与特征工程被广泛用于文本分类任务。在这项研究中，总共评估了3种传统的机器学习算法:支持向量机、逻辑回归(LR)和极度随机树。支持向量机已广泛应用于文本分类任务[34-36]。LR在许多任务分类任务上也取得了良好的性能，但所需的运行时间大大减少[37，38]。极度随机树是一种基于树的集成方法，在我们之前对社交媒体文本分类任务的研究中取得了不错的成绩[39，40]。这些传统的机器学习算法采用词频逆文档频率(TF-IDF)作为特征。TF-IDF是一种数值统计，用于评估语料库中单词对文档的相对重要性[41]。

DL是ML算法的一个子集。我们在本研究中评估了两种常用的基于dl的框架:卷积神经网络(CNN) [42]和循环神经网络(RNN) [43]。传统机器学习算法的有效性取决于特定任务的特征工程[44]。深度神经网络可以利用预训练的词嵌入来捕获词的语义，这为领域专家的特征工程节省了大量的精力[45]。DL算法在许多文本分类任务上取得了最先进的性能[46-49]。

由于社交媒体帖子中经常出现拼写错误，因此所评估的深度学习算法都包含一个字符层和一个词嵌入层，用于将词汇表内(即拼写正确)和词汇表外(即拼写错误)的单词映射到高维向量上，以表示其语义。GloVe (Global Vectors for Word Representation)嵌入(即GloVe . 840b .300d) [50]用于初始化词嵌入层的权值。CNN模型以词级嵌入作为输入，分别馈送到convolution层和max-pooling层，即一个完全连接层和一个softmax层进行分类[42]。RNN模型遵循与CNN模型相似的架构，用双向长短期记忆层和注意层代替卷积层和最大池化层。

更具体地说，对于CNN和RNN模型，学习率设置为0.01，批大小设置为64,epoch数设置为100。两个模型的字符嵌入长度都设置为50。对于CNN模型，滤波器尺寸分别为1、2、3，滤波器数量为2048个;对于RNN模型，长短期记忆单元和注意层的隐藏维数设置为128。两种模型的退出概率均为0.2。选取验证集上AUC值达到最佳的模型进行测试和预测。

实验设置与评价

黄金标准帖子(即带有专家指定标签的Reddit帖子)以7:1:2的比例随机分为训练集、验证集和测试集。我们采用了空间标记［51]将帖子文本拆分为单独的单词，删除标点符号，并将大写单词和字母转换为小写字母。按顺序，火车组被用来火车算法中，验证集用于超参数选择，测试集用于评估模型的性能。考虑到标签分布的不平衡，参考标准是由最佳AUC测量的特异性程度。选择AUC值最高的算法对未标记的Reddit帖子进行疫苗错误信息的推断。

我们进一步绘制了表现最好的模型(即CNN模型)的精度和召回率曲线，并选择了最优截止点(基于最高的)F₁在Reddit帖子中识别疫苗错误信息的算法得分)。精确度定义为标签器识别出的错误信息帖子在分类器识别出的错误信息帖子中所占的比例。召回被定义为由分类器检索的标签器识别的错误信息帖子的比例。的F₁分数是准确率和召回率的调和平均值。切断通往最好的路F₁为CNN模型选择得分。该模型被用于识别剩余未标记的Reddit语料库中与疫苗错误信息相关的Reddit帖子。

错误信息主题模型

上面描述的ML和DL算法可以潜在地用于自动识别带有错误信息的Reddit帖子，但它们没有对错误信息的类型进行分类。我们采用了主题模型算法(即Biterm topic model [BTM]) [52]，我们从GitHub存储库中实现了代码[53])从Reddit帖子的错误信息中识别和可视化主要话题。主题模型是一种用于对摘要进行聚类的统计模型主题发生在文档集合中的。在使用性能最好的ML算法来识别包含错误信息的Reddit帖子之后，我们将BTM应用于这些帖子。我们对每个单词进行词干提取以去除词形词缀(例如，死来死和否认来德利）.主题数是BTM的一个超参数，它决定了将要生成的主题数。我们评估了5、10和20作为主题的数量，并通过对主题和相关帖子的手动审查选择了10个。然后，我们手动审查这些主题、相关词汇和帖子，以进一步识别与疫苗错误信息相关的相关主题。BTM还输出每个确定主题的流行程度。然后采用词云来提供这些主题的图形表示，其中每个词的大小与其在有关该主题的帖子中出现的概率成正比[54]。为了检验确定的主题之间的关联，我们进一步在这些主题之间进行了网络分析。

伦理批准和同意参与

本研究获得了休斯顿德克萨斯大学健康科学中心人类受试者保护委员会的机构审查委员会豁免。参考编号:HSC-SBMI-20-0151。

错误的注释

从2007年到2017年，共有28121个Reddit帖子被收集，来自超过16633个独立用户。这些帖子的统计数据以及它们在subreddits(即用户创建的讨论板，其中帖子按主题组织)中的分布显示在表1．在研究期间，与HPV疫苗相关的讨论(就帖子数量和独立用户数量而言)呈增加趋势。这些帖子有207,651个赞(一个用户喜欢这个帖子)和10,700个下(一个用户不喜欢这个帖子)。在28121篇帖子中，我们手动标记了2200篇(7.82%)随机选择的帖子。我们通过计算3个注释者之间的Cohen κ来衡量注释一致性:JD和HS为0.5578,JD和SP为0.5216,HS和SP为0.4685。根据El Eman [32，这表明我们的金本位制质量很好。在2200篇帖子中，396篇(18%)被标注为疫苗错误信息，1804篇(82%)被标注为非错误信息。高度不平衡的标签分布为实现分类算法的高性能创造了障碍。

表1。统计的人乳头瘤病毒Reddit帖子语料库。对于有关Reddit用户的统计数据，如果帐户不可用，我们将删除帖子。

一年	总帖子	总问题	总downvotes	独立用户总数	用户帖子分布，平均值(SD)	最常见的子版块^一个(前三)	Subreddit帖子分布，均值(SD)
2007	15	51	1	10	1.00 (0.00)	Reddit, 11;政治,3;科学,1	5.00 (5.29)
2008	172	335	35	One hundred.	1.34 (1.32)	Reddit, 57;现年54岁的科学;健康,23	11.47 (18.88)
2009	414	1563	206	249	1.39 (0.93)	科学,81;AskReddit 51;Reddit, 47岁	14.28 (18.96)
2010	546	1655	155	346	1.33 (0.79)	AskReddit, 95;性,83;TwoXChromosomes 72	12.13 (22.37)
2011	2156	12711年	927	1382	1.37 (1.47)	政治,298;TwoXChromosomes, 207;AskReddit 203	19.42 (48.48)
2012	2457	12812年	739	1641	1.32 (1.34)	AskReddit, 457;TwoXChromosomes, 308;性,221	13.96 (48.60)
2013	3864	26623年	1416	2540	1.39 (2.44)	科学,490;AskReddit, 375;性,297	15.97 (51.53)
2014	3488	21562年	1581	2348	1.39 (2.62)	性,325;AskReddit, 292;科学,291	10.67 (34.81)
2015	4714	35801年	1761	3383	1.38 (1.61)	新闻,378;科学,357;AskReddit 347	11.67 (41.28)
2016	4417	38123年	1436	3137	1.39 (1.43)	AskReddit, 378;TwoXChromosomes, 262;性,255	10.44 (34.25)
2017	5878	56415年	2443	3752	1.56 (9.09)	AskReddit, 446;性,402;新闻,387年	11.28 (40.95)

^一个包含的数字表示计数。

错误信息检测与分类

在用于识别Reddit帖子中疫苗错误信息的3种传统ML算法中，LR算法的AUC值最高(0.7678)(图2）.两种深度学习算法(CNN和RNN)的AUC值都高于传统的ML算法。CNN模型在错误信息的识别上略优于RNN模型(0.7943 vs 0.7908)。应用具有最优截止点的CNN模型对含有疫苗错误信息的Reddit帖子进行分类。CNN模型的准确率和召回率曲线如图所示图2．最佳截断导致精度为0.4083，召回率为0.6202，和F₁得分为0.4925。加上1.41%(396/28,121)的Reddit帖子被手动标注为错误信息，25.63%(7207/28,121)的帖子被随机分类为疫苗错误信息。

图2。机器学习算法在人乳头瘤病毒错误信息识别中的表现。(a)接收器工作特性和(b)卷积神经网络精确召回曲线。AUC:曲线下面积;ET:极度随机的树;CNN:卷积神经网络;LR:逻辑回归;RNN:递归神经网络;SVM:支持向量机。

主题建模从7207个Reddit帖子中生成了10个主题，这些帖子被归类为疫苗错误信息。通过对这10个算法识别的话题进行定性分析，并回顾它们相关的Reddit帖子，我们将它们浓缩为7个(6个主要话题+)其他)主题。识别出的6个错误信息主题的词云如图S1所示多媒体附录1．6个主要主题，分配给该主题的帖子百分比，以及帖子示例列出在表2．

表2。通过主题建模识别的错误信息的主要主题(n=7207)。

错误的话题	患病率，n (%)	解释	例子(摘录)
一般疫苗不良事件	2672 (37.07)	推广关于HPV安全性的一般错误信息^一个疫苗	“HPV疫苗是不必要的，也是不安全的。” ‎ “HPV疫苗会导致发育迟缓。” ‎
阴谋论	1072 (14.87)	政府和大型制药公司(如默克)传播关于HPV疫苗和欺诈的阴谋论	里克·佩里签署了一项行政命令，试图强制要求年轻女孩接种加德西疫苗。他这么做是为了给默克公司的伙伴们赚钱。” ‎ “HPV疫苗是贪婪的制药公司强加给学校和行政部门的一个笑话。” ‎
引用毫无根据的研究	989 (13.72)	这种类型的错误信息可能非常具有误导性，因为它倾向于引用和解释科学研究来源未经科学同行评审	“有缺陷的HPV疫苗安全性研究引发蝴蝶效应——泄露的电子邮件揭示了是谁隐瞒了疫苗中危险颗粒的信息” ‎ “我们发现HPV疫苗的临床试验设计以及对有效性和安全性结果的数据解释在很大程度上是不充分的。” ‎
疫苗死亡和严重反应	520 (7.21)	HPV疫苗引起的死亡和严重不良反应的传播	“例如，HPV疫苗导致儿童死亡。” ‎ “枪击造成了女性死亡。FDA的不良反应报告^b关于HPV疫苗接种的问题读起来就像是一连串的恐怖事件。” ‎
醇佐剂	456 (6.33)	在疫苗中含铝佐剂的安全性问题上宣传错误信息	“另一个很好的关键词是加德西药物不良反应。我就是这样发现的:‘每0.5毫升剂量的疫苗含有大约225微克的铝(作为无定形的羟磷酸铝硫酸盐佐剂)。’这项研究清楚地表明，疫苗中发现的铝会导致神经损伤。” ‎ “铝佐剂可引起脑损伤和自身免疫性疾病。HPV疫苗中含有铝佐剂。” ‎
疫苗和自闭症	198 (2.75)	宣传疫苗和自闭症之间不可信联系的错误信息	“HPV疫苗会导致自闭症” ‎ 疫苗法庭判给两名自闭症儿童数百万美元。疾病预防控制中心^c报告引发了对默克公司加德西疫苗的争议 ‎

^一个人乳头瘤病毒。

^bFDA:食品和药物管理局。

^cCDC:美国疾病控制和预防中心。

误传网络分析

我们进一步分析了确定主题之间的网络。对于每个Reddit帖子，我们确定了2个最相关的主题(由BTM生成的概率排序)。我们假设这两个最热门的话题被链接到该帖子，这被认为是网络中的无向边。图S2多媒体附录1显示了这7个话题之间的误传话题网络。每个主题的圆圈大小与主题的关联程度成正比(即与其他主题的连接数量)。边缘的宽度与两个主题之间的连接数成正比。

主要研究结果

在这项研究中，我们评估了使用不同的基于ml的方法来分析与HPV疫苗错误信息相关的Reddit讨论。与传统的ML算法相比，CNN和RNN算法提高了AUC值。通过了一项BTM，以进一步探讨与疫苗错误信息讨论有关的主要议题。总的来说，与HPV疫苗错误信息有关的6个主要话题包括疫苗死亡和严重反应和醇佐剂被确定。的疫苗不良反应指的是关于安全问题的一般错误信息，是HPV疫苗错误信息中最普遍的话题。

Reddit上与我们的方法一致的疫苗错误信息内容比例最高的是关于一般疫苗不良反应的内容(2672/7207,37.07%)，其次是关于疫苗阴谋论的内容(1072/7207,14.87%)。这些结果与之前对基于社交媒体的疫苗错误信息的分析一致，该分析发现，关于疫苗知识和风险的不准确信息(37.9%)构成了大多数负面疫苗情绪的社交媒体帖子[55]。同一项小型研究还发现，13.8%的关于疫苗的负面帖子包括对政府和制药公司的不信任，这与我们在Reddit上更大样本中的发现非常相似。

我们进一步分析了ML推断包含错误信息和非错误信息的帖子中的顶级子reddit。包含最多错误信息相关帖子的子reddit包括科学(n = 653),AskReddit(n = 604),阴谋(n = 593)政治(n = 397)。相反，包含最多非虚假信息相关帖子的子reddit包括AskReddit(n = 2040),性(n = 1994),TwoXChromosomes(n = 1652)科学(n = 1385)。除了像科学和AskReddit在美国，错误信息往往集中在诸如阴谋和政治．Reddit上讨论HPV疫苗相关话题的帖子从2007年的15个增加到2017年的5878个。随着时间的推移，Reddit上错误信息的比例呈下降趋势。错误信息的比例从41.8% (72/172;2008年)上升到53% (8/15;在2007年至2009年期间，其范围为22.84% (1009/4417;2016年)至33.85% (730/2156;在2010年至2017年期间(2011年)。减少的原因可能是公共卫生专业人员的持续宣传努力，以及用户互联网验证技能的提高。

我们对6个已确定的疫苗错误信息主题的网络分析结果(除了其他)进一步强化了我们的发现，并展示了每个主题之间联系的强度。尽管对疫苗安全性的普遍担忧成为对HPV疫苗接种犹豫不决的主要原因，但网络分析表明，确定的其他突出主题，如阴谋论的存在，也可能源于对疫苗副作用的担忧。仅仅是相信政府和制药公司通过欺骗或牺牲消费者的利益从大规模疫苗接种中获利，就会对人们对疫苗的安全性和有效性的态度产生强烈的负面影响，从而影响到是否接种疫苗的选择[56]。

值得注意的是，注释者有趣地观察到，在这项研究中发现的Reddit帖子似乎与任何有组织的运动无关;相反，它们是由单身用户提出的个人观点。一旦发现这些错误信息，打击这些错误信息的一个潜在方法是通过有组织的运动来反击它们，由事实、循证信息组成，不承认虚假信息。正如其他研究所指出的那样，承认和尊重与疫苗有关的网络纠纷可能会导致卫生信息寻求者对有关疫苗效力和安全性的既定证据产生怀疑[57]。此外，研究发现，试图直接纠正错误信息往往会强化那些持强烈反疫苗观点的人的情绪[58]。

据我们所知，这是早期努力探索使用自动化ML算法(例如ML和NLP)用于识别和分类社交媒体讨论中的HPV疫苗错误信息。我们选择HPV疫苗作为我们分析的用例，但提出的方法框架也可以应用于其他类型的疫苗或其他相关的健康相关主题。基于机器学习的框架也可扩展到大型社交媒体数据。我们的工作可以帮助政策制定者和行业准确理解和解决社交媒体上健康错误信息的传播。本研究中开发的方法框架可推广到其他社交媒体平台，如Twitter，可用于识别回顾性和实时社交媒体提要中的错误信息。这种方法的使用可以纳入致力于遏制这些网站上与健康有关的错误信息传播的社交媒体平台，尽管应考虑到这种限制的道德后果。

局限性和未来工作

本研究应结合其局限性和未来的研究需求进行解读。鉴于社交媒体语言的独特性，准确识别错误信息是一项非常具有挑战性的任务。最佳算法的AUC值为0.7943，该性能还有一定的提升空间。我们目前的ML分类器的召回率高于准确率(0.6202 vs 0.4083)。这意味着分类器倾向于将错误信息和非错误信息都标记为错误信息。在现实世界的场景中，分类器可以作为预先筛选错误信息的工具，并且需要更严格的事实检查方法(例如，人工检查)来标记真正的错误信息帖子。高度不平衡的标签分布(即，只有396/2200,18%)在金标准语料库中被标记为错误信息)损害了机器学习算法，因为大多数用于分类的机器学习算法是基于每个类别的样本数量相等的假设设计的。不平衡的标签分布导致模型具有较差的预测性能，特别是对于少数类别(例如，在我们的情况下，错误信息)[59]。随着我们进一步完善和扩展黄金标准语料库，这对ML算法的评估和训练至关重要，我们期望性能得到改善。此外，我们会探讨使用数据增强技术[60]和随机过采样方法[61，62]，以纾缓因标签分配不均而造成的问题。其他新出现的高级深度学习算法，例如转换器的双向编码器表示(BERT) [63]有改善业绩的希望。此外，我们在Reddit帖子级别执行注释，这可能会牺牲准确性。一条Reddit帖子通常包含多个句子，这使得一条帖子中存在错误信息和非错误信息。因此，一个Reddit帖子注释为错误信息也可以包含基于证据的事实。未来的研究可以在句子层面建立标注和分类的效果，以提高错误信息识别的精度。另外，鉴定抽象的话题主题建模是结合专家评审的半自动化过程。然而，主题分配和总结可能是主观的，也有偏见。未来，我们可以探索使用监督算法进行更精确的主题发现。

结论

我们基于ml的方法在社交媒体平台Reddit上讨论的HPV疫苗错误信息的自动识别和分类中证明了有效性。大量基于网络和社交媒体的医疗和公共卫生信息可能使那些健康和网络素养较低的人难以浏览和找到真实的、基于证据的信息。虽然我们的机器学习算法不能单凭一己之力解决健康和疫苗错误信息的问题，但我们提供了一个创新的垫脚石，可以连接多种方法来对抗这种侵入性和日益增长的公共卫生问题。准确和及时地了解社交媒体上的疫苗错误信息可以帮助疫苗宣传活动，防止此类信息误导脆弱的公众。我们的方法也可以应用于其他社交媒体平台，如Twitter，尽管需要新的标记数据。

致谢

本研究由美国国立卫生研究院资助，资助编号为2R01LM010681-05、R01 LM011829和NCI T32/CA057712 (SP);以及德克萨斯州癌症预防和研究所的培训补助金#RP160015。内容完全是作者的责任，并不一定代表美国国家医学图书馆和德克萨斯癌症预防和研究所的官方观点。

作者的贡献

JD和CT对研究中的所有数据有完全的访问权，并对数据的完整性和数据分析的准确性负责。研究概念和设计由JD、SP、MA和CT进行。数据标注由JD、SP、HS进行。JD, SP, RS, MA和CT参与了手稿的起草。数据的获取、分析或解释由JD、SP、MA和CT进行。所有作者都对手稿中重要的知识内容进行了严格的修改。通过CT进行研究监督。

利益冲突

没有宣布。

‎

多媒体附录1

补充表格和图表。

DOCX文件，1055 KB

人乳头瘤病毒(HPV) -接种疫苗的理由。美国疾病控制与预防中心，2019。URL:https://www.cdc.gov/hpv/parents/vaccine/six-reasons.html[2021-07-02]访问
王晓明，王晓明，王晓明，李晓明，人类乳头瘤病毒分型研究进展。美国对癌症中HPV类型的评估:对当前和9价HPV疫苗的影响中华肿瘤杂志;2015;27 (6):862 [J]免费全文] [CrossRef] [Medline]
HPV疫苗:谁需要它，它是如何起作用的。梅奥诊所，2019。URL:https://www.mayoclinic.org/diseases-conditions/hpv-infection/in-depth/hpv-vaccine/art-20047292[2020-02-09]访问
zimmet GD, Rosberger Z, Fisher WA, Perez S, Stupiansky NW。信仰，行为和HPV疫苗:纠正神话和错误信息。医学展望2013年11月;57(5):414-418 [j]免费全文] [CrossRef] [Medline]
Etter DJ, Zimet GD, Rickert VI.青春期女性人乳头瘤病毒疫苗:2012年更新。中华妇产科杂志，2012;24(5):305-310。［CrossRef] [Medline]
Holman DM, Benard V, Roland KB, Watson M, Liddon N, Stokley S.美国青少年接种人乳头瘤病毒疫苗的障碍:文献的系统回顾。美国儿科杂志2014年1月1日;168(1):76-82 [j]免费全文] [CrossRef] [Medline]
波兰G，雅各布森R.理解那些不理解的人:对反疫苗运动的简要回顾。疫苗2001三月19(17-19):2440-2445。［CrossRef]
纪勤S, O'Callaghan KP, Offit PA。疫苗安全:神话和错误信息。微生物学前缘2020年3月17日;11:372 [免费全文] [CrossRef] [Medline]
反疫苗积极分子、web 2.0和后现代范式——反疫苗运动在网上使用的策略和修辞概述。疫苗2012年5月28日;30(25):3778-3789。［CrossRef] [Medline]
后现代的潘多拉魔盒:互联网上的反疫苗错误信息。疫苗2010 Feb 17;28(7):1709-1716。［CrossRef] [Medline]
专家对未来50年的数字生活持乐观态度。皮尤研究中心，2019。URL:https://www.pewresearch.org/internet/2019/10/28/experts-optimistic-about-the-next-50-years-of-digital-life/[2021-07-16]访问
莱文·s·Facebook承诺打击假新闻。但有证据表明，它不起作用。《卫报》，2017。URL:https://www.theguardian.com/technology/2017/may/16/facebook-fake-news-tools-not-working[2020-02-10]访问
虚假信息正变得势不可挡。2018年的时间。。URL:https://time.com/5112847/facebook-fake-news-unstoppable/[2020-02-10]访问
张建军，张建军，张建军，张建军，等。社会化媒体对健康传播的影响及其影响因素分析。医学互联网研究，2013;15(4):e85 [J]免费全文] [CrossRef] [Medline]
周伟，吴A，克莱恩WM。解决社交媒体上与健康有关的错误信息。中华医学杂志，2018;32(3):2417-2418。［CrossRef] [Medline]
Qazvinian V, Rosengren E, raddev D, Mei q。谣言是:识别微博中的错误信息。2011年在自然语言经验方法会议上发表;2011年7月;爱丁堡，苏格兰，英国p. 1589-1599https://aclanthology.org/D11-1147
李建军，李建军。基于微博数据的谣言检测与分类。出来了。URL:http://arxiv.org/abs/1912.08926[2021-07-02]访问
机器学习。维基百科。URL:https://en.wikipedia.org/wiki/Machine_learning[2020-02-09]访问
染上寨卡热:应用众包和机器学习追踪Twitter上的健康错误信息。摘自:IEEE医疗保健信息学国际会议论文集。2017年发表于:IEEE医疗保健信息学国际会议(ICHI);2017年8月23日至26日;帕克城，犹他州，美国。［CrossRef]
金sora A, Barron K, Mei Q, Vydiswaran V.建立健康论坛中医疗错误信息的标记数据集。见:IEEE医疗保健信息学国际会议(ICHI)论文集。2017年发表于:IEEE医疗保健信息学国际会议(ICHI);2017年8月23日至26日;帕克城，UT，美国第456-461页。［CrossRef]
杜军，徐军，宋辉，刘鑫，陶晨。基于机器学习的HPV疫苗相关推文情感分析方法优化。生物医学学报，2017;8(1):9 [J]免费全文] [CrossRef] [Medline]
周霞，Coiera E, Tsafnat G, Arachi D, Ong M, Dunn A.利用社交关系信息改进意见挖掘:识别Twitter上关于HPV疫苗的负面情绪。种猪卫生技术通报2015;16:761-765。［CrossRef]
leun Y, Bengio Y, Hinton g。Nature 2015 5月28日;521(7553):436-444。［CrossRef] [Medline]
Mediakix》2018。URL:https://mediakix.com/blog/reddit-statistics-users-demographics/[2020-02-05]访问
常见问题。国家传染病研究所。URL:https://www.nicd.ac.za/diseases-a-z-index/covid-19/frequently-asked-questions/[2018-12-04]访问
Barnard M, George P, Perryman ML, Wolff LA。人乳头瘤病毒(HPV)疫苗在大学生中的知识、态度和吸收:预防采用过程模型的意义科学通报，2017年8月7日;12(8):e0182266 [j]免费全文] [CrossRef] [Medline]
Thompson EL, Vamos CA, Vázquez-Otero C, Logan R, Griner S, Daley EM.美国大学男女HPV疫苗接种的趋势和预测因素。2016年5月;86:92-98。［CrossRef] [Medline]
刘建军，刘建军，刘建军，刘建军。青少年和青年成人(TYA)癌症患者的数字技术偏好研究。中华癌症杂志，2017;11(6):670-682 [J]免费全文] [CrossRef] [Medline]
Sedgwick P.接收机工作特性曲线。中国生物医学工程杂志，2011;33(2):432 - 432。［CrossRef]
Pushshift.io。URL:https://pushshift.io/[2021-07-16]访问
Amith M, Tao c。用本体表示疫苗错误信息。生物医学学报，2018,31;9(1):22 [J]免费全文] [CrossRef] [Medline]
伊玛目艾克。对标Kappa:软件过程评估中的交互协议。软件工程1999;4(2):113-133。［CrossRef]
Jurafsky D, Martin JH。语音和语言处理第二版。上马鞍河，新泽西州:Prentice-Hall, Inc;2009.
Naz S, Sharan A, Malik N.基于支持向量机的Twitter数据情感分类。参见:IEEE/WIC/ACM网络智能国际会议论文集。2018年发表于:IEEE/WIC/ACM网络智能国际会议(WI);2018年12月3日至6日;圣地亚哥,智利。［CrossRef]
张伟，吉田涛，唐欣。基于多词支持向量机的文本分类。知识系统2008;21(8):879-886。［CrossRef]
李建军，李建军。支持向量机主动学习在文本分类中的应用。[J] .中国机械工程学报，2001;2:45-66 [J]免费全文]
李建军，李建军。基于朴素贝叶斯、随机森林、决策树、支持向量机和逻辑回归分类器的文本评论分类比较。[J] .计算机工程学报，2017;5(2):221。［CrossRef]
Aborisade O, Anwar M.通过比较逻辑回归和朴素贝叶斯分类器对推文作者身份进行分类。参见:IEEE信息重用与集成国际会议论文集。2018年在IEEE国际信息重用与集成会议(IRI)上发表;2018年7月6日至9日;盐湖城，美国犹他州。［CrossRef]
杜军，罗超，Shegog R，卞杰，Cunningham RM, Boom JA，等。使用深度学习来分析关于人类乳头瘤病毒疫苗的社交媒体讨论。JAMA网络开放2020年11月02日;3(11):e2022025 [免费全文] [CrossRef] [Medline]
杜军，Cunningham RM，向勇，李飞，贾勇，Boom JA，等。利用深度学习从社交媒体上了解关于人类乳头瘤病毒疫苗的健康观念。中华医学杂志2019年4月15日;2(1):27。［CrossRef]
使用TF-IDF来确定文档查询中的词相关性。发表于:第一届机器学习教学会议;2003年6月23日至24日;洛杉矶，加利福尼亚，第29-48页http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.121.1424&rep=rep1&type=pdf
杜杰，罗超，魏强，陈颖，陶晨。利用深度学习从推特上探索不同性别群体对HPV疫苗认知的差异。出来了。2019.URL:http://arxiv.org/abs/1907.03167[2021-07-02]访问
周鹏，石伟，田健，齐忠，李斌，郝华，等。基于注意的关系分类双向长短期记忆网络。在:计算语言学协会第54届年会上发表于:计算语言学协会第54届年会上;Augut, 2016;柏林，德国，207-212页。［CrossRef]
王晓明，王晓明。推特数据的情感分析:技术综述。IJCA 2016; 39(11):5-15。［CrossRef]
杨建军，李建军，李建军，等。基于深度学习的自然语言处理[综述]。计算机学报，2018;13(3):55-75。［CrossRef]
张磊，王生，刘波。情感分析的深度学习研究进展。有线数据挖掘知识发现2018年3月30日;8(4):e1253。［CrossRef]
张欣，赵军，乐存云。基于字符级卷积网络的文本分类。见:神经信息处理系统的进展。马萨诸塞州剑桥:麻省理工学院出版社;2015:649 - 657网址:https://proceedings.neurips.cc/paper/2015/file/250cf8b51c773f3f8dc8b4be867a9a02-Paper.pdf
刘刚，郭杰。基于注意机制和卷积层的双向LSTM文本分类。神经计算2019年4月;337:325-338。［CrossRef]
刘翔，游翔，张翔，吴军，吕鹏。基于张量图卷积网络的文本分类。出来了。2020.URL:https://arxiv.org/abs/2001.05313[2021-07-02]访问
彭宁顿J, Socher R, Manning C. GloVe:基于全局向量的词表示。参见:2014年自然语言处理(EMNLP)经验方法会议论文集。2014年出席EMNLP自然语言处理经验方法会议;2014年10月;卡塔尔多哈1532-1543页。［CrossRef]
分词器。spaCy API文档。URL:https://spacy.io/api/tokenizer[2020-05-29]访问
闫欣，郭军，兰燕，程霞。短文本的双词主题模型。参见:第22届国际万维网会议论文集。2013提交于:WWW '13:第22届国际万维网会议;2013年5月13-17日;里约热内卢，巴西第1445-1456页。［CrossRef]
BTM: Biterm主题模型代码。Github。URL:https://github.com/xiaohuiyan/BTM[2020-03-05]访问
在Python中生成词云。GeeksforGeeks。URL:https://www.geeksforgeeks.org/generating-word-cloud-python/[2020-06-08]访问
Tustin JL, Crowcroft NS, Gesink D, Johnson I, Keelan J, Lachapelle B. Facebook广告招募加拿大父母免疫研究的用户驱动评论:内容分析。JMIR公共卫生监测2018 Sep 20;4(3):e10090 [j]免费全文] [CrossRef] [Medline]
乔利·D，道格拉斯·KM。反疫苗阴谋论对疫苗接种意图的影响。PLoS One 2014 Feb 20;9(2):e89177 [j]免费全文] [CrossRef] [Medline]
郭志强，陈志强。自闭症疫苗争议虚假平衡报道对疫苗安全认知和行为意图的影响。健康教育，2013年4月27日;28(2):352-359。［CrossRef] [Medline]
[杨建军，李建军。政治错误观念的持续存在。]中文信息学报，2010;32(2):303-330。［CrossRef]
从不平衡数据中学习:开放的挑战和未来的方向。项目人工智能，2016年4月22日;5(4):221-232。［CrossRef]
魏军，邹凯。一种提高文本分类性能的简易数据增强技术。参见:2019年自然语言处理经验方法会议论文集和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)。2019年自然语言处理经验方法会议和第九届国际自然语言处理联合会议(EMNLP-IJCNLP);2019年11月;中国香港6382-6388页。［CrossRef]
李建军，张建军，张建军。基于随机抽样的非平衡文本分类方法。第39届国际ACM SIGIR信息检索研究与发展会议论文集，2016，发表于:SIGIR '16:第39届国际ACM SIGIR信息检索研究与发展会议;2016年7月17日至21日;意大利比萨第805-808页。［CrossRef]
李建军，李建军，李建军，等。基于随机重采样的多标签分类算法研究。神经计算机2015年9月;163:3-16。［CrossRef]
Devlin J, Chang M, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。arXiv:1810.04805。2018年10月11日。URL:https://arxiv.org/abs/1810.04805

‎

AUC:接收机工作特性曲线下的面积

伯特:来自变压器的双向编码器表示

BTM:主题模型

有线电视新闻网:卷积神经网络

DL:深度学习

手套:单词表示的全局向量

人乳头状瘤病毒:人类乳头状瘤病毒

LR:逻辑回归

ML:机器学习

NLP:自然语言处理

RNN:循环神经网络

TF-IDF:术语频率-逆文档频率

VAXMO:疫苗错误信息本体

R库卡夫卡编辑;提交13.12.20;经井旭、张忠、金s同行评审;对作者16.02.21的评论;修订版本收到14.04.21;接受06.05.21;发表05.08.21

©杜景成，Sharice Preston，孙汉晓，Ross Shegog, Rachel Cunningham, Julie Boom, Lara Savas, Muhammad Amith，崔涛。最初发表于医学互联网研究杂志(//www.mybigtv.com)， 2021年8月5日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

使用基于机器学习的方法检测和分类人乳头瘤病毒疫苗错误信息:Reddit讨论的信息流行病学研究