这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
用于评估卫生信息可信度的工具应用起来很耗时,而且需要针对具体情况的专门知识,限制了它们在出现错误信息时迅速识别和减缓传播的作用。
这项研究的目的是估计与疫苗相关的Twitter帖子链接到低可信度网页的比例,并衡量这些帖子的潜在影响力。
从2017年1月至2018年3月在Twitter上分享的143003个与疫苗相关的独特网页中取样,我们使用了一个7点检查表,由经过验证的工具和指南调整,手动评估474个网页的可信度。它们被用来训练几个分类器(随机森林、支持向量机和循环神经网络),使用来自Web页面的文本来预测信息是否满足7个标准中的每一个。在评估所有其他网页的可信度时,我们使用关注者网络来评估相对于7点清单定义的可信度评分的潜在风险。
表现最好的分类器能够区分低可信度、中等可信度和高可信度,准确率为78%,标记低可信度网页的精度超过96%。在一组独特的网页中,11.86%(143003个中的16961个)被估计为低可信度,它们产生了9.34%(176亿个中的16.4亿个)的潜在风险。据估计,全球有200万至8000万推特用户浏览了100个最受欢迎的低可信度网页链接。
结果表明,尽管有一小部分低可信度的Web页面能够接触到大量的受众,但低可信度的Web页面往往比其他Web页面能够接触到更少的用户,并且在特定的子人群中更普遍地共享。自动可信度评估工具可能有助于发现接触低可信度疫苗传播的风险较高的用户群体。
错误信息的传播,我们在这里定义为包括不能公平代表现有证据或传播证据不当的传播,已成为各个领域越来越多的研究主题[
大多数旨在发现或追踪社交媒体上错误信息的研究都定义了使用错误信息
已经开发了一系列工具来评估Web上可用的卫生信息的可信度。大多数都被设计成清单,供专家用来评估他们所阅读内容的可信度和透明度。DISCERN工具被设计为评估卫生信息质量的通用工具[
公众对疫苗的看法是通过新闻和社交媒体传播错误信息问题的一个例子[
鉴于提供新信息的速度和评估这些信息所需的资源,目前无法在新的健康相关报道出现后立即跟上。虽然管理信息数量与质量的挑战在20年前就已经讨论过了[
我们试图描述在Twitter上分享的与疫苗相关的网页的分享和潜在影响,相对于可信度。由于手动评估所有Web页面的可信度是不可行的,所以我们开发并评估了分类器来自动评估它们的可信度。
该研究采用回顾性观察设计。为了评估Twitter上分享的疫苗相关网页的可信度,我们通过监测提到相关关键字的推文链接来收集疫苗相关网页的文本。我们通过应用基于检查表的评估工具手动评估了Web页面样本的可信度,使用样本训练分类器来预测未见过的Web页面的可信度评分。将集成分类器应用于作为监视的一部分收集的完整Web页面集,我们检查了相对于可信度评分的共享模式。
在2017年1月17日至2018年3月14日期间,我们使用推特搜索应用程序编程接口,使用一组预定义的搜索词(包括“vaccin*”、“immunis*”、“vax*”和“antivax*”),收集了1,860,662名推特用户的6,591,566条英语、疫苗相关的推文和转发。对于所有在研究期间发布疫苗相关推文的独立用户,我们收集了他们的关注者列表来构建社交网络。
我们从这组tweet中提取了127万个唯一的url,以确定要包含在分析中的基于文本的Web页面。为了将Web页面集限制为仅使用英语文本,我们使用了谷歌库[
为了修改我们对推文进行采样以构建手动标记数据集的方式,我们使用PubMed在标题或摘要中使用搜索词“疫苗”或“免疫”搜索与疫苗相关的研究文章,PubMed自动扩展以包括同义词和MeSH术语。搜索结果为306,886篇文章。然后,我们将这些文章的PubMed标识符与Altmetric(数字科学)一起使用,以识别通过数字对象标识符、PubMed条目或期刊网页链接到这些文章的网页(新闻、博客和社交媒体帖子)。我们从Altmetric中找到了647,879个引用了与PubMed疫苗相关文章的独特url。
从Altmetric中提取的url和从tweet中提取的url的交集允许我们从我们期望具有更高可信度分数的Web页面集中进行过采样(下面将进行描述)。这种方法还允许我们通过删除Altmetric识别的推文来排除Twitter上共享的大部分直接链接到研究文章的url。
用于定义训练数据集和自动标记Web页面的步骤。
可信度评估工具由3位研究人员(AGD、AD和MS)开发,他们具有公共卫生、公共卫生信息学、科学传播和新闻学方面的专业知识。为了开发一种专门用于疫苗相关网页的工具,研究人员从以下基于清单的工具和指南中调整和综合了个别标准[
疾病控制及预防中心制作健康资料指南[
辨别工具[
卫生新闻审查标准[
传媒医生评审准则[
世界卫生组织疫苗接种和信托报告[
QIMR [
以这些文件为指南,我们借鉴了DISCERN和QIMR检查清单,并增加了2个专门针对疫苗相关传播的额外标准。该工具在30个随机选择的网页上进行了试点测试,并通过3名研究人员之间的讨论迭代改进。由此产生的可信度评估工具包括以下7项标准:(1)所提供的信息基于客观、科学的研究;(2)充分详细地说明了研究提供的证据水平;(3)重点研究的不确定性和局限性;(4)该信息没有夸大、夸大或歪曲现有证据;(5)为重点研究提供背景;(6)使用清晰、易于理解的非技术性语言;(6)在赞助和资金方面是透明的。
然后,这3名研究人员将可信度评估工具应用于另外474个与疫苗相关的网页。对于每个网页,调查人员都要浏览网站,阅读文章,并决定它是否满足7个标准中的每一个。这个过程为每个标准和Web页面生成一组值(0或1)。然后我们将信息总结为a
研究人员独立地对网页的一个子集进行了重复评估,以衡量评分者之间的可靠性,并发现将网页分为低、中、高可信度是合理的(Fleiss kappa 0.46;95% ci 0.41-0.52;
用于训练分类器的474个Web页面中满足个别标准的Web页面的比例。中国国际广播电台:标准。
我们比较了3种通常用于文档分类问题的机器学习方法:支持向量机(SVM)、随机森林(RF)和循环神经网络(RNN)。SVM方法训练了一个大边际分类器,目的是在两个类之间找到一个最大限度远离训练数据中任何一点的决策边界。在RF方法分类中,通过在决策树的每个节点上随机选择一个子空间的特征来构造树来生长分支。然后,该方法使用bagging生成训练数据子集,用于构建单个树,然后将其组合成RF模型。RNN方法是指由神经网络块组成的一类人工神经网络,这些神经网络块相互链接,沿序列形成有向图。该方法用于对时间序列的动态时间行为建模,这对理解语言很有用。
这些有监督的机器学习技术的目的是训练一个模型,通过学习如何区分跨类使用的语言来预测一个看不见的文档的类别。为了应用分类器,我们清除了从Web页面下载的文本,删除了额外的空格、制表符、额外的换行符和包括表情符号在内的非标准字符。然后,每个Web页面都作为文档包含在我们的语料库中。
为了开发RNN分类器,我们使用了平均-随机梯度下降减重长短期记忆[
语言模型经过训练,以理解文档语料库中使用的语言结构,其性能通过其基于前一组单词预测句子中下一个单词的能力来衡量。在为这项任务训练语言模型之后,然后对完整的基于dl的分类器进行微调,以预测文档是否满足每个可信度检查表标准。语言模型通常被训练来学习目标语料库中的语言结构,但最近迁移学习的进展产生了更好的结果,包括更短的训练时间和更高的性能。一个例子是通用语言模型微调方法[
我们使用迁移学习来创建语言模型主干。语言模型开发为3层,隐藏单元1150个,嵌入大小为每字400个,权重初始化自Howard等人预训练的WikiText-103语言模型[
用于初始化语言模型和分类器的参数和相应值。
参数 | 价值 |
体重衰变 | 1.00 e-04 |
时间反向传播 | 60 |
批量大小 | 52 |
辍学 | 0.25 0.1 0.2 0.02 0.15 |
嵌入的大小 | 400 |
层数 | 3(语言模型),5(分类器) |
优化器 | 亚当 |
β1,β2 | 0.8, 0.99 |
语言模型(LM)在2种不同设置下的性能差异,包括训练损失(左上),验证交叉熵损失(右上),以及LM预测验证文本中先前单词的句子中下一个单词的准确性(下)。
对于基于SVM和rf的分类器,我们进行了额外的预处理,以去除停止词和低频词,以提高准确性。经过预处理后,整个语料库中使用了60660个独特的单词;这些被用作训练和测试RF和SVM分类器的特征。每个文档都表示为一组特征向量,其中特征由词频-逆文档频率(tf-idf)权重定义。Tf-idf表示语料库中某个单词对文档的重要性,该重要性随该单词在文档中出现的次数成比例增加,但会被该单词在语料库中的出现频率抵消,确保文档之间的相似性更容易受到语料库中频率相对较低的歧视性单词的影响。的网格搜索功能找到支持向量机和射频的最佳参数
使用专家标记的数据,我们训练了21个分类器(基于RF-、SVM-和dl的分类器每个标准1个),并在10次交叉验证测试中评估了分类器的性能,报告了平均F1所有3个分类器的得分和准确性。尽管对整个分类器集的性能进行比较可能会引起人们的兴趣,但我们的目的是为集成分类器提供基础,该集成分类器可以可靠地估计每个Web页面满足哪些标准。
支持向量机和随机森林分类器的参数;所有其他参数保持默认值。
参数 | 价值 | |
|
||
|
C | One hundred. |
|
γ | 1 |
|
内核 | 线性 |
|
规范 | l1 |
|
Use-idf一个 | 真正的 |
|
Max-dfb | 1 |
|
语法范围 | (1,1) |
|
||
|
N-estimators | 10 |
|
标准 | 基尼 |
|
Min-impurity-split | 1.00 e-07 |
一个Use-idf:当为true时,术语权重根据它们出现在文档中的数量进行缩放。
bMax-df:当设置为1时,出现在每个文档中的单词不会被删除。
在开发了一种可靠的工具来自动估计大规模疫苗相关传播的可信度之后,我们的目标是描述Twitter上低可信度疫苗传播的潜在暴露模式。对于每个符合我们研究纳入标准的网页,我们使用每个标准中表现最好的分类器来估计其可信度评分。然后,我们汇总了在研究期间发布的包含网页链接的推文总数,包括推文和转发。然后我们估计
为了研究向低可信度网页发布链接的用户是如何在子群体内部或跨子群体集中的,我们还估计了每个用户的可信度度量,这是由任何用户共享到一个或多个网页的链接的可信度评分列表定义的。我们将这些列表与关注者信息结合起来构建了一个
射频分类器总体性能最高,在大多数情况下,预测疫苗相关网页上的文本是否满足每一项可信度标准,准确率超过90% (
在将性能最佳的分类器组合起来区分低、中、高可信度的Web页面时,将性能最佳的分类器(SVM用于标准3和7,RF用于所有其他标准)组合在一起的集成分类器的总体准确性为78.30%。在标记低可信度网页方面,集成分类器很少将高可信度或中等可信度网页错误标记为低可信度;每20个被标记为低可信度的网页中有超过19个是正确的。
为了考虑分类器的预期健壮性,我们还分析了对低可信度Web页面提供最多信息的术语集。我们使用Fisher精确测试来比较一个术语至少出现一次的低可信度Web页面的比例与至少出现一次的其他Web页面的比例,检查在任何一个方向上都过度代表的术语(
结果显示了一组基本一般的条件;最能说明低可信度网页的词语与个人和个人自主的故事有关(例如,“她”、“儿子”、“自闭症”、“正确”和“允许”),而最能说明其他网页的词语与研究和人群有关(例如,“研究所”、“阶段”、“安慰剂”、“国家”、“改善”和“热带”)。结果表明,用于构建训练数据的Web页面样本是一个足够广泛的样本,可以捕获一般模式,而不是限制方法外部有效性的特定重复主题。
分类器的性能(平均F1在10倍交叉验证中得分和准确性)。
标准 | 深度学习一个,平均值(SD) | 支持向量机一个,平均值(SD) | 随机森林一个,平均值(SD) | |||
|
F1分数 | 精度 | F1分数 | 精度 | F1分数 | 精度 |
1 | 0.851 (0.005) | 0.740 (0.008) | 0.903 (0.032) | 0.842 (0.045) |
|
0.924 (0.019) |
2 | 0.000 (0.000) | 0.638 (0.003) | 0.802 (0.044) | 0.828 (0.018) |
|
0.943 (0.006) |
3. | 0.000 (0.000) | 0.865 (0.009) |
|
0.917 (0.011) | 0.745 (0.088) | 0.944 (0.018) |
4 | 0.882 (0.001) | 0.789 (0.002) | 0.903 (0.042) | 0.833 (0.068) |
|
0.936 (0.022) |
5 | 0.551 (0.249) | 0.486 (0.051) | 0.787 (0.034) | 0.721 (0.051) |
|
0.920 (0.020) |
6 | 0.867 (0.002) | 0.765 (0.004) | 0.912 (0.006) | 0.852 (0.010) |
|
0.943 (0.004) |
7 | 0.000 (0.000) | 0.840 (0.008) |
|
0.924 (0.006) | 0.764 (0.057) | 0.936 (0.004) |
一个对于每个标准,f1得分最高的分类器用斜体表示。
在474个网页的训练集中,提供低可信度分数信息的术语子集。与其他网页相比,顶部的术语是那些在低可信度网页中表现得最多的术语,底部的术语是那些在低可信度网页中表现得最多的术语。OR:优势比;正:无穷。
我们对集成分类器的性能感到满意,然后将其应用于144,003个与疫苗相关的独特Web页面的完整集合,为每个页面生成估计的可信度评分。与可信度中等或高的网页相比,可信度低的网页在Twitter上被分享的次数更少(
当我们通过计算每个网页的所有推文和转发的累积粉丝数来检查潜在曝光的总数时,我们发现分布是相似的(用3个分布的斜率来说明)
链接到包含网页的推文和转发数相对于满足可信度标准的数量。
每个Web页面的潜在风险分布为低(橙色)、中(灰色)和高(青色)可信度评分,其中低可信度包括0到2分,高可信度包括5到7分。
根据相关网页链接曝光的总比例来衡量,低可信度网页的推文曝光占总曝光的9.34%(176亿条推文中的16.4亿条),而高可信度网页的推文曝光占总曝光的24.59%(176亿条推文中的43.3亿条)。这表明分享高可信度和中等可信度疫苗相关网页链接的Twitter用户往往比那些分享低可信度疫苗相关网页链接的用户拥有更多的关注者。然而,分布的形状表明,一些低可信度的网页可能具有影响力;曝光率最高的100个网页包含在可能被200万到8000万用户看到的推文中,超过200个可信度较低的网页包含在可能被100万用户看到的推文中。
低可信度疫苗相关网页的链接主要集中在在Twitter上发布疫苗相关推文的特定用户群体中。这在一组98,663名Twitter用户的追随者网络的可视化中很明显,这些用户发布了至少两个到研究中包括的网页的链接(
网络可视化表示98,663个Twitter用户的子集,这些用户发布的推文包括至少两次与疫苗相关的网页链接,并且在最大的连接组件中与至少一个其他用户连接。那些发布了至少两个高可信度网页而没有低可信度网页的用户(青色)和那些发布了至少两个低可信度网页而没有高可信度网页的用户(橙色)被突出显示。节点的大小与每个用户在Twitter上拥有的追随者数量成正比,节点的定位是通过启发式的,这样连接良好的用户组更有可能在网络图中被定位在一起。
我们发现,生产机器学习分类器来识别低可信度的疫苗相关网页是可行的。将分类器应用于2017年1月至2018年3月期间在推特上分享的疫苗相关网页,我们发现总体上分享的低可信度网页较少,尽管有些网页有数千万推特用户的潜在覆盖范围。网络可视化显示,Twitter用户的某些社区更有可能分享和接触到低可信度的网页。
这项研究扩展了与监控社交媒体上的健康错误信息有关的知识。之前的许多研究都旨在通过真实性来标记单个社交媒体帖子或社交媒体上的声明[
本文介绍的工作也不同于以往研究Twitter用户表达的观点和态度,以往的研究大多根据个人推文或用户是提倡接种疫苗还是反对接种疫苗而对其进行标签[
我们的研究也不能与之前研究错误信息如何通过社交媒体传播的研究直接比较。
这项研究对公众健康有影响。衡量人们如何在社交媒体上参与和分享错误信息的能力,可能有助于我们更好地定位和监测公共卫生干预措施的影响[
这项研究有几个局限性。尽管我们使用了修改后的抽样策略来确保Web页面的更均衡表示,但用于训练和内部验证的手动标记样本相对较小,这可能从两个方面影响结果。首先,我们的结果表明,基于DL的分类器比基于rf的分类器更不准确,但这可能是可用训练数据的结果,而不是DL方法的一般值。如果没有对更大的训练数据集进行测试,我们就无法可靠地得出机器学习方法的比较性能的结论。其次,在一些特征相对稀疏或许多文档非常相似的文档分类任务中,使用较小的标记示例集可能会导致过拟合。为了避免这种情况,我们小心地删除重复文本和文本重叠的Web页面。
第二类限制与我们对方法所做的选择有关。其他方法和架构也可以用来从文本中预测可信度。例如,我们可以使用更简单的方法,包括Naïve Bayes和逻辑回归,使用单个多标签分类器来预测从Web页面中提取的文档是否满足任何标准,或者构造一个直接预测可信度评分而不是单个组件的模型。
进一步的限制涉及分类器的外部有效性,以及我们无法对不包括连续文本部分的Web页面得出结论。我们只包括可以从中提取连续文本块的Web页面,并使用一种新颖的方法对这些Web页面进行抽样,以便在可信度评分集上创建一个合理平衡的样本。与疫苗相关的推文中包含的其他url包括到其他社交媒体帖子的链接(包括到其他推文的链接),到YouTube和Instagram的链接,到图像中嵌入文本的模因的链接,到不再显示相同信息的动态页面的链接,以及到包含视频或图像以及少量文本的一系列其他页面的链接。由于我们无法估计其他网页上疫苗相关信息的可信度,我们的结论仅限于基于文本的网页的特征描述。如果对Instagram、Facebook和YouTube网页进行评估,可能会有相当一部分网页的可信度得分很低。
我们对暴露程度的估计并不完美。为了估计有多少Twitter用户可能已经接触到相对于可信度的信息,我们将每个发布链接的用户的粉丝总数相加。我们没有统计可能看到该链接的唯一关注者的总数,没有报告点赞数,也没有访问回复数。由于缺乏更详细的用户粘性指标来估计一个网页通过Twitter被访问的次数,我们认为潜在曝光率指标是一个合理的上限。因此,需要谨慎解释与潜在接触测量有关的结论,需要使用可靠的流行病学设计进行进一步研究,以可靠地估计接触。
我们开发并测试了机器学习方法来支持Web上疫苗相关信息的自动可信度评估,表明它是可行的。这使我们能够对Twitter上分享的低可信度疫苗相关网页的潜在暴露的大规模模式进行分析。我们发现,尽管总体上低可信度网页的共享频率较低,但在某些亚群体中,低可信度网页的共享是普遍的。研究结果提出了两种应对错误信息挑战的新方法,包括持续监测,以确定风险社区,更好地瞄准健康促进资源,以及在消费者使用社交媒体上的网页链接时,将该工具嵌入到干预措施中,以标记低可信度的通信。
深度学习
人类乳头状瘤病毒
卫生相关媒体报道质量指数
随机森林
循环神经网络
支持向量机
术语频率-逆文档频率
该研究由国家卫生和医学研究委员会项目拨款APP1128968资助。作者要感谢Paige Martin在数据库管理、数据收集和数据合成方面对研究的贡献,以及Maryke Steffens在可信度标准和专家标签方面的设计和开发。
没有宣布。