医学互联网研究杂志-自动评估在社交媒体上分享的疫苗相关网页的可信度:一项Twitter监视研究

原始论文

¹澳大利亚悉尼麦考瑞大学澳大利亚卫生创新研究所卫生信息学中心

²哈马德·本·哈利法大学科学与工程学院信息与通信技术学部，卡塔尔多哈

^3.美国马萨诸塞州波士顿哈佛医学院生物医学信息系

⁴计算健康信息项目，波士顿儿童医院，波士顿，马萨诸塞州，美国

通讯作者:

亚当·G·邓恩博士

卫生信息学中心

澳大利亚卫生创新研究所

澳大利亚麦考瑞大学

悉尼,2109年

澳大利亚

电话:61 9850 2400

电子邮件:adam.dunn@mq.edu.au

背景:用于评估卫生信息可信度的工具应用起来很耗时，而且需要针对具体情况的专门知识，限制了它们在出现错误信息时迅速识别和减缓传播的作用。

摘要目的:这项研究的目的是估计与疫苗相关的Twitter帖子链接到低可信度网页的比例，并衡量这些帖子的潜在影响力。

方法:从2017年1月至2018年3月在Twitter上分享的143003个与疫苗相关的独特网页中取样，我们使用了一个7点检查表，由经过验证的工具和指南调整，手动评估474个网页的可信度。它们被用来训练几个分类器(随机森林、支持向量机和循环神经网络)，使用来自Web页面的文本来预测信息是否满足7个标准中的每一个。在评估所有其他网页的可信度时，我们使用关注者网络来评估相对于7点清单定义的可信度评分的潜在风险。

结果:表现最好的分类器能够区分低可信度、中等可信度和高可信度，准确率为78%，标记低可信度网页的精度超过96%。在一组独特的网页中，11.86%(143003个中的16961个)被估计为低可信度，它们产生了9.34%(176亿个中的16.4亿个)的潜在风险。据估计，全球有200万至8000万推特用户浏览了100个最受欢迎的低可信度网页链接。

结论:结果表明，尽管有一小部分低可信度的Web页面能够接触到大量的受众，但低可信度的Web页面往往比其他Web页面能够接触到更少的用户，并且在特定的子人群中更普遍地共享。自动可信度评估工具可能有助于发现接触低可信度疫苗传播的风险较高的用户群体。

中国医学互联网杂志2019;21(11):e14007

doi: 10.2196/14007

关键字

健康的错误信息；信誉评价；机器学习；社交媒体

背景

错误信息的传播，我们在这里定义为包括不能公平代表现有证据或传播证据不当的传播，已成为各个领域越来越多的研究主题[1-8］．错误信息可以通过影响态度和信念而造成伤害[9，10］．尽管基于网络的通信的快速发展通过提供更广泛的健康信息使公众健康受益，但大多数人相信网上提供的健康信息，而不试图验证来源[11，12]，尽管他们担心在他们访问的内容中存在错误信息[13]以及偏见和营销可能导致证据传播错误的已知问题[14-18］．减轻虚假信息影响的建议方法包括使个人能够更好地处理他们遇到的信息，以及改进基于web的平台上虚假信息的自动检测[1］．

大多数旨在发现或追踪社交媒体上错误信息的研究都定义了使用错误信息真实性-声明是真还是假，是真还是假。在卫生领域，仅凭真实性往往无法提供足够的信息，从而有助于了解可能影响态度和行为的一系列因素，如说服力、及时性或适用性。的信誉因此，健康沟通包括一系列更广泛的因素，包括真实性、可读性和清晰度、来源的使用和透明度、偏见和虚假平衡以及利益冲突的披露[19］．在评估卫生传播对卫生态度和结果的潜在影响时，必须考虑可信度，因为某些类型的传播可能是真实的，但具有误导性，例如在新闻媒体的虚假平衡的情况下[20.］．

已经开发了一系列工具来评估Web上可用的卫生信息的可信度。大多数都被设计成清单，供专家用来评估他们所阅读内容的可信度和透明度。DISCERN工具被设计为评估卫生信息质量的通用工具[21，重点放在病人可能用来支持他们对自己的健康做出决定的网页上。卫生相关媒体报道质量指数(QIMR)是一个较新的例子，与以前的工具不同之处在于，它被设计用来评估关于新的生物医学研究的传播质量[22］．专家用于评估网上健康研究报告和患者信息可信度的工具的共同要素包括:所包括信息的真实性、证据来源的透明度、广告的披露、语言的简单性和可读性，以及使用不扭曲或耸人听闻的平衡语言[19］．大多数工具使用起来很耗时，通常需要特定的培训或专业知识才能应用。2018年结束的《健康新闻评论》等组织聘请专家评估出现在新闻媒体上的与健康有关的新通信[23］．

公众对疫苗的看法是通过新闻和社交媒体传播错误信息问题的一个例子[24］．除了公共卫生和疫苗，以前的研究使用来自Twitter的社交媒体数据来了解错误信息的传播和影响，从用户发布的内容或关于他们社会关系的信息中提取文本[25-29］．对疫苗的态度和对疾病爆发的看法是社交媒体研究中研究的一个常见应用领域[30.-34］．特别是，人类乳头瘤病毒(HPV)疫苗的研究利用了用户发布的信息和他们的社会关系，以及人们可能从他们的网络中接触到的东西[35-38］．衡量人们如何在社交媒体上参与和分享错误信息的能力，可能有助于我们更好地定位和监测公共卫生干预措施的影响[39-41］．

鉴于提供新信息的速度和评估这些信息所需的资源，目前无法在新的健康相关报道出现后立即跟上。虽然管理信息数量与质量的挑战在20年前就已经讨论过了[42]，如何处理与卫生有关的新闻和媒体中出现的错误信息，仍然是公共卫生领域一个尚未解决的问题。

研究目标

我们试图描述在Twitter上分享的与疫苗相关的网页的分享和潜在影响，相对于可信度。由于手动评估所有Web页面的可信度是不可行的，所以我们开发并评估了分类器来自动评估它们的可信度。

概述

该研究采用回顾性观察设计。为了评估Twitter上分享的疫苗相关网页的可信度，我们通过监测提到相关关键字的推文链接来收集疫苗相关网页的文本。我们通过应用基于检查表的评估工具手动评估了Web页面样本的可信度，使用样本训练分类器来预测未见过的Web页面的可信度评分。将集成分类器应用于作为监视的一部分收集的完整Web页面集，我们检查了相对于可信度评分的共享模式。

数据集

在2017年1月17日至2018年3月14日期间，我们使用推特搜索应用程序编程接口，使用一组预定义的搜索词(包括“vaccin*”、“immunis*”、“vax*”和“antivax*”)，收集了1,860,662名推特用户的6,591,566条英语、疫苗相关的推文和转发。对于所有在研究期间发布疫苗相关推文的独立用户，我们收集了他们的关注者列表来构建社交网络。

我们从这组tweet中提取了127万个唯一的url，以确定要包含在分析中的基于文本的Web页面。为了将Web页面集限制为仅使用英语文本，我们使用了谷歌库[43];删除了Twitter内部链接、坏掉的链接或指向不再可用的网页的其他网页;并删除了连续块中少于300字的网页。然后，我们检查已经包含的其他Web页面的副本，删除大部分文本与集合中的另一个Web页面等效的Web页面，保留单词数量最多的Web页面。其余的143,003个网页(图1)用于后续分析。

为了修改我们对推文进行采样以构建手动标记数据集的方式，我们使用PubMed在标题或摘要中使用搜索词“疫苗”或“免疫”搜索与疫苗相关的研究文章，PubMed自动扩展以包括同义词和MeSH术语。搜索结果为306,886篇文章。然后，我们将这些文章的PubMed标识符与Altmetric(数字科学)一起使用，以识别通过数字对象标识符、PubMed条目或期刊网页链接到这些文章的网页(新闻、博客和社交媒体帖子)。我们从Altmetric中找到了647,879个引用了与PubMed疫苗相关文章的独特url。

从Altmetric中提取的url和从tweet中提取的url的交集允许我们从我们期望具有更高可信度分数的Web页面集中进行过采样(下面将进行描述)。这种方法还允许我们通过删除Altmetric识别的推文来排除Twitter上共享的大部分直接链接到研究文章的url。

可信度评估工具

可信度评估工具由3位研究人员(AGD、AD和MS)开发，他们具有公共卫生、公共卫生信息学、科学传播和新闻学方面的专业知识。为了开发一种专门用于疫苗相关网页的工具，研究人员从以下基于清单的工具和指南中调整和综合了个别标准[19]：

疾病控制及预防中心制作健康资料指南[44］
辨别工具[21］
卫生新闻审查标准[23]由莫伊尼汉等人提供的信息[45]和《卫生保健记者协会原则声明》[46］
传媒医生评审准则[47］
世界卫生组织疫苗接种和信托报告[48］
QIMR [22］．

以这些文件为指南，我们借鉴了DISCERN和QIMR检查清单，并增加了2个专门针对疫苗相关传播的额外标准。该工具在30个随机选择的网页上进行了试点测试，并通过3名研究人员之间的讨论迭代改进。由此产生的可信度评估工具包括以下7项标准:(1)所提供的信息基于客观、科学的研究;(2)充分详细地说明了研究提供的证据水平;(3)重点研究的不确定性和局限性;(4)该信息没有夸大、夸大或歪曲现有证据;(5)为重点研究提供背景;(6)使用清晰、易于理解的非技术性语言;(6)在赞助和资金方面是透明的。

手工标记样品

然后，这3名研究人员将可信度评估工具应用于另外474个与疫苗相关的网页。对于每个网页，调查人员都要浏览网站，阅读文章，并决定它是否满足7个标准中的每一个。这个过程为每个标准和Web页面生成一组值(0或1)。然后我们将信息总结为a信誉分数，由满足的标准数量定义，并根据可信度评分将Web页面分为低(满足0-2个标准)、中(满足3-4个标准)和高(满足5-7个标准)。在474个专家标记的例子中，被判定满足7个可信度标准中的每一个的网页比例变化很大(图2)．

研究人员独立地对网页的一个子集进行了重复评估，以衡量评分者之间的可靠性，并发现将网页分为低、中、高可信度是合理的(Fleiss kappa 0.46;95% ci 0.41-0.52;P<.001)，当目的是将低可信度的网页与所有其他网页分开时接近完美(Fleiss kappa 0.89;95% ci 0.82-0.97;P<措施)。检查表的设计表明，它是一种识别低可信度网页的有用方法。

图2。用于训练分类器的474个Web页面中满足个别标准的Web页面的比例。中国国际广播电台:标准。

分类器设计

我们比较了3种通常用于文档分类问题的机器学习方法:支持向量机(SVM)、随机森林(RF)和循环神经网络(RNN)。SVM方法训练了一个大边际分类器，目的是在两个类之间找到一个最大限度远离训练数据中任何一点的决策边界。在RF方法分类中，通过在决策树的每个节点上随机选择一个子空间的特征来构造树来生长分支。然后，该方法使用bagging生成训练数据子集，用于构建单个树，然后将其组合成RF模型。RNN方法是指由神经网络块组成的一类人工神经网络，这些神经网络块相互链接，沿序列形成有向图。该方法用于对时间序列的动态时间行为建模，这对理解语言很有用。

这些有监督的机器学习技术的目的是训练一个模型，通过学习如何区分跨类使用的语言来预测一个看不见的文档的类别。为了应用分类器，我们清除了从Web页面下载的文本，删除了额外的空格、制表符、额外的换行符和包括表情符号在内的非标准字符。然后，每个Web页面都作为文档包含在我们的语料库中。

为了开发RNN分类器，我们使用了平均-随机梯度下降减重长短期记忆[49］．在接下来的内容中，我们将其称为基于深度学习(DL)的分类器。基于dl的分类器由主干和自定义头组成。主干是一个语言模型，它是一个深度RNN。头部是一个线性分类器，包括2个线性块，中间层有整流的线性单元激活，最后一层有一个softmax激活，可以估计目标标签(在我们的例子中，它是否满足可信度标准)。

语言模型经过训练，以理解文档语料库中使用的语言结构，其性能通过其基于前一组单词预测句子中下一个单词的能力来衡量。在为这项任务训练语言模型之后，然后对完整的基于dl的分类器进行微调，以预测文档是否满足每个可信度检查表标准。语言模型通常被训练来学习目标语料库中的语言结构，但最近迁移学习的进展产生了更好的结果，包括更短的训练时间和更高的性能。一个例子是通用语言模型微调方法[50]，提出并在自然语言处理任务上进行了评估。

我们使用迁移学习来创建语言模型主干。语言模型开发为3层，隐藏单元1150个，嵌入大小为每字400个，权重初始化自Howard等人预训练的WikiText-103语言模型[50］．中给出了初始化语言模型和分类器的参数和值表1．文中给出了相关语言模型的性能结果图3．

表1。用于初始化语言模型和分类器的参数和相应值。

参数	价值
体重衰变	1.00 e-04
时间反向传播	60
批量大小	52
辍学	0.25 0.1 0.2 0.02 0.15
嵌入的大小	400
层数	3(语言模型)，5(分类器)
优化器	亚当
β₁,β₂	0.8, 0.99

图3。语言模型(LM)在2种不同设置下的性能差异，包括训练损失(左上)，验证交叉熵损失(右上)，以及LM预测验证文本中先前单词的句子中下一个单词的准确性(下)。

对于基于SVM和rf的分类器，我们进行了额外的预处理，以去除停止词和低频词，以提高准确性。经过预处理后，整个语料库中使用了60660个独特的单词;这些被用作训练和测试RF和SVM分类器的特征。每个文档都表示为一组特征向量，其中特征由词频-逆文档频率(tf-idf)权重定义。Tf-idf表示语料库中某个单词对文档的重要性，该重要性随该单词在文档中出现的次数成比例增加，但会被该单词在语料库中的出现频率抵消，确保文档之间的相似性更容易受到语料库中频率相对较低的歧视性单词的影响。的网格搜索功能找到支持向量机和射频的最佳参数scikit-learn库，并给出表2．

使用专家标记的数据，我们训练了21个分类器(基于RF-、SVM-和dl的分类器每个标准1个)，并在10次交叉验证测试中评估了分类器的性能，报告了平均F₁所有3个分类器的得分和准确性。尽管对整个分类器集的性能进行比较可能会引起人们的兴趣，但我们的目的是为集成分类器提供基础，该集成分类器可以可靠地估计每个Web页面满足哪些标准。

表2。支持向量机和随机森林分类器的参数;所有其他参数保持默认值。

参数		价值
支持向量机
	C	One hundred.
	γ	1
	内核	线性
	规范	l1
	Use-idf^一个	真正的
	Max-df^b	1
	语法范围	(1,1)
随机森林
	N-estimators	10
	标准	基尼
	Min-impurity-split	1.00 e-07

^一个Use-idf:当为true时，术语权重根据它们出现在文档中的数量进行缩放。

^bMax-df:当设置为1时，出现在每个文档中的单词不会被删除。

共享和潜在风险估计

在开发了一种可靠的工具来自动估计大规模疫苗相关传播的可信度之后，我们的目标是描述Twitter上低可信度疫苗传播的潜在暴露模式。对于每个符合我们研究纳入标准的网页，我们使用每个标准中表现最好的分类器来估计其可信度评分。然后，我们汇总了在研究期间发布的包含网页链接的推文总数，包括推文和转发。然后我们估计潜在风险通过将所有推文和转发的粉丝总数相加。请注意，这代表了最大可能的受众，我们没有像之前的研究那样，确定可能至少被曝光过一次的唯一用户组，因为他们关注的是谁[14］．

为了研究向低可信度网页发布链接的用户是如何在子群体内部或跨子群体集中的，我们还估计了每个用户的可信度度量，这是由任何用户共享到一个或多个网页的链接的可信度评分列表定义的。我们将这些列表与关注者信息结合起来构建了一个追随者网络，这使我们能够确定Twitter用户的亚群，其中分享低可信度的疫苗传播很常见。

分类器的性能

射频分类器总体性能最高，在大多数情况下，预测疫苗相关网页上的文本是否满足每一项可信度标准，准确率超过90% (表3)．基于svm的分类器产生了最高的F₁最不平衡的两项标准得分。如果有更多的专家标记数据，需要进一步的实验来确定基于dl的分类器是否优于基线方法。结果表明，在没有额外的人工输入的情况下，估计疫苗接种网页的可信度评估是可行的，这表明尽管存在变量，但其性能足以保证在监测中使用。

在将性能最佳的分类器组合起来区分低、中、高可信度的Web页面时，将性能最佳的分类器(SVM用于标准3和7,RF用于所有其他标准)组合在一起的集成分类器的总体准确性为78.30%。在标记低可信度网页方面，集成分类器很少将高可信度或中等可信度网页错误标记为低可信度;每20个被标记为低可信度的网页中有超过19个是正确的。

为了考虑分类器的预期健壮性，我们还分析了对低可信度Web页面提供最多信息的术语集。我们使用Fisher精确测试来比较一个术语至少出现一次的低可信度Web页面的比例与至少出现一次的其他Web页面的比例，检查在任何一个方向上都过度代表的术语(图4)．

结果显示了一组基本一般的条件;最能说明低可信度网页的词语与个人和个人自主的故事有关(例如，“她”、“儿子”、“自闭症”、“正确”和“允许”)，而最能说明其他网页的词语与研究和人群有关(例如，“研究所”、“阶段”、“安慰剂”、“国家”、“改善”和“热带”)。结果表明，用于构建训练数据的Web页面样本是一个足够广泛的样本，可以捕获一般模式，而不是限制方法外部有效性的特定重复主题。

表3。分类器的性能(平均F₁在10倍交叉验证中得分和准确性)。

标准	深度学习^一个，平均值(SD)		支持向量机^一个，平均值(SD)		随机森林^一个，平均值(SD)
	F₁分数	精度	F₁分数	精度	F₁分数	精度
1	0.851 (0.005)	0.740 (0.008)	0.903 (0.032)	0.842 (0.045)	0.950(0.015)	0.924 (0.019)
2	0.000 (0.000)	0.638 (0.003)	0.802 (0.044)	0.828 (0.018)	0.915(0.005)	0.943 (0.006)
3.	0.000 (0.000)	0.865 (0.009)	0.761(0.038)	0.917 (0.011)	0.745 (0.088)	0.944 (0.018)
4	0.882 (0.001)	0.789 (0.002)	0.903 (0.042)	0.833 (0.068)	0.959(0.017)	0.936 (0.022)
5	0.551 (0.249)	0.486 (0.051)	0.787 (0.034)	0.721 (0.051)	0.921(0.022)	0.920 (0.020)
6	0.867 (0.002)	0.765 (0.004)	0.912 (0.006)	0.852 (0.010)	0.964(0.002)	0.943 (0.004)
7	0.000 (0.000)	0.840 (0.008)	0.801(0.029)	0.924 (0.006)	0.764 (0.057)	0.936 (0.004)

^一个对于每个标准，f1得分最高的分类器用斜体表示。

图4。在474个网页的训练集中，提供低可信度分数信息的术语子集。与其他网页相比，顶部的术语是那些在低可信度网页中表现得最多的术语，底部的术语是那些在低可信度网页中表现得最多的术语。OR:优势比;正:无穷。

潜在风险估计

我们对集成分类器的性能感到满意，然后将其应用于144,003个与疫苗相关的独特Web页面的完整集合，为每个页面生成估计的可信度评分。与可信度中等或高的网页相比，可信度低的网页在Twitter上被分享的次数更少(图5)，尽管在解释这些发现时，考虑集成分类器的性能限制是很重要的。我们估计，11.86%(143003个网页中的16,961个)的网页是低可信度的，它们产生了14.68%(764,283个网页中的112,225个)的转发。相比之下，23.52%(143003个网页中有33636个)的网页是高可信度的，它们产生了21.04%(764283个网页中有160777个)的转发。

当我们通过计算每个网页的所有推文和转发的累积粉丝数来检查潜在曝光的总数时，我们发现分布是相似的(用3个分布的斜率来说明)图6)．

图6。每个Web页面的潜在风险分布为低(橙色)、中(灰色)和高(青色)可信度评分，其中低可信度包括0到2分，高可信度包括5到7分。

根据相关网页链接曝光的总比例来衡量，低可信度网页的推文曝光占总曝光的9.34%(176亿条推文中的16.4亿条)，而高可信度网页的推文曝光占总曝光的24.59%(176亿条推文中的43.3亿条)。这表明分享高可信度和中等可信度疫苗相关网页链接的Twitter用户往往比那些分享低可信度疫苗相关网页链接的用户拥有更多的关注者。然而，分布的形状表明，一些低可信度的网页可能具有影响力;曝光率最高的100个网页包含在可能被200万到8000万用户看到的推文中，超过200个可信度较低的网页包含在可能被100万用户看到的推文中。

低可信度疫苗相关网页的链接主要集中在在Twitter上发布疫苗相关推文的特定用户群体中。这在一组98,663名Twitter用户的追随者网络的可视化中很明显，这些用户发布了至少两个到研究中包括的网页的链接(图7)．该网络显示了低可信度疫苗相关网页链接共享的异质性，这表明可能存在一些社交媒体用户社区，他们所看到和读到的关于疫苗的大部分内容都是低可信度的。

图7。网络可视化表示98,663个Twitter用户的子集，这些用户发布的推文包括至少两次与疫苗相关的网页链接，并且在最大的连接组件中与至少一个其他用户连接。那些发布了至少两个高可信度网页而没有低可信度网页的用户(青色)和那些发布了至少两个低可信度网页而没有高可信度网页的用户(橙色)被突出显示。节点的大小与每个用户在Twitter上拥有的追随者数量成正比，节点的定位是通过启发式的，这样连接良好的用户组更有可能在网络图中被定位在一起。

主要研究结果

我们发现，生产机器学习分类器来识别低可信度的疫苗相关网页是可行的。将分类器应用于2017年1月至2018年3月期间在推特上分享的疫苗相关网页，我们发现总体上分享的低可信度网页较少，尽管有些网页有数千万推特用户的潜在覆盖范围。网络可视化显示，Twitter用户的某些社区更有可能分享和接触到低可信度的网页。

语境研究

这项研究扩展了与监控社交媒体上的健康错误信息有关的知识。之前的许多研究都旨在通过真实性来标记单个社交媒体帖子或社交媒体上的声明[25-29]，我们转而使用可信度评估检查表对社交媒体上分享的网页进行标记，该检查表从先前验证的工具扩展而来，适用于与疫苗相关的传播[21，22］．在其他相关工作中，Mitra等人[51]研究了社交媒体帖子中影响人们对可信度看法的语言特征。虽然我们没有研究包括低可信度信息链接的推文的语言特征，但将这些想法联系起来，以更好地理解它们是否会影响用户行为——使用户更有可能通过URL访问、回复和分享来参与推文，这将是很有趣的。

本文介绍的工作也不同于以往研究Twitter用户表达的观点和态度，以往的研究大多根据个人推文或用户是提倡接种疫苗还是反对接种疫苗而对其进行标签[30.，32，35，38］．这里我们考虑的是Twitter上分享的交流，而不是用户在推文文本中表达的观点。

我们的研究也不能与之前研究错误信息如何通过社交媒体传播的研究直接比较。2-6］．我们研究了一个可能无法推广到政治等其他应用领域的单一主题，根据更广泛的标准来标记信息，而不仅仅是信息的真实性，并测量了总潜在曝光量，而不仅仅是推文和转发量的级联。我们不是从一组已知的假新闻和真实新闻样本中进行抽样，以比较传播情况，而是从Twitter上分享的相关文章中进行抽样。以这种方式组织实验，我们发现在低可信度网页和其他网页之间，总潜在风险的分布没有明显差异。尽管大多数可信度较低的网页只被少数Twitter用户分享，但有些网页的用户数量可能达到数千万。

影响

这项研究对公众健康有影响。衡量人们如何在社交媒体上参与和分享错误信息的能力，可能有助于我们更好地定位和监测公共卫生干预措施的影响[39-41］．我们发现，Twitter用户的某些亚群更经常分享低可信度的疫苗信息，并且不太可能与分享高可信度疫苗信息的用户联系。尽管这些结果并不令人惊讶，但大多数在社交媒体上研究疫苗的研究只统计了推文，而没有研究疫苗批评帖子潜在暴露的异质性[30.，38，52]，尽管有证据表明早在2011年就出现了观点的聚类[32］．这项研究与之前关于聚类的研究结果一致，也与检查暴露于不同HPV疫苗主题的研究一致[35，37］．了解社交媒体上哪些地方最常分享低可信度的通信，可能有助于制定专门针对最有可能受益的社区的通信干预措施[53］．尽管这些方法还不够精确，无法可靠地识别低可信度通信的单个链接，但它们最终可能会作为主动揭穿等对策的基础而有用。通过在访问前立即提供警告来预防错误信息的方法结果好坏参半[10，54，55］．

限制

这项研究有几个局限性。尽管我们使用了修改后的抽样策略来确保Web页面的更均衡表示，但用于训练和内部验证的手动标记样本相对较小，这可能从两个方面影响结果。首先，我们的结果表明，基于DL的分类器比基于rf的分类器更不准确，但这可能是可用训练数据的结果，而不是DL方法的一般值。如果没有对更大的训练数据集进行测试，我们就无法可靠地得出机器学习方法的比较性能的结论。其次，在一些特征相对稀疏或许多文档非常相似的文档分类任务中，使用较小的标记示例集可能会导致过拟合。为了避免这种情况，我们小心地删除重复文本和文本重叠的Web页面。

第二类限制与我们对方法所做的选择有关。其他方法和架构也可以用来从文本中预测可信度。例如，我们可以使用更简单的方法，包括Naïve Bayes和逻辑回归，使用单个多标签分类器来预测从Web页面中提取的文档是否满足任何标准，或者构造一个直接预测可信度评分而不是单个组件的模型。

进一步的限制涉及分类器的外部有效性，以及我们无法对不包括连续文本部分的Web页面得出结论。我们只包括可以从中提取连续文本块的Web页面，并使用一种新颖的方法对这些Web页面进行抽样，以便在可信度评分集上创建一个合理平衡的样本。与疫苗相关的推文中包含的其他url包括到其他社交媒体帖子的链接(包括到其他推文的链接)，到YouTube和Instagram的链接，到图像中嵌入文本的模因的链接，到不再显示相同信息的动态页面的链接，以及到包含视频或图像以及少量文本的一系列其他页面的链接。由于我们无法估计其他网页上疫苗相关信息的可信度，我们的结论仅限于基于文本的网页的特征描述。如果对Instagram、Facebook和YouTube网页进行评估，可能会有相当一部分网页的可信度得分很低。56-58]，这意味着我们可能低估了推特上与疫苗相关的低可信度交流的分享。

我们对暴露程度的估计并不完美。为了估计有多少Twitter用户可能已经接触到相对于可信度的信息，我们将每个发布链接的用户的粉丝总数相加。我们没有统计可能看到该链接的唯一关注者的总数，没有报告点赞数，也没有访问回复数。由于缺乏更详细的用户粘性指标来估计一个网页通过Twitter被访问的次数，我们认为潜在曝光率指标是一个合理的上限。因此，需要谨慎解释与潜在接触测量有关的结论，需要使用可靠的流行病学设计进行进一步研究，以可靠地估计接触。

结论

我们开发并测试了机器学习方法来支持Web上疫苗相关信息的自动可信度评估，表明它是可行的。这使我们能够对Twitter上分享的低可信度疫苗相关网页的潜在暴露的大规模模式进行分析。我们发现，尽管总体上低可信度网页的共享频率较低，但在某些亚群体中，低可信度网页的共享是普遍的。研究结果提出了两种应对错误信息挑战的新方法，包括持续监测，以确定风险社区，更好地瞄准健康促进资源，以及在消费者使用社交媒体上的网页链接时，将该工具嵌入到干预措施中，以标记低可信度的通信。

致谢

该研究由国家卫生和医学研究委员会项目拨款APP1128968资助。作者要感谢Paige Martin在数据库管理、数据收集和数据合成方面对研究的贡献，以及Maryke Steffens在可信度标准和专家标签方面的设计和开发。

利益冲突

没有宣布。

雷泽DM, Baum MA, Benkler Y, Berinsky AJ, Greenhill KM, Menczer F，等。假新闻的科学。科学2018年3月9日;359(6380):1094-1096。［CrossRef] [Medline］
布达克C，阿格拉瓦尔D，艾尔AA。限制虚假信息在社交网络中的传播。见:第20届国际万维网会议论文集。2011年发表于:WWW'11;2011年3月28日至4月1日;印度海得拉巴，第665-674页。［CrossRef］
张庆林，张志刚，张志刚。信息时代的集体注意力研究。Comput Hum Behav 2015 10月;51:1198-1204。［CrossRef］
谭buscio M, Ruffo G, Flammini A, Menczer F.病毒式骗局的事实核查效应:虚假信息在社交网络传播的模型。收录于:第24届万维网国际会议论文集。2015年发表于:WWW'15;2015年5月18-22日;意大利佛罗伦萨，977-982页。［CrossRef］
Kumar S, West R, Leskovec J.网络上的虚假信息:维基百科骗局的影响、特征和检测。见:第25届万维网国际会议论文集，2016年发表于:WWW '16;2016年4月11-15日;加拿大蒙特利尔，第591-602页。［CrossRef］
Vosoughi S, Roy D, Aral S.网上真假新闻的传播。科学2018年3月9日;359(6380):1146-1151。［CrossRef] [Medline］
格林伯格N，约瑟夫K，弗里德兰L，斯维尔汤普森B，雷泽d在2016年美国总统大选期间推特上的假新闻。科学2019年1月25日;363(6425):374-378。［CrossRef] [Medline］
del Vicario M, Bessi A, Zollo F, Petroni F, Scala A, Caldarelli G，等。虚假信息在网上传播。中国科学院学报(自然科学版)2016年1月19日;113(3):554-559 [免费全文] [CrossRef] [Medline］
韦弗JB，汤普森NJ，韦弗SS，霍普金斯GL.医疗保健不遵守决策和互联网健康信息。Comput Hum Behav 2009 11月25日(6):1373-1380。［CrossRef］
Lewandowsky S, Ecker UK, Seifert CM, Schwarz N, Cook J.错误信息及其纠正:持续影响和成功去偏见。心理科学公共利益2012 12月;13(3):106-131。［CrossRef] [Medline］
互联网消费者健康决策支持工具的特点综述。中国医学杂志，2002;4(2):E11 [免费全文] [CrossRef] [Medline］
Eysenbach G, Köhler C.消费者如何在万维网上搜索和评估健康信息?使用焦点小组、可用性测试和深度访谈进行定性研究。Br Med杂志2002年3月9日;324(337):573-577 [免费全文] [CrossRef] [Medline］
路透社研究所数字新闻报道，2019年。牛津大学路透社新闻研究所http://www.digitalnewsreport.org/[2019-06-29]访问
温特斯M，拉尔森A，科瓦尔斯基J，桑德伯格CJ。医学大学新闻发布的质量措施与其相应的新闻报道之间的关联-重要信息缺失。PLoS One 2019;14(6):e0217295 [免费全文] [CrossRef] [Medline］
杨晓东，张志刚，张志刚，等。新闻发布和新闻报道中随机对照试验的误传:一项队列研究。PLoS Med 2012;9(9):e1001308 [免费全文] [CrossRef] [Medline］
Haneef R, Ravaud P, Baron G, Ghosn L, Boutron I.与在线媒体关注研究相关的因素:评估癌症治疗文章的队列研究。Res integral Peer Rev 2017;2:9 [免费全文] [CrossRef] [Medline］
孙文杰，李志强，李志强，等。与健康相关的科学新闻和学术新闻稿之间的夸张:回顾性观察研究。Br Med J 2014年12月9日;349:g7015 [免费全文] [CrossRef] [Medline］
Grundy Q, Dunn AG, Bourgeois FT, Coiera E, Bero L.生物医学研究中公开的利益冲突的流行程度及其与期刊影响因子和altmetric评分的关系美国医学杂志2018年1月23日;319(4):408-409 [免费全文] [CrossRef] [Medline］
Bernstam EV, Shelton DM, Walji M, Meric-Bernstam F.用于评估万维网上健康信息质量的工具:我们的患者实际上可以使用什么?国际医学杂志2005年1月27日(1):13-19。［CrossRef] [Medline］
Steffens M, Dunn A, Leask J.迎接新媒体环境下公共卫生报道的挑战。Aust J Rev 2017;39(2):119-132 [免费全文］
Charnock D, Shepperd S, Needham G, Gann R. DISCERN:一种用于判断关于治疗选择的书面消费者健康信息质量的工具。中华流行病学杂志1999 Feb;53(2):105-111 [免费全文] [CrossRef] [Medline］
Zeraatkar D, Obeda M, Ginsberg JS, Hirsh J.一个仪器的开发和验证，以衡量卫生研究报告的质量在外行媒体。BMC公共卫生2017 april 20;17(1):343 [免费全文] [CrossRef] [Medline］
HealthNewsReview。我们的评审标准网址:https://www.healthnewsreview.org/about-us/review-criteria/[2019-06-29]访问
最大的流行病风险是什么?病毒的错误信息。自然2018 10月;562(7727):309。［CrossRef] [Medline］
Qazvinian V, Rosengren E, Radev D, Mei Q.谣言有它:识别微博中的错误信息。在:自然语言处理经验方法会议论文集。2011年发表于:EMNL '11;2011年7月27-31日;爱丁堡，英国，1589-1599页。
赵卓，Resnick P，梅q .询问的心灵:从询问帖子早期发现社交媒体中的谣言。收录于:第24届万维网国际会议论文集。2015年发表于:WWW'15;2015年5月18-22日;意大利佛罗伦萨，1395-1405页。［CrossRef］
Vosoughi S, Mohsenvand M, Roy D.谣言评估:预测Twitter上谣言的真实性。美国计算机学会知识发现数据2017年8月21日;11(4):1-36。［CrossRef］
马俊，高伟，Mitra P，权S, Jansen BJ，王凯峰，等。利用循环神经网络检测微博谣言。2016年第25届人工智能国际联合会议论文集，IJCAI'16;2016年7月09-15日;美国纽约，第3818-3824页。
刘勇，徐松。基于CSI的假新闻检测混合深度模型。见:2017年ACM信息与知识管理会议论文集，2017年CIKM'17;2017年11月06-10日;新加坡，新加坡页797-806。［CrossRef］
陈涛，陈涛，张志强，等。武器化的健康传播:推特机器人和俄罗斯喷子放大了疫苗的争论。美国医学杂志公共卫生2018年10月;108(10):1378-1384。［CrossRef] [Medline］
Dredze M, Broniatowski DA, Smith MC, Hilyard KM。理解疫苗拒绝:为什么我们现在需要社交媒体。美国预防医学杂志2016年4月;50(4):550-552 [免费全文] [CrossRef] [Medline］
Salathé M, Khandelwal S.用在线社交媒体评估疫苗接种情绪:对传染病动态和控制的影响。公共科学图书馆计算生物学2011年10月;7(10):e1002199 [免费全文] [CrossRef] [Medline］
杜俊，唐磊，向勇，志东，徐俊，宋华，等。2015年麻疹爆发期间推文的公众感知分析:使用卷积神经网络模型的比较研究。J Med Internet Res 2018年7月9日;20(7):e236 [免费全文] [CrossRef] [Medline］
Chew C, Eysenbach G.推特时代的流行病:2009年H1N1爆发期间推文的内容分析。PLoS One 2010 11月29日;5(11):e14118 [免费全文] [CrossRef] [Medline］
Dunn AG, Leask J, Zhou X, Mandl KD, Coiera E.社交媒体上对人乳头瘤病毒疫苗负面意见的暴露与表达之间的关系:一项观察性研究。J Med Internet Res 2015 Jun 10;17(6):e144 [免费全文] [CrossRef] [Medline］
Dunn AG, Surian D, Leask J, Dey A, Mandl KD, Coiera E.绘制社交媒体上的信息暴露，以解释美国HPV疫苗覆盖率的差异。疫苗2017年5月25日;35(23):3033-3040 [免费全文] [CrossRef] [Medline］
Surian D, Nguyen DQ, Kennedy G, Johnson M, Coiera E, Dunn AG。使用主题建模和社区检测来描述关于HPV疫苗的Twitter讨论。J Med Internet Res 2016 Aug 29;18(8):e232 [免费全文] [CrossRef] [Medline］
杜杰，Cunningham RM，向勇，李峰，贾勇，Boom JA，等。利用深度学习来了解社交媒体上关于人类乳头瘤病毒疫苗的健康观念。NPJ数字医学2019;2:27 [免费全文] [CrossRef] [Medline］
邵C, Ciampaglia G, Flammini A, Menczer F. Hoaxy:一个追踪在线错误信息的平台。见:第25届国际万维网会议论文集，2016年发表于:WWW'16;2016年4月11-15日;Montréal，加拿大p. 745-750。［CrossRef］
Dunn AG, Mandl KD, Coiera E.精准公共卫生的社交媒体干预:承诺和风险。NPJ数字医学2018;1:47 [免费全文] [CrossRef] [Medline］
柯迪兹JB，朱k，埃默里SL，拉金CR，詹姆斯AE，韦林J，等。对Twitter健康信息进行实时监控。美国公共卫生杂志2018年8月;108(8):1009-1014。［CrossRef] [Medline］
因特网上的信息流行、经济学和免疫。我们对信息对公共卫生的影响仍然知之甚少。Br Med J 1998 Nov 28;317(7171):1469-1470 [免费全文] [CrossRef] [Medline］
谷歌代码。2018。语言检测URL:https://code.google.com/p/language-detection/[2019-06-29]访问
疾病控制和预防中心，2009年。简单地说;创建易于理解的材料的指南。第三版网址:https://stacks.cdc.gov/view/cdc/11938[2019-06-29]访问
莫伊尼汉R, Bero L, Ross-Degnan D, Henry D, Lee K, Watkins J，等。新闻媒体对药物的好处和风险的报道。中华医学杂志2000 6月1日;342(22):1645-1650。［CrossRef] [Medline］
卫生保健记者协会。卫生保健记者协会原则声明网址:https://healthjournalism.org/secondarypage-details.php?id=56[2019-06-29]访问
Wiggers J.纽卡斯尔大学。媒体医生网址:https://www.newcastle.edu.au/research-and-innovation/centre/chb/research/media-doctor[2019-06-29]访问
Betsch C, Rossmann C, Habersaat KB, Pfeiffer D, Holtmann C, Korn L.世界卫生组织，2017。疫苗接种和信托(2017)网址:http://www.euro.who.int/en/health-topics/disease-prevention/vaccines-and-immunization/publications/2017/vaccination-and-trust-2017[2019-06-29]访问
梅丽提，刘国强，李国强。2017.正则化和优化LSTM语言模型https://arxiv.org/abs/1708.02182[2019-09-19]访问
王晓明，王晓明。面向文本分类的通用语言模型优化。载于:第56届计算语言学协会年会论文集。2018年发表于:ACL'18;2018;澳大利亚墨尔本，第328-339页。［CrossRef］
Mitra T, Wright G, Gilbert E.跨不同事件的社交媒体可信度的简约语言模型。在:2017年ACM计算机支持合作工作和社会计算会议论文集。2017年发表于:CSCW'17;2017年2月25日至3月1日;美国波特兰，页126-145。［CrossRef］
Tomeny TS, Vargo CJ, El-Toukhy S.推特上与自闭症相关的反疫苗信念的地理和人口相关性，2009-15。2017年10月;191:168-175 [免费全文] [CrossRef] [Medline］
Vraga EK, Bode L.使用专家来源纠正社交媒体上的健康错误信息。科学通报2017 9月14日;39(5):621-645。［CrossRef］
Bode L, Vraga EK。看到什么，说什么:纠正社交媒体上的全球健康错误信息。卫生交流2018年9月33日(9):1131-1140。［CrossRef] [Medline］
彭尼库克G，坎农TD，兰德DG。事先曝光会增加假新闻的感知准确性。《心理学报》2018年12月;147(12):1865-1880。［CrossRef] [Medline］
Briones R, Nan X, Madden K, Waks L.当疫苗病毒传播时:对YouTube上HPV疫苗覆盖率的分析。卫生交流2012;27(5):478-485。［CrossRef] [Medline］
Madathil KC, Rivera-Rodriguez AJ, Greenstein JS, Gramopadhye AK。YouTube上的医疗保健信息:系统回顾。卫生信息学杂志2015年9月21日(3):173-194。［CrossRef] [Medline］
Venkatraman A, Garg N, Kumar N. web 2.0上更大的言论自由与将疫苗与自闭症联系起来的观点的主导地位相关。疫苗2015年3月17日;33(12):1422-1425。［CrossRef] [Medline］

‎

DL:深度学习

人乳头状瘤病毒:人类乳头状瘤病毒

QIMR:卫生相关媒体报道质量指数

射频:随机森林

RNN:循环神经网络

支持向量机:支持向量机

tf-idf:术语频率-逆文档频率

G·艾森巴赫(G Eysenbach)编辑;提交17.03.19;MY Song, A Majmundar, A Louren, C Liang同行评议;对作者06.05.19的评论;修订本收到29.06.19;接受02.09.19;发表04.11.19

©Zubair Shah, Didi Surian, Amalie Dyda, Enrico Coiera, Kenneth D Mandl, Adam G Dunn。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2019年11月04日。

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

自动评估在社交媒体上分享的疫苗相关网页的可信度:一项推特监视研究