JMIR公共卫生和监督-“妈妈博客”和疫苗豁免叙事:来自育儿社交媒体网站上故事聚合的机器学习方法的结果

原始论文

¹美国加州大学洛杉矶分校数字人文中心

²加州大学洛杉矶分校电气工程系，美国加州洛杉矶

^3.菲尔丁公共卫生学院，加州大学洛杉矶分校琼森综合癌症中心，加州大学凯撒永久健康公平中心，加州大学洛杉矶分校，美国加州洛杉矶

通讯作者:

Vwani Roychowdhury博士

电气工程系

加州大学洛杉矶分校

工程四楼56-125B

威斯特伍德广场420号(包厢951594)

洛杉矶，CA, 90095-1594

美国

电话:1 310 206 4975

传真:1 310 825 9754

电子邮件:vwani@ee.ucla.edu

背景:社交媒体提供了一个前所未有的机会来探索人们如何在非常大的范围内谈论医疗保健。大量研究表明，有用户论坛的网站对人们寻求与健康有关的信息的重要性。父母们转向其中一些被俗称为“妈妈博客”的网站，分享对孩子健康保健的担忧，包括接种疫苗。尽管有大量工作考虑了社交媒体(尤其是Twitter)在疫苗接种和其他卫生保健相关问题讨论中的作用，但很少有工作描述这些讨论的潜在结构和有说服力的故事讲述的作用，特别是在帖子长度没有限制的网站上。了解有说服力的故事在互联网范围内的作用，可以对人们如何讨论疫苗接种提供有用的见解，包括寻求豁免的行为，这与最近一些社区的群体免疫力下降有关。

摘要目的:开发一种自动的、可扩展的机器学习方法，用于在专门讨论育儿问题的社交媒体网站上聚合故事。我们希望通过个人的经验交流和评论，发现个人在特定主题领域的总体叙事框架。我们还想在研究期间描述这些网站叙事框架的时间趋势。

方法:为了确保我们的数据捕捉的是对近期事件的长期讨论，而不是短期反应，我们开发了一个由4056名用户贡献的199万篇帖子的数据集，并在105个月的时间里浏览了2个育儿网站的2012万次索引。使用概率方法，我们确定了这些育儿网站上的讨论主题。我们开发了一个生成式统计-机械叙事模型，可以自动从数百万个帖子中提取潜在的故事和故事片段。我们将故事聚合成一个总体叙事框架图。在我们的模型中，故事被表示为以行动者为节点，其各种关系为边的网络图。通过将帖子建模为隐藏叙事框架图的样本，我们估计了在这些网站上传播的潜在故事。基于每月的用户后统计数据检查了时间趋势。

结果:我们发现免除疫苗接种要求的讨论有很高的代表性。我们发现了一个与寻求豁免和不信任政府和医疗机构的文化有关的强大叙事框架。各种帖子强化了部分叙事框架图，其中父母、医疗专业人员和宗教机构成为关键节点，寻求豁免成为重要优势。在总体的故事中，父母利用宗教或信仰来获得豁免，以保护他们的孩子免受学校或政府机构要求的疫苗的伤害，但(据称)会导致不良反应，如自闭症、疼痛、免疫力下降，甚至死亡。尽管随着时间的推移，家长们加入和离开了论坛，但关于豁免的讨论和故事对这些成员的变化是持续而有力的。

结论:使用自动分析方法(例如本文所介绍的方法)分析有关医疗保健的家长论坛，可以发现构建和告知讨论的广泛叙事框架。在我们分析的网站上的大多数疫苗接种报道中，人们想当然地认为疫苗和不可疫苗预防的疾病(VPDs)对儿童构成威胁。因为疫苗被视为一种威胁，父母们专注于分享避免疫苗的成功策略，豁免是这些策略中最重要的。当新父母加入这些网站时，他们可能会接触到他们阅读和贡献的线索中的这种地方性叙事框架，这可能会影响他们的医疗保健决策。

JMIR公共卫生监测2016;2(2):e166

doi: 10.2196 / publichealth.6586

关键字

疫苗接种；社交媒体；机器学习；个人故事；互联网；健康知识；的态度；实践

在过去的15年里，社交媒体的爆炸式增长以及随之而来的信息网站的兴起改变了人们获取医疗保健信息的方式[1-4］．各种专门讨论育儿和为人父母问题的网站，俗称“妈咪博客”，吸引了数百万用户。3.，5］．虽然直接的数据挖掘技术，如主题建模，存在确定什么父母们在这些网站和其他类似的网站上谈论的，很少有技术可以确定如何他们正在谈论那些话题。

在这些育儿网站上讨论的许多话题中，很少有话题像儿童疫苗接种一样受到如此多的关注和热烈的讨论。尽管存在安全有效的疫苗，但疫苗可预防疾病(VPDs)的零星暴发表明，旨在使这些疫苗易于获得和广泛适用的公共项目与主要基于意识形态原则抵制疫苗接种的父母之间的持续紧张关系[6-9］．疫苗接种率的下降危及了几十年来一直处于消灭边缘的疾病的消灭，而且，正如最近的疫情所证明的那样，威胁着通过长期疫苗接种计划而形成的来之不易的群体免疫[6，10］．人们越来越多地考虑豁免在诱发疫苗传染性疾病暴发方面的作用，尽管目前几乎没有证据直接支持这种联系[11］．

虽然对育儿网站的简单检查和标准文本挖掘方法可以确认疫苗接种是这些网站上经常讨论的话题，但这些方法无法确定这些讨论的结构。这是我们研究的目的。

简介

在这项研究中，我们分析了4056名用户发表的199万篇帖子，并浏览了2个流行育儿网站在2012年结束的105个月里的2012万次索引。除了简单地确定网站上的主要讨论主题之外，我们还发现了解释这些不同讨论中流传的故事的潜在叙事框架，这种方法扩展了最近在互联网论坛上关于个人经历和健康知识交流的工作[12-16］．除了描述父母在讲故事时激活的叙事框架外，我们还提供了这些故事中实际互动和关系的细粒度视图，提供了对个人对疫苗接种态度转变的洞察。图1显示描述此工作流步骤的管道。

这项研究的数据来自于两个流行的育儿社交媒体网站。我们之所以选择这两个网站，是因为它们在新父母中很受欢迎，会员主要是自认为是母亲的人[2，17］．由于母亲处于讨论婴儿健康问题的“第一线”，这些网站提供了关于她们如何作出与疫苗接种有关的决定的重要信息[18］．虽然第二个网站的活跃海报群体在意识形态上比历史上反对接种疫苗的mothering.com更多样化，但两个网站的成员都来自广泛的背景和广泛的地理多样性，尽管主要来自美国和加拿大。这两个博客的语言都是英语。我们索引了出现在与儿童疫苗接种相关的论坛上的帖子，递归地访问并存储了所有公开的讨论线程和日期-时间数据，同时创建了任何可访问用户数据的匿名索引，基于105个月的索引数据(2004-2012)，我们得到了来自mothering.com上12,376个用户的299,778个帖子的corpus，以及来自第二个网站上27,790个用户的1,700,086个帖子(由于服务条款，未命名)。基于60个月的索引数据(2008-2012)(UCLA IRB #16-000456)。这些帖子组成了用于分析的语料库。

故事的主题

对于这两个育儿网站，我们通过自动内容分析过程确定了讨论的主题和讨论中流传的故事。我们首先使用两种不同的概率方法计算论坛中的主要主题，潜狄利克雷分配(LDA)和上下文随机游走陷阱(CRWT) [19，20.］．LDA是一种生成概率主题建模算法，它提出语料库中的每个文档都由少量主题的混合组成，并且文档中出现的单词可以归因于它在文档的一个主题中的成员。CRWT为语料库中的所有单词创建了一个共现网络，然后将这个网络分解成一个随机游走陷阱的层次结构。每个这样的随机游走陷阱，由一系列文档词汇表(单词袋)组成，由它们各自的稳态概率加权，作为CRWT中的一个主题。在这两种情况下，我们将每个线程(由不同用户的一组帖子组成)视为一个文档。我们仅使用主题建模来发现这些网站上的讨论主题，并推导出名词的排名列表。

故事

为了了解人们如何谈论发现的话题，我们开发了一个故事模型，即行动者-关系上下文模型，并使用它从整个199万个讨论帖子中提取潜在的故事，认识到论坛帖子通常只包括故事的一部分或对故事部分的评论，而不是完整的故事。我们将故事部分概念化为行动者之间的关系[21］．这些关系很好地映射到Kitta所描述的疫苗故事主题。22]并经常使用Kata发现的比喻[3.］．我们开发了一个生成式统计-力学网络模型，其中行动者(行动者和对象)是节点，节点之间的关系是边。这些边被标记为关系的性质、发现关系的上下文以及它的可能性。行动者和关系然后与Labov的四部分结构地图的修改版本相一致，用于个人体验叙述，包括(1)方向，其中定义了兴趣社区;(2)复杂行动:威胁，即某物威胁着方向上划定的社区;(3)复杂行动:策略，即故事中的行动者设计出应对威胁的策略;以及(4)决议，其中报告了使用拟议战略挫败威胁的结果[23，24］．

在我们的模型中，为了生成一个社交媒体帖子，用户选择了一组参与者，并从这些参与者之间的关系分布中抽取信息。然后，用户根据第一步的结果撰写文章。在社交媒体语料库中，隐含的概率模型包括主要行为人及其上下文关系。因此，我们的任务是估计这个隐藏的模型从posts。我们通过一种计算上可扩展的估计算法来实现这一点，这种算法只需要最少的监督。由于数据是大规模的，故事信号是持久的，我们发现使用来自自然语言处理(NLP)工具的最小信息(如名词和动词)的计算可扩展推断算法为我们的数据集提供了准确的结果。

Actants

我们使用自动发现的主题来确定主题空间中的重要参与者，认识到主题可以跨越论坛分类的竖井。为此，我们根据高频名词的排名列表提取了一个活性术语池。这些名词又聚合在一起，衍生出活性范畴。在与疫苗接种相关的主题中，我们发现了3类主要的活性物:个体活性物，包括父母、儿童和医疗专业人员;机构行动者，包括政府机构、宗教机构、制药公司和学校;对象，包括疫苗、豁免、vpd和不良反应。与行动者相关的词由行动者的同义词和将行动者作为超类别的实体组成。例如，“政府”包括口语化的同义词“联邦政府”以及政府机构“疾病预防控制中心”，其中“政府”是疾病预防控制中心的超级类别。

Actant⇔Actant上下文

我们用一组动词来描述一对动件之间的上下文，当两个动件同时讨论时，这些动词是有意义的。已知动词在大规模语料库中捕捉二元关系[25］．由动词定义的上下文具有区分能力，因为它们捕捉了相同的行动词在不同上下文中所扮演的不同角色。

为了建立一个动词对特定的一对行动体(即上下文)的意义，我们比较了动词与两个行动体同时出现的条件概率与其边际概率:一个动词是上下文意义重大如果P_一对=概率(动词|这个句子有两个行动者)>> P_语料库=Prob(语料库中任意句子中的动词)。这种方法削弱了经常出现的动词，如“has”、“is”和“are”的效果(对于这些动词，P_一对≈P_语料库)，同时强调描述行动者之间有意义关系的主题动词。

由于在任何语境中都有许多动词，我们通过评分或加权函数对不同动词的相对重要性进行排名f(P_一对P_语料库)，然后选择最上面的词作为动词集来描述上下文。我们实证测试了各种评分函数，包括术语频率逆文档频率(TF-IDF)风格评分函数，并发现Kullback-Leibler (KL)散度度量(图2)，结果最佳[26］．虽然结果在很大程度上不受排名方法的特定选择的影响，但我们发现KL发散能够更好地过滤掉语料库中情态动词和助动词的流行等噪声。对于任何动词，KL得分越高，这个动词对两人的意义就越大。

为了在计算上实现上述思想，我们使用Python中的自然语言工具包(NLTK)库，用词性(POS)标签标记整个语料库[27］．当我们提取动词时，我们使用工具箱中的波特词干器记录了它们的词干版本。例如，“被资助的”、“基金”等等都被记录为基本形式“基金”。对于每一个词干动词，v，我们计算了该动词出现在语料库中任意句子的边际概率(图3),N_v次数是动词吗v出现在语料库中，和N是语料库中所有动词出现频率的总和。然后，对于任何给定的上下文(定义为两个行动体同时出现的所有句子的集合)，我们计算一个动词在特定上下文中同时出现两个行动体的条件概率(图4),N_v(C）次数是动词吗v发生在给定上下文中，并且N (C）是上下文中所有动词出现频率的和。然后，我们计算排序，以确定表征给定上下文的顶级动词集(图5)，并将它们按递减顺序排列，以获得具有给定上下文特征的顶级动词集。

图2。计算Kullback-Leibler发散度度量作为权重函数来排序不同动词的重要性。

Actant⇔Actant关系

一旦我们确定了上下文的排序动词列表，我们就返回到该上下文的句子，并使用POS标记器输出确定这些重要动词相关的活动动词对。我们认识到不同的动词可以表达相同类型的动词性关系，所以我们将动词分为“关系”类，就像我们将名词分为动词性类一样。从叙事理论中得到启示，我们根据动词之间的一系列二元对立对这些关系进行了分类，将排名靠前的同义词与其排名靠前的反义词组合在一起，使我们能够将这些关系与个人经历叙事的结构联系起来。28］．为了便于阅读，我们为这些对立动词组设计了标签。

我们确定了两种主要的二元对立关系。第一组关系是个体与机构行动者之间的关系，具有二元对立要求或抵制，建议或疑问，保护或威胁，雇佣还是忽视，接受还是拒绝,参加或回避．第二组关系是个体和制度行动者与客体之间的关系，或客体与客体之间的关系，具有二元对立寻求或请求，给予或扣留，原因或不是原因,保护或威胁．

为了说明这一过程，考虑动词“使用”，它被确定为免责条款中的重要动词⇔宗教-院校背景(表1)．以下句子摘自一篇文章，其中包含了行动者豁免而且宗教机构，我们已突出显示相关的词语:

这里是一些纽约的信息:(豁免信的样本在这里)这里是关于你如何不需要证明你是教会的成员才能使用宗教豁免的信息

动词“use”将“you”(家长行为者)与“church”(宗教机构行为者)联系起来。连接两个行动词的动词范畴成为了在那个语境中这两个行动词之间的重要关系。例如，在上面的情况下，动词“使用”落入雇佣还是忽视类别，有指向雇佣还是忽视边缘从父母节点到宗教-机构节点。我们对所有可能的上下文重复了这个过程(我们在多媒体附件1)．

故事图

我们将每个上下文可视化为一个网络故事图，以行动者为节点，重要关系作为连接行动者的边，从而为任何上下文捕获行动者之间关系的丰富结构。然后，我们通过将每个上下文的故事图聚合到单个图中来创建摘要图。我们把这个总结图称为叙述框架。

故事信号趋势

为了描述与疫苗接种豁免相关的新帖子活动和与豁免相关的新用户活动的时间趋势，我们计算了每个网站(1)每月包含“豁免”一词的新帖子的比例以及(2)每月发布含有“豁免”一词的帖子的新用户的比例。由于用户可以访问旧帖子和新帖子，为了描述论坛用户可以看到的与豁免相关的帖子内容的比例，我们还计算了在研究期间包含“豁免”一词的帖子的每月累计比例。我们为mothering.com网站制作了一个用户活动持续时间(以天为单位)分布的对数线性图，使用的bin宽度为3个月。

故事的主题

在我们的两个目标站点上，主题建模显示，疫苗接种和有趣的是，豁免构成了重要的讨论主题(有关主题的完整列表，请参阅多媒体附件1)．

我们在R中以多个粒度级别运行LDA主题建模，从k=20到k=200，间隔为20 (LDA主题模型的样本包含在多媒体附件1) [29］．在主题参数K=60之后，我们发现主题，如“豁免”，在很大程度上被分割为多个“豁免”主题。在mothering.com论坛上，“豁免”话题已经出现在主题参数K=20的热门话题中:话题10和话题14(排名前5的单词):豁免学校宗教状态要求。尽管第二个站点的数据展示了更大的论坛和帖子，但“豁免”主题仍然作为一个独立的主题出现在前60名列表中(它并不是K=20或40的独立主题，而是疫苗接种等更大主题的重要组成部分):主题46(排名前5的单词):国家宗教豁免儿童形式。

CRWT方法同样为第二个网站提供了比mothering.com更多样化的主题集，但两个网站上与豁免相关的主题仍然是不同的，由以下一些词组成:“宗教豁免信仰豁免信仰属于最高要求。”作为输出的一部分，CRWT产生主题层次结构。例如，mothering.com上的“豁免”主题揭示了一个层次结构，其中豁免是“拒绝”、“信念”和“要求”的超级类别，如所示图6．这两种主题建模方法独立地确定了“豁免”作为我们使用的所有级别建模的两个论坛讨论主题的重要性。

图6。通过上下文随机游走陷阱(CRWT)方法从mothering.com帖子中计算出与豁免相关的主题的层次结构。PR表示共现网络中单词节点的页面秩。

故事

故事模型允许我们确定人们如何谈论通过主题建模发现的主题。考虑到这些主题可以在整个语料库中讨论，我们没有将文档分配给主题。相反，我们专注于发现潜在的叙事框架，在各种帖子中激活它，有助于这些讨论的结构。

首先，我们确定主题空间中的活动体(表1)、关系范畴及相关动词(表2)．我们发现豁免- - -孩子们-相关的上下文足以产生对讨论和嵌入其中的故事的详细理解。基于豁免(例如，豁免和儿童)的上下文的结果显示在表3．第一列由关系中的第二个行为人组成，第二列由相关上下文中出现的最重要的动词组成。这些故事显然涉及家庭(定向)，由父母为子女做出保健决定。父句中的动词⇔豁免情境揭示了父母试图获得豁免作为一种策略(复杂行动:策略)。当我们考察《儿童》中的动词时，寻求豁免的动机就变得显而易见了⇔疫苗接种背景(表4):寻求豁免是一种保护儿童免受(感知到的)疫苗接种威胁的策略(复杂行动:威胁)。战略使用豁免的结果各不相同，有的成功获得豁免，有的哀叹无法获得这种豁免。

我们用不同背景下的故事图来说明这些发现，并将其聚合成一个单一的叙事框架图(图7)．重要的是，我们的方法认识到行动者之间的关系可以根据上下文而变化。在儿童⇔免税故事图中(图7A)，人们看到豁免对保护儿童不接种所需疫苗的核心重要性。豁免⇔学校故事图(图7B)显示了学校和其他政府机构在要求接种疫苗方面所起的作用(深绿色)，一方面在家长和另一方面在政府机构之间建立了敌对关系。在豁免中⇔宗教机构故事图(图7c)，宗教机构和家长(浅蓝色)之间出现了一个重要的关系，因为我们发现家长和宗教机构主要是在一个基础上联系起来的雇佣还是忽视的关系。这意味着父母利用他们与宗教机构的关系(或更广泛的信仰概念)作为一种手段，为他们的孩子争取豁免。与儿童有关的上下文(图7D-e)进一步强调了父母在保护儿童免受据称由疫苗接种引起的不良反应方面所发挥的作用，以及加入宗教机构在获得豁免方面所发挥的作用。在儿童中⇔例如，在宗教机构背景下，父母与宗教机构之间的关系转变为接受或拒绝，主要集中在父母对教会教义的接受程度上。

表1。Actant模型。

实体(节点)		关联词集
个人actants
	父母	父母，父母，我，我们，我们，你
	孩子们	孩子，孩子，孩子，孩子，女儿，女儿，儿子，儿子，蹒跚学步的孩子，孩子，男孩，d(耳朵)d(笑声)，d(耳朵)s(on)
	医学专家	医生，医生，儿科医生，儿科医生，护士，护士，儿科医生，医学博士，医生
机构actants
	政府	政府，疾病控制中心，联邦政府，联邦政府，疾病控制中心，官员，政客，官员，法律
	宗教机构	信仰，宗教，牧师，牧师，教区，教区，教堂，教堂，会众，会众，神职人员
	学校	老师，老师，幼儿园，幼儿园，学校，学校，班级，日托所，日托所，班级
	制药公司	制药公司，大型制药公司，公司，公司
对象
	疫苗	疫苗，接种，疫苗，接种，注射，注射，接种，未接种，未接种，接种，接种，接种，接种，接种，接种，接种，疫苗，接种，疫苗，成分
	豁免	豁免,免除
	VPDs^一个	水痘、水痘、流感、百日咳、破伤风、百日咳、肝炎、小儿麻痹症、腮腺炎、麻疹、白喉
	的不利影响	自闭症，自闭症，发烧，发烧，反应，反应，感染，感染，炎症，炎症，疼痛，疼痛，出血，瘀伤，腹泻，腹泻

^一个VPDs:疫苗可预防的疾病。

表2。关系模型。

关系(边)		关联词集(词根)
个人或机构行动者之间
	要求或抵制	强迫，要求，需要，遵循，授权
	建议或疑问	推荐，告诉，说，反对，问，学，教
	保护或威胁	保护，伤害，破坏
	雇佣还是忽视	使用，提交，忽略
	接受还是拒绝	接种，不接种，打疫苗，不接种，接受，有，曾经，得到，注射，排除，允许，免除，相信，接受，请求，拒绝，接受
	参加或回避	进入，注册，参加，去，送，在家上学
个体或机构行动者与对象之间或对象之间
	寻求或请求	寻找，归档，签署，要求，提交，需要，练习，撒谎，要求
	授予或扣缴	接受，批准，得到，滥用，同意，反对，否认
	保护或威胁	保护，伤害，破坏
	原因或不是原因	暴露，得到，感染，引起，发展，痛苦，死亡，呕吐，诊断

表3。排名前10位的高相关性动词(词根)，描述了上下文，包括“豁免”和其他主要的行动动词类别。动词是根据KL发散度分数排序的，但我们在括号中显示了动词的频率，以便进行比较。在免责-父母上下文中，动词“have”出现频率为1561次，排在“exercise”之前，频率仅为275次。

儿童情境中的行动者	与豁免有关的重要动词(动剂)
父母	豁免(207)，练习(228)，签名(275)，有(1561)，关注(196)，索赔(185)，疫苗(241)，属于(132)，我们(472)，要求(199)
孩子们	豁免(220)，练习(191)，关注(175)，vaccin(202)， vax(133)，要求(152)，签署(116)，参加(99)，登记(56)，允许(106)
医学专家	Sign (101)， exempt(21)， give(72)， write(34)， requir(35)， get(131)， have(229)， submit(16)， obtain(17)， file(17)
政府	Bind (51)， decide (51)， requir(41)， us(67)， exempt(17)， belong(22)， accept(29)， seek(19)， furnish(8)， obtain(12)
宗教机构	Belong (294)， rule(114)， offer(152)， do(456)， claim(105)， us(191)， have(445)， find(149)， bind(51)， decide (50)
学校	Belong (146)， rule(116)， offer(160)， requir(130)， sign(120)， attend(103)， exempt(59)， find(184)， have(682)， accept(104)
疫苗	Vaccin(377)，豁免(173)，要求(323)，vax(252)，索赔(208)，接收(191)，签字(150)，请求(106)，允许(200)，反对(91)
VPDs^一个	Requir (14)， exempt(7)， vaccin(15)， sign(12)， get(34)， reject (9)， have(55)， prove(6)， document(4)， decid(8)
的不利影响	Had (64)， exempt(12)， obtain(12)， requir(18)， get(60)， link(12)， choose(9)， follow(15)， increas(11)， qualifi(9)

^一个VPDs:疫苗可预防的疾病。

表4。排名前十的高相关性动词(词根)，在第二个网站上，它们代表了由“儿童”和其他主要行为类别组成的上下文。这些动词是根据KL发散度分数排序的，但我们在括号中显示了动词的频率，以便进行比较。

豁免情境中的活性物	与子有关的重要动词(动动词)
父母	Have (190359)， give(27803)， learn(18254)， am(46173)， choos(11446)， want(46512)， think(60272)， rais(9756)， know(61261)， teach(8982)
医学专家	Nurs (1728)， vaccin(1450)， told(1986)， had(4091)， said(2582)， diagnostics (893)， take(2467)， recommend(642)， give(1782)， took(926)
政府	Vaccin(615)，推荐(447)，receiv(380)， accord(291)， mandat(144)， ha(1211)， caus(328)， injury (139)， report(214)， include (299)
宗教机构	Teach (2010)， are(2873)， is(3706)， church(127)， attend(221)， go(937)， rais(174)， believe (335)， allow(164)， pray(73)
学校	参加(2150)，去(11284)，ha(10885)，发送(2041)，开始(4659)，工作(4910)，得到(12171)，daycar(621)，需要(5944)，教学(1645)，注册(689)
疫苗	Vaccin (16262)， vax(6176)， receiv(3859)， ha(8439)， injury (1247)， given(2321)， unvaccin(930)， caus(2315)， recommend(1507)， unvax(657)， protect(1269)
VPDs^一个	Vaccin (1409)， receiv(1071)， had(2622)， get(2840)， recommend(510)， vax(450)， given(590)， develop(441)， got(1005)， expos(333)
的不利影响	Ha(17530)，诊断(4961)，有(29879)，有(9852)，自闭症(1023)，病因(2617)，发展(1461)，疫苗(1756)，是(33778)，影响(1064)

^一个VPDs:疫苗可预防的疾病。

总结的故事图(图7F)，通过聚合上下文之间的关系获得，明确了潜在的叙事框架。总的来说，父母利用宗教或信仰来获得豁免，以保护他们的孩子免受学校或政府机构要求接种的疫苗的伤害，但(据称)会导致诸如自闭症、疼痛、免疫力下降甚至死亡等不良反应。

概括的故事图还揭示了几个值得注意的子故事。其一，宗教机构而不是学校扮演“老师”的角色。在这个副故事中，学校被降级为家长的对手，要求接种疫苗，并行使接受或拒绝豁免的权力。在另一个子故事中，医疗专业人员扮演对手的角色。父母质疑他们接种疫苗的必要性，并怨恨他们是疫苗要求的执行者(威胁)。然而，父母也需要医疗专业人员的帮助，因为他们是豁免的授予人(策略)。在这个故事和总结叙事框架图所基于的所有子故事中，有两个明显的遗漏:几乎完全没有vpd和制药公司作为行动者。vpd所起的唯一作用是被动的:孩子们会感染它们(见倒数第二行)表2)．制药公司通常被称为“大型制药公司”，它们在讨论豁免的背景下没有重要作用。

图7。故事图和叙事:子图a-e表示mothering.com中不同上下文对应的故事图，子图f是总体主叙事图。

故事信号趋势

图8显示每个网站每月包含“豁免”一词的所有新帖子的比例。mothering.com网站上平均约5.32%的新帖子包含“豁免”一词;在第二个站点上，平均值约为0.35%。趋势显示，免责话题信号随着时间的推移呈现出一些变化，但不是“突发”的，并且在所有月份都有一定程度的活动，尤其是在mothering.com上。

图9按月显示每个网站新用户发布包含“豁免”一词的帖子的比例。平均而言，约24.42%和4.34%的新用户在这两个网站上发布了此类帖子。在整个研究期间，这一比例相当稳定，除了2007年初的第二个站点，它是在我们开始数据收集之前不久建立的。

图10显示两个网站每月包含“豁免”一词的帖子的累积比例。由于用户可以查看旧帖子和新帖子，这个指标有助于描述网站上与豁免相关内容的普遍性。在mothering.com网站上，有关豁免的帖子比例稳定在4.81%左右。对于第二个站点，累积分数最初有所上升，然后稳定在约0.34%。

mothering.com网站的用户活动持续时间(以天为单位)分布的对数线性图显示在图11．请注意，指数尾(切断)开始于大约2.5岁(即1000天)，这是大多数儿童接受大部分疫苗的典型年龄。这表明，新妈妈在疫苗接种的讨论中最积极，而随着孩子过了接种大多数疫苗的年龄，母亲的积极性就会降低。

图11。mothering.com网站的用户活动持续时间(以天为单位)分布的对数线性图。

主要研究结果

我们为这项研究开发的方法使我们能够发现在社交媒体网站上非正式传播的故事。我们的系统可以检测到在其他非常嘈杂的网站上故事信号的存在、持久性和普遍性，将这些故事信号聚合到一个叙事框架中，并提供一个清晰的机制来追踪这些故事中支持的具体策略的出现，父母可能会采取这些策略来抵消感知到的健康威胁。这些网站在让父母了解接种疫苗是一种威胁，以及使用豁免作为对抗这种威胁的策略方面发挥着重要作用[30.］．任何新加入这些网站的父母，无论他们对疫苗接种的倾向如何，都会接触到激活疫苗接种作为威胁、豁免作为策略的叙事框架的故事。

在我们研究的网站上，叙述框架是这样的:疫苗对儿童构成威胁，父母作为保护者设计策略，最常见的是使用豁免，以挫败这种威胁。叙事框架是如此广泛地分散，它已经跨越了育儿网站的许多部分。在这些讨论中，一个强烈而持久的信号表明，家长积极地寻求有关豁免的信息。加入这些网站的新父母可能很快就会接触到这些故事中编码的信念和潜在的叙事框架。

考虑到社交媒体的90-9-1规则，90%的访问者只是阅读而不评论(9%)或投稿(1%)[31)，叙事框架的受众很可能比简单的用户统计数据所显示的要多得多。请注意，我们研究的199万篇帖子中，来自注册用户的总浏览量超过2000万次(非注册用户可以查看这些帖子，但他们的浏览量没有被记录，因此没有被制成表格)。即使对那些最初可能不相信疫苗有害的父母来说，关于接种疫苗的潜在危害和豁免策略保护儿童免受这种所谓威胁的有效性的故事不断流传，也可能使一些父母接受这些信念[32］．

限制

我们的工作有一定的局限性。与所有社交媒体研究一样，目前尚不清楚我们所关注的网站是否能代表整个父母和医疗保健决策者。虽然我们使用的这两个网站在家长中很受欢迎，但我们认识到，它们没有捕捉到在不容易观察到的非正式环境中发生的广泛讨论，如操场、学校聚会和其他家长互动的地方。在这些情况下，民族志田野调查可以为与疫苗相关的讨论和讲故事提供重要的定性视角[24］．与此同时，重要的是要认识到，即使是更有利于定性民族志方法的环境也不能免受社交媒体的影响，社交媒体日益渗透到日常生活中。

我们认识到育儿网站有一定的偏见。比如Mothering.com，因为它与这家现已倒闭的网站有着长期的合作关系母性杂志，有反疫苗接种的偏见[11，12］．众所周知的同质性社会网络现象可能在这些网站上创造了一个意识形态的回音室。尽管如此，第二个网站上的帖子和用户参与(来自意识形态更加多样化的人群)也反映了疫苗豁免叙事框架的持久性和普遍性。将我们的方法扩展到更广泛的育儿网站样本，可能会减轻这些帖子中的潜在偏见。与此同时，将这种方法扩展到其他类型的社交媒体，其中对话不太有组织，如Facebook，可能会获得更广泛的叙事框架，构建与疫苗相关的对话。某些流行的社交媒体网站，如Twitter，由于帖子长度的重大限制，不包括在这项研究中。

我们的工作目前还不包括情感检测。虽然我们将社交媒体在医疗保健中的应用，从主题发现扩展到分析这些讨论的潜在叙事结构，但我们还没有研究这些讨论的框架方式，而情感检测可能能够提供这种框架。

数据隐私仍然是社交媒体研究的一个重要问题。在我们的研究中，我们将所有数据匿名化，作为索引过程的一部分，因此无法利用个人用户和用户社区数据的某些特征。用户隐私和研究利益之间的权衡是社交媒体研究领域不断变化的一部分，我们选择在隐私方面犯错误。数据访问正成为一个同样重要的问题，因为社交媒体公司正在大大减少人们在其网站上发布和分享的数据的访问。这些限制使得在很长一段时间内追踪大规模对话变得越来越困难。

与之前工作的比较

疫苗接种决策已得到广泛研究[33]，社交媒体对医疗保健决策的影响正受到越来越多的关注[34，35］．一些重要的研究集中在人们对新出现的卫生保健危机(如疾病爆发)的社交媒体反应上，在这些危机中，新闻报道往往会推动参与[35，36］．社交媒体网站上的叙事在医疗保健决策方面作为一种有说服力的修辞策略的作用也已被探索，尽管这项重要的工作在很大程度上是初步的[3.，13，22，37］．我们的工作将注意力从Twitter等网站上的突发活动转移到对几个月甚至几年来演变的长期对话的补充检查，主要关注为这些对话提供信息的新兴和地方性叙事框架，与其他对医疗保健决策态度的大规模研究保持一致[38-40］．

叙事被认为是塑造信念的关键手段。Radzikowski等[13]，在他们对加州麻疹爆发反应的研究中，开发了一个基于推文中关键字协同出现的叙事模型，考虑到Twitter对推文长度的限制因素，这是此类模型的绝佳第一步。考虑到我们数据中帖子的长度，我们能够开发一个更精细的叙事模型，允许我们扩展行动者之间的成对关联。我们的方法不仅表明这些成对关系是对话的关键部分，而且还揭示了行动者如何以上下文依赖的方式相互关联。格兰特等[5]通过4个网站的定性比较，为个人经历叙事对疫苗接种态度的影响提供了明确的证据。Kitta [22]，他曾使用类似的疫苗叙事结构模型，开发了一种重要的疫苗故事类型学，而Kata [3.决定了在反疫苗网站上发挥作用的修辞。我们的自动化方法允许我们将定性工作扩展到非常大规模的数据(数百万个帖子)，从而实现传统文本分析方法的操作方面。

随机抽样方法是了解发展中国家对医疗保健态度的另一种方法。然而，我们发现的叙事很难用随机抽样的方法来识别。鉴于使用焦点小组在为特定社区设计信息宣传活动方面特别有帮助[41，42]，了解社区和大数据规模下的叙事可能有助于提炼这些信息[43-45］．疫苗决策的数学建模[46，虽然很有前景，但它提出了具体的假设，需要从现实世界的数据中验证，才能使结果具有可操作性。我们的方法可能有助于提供这些数据。

结论

将一种想法注入网络社区，比如豁免作为一种避免接种疫苗的策略的有效性，有可能影响许多人——用一句话来说，这种想法可以“病毒式传播”。考虑到个人经历叙述的说服力本质，讲故事在让人们接触想法和将人们转变为特定信仰方面发挥着核心作用。重要的是，人们倾向于相信社区成员的第一手资料，而不是官方声明。5］．社会网络理论在网络社区中建立了强烈的同质性倾向，这往往会导致社区成员之间的共同信任[47］．值得注意的是，当一个社会网络的“高级”成员(那些在自己的网络和其他网络中有很多联系的人)接触到信仰并接受它们时(在这种情况下，是豁免的概念)，网络中的条件就会为这些信仰在整个网络中迅速传播做好准备。不幸的是，这种观念一旦确立，就很难改变。33］．我们相信，在这些网站上非常受欢迎的个人故事利用了在线论坛中形成的共享信任，从而成为将节点转换为这些故事中编码的信念的理想方法。在我们的研究中，豁免信号的持续存在表明，这些网络对应对“疫苗威胁”的豁免策略存在广泛的易感性。

社交媒体网站上关于育儿的大量讨论，以及许多人使用互联网资源作为他们医疗保健信息的第一步，意味着这些论坛值得持续关注。39，48］．确定疫苗豁免叙事框架及其通过个人故事的激活是了解人们如何在这些网站上讨论这一话题的重要一步。同样，识别那些最持久和最普遍的地方性信号，可以帮助将生命周期非常短的想法与潜在的叙事框架区分开来，后者为重复故事提供了基础，有助于思想和态度变得根深蒂固。最终，我们的目标是建立一个系统，监测与医疗保健相关的网站，以发现新兴的信仰和态度，并认识到叙事的力量，以说服和创建志同道合的个人社区。我们的工作使我们离这样一个系统更近了一步。

致谢

这项工作得到了NIH拨款号R01 GM105033-01的部分支持。

利益冲突

没有宣布。

‎

多媒体附件1

补充材料。

PDF档案(adobepdf档案)，9MB

Zimmerman RK, Wolfe RM, Fox DE, Fox JR, Nowalk MP, Troy JA，等。万维网上对疫苗的批评。中国医学杂志，2005;7(2):e17 [免费全文] [CrossRef] [Medline］
后现代的潘多拉魔盒:互联网上反疫苗接种的错误信息。疫苗2010年2月17日;28(7):1709-1716。［CrossRef] [Medline］
反疫苗活动人士、Web 2.0和后现代范式——反疫苗运动在网上使用的战术和修辞的概述。疫苗2012年5月28日;30(25):3778-3789。［CrossRef] [Medline］
Betsch C, Ulshöfer C, Renkewitz F, Betsch T.叙事v.统计信息对感知疫苗接种风险的影响。2011;31(5):742-753。［CrossRef] [Medline］
Grant L, Hausman BL, cascason M, Lucchesi N, Patel K, Roberts J.在线疫苗劝说:对两个prov疫苗和两个疫苗怀疑网站的定性研究。J Med Internet Res 2015 May;17(5):e133 [免费全文] [CrossRef] [Medline］
陈rt .宗教和哲学豁免对免疫法律的影响:麻疹的个人和社会风险。中国医学杂志1999年7月7日;282(1):47-53。［Medline］
Hinman AR, Orenstein WA, Williamson DE, Darrington D.儿童免疫:有效的法律。法律医学伦理杂志2002;30(3增刊):122-127。［Medline］
威廉姆斯SE。哪些因素导致父母对接种疫苗犹豫不决?我们能做些什么?中华免疫杂志2014;10(9):2584-2596。［CrossRef] [Medline］
Etkind P, Lett SM, Macdonald PD, Silva E, Peppe J.百日咳爆发在声称宗教豁免接种疫苗的群体中。中华医学会儿童杂志，1992年2月;26(2):173-176。［Medline］
Fine P, Eames K, Heymann DL。“群体免疫”:一个粗略的指南。临床感染杂志2011年4月1日;52(7):911-916 [免费全文] [CrossRef] [Medline］
Omer SB, Salmon DA, Orenstein WA, deHart MP, Halsey N.拒绝接种疫苗，强制免疫，以及疫苗可预防疾病的风险。英国医学杂志2009年5月7日;360(19):1981-1988。［CrossRef] [Medline］
Dunn AG, Leask J, Zhou X, Mandl KD, Coiera E.社交媒体上对人乳头瘤病毒疫苗负面意见的暴露与表达之间的关系:一项观察性研究。中国医学杂志，2015;17(6):e144 [免费全文] [CrossRef] [Medline］
Radzikowski J, Stefanidis A, Jacobsen KH, Croitoru A, Crooks A, Delamater PL.推特上的麻疹疫苗接种叙事:定量分析。JMIR公共卫生监测2016年1月04日;2(1):1。［CrossRef] [Medline］
张志刚，张志刚。在基于web的乳腺癌决策辅助中，患者叙述对信息搜索的影响:一项眼动追踪研究。中国医学杂志，2013;15(12):e273 [免费全文] [CrossRef] [Medline］
金默尔，张志刚，张志刚。互联网论坛中健康相关知识交流中的个人经历与情绪:比较事实与个人经历反应的随机对照现场实验。J Med Internet Res 2014 12月;16(12):e277 [免费全文] [CrossRef] [Medline］
马佐卡特，特鲁科洛I，安东尼尼M，里纳尔迪F，梅罗P，费拉林E，等。关于补充和替代药物和癌症的网络对话:内容和情感分析。中国医学网络杂志2016;18(6):e120 [免费全文] [CrossRef] [Medline］
阿卢瓦利亚A，黄A，班达里R，罗伊乔杜里V.对话的自动多比例尺地图:母亲和事务。第四届社会信息学国际会议。柏林:施普林格Verlag;2012:15-28。发表于:SocInfo 2012;2012年12月5日至7日;瑞士洛桑。［CrossRef］
伯恩哈特JM，费尔特EM.幼儿母亲在线儿科信息搜索:使用焦点小组的定性研究结果。J medical Internet Res 2004 Mar 01;6(1):e7 [免费全文] [CrossRef] [Medline］
布利DM，吴艾，Jordan MI。潜狄利克雷分配。机器学习研究，2003年1月;3:993-1022 [免费全文］
周哲。社会互动中的信息动力学:隐性结构发现与实证案例研究。洛杉矶:加州大学洛杉矶分校电气工程系;2013.
结构语义学:一种方法的尝试。林肯:内布拉斯加大学出版社;1983.
历史上的疫苗接种和公众关注:传说，谣言和风险认知。纽约:劳特利奇;2012.
Tangherlini TR“你要打给谁?”:丹麦传说传统中大臣与鬼魅威胁的调解。西方民俗1998;57(2/3):153-178。［CrossRef］
叙述分析:个人经验的口述版本。《叙事与生活历史》1997;7(1-4):3-38。［CrossRef］
Fader A, Soderland S, Etzioni O.识别开放信息抽取的关系。见:自然语言处理经验方法会议论文集。斯特劳兹堡:计算语言学协会;2011年发表于:自然语言处理的经验方法会议;2011年7月;爱丁堡。
利用Kullback-Leibler距离进行文本分类。在:信息检索的进展-第25届欧洲会议IR研究。柏林:施普林格;2003年发表于:欧洲信息检索会议;2003年4月14日;比萨305-319页。［CrossRef］
NLTK:自然语言工具包。In: COLING-ACL '06。斯特劳兹堡:计算语言学协会;2006年出席:COLING/ACL互动演讲会议;2006年7月;悉尼，69-72页。［CrossRef］
神话的结构研究。《J Am民俗》1955年10月;68(270):428-444。［CrossRef］
Grün B, Hornik K. topicmodels:一个R包拟合主题模型。中国统计杂志，2011;40(13):1-30。［CrossRef］
哲学和个人信仰豁免对疫苗可预防疾病重新出现的影响:空间聚类在疫苗接种不足中的作用。中国免疫免疫学杂志2012 Jun;8(6):838-841。［CrossRef] [Medline］
孙宁，劳PP，马林。了解网络社区中的潜伏者:文献综述。计算人类行为2014年9月38:110-117。［CrossRef］
李国强，李国强，李国强。认知一致性与社会从众下信仰演化的集体动力。PLoS One 2016;1(11):e0165910。URL:https://arxiv.org/abs/1509.01502［CrossRef］
Horne Z, Powell D, Hummel JE, Holyoak KJ。反对反疫苗接种态度。Proc Natl Acad Sci U S A 2015 Aug 18; 33 (33):10321-10324 [免费全文] [CrossRef] [Medline］
利用社交媒体和互联网数据进行公共卫生监测:谈话的重要性。米尔班克Q 2014 Mar;92(1):34-39 [免费全文] [CrossRef] [Medline］
Velasco E, Agheneza T, Denecke K, Kirchner G, Eckmanns T.全球公共卫生监测系统中的社交媒体和基于互联网的数据:系统综述。米尔班克Q 2014 Mar;92(1):7-33 [免费全文] [CrossRef] [Medline］
Kümpel A, Karnowski V, Keyling T.社交媒体中的新闻共享:当前关于新闻共享用户、内容和网络的研究综述社会科学学报2015;1(2):1-14。［CrossRef］
李文杰，李文杰，李文杰，等。疾病检测还是舆论反思?2013年荷兰麻疹爆发期间推特、其他社交媒体和在线报纸的内容分析。中国医学杂志，2015;17(5):e128 [免费全文] [CrossRef] [Medline］
Ozan-Rafferty ME, Johnson JA, Shah GH, Kursun A.用医疗游客的话来说:对前往土耳其的健康旅行者的互联网叙事的分析。中国医学杂志，2014;16(2):e43 [免费全文] [CrossRef] [Medline］
马佐卡特，特鲁科洛I，安东尼尼M，里纳尔迪F，梅罗P，费拉林E，等。关于补充和替代药物和癌症的网络对话:内容和情感分析。中国医学网络杂志2016;18(6):e120 [免费全文] [CrossRef] [Medline］
Chen AT, Zhu S, Conway M.在线社区可以告诉我们关于电子烟和水烟的使用:一项使用文本挖掘和可视化技术的研究。中国医学网络学报2015;17(9):e220 [免费全文] [CrossRef] [Medline］
牧师C, Knopf A, Groves D，木匠JS, Furrey C, Krishnan A，等。利用大数据寻找患者的声音:在查查问答服务中对用户健康问题的分析(2009-2012年)。中国医学网络杂志2016;18(3):e44 [免费全文] [CrossRef] [Medline］
Nicholson MS, Leask J.关于麻疹-腮腺炎-风疹(MMR)免疫在线辩论的教训。疫苗2012年5月28日;30(25):3806-3812。［CrossRef] [Medline］
Kandadai V, Yang H, Jiang L, Yang CC, Fleisher L, Winston FK。衡量健康信息传播和确定推特上的目标利益群体:@SafetyMD网络的方法开发和案例研究。JMIR Res Protoc 2016;5(2):e50 [免费全文] [CrossRef] [Medline］
艾耶斯，魏德玛，李志刚，等。利用大数据来提高健康意识运动:对美国大禁烟的新评估。JMIR公共卫生监测2016年;2(1):e16 [免费全文] [CrossRef] [Medline］
Surian D, Nguyen DQ, Kennedy G, Johnson M, Coiera E, Dunn AG。使用主题建模和社区检测来描述关于HPV疫苗的Twitter讨论。中国医学杂志，2016;18(8):e232 [免费全文] [CrossRef] [Medline］
邦多夫MK，瓦格纳TH，辛格SJ，贝克LC。谁在互联网上搜索健康信息?卫生服务决议2006年6月;41(3页1):819-836 [免费全文] [CrossRef] [Medline］
Oraby T, Thampi V, Bauch CT。社会规范对儿科传染病疫苗接种行为动态的影响。Proc bioscience 2014 april 7;281(1780):20133172 [免费全文] [CrossRef] [Medline］
唐健，高宏，胡霞，刘慧。利用同质效应进行信任预测。在:WSDM '13。纽约:ACM;2013年2月发表于:第六届ACM网络搜索与数据挖掘国际会议;2013年2月;罗马书53-62页。［CrossRef］
Korda H, Itani Z.利用社交媒体促进健康和行为改变。健康促进实践2013年1月;14(1):15-23。［CrossRef] [Medline］

G·艾森巴赫(G Eysenbach)编辑;提交30.08.16;A Dunn, L Grant同行评审;对作者20.09.16的评论;修订本收到日期:16年10月3日;接受22.10.16;发表22.11.16

©Timothy R Tangherlini, Vwani Roychowdhury, Beth Glenn, Catherine M Crespi, Roja Bandari, Akshay Wadia, Misagh Falahi, Ehsan Ebrahimzadeh, Roshan Bastani。原载于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com)， 2016年11月22日。

这是一篇根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，http://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

“妈妈博客”和疫苗豁免叙事:来自育儿社交媒体网站上故事聚合的机器学习方法的结果

“妈妈博客”和疫苗豁免叙事:来自育儿社交媒体网站上故事聚合的机器学习方法的结果

原始论文

通讯作者:

摘要

关键字

简介

方法

简介

故事的主题

故事

Actants

Actant⇔Actant上下文

Actant⇔Actant关系

故事图

故事信号趋势

结果

故事的主题

故事

故事信号趋势

讨论

主要研究结果

限制

与之前工作的比较

结论

致谢

利益冲突

多媒体附件1

参考文献