这是一篇根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,http://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
社交媒体提供了一个前所未有的机会来探索人们如何在非常大的范围内谈论医疗保健。大量研究表明,有用户论坛的网站对人们寻求与健康有关的信息的重要性。父母们转向其中一些被俗称为“妈妈博客”的网站,分享对孩子健康保健的担忧,包括接种疫苗。尽管有大量工作考虑了社交媒体(尤其是Twitter)在疫苗接种和其他卫生保健相关问题讨论中的作用,但很少有工作描述这些讨论的潜在结构和有说服力的故事讲述的作用,特别是在帖子长度没有限制的网站上。了解有说服力的故事在互联网范围内的作用,可以对人们如何讨论疫苗接种提供有用的见解,包括寻求豁免的行为,这与最近一些社区的群体免疫力下降有关。
开发一种自动的、可扩展的机器学习方法,用于在专门讨论育儿问题的社交媒体网站上聚合故事。我们希望通过个人的经验交流和评论,发现个人在特定主题领域的总体叙事框架。我们还想在研究期间描述这些网站叙事框架的时间趋势。
为了确保我们的数据捕捉的是对近期事件的长期讨论,而不是短期反应,我们开发了一个由4056名用户贡献的199万篇帖子的数据集,并在105个月的时间里浏览了2个育儿网站的2012万次索引。使用概率方法,我们确定了这些育儿网站上的讨论主题。我们开发了一个生成式统计-机械叙事模型,可以自动从数百万个帖子中提取潜在的故事和故事片段。我们将故事聚合成一个总体叙事框架图。在我们的模型中,故事被表示为以行动者为节点,其各种关系为边的网络图。通过将帖子建模为隐藏叙事框架图的样本,我们估计了在这些网站上传播的潜在故事。基于每月的用户后统计数据检查了时间趋势。
我们发现免除疫苗接种要求的讨论有很高的代表性。我们发现了一个与寻求豁免和不信任政府和医疗机构的文化有关的强大叙事框架。各种帖子强化了部分叙事框架图,其中父母、医疗专业人员和宗教机构成为关键节点,寻求豁免成为重要优势。在总体的故事中,父母利用宗教或信仰来获得豁免,以保护他们的孩子免受学校或政府机构要求的疫苗的伤害,但(据称)会导致不良反应,如自闭症、疼痛、免疫力下降,甚至死亡。尽管随着时间的推移,家长们加入和离开了论坛,但关于豁免的讨论和故事对这些成员的变化是持续而有力的。
使用自动分析方法(例如本文所介绍的方法)分析有关医疗保健的家长论坛,可以发现构建和告知讨论的广泛叙事框架。在我们分析的网站上的大多数疫苗接种报道中,人们想当然地认为疫苗和不可疫苗预防的疾病(VPDs)对儿童构成威胁。因为疫苗被视为一种威胁,父母们专注于分享避免疫苗的成功策略,豁免是这些策略中最重要的。当新父母加入这些网站时,他们可能会接触到他们阅读和贡献的线索中的这种地方性叙事框架,这可能会影响他们的医疗保健决策。
在过去的15年里,社交媒体的爆炸式增长以及随之而来的信息网站的兴起改变了人们获取医疗保健信息的方式[
在这些育儿网站上讨论的许多话题中,很少有话题像儿童疫苗接种一样受到如此多的关注和热烈的讨论。尽管存在安全有效的疫苗,但疫苗可预防疾病(VPDs)的零星暴发表明,旨在使这些疫苗易于获得和广泛适用的公共项目与主要基于意识形态原则抵制疫苗接种的父母之间的持续紧张关系[
虽然对育儿网站的简单检查和标准文本挖掘方法可以确认疫苗接种是这些网站上经常讨论的话题,但这些方法无法确定这些讨论的结构。这是我们研究的目的。
在这项研究中,我们分析了4056名用户发表的199万篇帖子,并浏览了2个流行育儿网站在2012年结束的105个月里的2012万次索引。除了简单地确定网站上的主要讨论主题之外,我们还发现了解释这些不同讨论中流传的故事的潜在叙事框架,这种方法扩展了最近在互联网论坛上关于个人经历和健康知识交流的工作[
这项研究的数据来自于两个流行的育儿社交媒体网站。我们之所以选择这两个网站,是因为它们在新父母中很受欢迎,会员主要是自认为是母亲的人[
聚合叙事框架发现的工作流。
对于这两个育儿网站,我们通过自动内容分析过程确定了讨论的主题和讨论中流传的故事。我们首先使用两种不同的概率方法计算论坛中的主要主题,潜狄利克雷分配(LDA)和上下文随机游走陷阱(CRWT) [
为了了解人们如何谈论发现的话题,我们开发了一个故事模型,即行动者-关系上下文模型,并使用它从整个199万个讨论帖子中提取潜在的故事,认识到论坛帖子通常只包括故事的一部分或对故事部分的评论,而不是完整的故事。我们将故事部分概念化为行动者之间的关系[
在我们的模型中,为了生成一个社交媒体帖子,用户选择了一组参与者,并从这些参与者之间的关系分布中抽取信息。然后,用户根据第一步的结果撰写文章。在社交媒体语料库中,隐含的概率模型包括主要行为人及其上下文关系。因此,我们的任务是估计这个隐藏的模型从posts。我们通过一种计算上可扩展的估计算法来实现这一点,这种算法只需要最少的监督。由于数据是大规模的,故事信号是持久的,我们发现使用来自自然语言处理(NLP)工具的最小信息(如名词和动词)的计算可扩展推断算法为我们的数据集提供了准确的结果。
我们使用自动发现的主题来确定主题空间中的重要参与者,认识到主题可以跨越论坛分类的竖井。为此,我们根据高频名词的排名列表提取了一个活性术语池。这些名词又聚合在一起,衍生出活性范畴。在与疫苗接种相关的主题中,我们发现了3类主要的活性物:个体活性物,包括父母、儿童和医疗专业人员;机构行动者,包括政府机构、宗教机构、制药公司和学校;对象,包括疫苗、豁免、vpd和不良反应。与行动者相关的词由行动者的同义词和将行动者作为超类别的实体组成。例如,“政府”包括口语化的同义词“联邦政府”以及政府机构“疾病预防控制中心”,其中“政府”是疾病预防控制中心的超级类别。
我们用一组动词来描述一对动件之间的上下文,当两个动件同时讨论时,这些动词是有意义的。已知动词在大规模语料库中捕捉二元关系[
为了建立一个动词对特定的一对行动体(即上下文)的意义,我们比较了动词与两个行动体同时出现的条件概率与其边际概率:一个动词是
由于在任何语境中都有许多动词,我们通过评分或加权函数对不同动词的相对重要性进行排名
为了在计算上实现上述思想,我们使用Python中的自然语言工具包(NLTK)库,用词性(POS)标签标记整个语料库[
计算Kullback-Leibler发散度度量作为权重函数来排序不同动词的重要性。
计算动词在语料库中任意句子中出现的边际概率。
一个动词在特定上下文中同时出现的条件概率的计算。
计算排序,以确定表征给定上下文的顶级动词集。
一旦我们确定了上下文的排序动词列表,我们就返回到该上下文的句子,并使用POS标记器输出确定这些重要动词相关的活动动词对。我们认识到不同的动词可以表达相同类型的动词性关系,所以我们将动词分为“关系”类,就像我们将名词分为动词性类一样。从叙事理论中得到启示,我们根据动词之间的一系列二元对立对这些关系进行了分类,将排名靠前的同义词与其排名靠前的反义词组合在一起,使我们能够将这些关系与个人经历叙事的结构联系起来。
我们确定了两种主要的二元对立关系。第一组关系是个体与机构行动者之间的关系,具有二元对立
为了说明这一过程,考虑动词“使用”,它被确定为免责条款中的重要动词
这里是一些纽约的信息:(豁免信的样本在这里)这里是关于你如何不需要证明你是教会的成员才能使用宗教豁免的信息
动词“use”将“you”(家长行为者)与“church”(宗教机构行为者)联系起来。连接两个行动词的动词范畴成为了在那个语境中这两个行动词之间的重要关系。例如,在上面的情况下,动词“使用”落入
我们将每个上下文可视化为一个网络故事图,以行动者为节点,重要关系作为连接行动者的边,从而为任何上下文捕获行动者之间关系的丰富结构。然后,我们通过将每个上下文的故事图聚合到单个图中来创建摘要图。我们把这个总结图称为叙述框架。
为了描述与疫苗接种豁免相关的新帖子活动和与豁免相关的新用户活动的时间趋势,我们计算了每个网站(1)每月包含“豁免”一词的新帖子的比例以及(2)每月发布含有“豁免”一词的帖子的新用户的比例。由于用户可以访问旧帖子和新帖子,为了描述论坛用户可以看到的与豁免相关的帖子内容的比例,我们还计算了在研究期间包含“豁免”一词的帖子的每月累计比例。我们为mothering.com网站制作了一个用户活动持续时间(以天为单位)分布的对数线性图,使用的bin宽度为3个月。
在我们的两个目标站点上,主题建模显示,疫苗接种和有趣的是,豁免构成了重要的讨论主题(有关主题的完整列表,请参阅
我们在R中以多个粒度级别运行LDA主题建模,从k=20到k=200,间隔为20 (LDA主题模型的样本包含在
CRWT方法同样为第二个网站提供了比mothering.com更多样化的主题集,但两个网站上与豁免相关的主题仍然是不同的,由以下一些词组成:“宗教豁免信仰豁免信仰属于最高要求。”作为输出的一部分,CRWT产生主题层次结构。例如,mothering.com上的“豁免”主题揭示了一个层次结构,其中豁免是“拒绝”、“信念”和“要求”的超级类别,如所示
通过上下文随机游走陷阱(CRWT)方法从mothering.com帖子中计算出与豁免相关的主题的层次结构。PR表示共现网络中单词节点的页面秩。
故事模型允许我们确定人们如何谈论通过主题建模发现的主题。考虑到这些主题可以在整个语料库中讨论,我们没有将文档分配给主题。相反,我们专注于发现潜在的叙事框架,在各种帖子中激活它,有助于这些讨论的结构。
首先,我们确定主题空间中的活动体(
我们用不同背景下的故事图来说明这些发现,并将其聚合成一个单一的叙事框架图(
Actant模型。
实体(节点) | 关联词集 | |
|
||
|
父母 | 父母,父母,我,我们,我们,你 |
|
孩子们 | 孩子,孩子,孩子,孩子,女儿,女儿,儿子,儿子,蹒跚学步的孩子,孩子,男孩,d(耳朵)d(笑声),d(耳朵)s(on) |
|
医学专家 | 医生,医生,儿科医生,儿科医生,护士,护士,儿科医生,医学博士,医生 |
|
||
|
政府 | 政府,疾病控制中心,联邦政府,联邦政府,疾病控制中心,官员,政客,官员,法律 |
|
宗教机构 | 信仰,宗教,牧师,牧师,教区,教区,教堂,教堂,会众,会众,神职人员 |
|
学校 | 老师,老师,幼儿园,幼儿园,学校,学校,班级,日托所,日托所,班级 |
|
制药公司 | 制药公司,大型制药公司,公司,公司 |
|
||
|
疫苗 | 疫苗,接种,疫苗,接种,注射,注射,接种,未接种,未接种,接种,接种,接种,接种,接种,接种,接种,疫苗,接种,疫苗,成分 |
|
豁免 | 豁免,免除 |
|
VPDs一个 | 水痘、水痘、流感、百日咳、破伤风、百日咳、肝炎、小儿麻痹症、腮腺炎、麻疹、白喉 |
|
的不利影响 | 自闭症,自闭症,发烧,发烧,反应,反应,感染,感染,炎症,炎症,疼痛,疼痛,出血,瘀伤,腹泻,腹泻 |
一个VPDs:疫苗可预防的疾病。
关系模型。
关系(边) | 关联词集(词根) | |
|
||
|
要求或抵制 | 强迫,要求,需要,遵循,授权 |
|
建议或疑问 | 推荐,告诉,说,反对,问,学,教 |
|
保护或威胁 | 保护,伤害,破坏 |
|
雇佣还是忽视 | 使用,提交,忽略 |
|
接受还是拒绝 | 接种,不接种,打疫苗,不接种,接受,有,曾经,得到,注射,排除,允许,免除,相信,接受,请求,拒绝,接受 |
|
参加或回避 | 进入,注册,参加,去,送,在家上学 |
|
||
|
寻求或请求 | 寻找,归档,签署,要求,提交,需要,练习,撒谎,要求 |
|
授予或扣缴 | 接受,批准,得到,滥用,同意,反对,否认 |
|
保护或威胁 | 保护,伤害,破坏 |
|
原因或不是原因 | 暴露,得到,感染,引起,发展,痛苦,死亡,呕吐,诊断 |
排名前10位的高相关性动词(词根),描述了上下文,包括“豁免”和其他主要的行动动词类别。动词是根据KL发散度分数排序的,但我们在括号中显示了动词的频率,以便进行比较。在免责-父母上下文中,动词“have”出现频率为1561次,排在“exercise”之前,频率仅为275次。
儿童情境中的行动者 | 与豁免有关的重要动词(动剂) |
父母 | 豁免(207),练习(228),签名(275),有(1561),关注(196),索赔(185),疫苗(241),属于(132),我们(472),要求(199) |
孩子们 | 豁免(220),练习(191),关注(175),vaccin(202), vax(133),要求(152),签署(116),参加(99),登记(56),允许(106) |
医学专家 | Sign (101), exempt(21), give(72), write(34), requir(35), get(131), have(229), submit(16), obtain(17), file(17) |
政府 | Bind (51), decide (51), requir(41), us(67), exempt(17), belong(22), accept(29), seek(19), furnish(8), obtain(12) |
宗教机构 | Belong (294), rule(114), offer(152), do(456), claim(105), us(191), have(445), find(149), bind(51), decide (50) |
学校 | Belong (146), rule(116), offer(160), requir(130), sign(120), attend(103), exempt(59), find(184), have(682), accept(104) |
疫苗 | Vaccin(377),豁免(173),要求(323),vax(252),索赔(208),接收(191),签字(150),请求(106),允许(200),反对(91) |
VPDs一个 | Requir (14), exempt(7), vaccin(15), sign(12), get(34), reject (9), have(55), prove(6), document(4), decid(8) |
的不利影响 | Had (64), exempt(12), obtain(12), requir(18), get(60), link(12), choose(9), follow(15), increas(11), qualifi(9) |
一个VPDs:疫苗可预防的疾病。
排名前十的高相关性动词(词根),在第二个网站上,它们代表了由“儿童”和其他主要行为类别组成的上下文。这些动词是根据KL发散度分数排序的,但我们在括号中显示了动词的频率,以便进行比较。
豁免情境中的活性物 | 与子有关的重要动词(动动词) |
父母 | Have (190359), give(27803), learn(18254), am(46173), choos(11446), want(46512), think(60272), rais(9756), know(61261), teach(8982) |
医学专家 | Nurs (1728), vaccin(1450), told(1986), had(4091), said(2582), diagnostics (893), take(2467), recommend(642), give(1782), took(926) |
政府 | Vaccin(615),推荐(447),receiv(380), accord(291), mandat(144), ha(1211), caus(328), injury (139), report(214), include (299) |
宗教机构 | Teach (2010), are(2873), is(3706), church(127), attend(221), go(937), rais(174), believe (335), allow(164), pray(73) |
学校 | 参加(2150),去(11284),ha(10885),发送(2041),开始(4659),工作(4910),得到(12171),daycar(621),需要(5944),教学(1645),注册(689) |
疫苗 | Vaccin (16262), vax(6176), receiv(3859), ha(8439), injury (1247), given(2321), unvaccin(930), caus(2315), recommend(1507), unvax(657), protect(1269) |
VPDs一个 | Vaccin (1409), receiv(1071), had(2622), get(2840), recommend(510), vax(450), given(590), develop(441), got(1005), expos(333) |
的不利影响 | Ha(17530),诊断(4961),有(29879),有(9852),自闭症(1023),病因(2617),发展(1461),疫苗(1756),是(33778),影响(1064) |
一个VPDs:疫苗可预防的疾病。
总结的故事图(
概括的故事图还揭示了几个值得注意的子故事。其一,宗教机构而不是学校扮演“老师”的角色。在这个副故事中,学校被降级为家长的对手,要求接种疫苗,并行使接受或拒绝豁免的权力。在另一个子故事中,医疗专业人员扮演对手的角色。父母质疑他们接种疫苗的必要性,并怨恨他们是疫苗要求的执行者(威胁)。然而,父母也需要医疗专业人员的帮助,因为他们是豁免的授予人(策略)。在这个故事和总结叙事框架图所基于的所有子故事中,有两个明显的遗漏:几乎完全没有vpd和制药公司作为行动者。vpd所起的唯一作用是被动的:孩子们会感染它们(见倒数第二行)
故事图和叙事:子图a-e表示mothering.com中不同上下文对应的故事图,子图f是总体主叙事图。
mothering.com网站的用户活动持续时间(以天为单位)分布的对数线性图显示在
每月包含两个网站工作“豁免”的新职位比例。
在这两个网站上,每月发布包含“豁免”一词的帖子的新用户的比例。
每个网站包含“豁免”一词的帖子的累计比例。
mothering.com网站的用户活动持续时间(以天为单位)分布的对数线性图。
我们为这项研究开发的方法使我们能够发现在社交媒体网站上非正式传播的故事。我们的系统可以检测到在其他非常嘈杂的网站上故事信号的存在、持久性和普遍性,将这些故事信号聚合到一个叙事框架中,并提供一个清晰的机制来追踪这些故事中支持的具体策略的出现,父母可能会采取这些策略来抵消感知到的健康威胁。这些网站在让父母了解接种疫苗是一种威胁,以及使用豁免作为对抗这种威胁的策略方面发挥着重要作用[
在我们研究的网站上,叙述框架是这样的:疫苗对儿童构成威胁,父母作为保护者设计策略,最常见的是使用豁免,以挫败这种威胁。叙事框架是如此广泛地分散,它已经跨越了育儿网站的许多部分。在这些讨论中,一个强烈而持久的信号表明,家长积极地寻求有关豁免的信息。加入这些网站的新父母可能很快就会接触到这些故事中编码的信念和潜在的叙事框架。
考虑到社交媒体的90-9-1规则,90%的访问者只是阅读而不评论(9%)或投稿(1%)[
我们的工作有一定的局限性。与所有社交媒体研究一样,目前尚不清楚我们所关注的网站是否能代表整个父母和医疗保健决策者。虽然我们使用的这两个网站在家长中很受欢迎,但我们认识到,它们没有捕捉到在不容易观察到的非正式环境中发生的广泛讨论,如操场、学校聚会和其他家长互动的地方。在这些情况下,民族志田野调查可以为与疫苗相关的讨论和讲故事提供重要的定性视角[
我们认识到育儿网站有一定的偏见。比如Mothering.com,因为它与这家现已倒闭的网站有着长期的合作关系
我们的工作目前还不包括情感检测。虽然我们将社交媒体在医疗保健中的应用,从主题发现扩展到分析这些讨论的潜在叙事结构,但我们还没有研究这些讨论的框架方式,而情感检测可能能够提供这种框架。
数据隐私仍然是社交媒体研究的一个重要问题。在我们的研究中,我们将所有数据匿名化,作为索引过程的一部分,因此无法利用个人用户和用户社区数据的某些特征。用户隐私和研究利益之间的权衡是社交媒体研究领域不断变化的一部分,我们选择在隐私方面犯错误。数据访问正成为一个同样重要的问题,因为社交媒体公司正在大大减少人们在其网站上发布和分享的数据的访问。这些限制使得在很长一段时间内追踪大规模对话变得越来越困难。
疫苗接种决策已得到广泛研究[
叙事被认为是塑造信念的关键手段。Radzikowski等[
随机抽样方法是了解发展中国家对医疗保健态度的另一种方法。然而,我们发现的叙事很难用随机抽样的方法来识别。鉴于使用焦点小组在为特定社区设计信息宣传活动方面特别有帮助[
将一种想法注入网络社区,比如豁免作为一种避免接种疫苗的策略的有效性,有可能影响许多人——用一句话来说,这种想法可以“病毒式传播”。考虑到个人经历叙述的说服力本质,讲故事在让人们接触想法和将人们转变为特定信仰方面发挥着核心作用。重要的是,人们倾向于相信社区成员的第一手资料,而不是官方声明。
社交媒体网站上关于育儿的大量讨论,以及许多人使用互联网资源作为他们医疗保健信息的第一步,意味着这些论坛值得持续关注。
补充材料。
这项工作得到了NIH拨款号R01 GM105033-01的部分支持。
没有宣布。