发表在第18卷第8期(2016):8月

使用主题建模和社区检测来描述关于HPV疫苗的Twitter讨论

使用主题建模和社区检测来描述关于HPV疫苗的Twitter讨论

使用主题建模和社区检测来描述关于HPV疫苗的Twitter讨论

原始论文

1澳大利亚新南威尔士州北莱德麦考瑞大学澳大利亚卫生创新研究所卫生信息学中心

2澳大利亚新南威尔士州北莱德麦考瑞大学科学与工程学院计算机系

通讯作者:

Didi Surian博士

卫生信息学中心

澳大利亚卫生创新研究所

澳大利亚麦考瑞大学

塔拉维拉路75号6层

北莱德,新南威尔士州,2109

澳大利亚

电话:61 +61298502455

传真:61 + 61298502499

电子邮件:didi.surian@mq.edu.au


背景:在公共卫生监测中,测量信息如何通过在线社区进入和传播,可能有助于我们了解与不良健康结果相关的决策的地理差异。

摘要目的:我们的目的是评估社区结构和主题建模方法的使用,作为描述Twitter上关于人类乳头瘤病毒(HPV)疫苗的意见聚类的过程。

方法:这项研究调查了2013年10月至2015年10月期间收集的关于HPV疫苗的推特帖子。我们测试了潜在狄利克雷分配和狄利克雷多项混合(DMM)模型,用于推断与推文相关的主题,以及社区聚集(Louvain)和随机漫步编码(Infomap)方法,用于从用户的社会联系中检测用户的社区结构。我们使用几种常见的聚类对齐度量来检查社区结构和主题之间的对齐,并引入了基于少数社区内特定主题集中的对齐统计度量。主题的可视化以及主题与社区之间的一致性被呈现出来,以支持在公共卫生传播的背景下对结果的解释,并确定存在拒绝HPV疫苗安全性和有效性风险的社区。

结果:我们分析了来自101,519名用户的285,417条关于HPV疫苗的推文,这些用户有4,387,524个社交关系。研究了社区结构与推文主题之间的对齐关系,结果表明,Louvain社区检测算法与DMM一起产生的对齐值始终较高,并且当主题数量较低时,对齐值通常较高。在对30个主题应用鲁文方法和DMM并将语义相似的主题分组到一个层次结构中后,我们将163,148条(57.16%)推文定性为证据和倡导,6244条(2.19%)推文描述个人经历。在4548名发布体验推文的用户中,3449名用户(75.84%)位于推文以证据和宣传为主的社区。

结论:社区检测与主题建模相结合的使用似乎是描述Twitter社区特征的一种有用方法,可以用于公共卫生应用中的意见监视。我们的方法可能有助于识别在线社区,这些社区可能会受到有关HPV疫苗等公共卫生干预措施的负面意见的影响。

中国医学杂志,2016;18(8):e232

doi: 10.2196 / jmir.6045

关键字



人类乳头瘤病毒(HPV)疫苗最初是为了降低HPV和大部分子宫颈癌的发病率而推出的[1].尽管有证据表明其安全性和有效性[2-5],网上关于疫苗的信息质量参差不齐[67],在包括美国在内的一些国家,疫苗的覆盖率很低[8].一般来说,对于疫苗,有证据表明,来自名人、卫生从业人员和新闻媒体的关于疫苗的负面信息会增加对疫苗的犹豫和拒绝[9-11].虽然HPV疫苗仍然是最近才加入公共卫生武器,但重要的是对社交媒体进行监测,以了解关于疫苗接种的各种意见。

社交媒体信息在公共卫生应用中的使用以前主要集中在预测传统上通过调查和登记来衡量的临床结果。使用Twitter进行数据挖掘的应用包括流感监测[12-14]并测量语言或情绪的空间差异[1516].推特上的情感和语言分析已被用作心脏病死亡率地理差异的指标[17].与我们的研究相关的例子包括使用主题建模来提取美国与烟草相关的推文[18]以及监督来自网络媒体的关于误解和滥用抗生素的信息[19].考虑到关于疫苗的信息、新闻和观点的传播,有一个越来越多的研究领域[20.-24],这一领域的研究重点是在一系列社区卫生实践中衡量错误信息、信念和决策之间的关联[25].

人们在社交媒体上相互交流并建立关系。有了这些关系,社区就形成了。在线社区的结构影响着进入社区并通过社区传播的信息,也会受到这些信息的影响。通过在线社区、社交媒体和新闻媒体对信息传播进行的研究表明,网络的异质社会结构和外部因素可以在新信息传播的距离和速度方面发挥作用。2627].模因和自然损耗之间的竞争可能会影响它们传播的距离和速度,以及它们衰减的速度[28-30.],而社区中人们感兴趣的话题也会影响社会结构的形成和延续[31].

网络新闻和社交媒体上发布的信息内容的差异影响了网络社区的观点和信仰的变化。虽然社区成员持有的意见和他们发布的内容并不等同,但我们假设内容为可能影响决策的意见提供了合理的代理。主题建模方法适合于识别一组推文中的主题结构(主题),因为它们可以应用于非结构化的文档语料库,并且不需要预先定义主题[32].将主题建模应用于推文的主要挑战来自于推文的长度很短(140个字符)。尽管存在这一挑战,主题建模已经被用于检查twitter上一系列主题的主题——通过汇集推文来生成更长的文档来分析[33-35],或对现有模型应用扩展或替代方案,以更好地处理较短的文档[36-40].

我们期望发现同质性和传染性会导致在线社区的意见聚集,但迄今为止,很少有研究用于衡量疫苗的这一重要信息。我们的目的是评估社区结构和主题建模方法的结合,以衡量从Twitter社区内用户发布的推文中关于HPV疫苗的主题的分布,更广泛的目标是评估一种通过社区成员表达的公共卫生信息来表征在线社区的新过程。


研究数据

通过Twitter搜索应用程序编程接口进行重复搜索,我们收集了2013年10月1日至2015年10月29日之间关于HPV疫苗的推文,使用的关键字如下所示表1.对于Twitter标记为英语的每条推文,我们存储了推文的文本和相关元数据。在此期间,每当有新用户第一次发布关于HPV疫苗的推文时,我们就会额外收集他们关注的用户列表以及谁关注了他们。这些关于关系的信息后来被用来构建我们分析的用户网络。在数据收集期结束时,有302,856条推文(包括转发)和112,944名用户。在数据收集之后,我们删除了被暂停、保护或删除的用户,剩下101,519个用户和285,417条推文供分析。

表1。搜索用于收集关于HPV疫苗的推文的关键词,供我们分析。
不。 关键字
1. “人乳头瘤病毒”与“疫苗”
2. “人乳头瘤病毒”与“疫苗接种”
3. “加德西”
4. “子宫颈”与“疫苗接种”
5. "子宫颈"和"疫苗"
6. “cervarix”

我们在主题建模之前对推文进行了预处理。对于标签(以“#”开头)或用户名(以“@”开头)的单词,我们没有做进一步的修改。推文文本中的其余单词被转换为小写,我们删除了停止词、单词“RT”(代表转发)和任何数值。然后我们应用波特干[41].我们排除了由通用URL缩短服务(例如“http://bit.ly”)生成的URL(统一资源定位器),并包括了从扩展URL列表中识别的任何完整URL的域。文档大小在主题建模方法中起着重要作用[42],所以我们选择将所有少于3个单词的推文分配到一个额外的主题(1114条推文),留下284,303条推文。

我们运行潜狄利克雷分配(LDA)和狄利克雷混合模型(DMM)来推断在预处理文本后,在284,303条推文中识别出的125,003条独特推文的主题。在使用LDA和DMM推断主题之后,我们将这些主题映射回完整的集合,这样每条推文都与一个主题相关联。

我们使用无向图从101519个用户中的4387,524个追随者连接中构建了网络。一个节点代表一个用户,如果发现其中一个用户紧随另一个用户,则在两个用户之间建立一条边。该网络包括100,826(99.32%)个用户,包括单个最大连接组件,500(0.49%)个用户,他们形成了与最大连接组件不连接的较小岛屿,193(0.19%)个用户,没有连接到核心。在最大的连接组件中,社会连接的平均数量为86.98,最大的连接数量为18,635。我们为最大连接组件的一部分用户测量了主题和社区之间的一致性。有关网络建设的详情,请参阅多媒体附件1

社区检测

社区检测算法的目标是在图中找到节点集,这些节点集内的连接密度比跨集的连接密度更大。传统上,社区检测算法产生了一个硬聚类,其中每个节点只属于一个社区[43-47].一些最近的方法考虑了重叠的群落[48].在这项工作中,我们选择了两种算法,将每个节点分配给单个社区,已知可以产生可靠的结果,并且在大型网络中有效工作。

Infomap算法用于提取大型复杂网络中的社区结构[49].该方法使用随机游走作为信息在系统中流动方式的代理,首先确定访问网络中每个节点的概率,然后将网络的社区和节点结构描述为霍夫曼码。通过逐步修改社区隶属关系,目的是将描述网络的代码压缩到最小大小。我们使用了来自igraph的Infomap实现[50].

Louvain算法是一种计算速度相对较快的社区检测算法,因此可以扩展到大型网络[51].该算法是聚集的——节点被初始化为属于一个大小为1的社区,并按顺序与邻近的社区聚合,以产生最大的模块化增益(如果存在正增益)。在第一阶段检测到的社区成为新网络中的节点,边缘权重由第一阶段社区之间的连接数量决定。因此,该算法构造了网络的分层表示,并继续进行,直到没有更多的模块化增益可以识别。这个过程产生的最后聚类用于定义社区结构。我们使用了MapEquation中Louvain作者发布的代码[52].

主题推理

主题建模用于根据单词的共现情况寻找自然聚类。我们使用潜狄利克雷分配(LDA)模型[53]和Dirichlet多项式混合(DMM)模型[54].LDA模型是主题建模的标准方法,DMM模型是专门为短文档(如twitter)开发的变体。在应用DMM模型时,每个文档只分配了一个主题,所以我们根据DMM模型推断的主题来标记每条推文。对于lda(为每个文档生成概率主题分布),使用概率最大的主题标记推文[334055].我们使用了来自gensim的LDA实现[56]和DMM的jLDADMM实现[57].对于这两种方法,我们对每个模型都使用了标准设置[3955],并没有试图进一步优化参数。中提供了这些方法的正式规范和符号的详细信息多媒体附件1

调整措施

度量主题和社区之间的一致性的目的是确定主题在某些社区中出现的频率是否高于所有其他社区。由于每条推文都与单个主题相关联,我们通过用户在该社区中发布的推文中的主题分布来表示社区。我们采用了通常用于量化估计聚类与观察到的聚类的质量的对齐度量,以比较使用观察到的结构(社会联系)的聚类方法和使用观察到的内容(推文中的主题)的聚类方法。在这种情况下,有几个适当的度量标准用于评估集群质量,包括纯度、标准化互信息(NMI)和调整后的兰德指数(ARI) [3958)(见多媒体附件1定义)。

虽然这些典型的指标提供了社区结构和这些社区中用户发布的推文主题之间的一致性的一般度量,但它们对于总结主题如何在社区的一小部分子集中不成比例地表示没有用处。因此,我们额外考虑了主题浓度的测量(TC).我们定义了TC根据覆盖给定主题的特定百分比的推文所需的最小社区数量的值,因此TC95社区的数量是否需要覆盖该主题95%的推文,以及TCOne hundred.是包含该主题的每条推文的社区数量。一个较低的TC95因此,价值意味着在少数社区中高度集中主题。

当在多个网络中比较主题集中的度量以确定对齐时,与每个主题相关的推文数量的差异可以独立于对齐影响度量,因此我们使用置换测试来进行公平的比较。排列测试创建的基线分布TC在没有任何实际对齐的情况下可能出现的值,这些值随后可用于建立相对于可能偶然产生的对齐级别的对齐级别[59].为此,我们随机排列与每条推文相关的主题,使每个主题的推文分布和每个社区的推文分布与观察到的网络保持一致。然后我们比较了观察到的结果TC95值对分布TC95排列测试中产生的值。典型的排列测试报告排列后产生的值分布中单个观测值的百分位数。在我们应用的排列检验中,分布TC95产生的值(每个主题一个)而不是单个值,因此我们使用双样本Kolmogorov Smirnov检验来比较分布。Kolmogorov-Smirnov检验统计量在0和1之间变化,较高的检验统计量意味着主题在单个社区内更加集中,而如果每个主题的相同数量的推文随机分布在社区内,则不会如此。

手动入侵测试

我们对推文中的主题进行了入侵测试。一名研究人员对主题建模的结果一无所知,每对主题组合呈现一组5个测试用例。每个测试用例包括从一个主题随机选择的五条推文文本和从另一个主题随机选择的一条推文文本。调查人员的任务是识别不属于该主题的推文。这些入侵测试的结果表明,主题建模能够很好地捕捉推文中的语义差异。此外,我们还使用入侵测试的结果,通过应用多维尺度,根据主题的语义差异构建了主题的层次结构[60-62].该方法生成每对主题之间的距离,然后用于合并最近的主题以构建层次结构。


社区检测与主题建模

两种社区检测算法应用于最大的连接组件100,826个用户。应用鲁文算法,我们确定了38个不同的社区,规模在3到21733个用户之间。Infomap算法确定了1334个不同的社区,用户规模从2个到18974个不等。

我们通过改变5到200个主题的数量,构建了一系列的LDA和DMM模型。从纯度、NMI和ARI评分来看,我们发现在DMM的所有测量中,社区结构和主题之间的一致性高于LDA。采用DMM模型和Louvain算法分别获得最高纯度(0.495)和最高ARI(0.166)。在应用DMM模型和Infomap算法时,NMI得分最高(0.185)。这些实验的结果表明,DMM主题模型可能产生了更现实的推文主题聚类。

TC95与LDA模型相比,使用DMM模型时得分始终较高多媒体附件1详细结果)。结合Infomap算法,TC95在10到25个主题之间得分最高,结合鲁文算法,TC95在20到30个科目中得分最高。考虑到这些结果,我们使用DMM模型(包含30个主题)和Louvain算法来演示以下主题对社区的描述。

为了说明主题如何倾向于在社区内聚集,我们选择了三个具有代表性的主题,并在由100,826个用户中的关注者集构建的网络中可视化它们(图1).这些主题包括一个捕捉临床和科学证据的主题(主题27),一个包含经验推文的主题(主题0),以及一个描述副作用和危害的主题(主题26)。

主题27包括在已发表的关于疫苗功效的研究中常见的词语,如“预防”、“保护”、“研究”、“新闻”和“研究”。到新闻媒体以及其他已发表文章和相关媒体的链接往往被分组在这个主题中,并且该主题在整个核心网络的大部分中广泛存在,包括在连接数量最多的用户中(通常是新闻机构在中心,新闻机构、健康相关杂志和科学期刊在一边)。

主题0捕获了大量来自用户的推文,描述了他们自己接种疫苗的经历,包括“今天”、“得到”、“得到”和“去”等临时词汇。推文中包括“我的胳膊疼得像……的帖子通常被分配到这个话题,这些用户似乎与其他发布HPV疫苗的用户分享的联系较少。

在话题26中,像“杀死”、“受害者”和“死亡”这样的情感词汇很常见。包含特定抗疫苗网站链接的推文通常被分配到这个主题,在主题26中发布推文的用户似乎以不同的密度聚集在三个不同的组中,这些组与发布标记为主题27的推文的用户组分开。

图1。在此期间,有100,826名用户(节点)发布了关于HPV疫苗的推文。节点的大小与它们在这个网络中拥有的社会联系的数量成正比。如果节点发布的推文标记为主题0(蓝色)、主题26(红色)或主题27(绿色),则节点将被着色。节点位置是由一种启发式方法确定的,该方法试图将连接的节点定位得更近,部分地揭示了社区结构。
查看此图

主题分组

我们使用手工入侵测试来测量主题建模的质量。总的来说,在4650次测试中,正确的入侵者在63.7%中被识别出来,这明显偏离了16.7%的偶然预期。从人工入侵测试构建的层次结构揭示了语义上相似的主题(图2).主题组为(1)媒体辩论,(2)政治和政策辩论,(3)丑闻和阴谋,(4)副作用和危害,(5)公共卫生宣传,(6)临床证据,(7)经验。当跨主题组进行测量时,入侵测试的准确性为76%,当在主题组内进行测量时,入侵测试的准确性为49%。这些结果表明,主题组之间的分离很明显(组间准确性得分高,组内准确性得分低)。

使用这些主题组,我们可以通过用户在这些社区中发布的一组tweet中的主题分布来描述这些社区。图3详细介绍了三个选定社区的主题分布,值得注意的是,它们说明了不同社区中疫苗危害/阴谋、证据/倡导和经验主题的集中程度。还要注意的是,每个用户发布的推文数量最多的是那些主要发布疫苗危害/阴谋主题推文的社区用户,而发布的推文数量最少的是那些主要发布自己接种HPV疫苗经验的社区用户。

在所有社区中,我们发现,发布自己接种HPV疫苗经历的用户属于大多数推文与证据和宣传相关的社区。在4548名发布了标记为经验的推文的用户中,3449名(75.84%)属于大多数推文与证据/宣传有关的社区,674名(14.8%)属于大多数推文与伤害/阴谋有关的社区,196名(4.3%)属于大多数推文与经验有关的社区,229名(5.0%)属于未连接到网络核心的用户群体。图4而且5详细描述社区内主题的分布。

图2。来自Dirichlet混合模型的30个主题(Topic 0-29)的树状图,对于少于3个单词的推文,有一个单独的主题(Topic 30)。这些小组是事后确定的,颜色代表主题——危害/阴谋(红色),证据/倡导(绿色),经验(蓝色)。
查看此图
图3。3个社区的主题分布按组和主题排序:(1)社区24包括5275个用户,平均每个用户发布2.46条推文;(2)社区20包含11047个用户,平均每个用户发布1.96条推文;(3)社区34包括187个用户,平均每个用户发布1.16条推文。
查看此图
图4。确定的39个社区的证据/宣传和危害/阴谋主题的比例。每个圈代表一个社区,大小与该社区的推文数量成正比。更靠近对角线的社区包含更大比例的体验主题推文。
查看此图
图5。39个社区的主题比例,代表了被分配到危害/阴谋(红色)、证据/倡导(绿色)和体验(蓝色)主题的推文的比例。横轴上的值是社区中tweet的总数。
查看此图

主要结果

在这项研究中,我们试图衡量Twitter用户发布关于HPV疫苗的推文的追随者网络中隐含的社区结构与他们发布的主题之间的一致性。鉴于推特上关于HPV疫苗的信息质量参差不齐的已知情况[2223],我们预计会发现一些社区会更经常地延续对HPV疫苗的负面意见,这些社区将不同于描述有利证据或倡导使用HPV疫苗的社区。使用统计方法量化主题集中的强度,我们发现一些主题高度集中在少数社区中,这与我们的预期一致。与我们之前在这个应用领域的工作相比[2223],这里描述的过程提供了对社交媒体上表达的关于HPV疫苗的具体担忧的更细致的观点,以及识别这些担忧是主要主题的社区的能力。使用主题建模和社区结构的组合来描述社区,我们能够识别出对安全或政治的特定担忧占主导地位的社区,以及识别出发布经验推文的年轻Twitter用户,他们面临着更大的安全担忧风险,而不是证据和宣传,这可能发生在第一次和随后的疫苗剂量之间。之前曾对意见和经验混合的公共卫生推文进行过流感调查,其中一些推文可能有助于确定流感发病率,另一些则代表证据传播或观点[21].

与之前工作的比较

越来越多的方法已经开发出来,这些方法要么使用结构信息来改进对语料库内容的推断,要么使用网络中节点的特征信息来改进对结构的分析。那些旨在理解推文内容的人已经使用社会关系来改进推文分类[2263-65].这些研究考虑了推特上的提及、转发和其他形式的互动,但对关注者信息的使用通常能产生最高水平的表现。其他研究人员提出了将网络结构纳入Twitter以外网络的主题建模方法的方法[6667].相反,一些研究考虑使用与网络节点相关的内容来提高社区检测的质量[6869].在研究文件和它们之间的结构的研究中,比如电子邮件[70],共同作者[71],以及维基百科[72一项研究以类似于我们的方式为社区制作了主题简介图373].我们在这里提出的方法与这些研究不同,因为我们独立地应用了社区检测和主题建模,而不是试图利用关于社会联系的可用信息来提高主题建模过程的质量,或者使用内容信息来改善社区结构或预测新的联系。

限制

这项工作的局限性在于我们只考虑了一个应用程序领域。虽然接种疫苗对公共卫生至关重要,但还需要在其他应用领域进行进一步测试,以确定评估主题浓度作为描述Twitter社区的一种方式的普遍性。我们工作中的另一个局限性是,我们没有详细考虑主题的时间动态或社区结构。鉴于与HPV疫苗相关的主题可能会产生与Leskovec等人观察到的相似的时间模式[30.],这一领域的未来工作可能受益于进一步分析主题的时间动态与社区内注意力经济之间的关系,这已在其他地方进行了探索[2829].最后,我们认为关注者网络是一个无向网络,没有包含基于共同关注者的权重或方向性,也没有转发和提及的存在,这将提供更细致的社会联系表示,并可能产生不同的社区结构。

未来的发展方向

我们在这里的工作对公共卫生实践有潜在的影响。将主题建模和社区检测方法应用于关于HPV疫苗的推文语料库,我们发现可以通过推文中最集中的主题来表征在线社区。将这些方法转化为公共卫生实践的一种方法是将这些方法与新的空间和人口估计方法结合使用[74-76],以产生时空指标,以确定特定问题的增长在何处和何时可能导致对疫苗的犹豫或拒绝增加。我们认为,这些指标未来可能在帮助公共卫生组织设计更有针对性、从而更有效的干预措施和传播战略方面发挥作用。

结论

在这项工作中,我们通过独立应用现有的社区检测和主题建模方法,并量化社区中主题分布的差异,展示了一种新的过程来表征在线社区中某些意见的集中程度。在关于HPV疫苗的推文中,我们发现由关注者网络定义的社区之间的主题分布存在明显差异。在实践中,公共卫生组织不妨考虑确定有可能接触到抗疫苗信息的社区的位置和人口统计,以便针对通过主题建模确定的具体问题,以积极的信息进行干预。这项工作在公共卫生方面的价值包括更细致地反映网上对HPV疫苗表达的各种关切,以及为了解决策和健康行为的局部差异而开发自动化舆情监测系统的一些实际步骤。

利益冲突

没有宣布。

多媒体附件1

网络结构,正式规范/符号,详细的实验结果。

PDF档案(adobepdf档案),981KB

  1. Forman D, de Martel C, Lacey CJ, Soerjomataram I, Lortet-Tieulent J, Bruni L,等。人类乳头瘤病毒及相关疾病的全球负担。疫苗2012年11月20日;30日增刊5:F12-F23。[CrossRef] [Medline
  2. Crowe E, Pandeya N, brotonton JML, Dobson AJ, Kisely S, Lambert SB,等。四价人乳头瘤病毒疫苗预防宫颈异常的有效性:澳大利亚基于人群筛查计划的病例对照研究英国医学杂志2014;348:g1458 [免费全文] [Medline
  3. 史金纳SR, Szarewski A, Romanowski B, Garland SM, Lazcano-Ponce E, Salmerón J,等。人乳头瘤病毒16/18 as04佐剂疫苗在25岁以上女性中的有效性、安全性和免疫原性:3期、双盲、随机对照VIVIANE研究的4年中期随访《柳叶刀》2014年12月20日;[CrossRef] [Medline
  4. Tabrizi SN, brotonton JML, Kaldor JM, Skinner SR, Liu B, Bateson D,等。澳大利亚人乳头瘤病毒疫苗接种计划后的群体免疫和交叉保护评估:一项重复横断面研究Lancet infection Dis 2014 Oct;14(10):958-966。[CrossRef] [Medline
  5. bretonton JML, Fridman M, May CL, Chappell G, Saville AM, Gertig DM.澳大利亚维多利亚州HPV疫苗接种计划对宫颈异常的早期影响:一项生态学研究。《柳叶刀》2011年6月18日;377(9783):2085-2092。[CrossRef] [Medline
  6. Madden K, Nan X, Briones R, Waks L.搜索结果排序:HPV疫苗在线信息的内容分析。疫苗2012年5月28日;30(25):3741-3746。[CrossRef] [Medline
  7. Robbins SCC, Pang C, Leask J.澳大利亚报纸2006年10月至2009年12月人类乳头瘤病毒疫苗接种报道。中华卫生杂志2012;17(2):149-159。[CrossRef] [Medline
  8. 专家说,HPV疫苗接种率仍然很低:癌症预防界需要继续宣传疫苗的安全性和有效性。巨蟹座2015年5月1日;21(9):1341-1343 [免费全文] [CrossRef] [Medline
  9. Mason BW, Donnelly PD。地方报纸宣传活动对接种麻疹、腮腺炎和风疹疫苗的影响。中国流行病学杂志,2000年6月;32 (6):473-474 [免费全文] [Medline
  10. 霍夫曼SJ,谭c .遵循名人的医疗建议:元叙事分析。BMJ 2013 12月17日;347(12月17日14):f7151。[CrossRef
  11. Betsch C, Renkewitz F, Betsch T, Ulshöfer C.疫苗关键网站对感知疫苗接种风险的影响。中华健康与心理杂志2010年4月15日(3):446-455。[CrossRef] [Medline
  12. A先生,Segre上午,Polgreen下午。在甲型H1N1流感大流行期间,美国使用Twitter追踪疾病活动水平和公众关注。PLoS One 2011;6(5):e19467 [免费全文] [CrossRef] [Medline
  13. Paul MJ, Dredze M, Broniatowski D.推特改善流感预测。PLoS Curr 2014;6:- [免费全文] [CrossRef] [Medline
  14. Culotta A.通过分析Twitter信息来检测流感流行。正确的做法:第一届社交媒体分析研讨会。美国:ACM出版社;2010年发表于:第一届社交媒体分析研讨会;2010年7月25日;华盛顿特区,p. 115-122网址:http://snap.stanford.edu/soma2010/papers/soma2010_16.pdfWebCite缓存] [CrossRef
  15. Mocanu D, Baronchelli A, Perra N, Gonçalves B,张q, Vespignani A.巴别塔的推特:通过微博平台绘制世界语言。PLoS One 2013;8(4):e61981 [j]免费全文] [CrossRef] [Medline
  16. Dodds PS, Harris KD, Kloumann IM, Bliss CA,丹佛斯CM。全球社交网络中幸福和信息的时间模式:幸福计量学和推特。PLoS One 2011;6(12):e26752 [免费全文] [CrossRef] [Medline
  17. Eichstaedt JC, Schwartz HA, Kern ML, Park G, Labarthe DR, Merchant RM,等。推特上的心理学语言预测县级心脏病死亡率。心理科学2015 Feb;26(2):159-169 [免费全文] [CrossRef] [Medline
  18. 普瑞尔KW, Smith MS, girau - carrier C, Hanson CL。在Twitter上识别与健康相关的主题:探索与烟草相关的推文作为测试主题。见:第四届社会计算、行为文化建模和预测国际会议论文集。海德堡:斯普林格出版社;2011年发表于:第四届社会计算、行为文化建模与预测国际会议;2011年3月29-31日;大学公园,马里兰州p. 18-25网址:http://mail.smithworx.com/publications/SBP11.pdfWebCite缓存
  19. 斯坎菲尔德D,斯坎菲尔德V,拉森EL。通过社交网络传播健康信息:推特和抗生素。中国感染控制杂志2010年4月;38(3):182-188 [免费全文] [CrossRef] [Medline
  20. Salathé M, Khandelwal S.用在线社交媒体评估疫苗接种情绪:对传染病动态和控制的影响。公共科学图书馆计算生物学2011年10月;7(10):e1002199 [免费全文] [CrossRef] [Medline
  21. Chew C, Eysenbach G.推特时代的流行病:2009年H1N1爆发期间推特的内容分析。PLoS One 2010;5(11):e14118 [免费全文] [CrossRef] [Medline
  22. 周欣,Coiera E, Tsafnat G, Arachi D, Ong M, Dunn AG。利用社会联系信息改进意见挖掘:识别推特上关于HPV疫苗的负面情绪。Stud Health technology Inform 2015;216:761-765。[Medline
  23. Dunn AG, Leask J, Zhou X, Mandl KD, Coiera E.社交媒体上对人乳头瘤病毒疫苗负面意见的暴露与表达之间的关系:一项观察性研究。中国医学杂志,2015;17(6):e144 [免费全文] [CrossRef] [Medline
  24. 唐涛,季凯,李志强,李志强。人乳头瘤病毒疫苗接种公共卫生新闻的数字分布:纵向信息流行病学研究。JMIR公共卫生监测2015;1(1):e2。[CrossRef] [Medline
  25. Oliver JE, Wood T.美国的医疗阴谋论与健康行为。JAMA Intern Med 2014年5月;174(5):817-818。[CrossRef] [Medline
  26. 陈志刚,陈志刚。论社会结构与话题结构的相互作用。正确的做法:第七届网络日志和社交媒体国际会议。加州帕洛阿尔托:AAAI出版社;2013年发表于:第七届网络日志与社交媒体国际会议;2013年7月8-11日;剑桥,马萨诸塞州p. 516-525 URL:http://www.cs.cornell.edu/~chenhao/pub/social-topical-structure.pdfWebCite缓存
  27. 翁磊,李志强,安勇。社交网络病毒式传播预测与社区结构。科学通报2013;3:2522 [免费全文] [CrossRef] [Medline
  28. 翁l, Flammini A, Vespignani A, Menczer F.模因在有限关注世界中的竞争。科学通报2012;2:335 [免费全文] [CrossRef] [Medline
  29. 莱曼J, Gonçalves B, Ramasco JJ, Cattuto C.推特群体注意力的动态分类。在:第21届国际万维网会议。美国:ACM;2012年发表于:第21届万维网国际会议;2012年4月16-20日;法国里昂,页251-260。[CrossRef
  30. Leskovec J, Backstrom L, Kleinberg J.模因追踪与新闻周期的动态。参加:第15届ACM知识发现和数据挖掘国际会议。美国:ACM;2009年发表于:第15届ACM知识发现与数据挖掘国际会议;2009年6月28日至7月1日;法国巴黎p. 497-506网址:https://cs.stanford.edu/people/jure/pubs/quotes-kdd09.pdfWebCite缓存] [CrossRef
  31. 李文杰,李文杰,李文杰。大型社会网络中的群体形成:成员、成长与演化。参加:第十二届ACM知识发现和数据挖掘国际会议。: ACM;2006年发表于:第十二届ACM知识发现与数据挖掘国际会议;2006年8月20-23日;费城,美国p. 44-54 URL:http://www.cs.cornell.edu/~lars/kdd06-comm.pdfWebCite缓存] [CrossRef
  32. 概率主题模型。Commun。ACM 2012 04月01日;55(4):77。[CrossRef
  33. 梅赫罗特拉,谢磊,谢磊。基于推文池和自动标记的微博LDA主题模型改进。第36届国际信息检索研究与发展会议。美国:ACM;2013年发表于:第36届国际信息检索研究与发展会议;2013年7月28日至8月1日;都柏林,爱尔兰p. 889-892网址:http://users.cecs.anu.edu.au/~ssanner/Papers/sigir13.pdfWebCite缓存] [CrossRef
  34. 翁俊,林宇普,蒋军,何强。推特排名:寻找话题敏感的有影响力的推特人。在:第三届ACM网络搜索和数据挖掘国际会议。美国:ACM;2010年发表于:第三届ACM网络搜索与数据挖掘国际会议;2010;美国纽约,页261-270 URL:http://ink.library.smu.edu.sg/cgi/viewcontent.cgi?article=1503&context=sis_researchWebCite缓存] [CrossRef
  35. Balasubramanyan R, Kolcz A.“w00t!今天感觉很棒!推特上的闲聊:识别和流行。在:2013年IEEE/ACM社会网络分析和挖掘进展国际会议。美国:ACM;2013年发表于:2013年IEEE/ACM社会网络分析与挖掘国际会议;2013年8月25-29日;加拿大尼亚加拉,p. 312-316。[CrossRef
  36. 赵文霞,姜娟,翁军,何军,林爱普,闫华,等。使用主题模型比较Twitter和传统媒体。见:第33届欧洲信息检索进步会议。海德堡:斯普林格出版社;2011年发表于:第33届欧洲信息检索进步会议;2011年4月18日至21日;都柏林,爱尔兰p. 338-349http://www.mysmu.edu/faculty/jingjiang/papers/ECIR 11.的pdfWebCite缓存] [CrossRef
  37. Ramage D, Dumais S, Liebling D.用主题模型描述微博。正确的做法:第四届国际AAAI博客和社交媒体会议。美国:AAAI出版社;2010年发表于:第四届国际AAAI网络日志和社交媒体会议;2010年5月23-26日;华盛顿特区p. 130-137网址:https://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/download/1528/1846WebCite缓存
  38. 杨世峰,高志刚,杨世峰。基于微博的大规模高精度话题建模。参加:第20届ACM知识发现和数据挖掘国际会议。美国:ACM;2014年发表于:第20届ACM知识发现与数据挖掘国际会议;2014年8月24-27日;美国纽约,1907-1916http://cobweb.cs.uga.edu/~squinn/mmd_s15/papers/p1907-yang.pdfWebCite缓存] [CrossRef
  39. 尹娟,王娟。基于Dirichlet多项式混合模型的短文本聚类方法。参加:第20届ACM知识发现和数据挖掘国际会议。美国:ACM;2014年发表于:第20届ACM知识发现与数据挖掘国际会议;2014年8月24-27日;美国纽约p. 233-242网址:http://dbgroup.cs.tsinghua.edu.cn/wangjy/papers/KDD14-GSDMM.pdfWebCite缓存] [CrossRef
  40. 阮德强,杜良。基于潜在特征词表征的主题模型改进。计算语言学协会学报,2015。p. 299-313网址:https://transacl.org/ojs/index.php/tacl/article/viewFile/582/132WebCite缓存
  41. 波特MF。后缀剥离算法。在:阅读在信息检索(摩根考夫曼系列多媒体信息和系统)。美国旧金山:Morgan Kaufmann;1997:313 - 316。
  42. T健,M朝石,N玄龙,梅巧珠MZ。通过后验收缩分析了解主题建模的限制因素。正确的做法:第31届机器学习国际会议。国际机器学习学会(IMLS);2014年发表于:第31届机器学习国际会议;2014年6月21-26日;中国北京,p. 190-198http://jmlr.org/proceedings/papers/v32/tang14.pdfWebCite缓存
  43. 格文M,纽曼MEJ。社会和生物网络中的群落结构。中国科学院学报(自然科学版)2002 6月11日;99(12):7821-7826 [免费全文] [CrossRef] [Medline
  44. 纽曼MEJ。检测网络中的社区结构。欧洲物理杂志B -凝聚态2004年3月1日;38(2):321-330。[CrossRef
  45. 纽曼MEJ。网络中的模块化与社区结构。中国科学院学报(自然科学版)2006年6月6日;103(23):8577-8582 [免费全文] [CrossRef] [Medline
  46. 李志强,李志强,李志强。大型社会信息网络中社区结构的统计特性。在:第17届国际万维网会议。美国:ACM;2008年发表于:第17届国际万维网会议;2008年4月21-25日;中国北京,p. 695-704https://cs.stanford.edu/people/jure/pubs/ncp-www08.pdfWebCite缓存] [CrossRef
  47. 图中的社区检测。物理报告2010年2月17日;486(3-5):75-174。[CrossRef
  48. Ahn Y, Bagrow JP, Lehmann S.链接社区揭示了网络的多尺度复杂性。《自然》2010年8月5日;466(7307):761-764。[CrossRef] [Medline
  49. Rosvall M, Bergstrom CT。复杂网络上的随机行走地图揭示了社区结构。美国国家科学研究院2008年1月29日;105(4):1118-1123 [免费全文] [CrossRef] [Medline
  50. Python铭文(0.7.0版)。URL:http://igraph.org/python/[访问了2016-05-26][WebCite缓存
  51. 布隆德尔,纪尧姆,兰毕特,列斐伏尔,E.大型网络中社区的快速展开。J Stat Mech 2008 10月09日;2008(10):P10008。[CrossRef
  52. Edler D, Rosvall M.源代码多层社区检测与Infomap(版本Sep 07)。2015.URL:http://www.mapequation.org/code.html[访问了2016-05-26][WebCite缓存
  53. 李国强,吴志强,李志强。潜狄利克雷分配。计算机科学与工程学报,2003;3(2):366 - 366。
  54. 王晓明,王志强,王志强,等。基于EM的文本分类方法研究[j] .计算机科学与技术,2000;29 (3):344 - 344 [免费全文] [CrossRef
  55. 吕勇,梅青,翟晨。概率主题模型任务绩效研究:PLSA和LDA的实证研究。信息检索2010 8月5日;14(2):178-203。[CrossRef
  56. Řehůřek R.大型语料库主题建模的软件框架。在:LREC 2010关于NLP框架新挑战的研讨会。马耳他:ELRA;2010年出席:LREC 2010 NLP框架新挑战研讨会;2010年5月22日;马耳他瓦莱塔p. 45-50网址:https://radimrehurek.com/gensim/lrec2010_final.pdfWebCite缓存
  57. 阮DQ。jLDADMM:用于LDA和DMM主题模型的Java包(版本1.0,2015-07-06)。2015.URL:http://jldadmm.sourceforge.net/[访问了2016-05-26][WebCite缓存
  58. 闫旭,郭杰,兰燕,程霞。一种短文本的苦主题模型。在:第22届国际万维网会议。美国:ACM;2013年发表于:第22届国际万维网会议;2013年5月13-17日;里约热内卢巴西里约热内卢p. 1445-1456。[CrossRef
  59. 邓恩AG,威斯布鲁克JI。解读医疗机构中的社交网络指标:验证小型网络的回顾和指南。2011年4月,中国科学(英文版);72(7):1064-1068。[CrossRef] [Medline
  60. Kruskal简森-巴顿。优化非度量假设的拟合优度的多维尺度。心理测量学1964 Mar;29(1):1-27。[CrossRef
  61. 考克斯TF,考克斯MAA。多维标度。见:数据可视化手册。海德堡:斯普林格出版社;2008:315 - 347。
  62. 博格I,格罗宁PJF。现代多维尺度:理论与应用。纽约:Springer-Verlag出版社;2005.
  63. 谭超,李磊,唐娟,蒋玲,周敏,李鹏。基于社交网络的用户层次情感分析。参加:第17届ACM知识发现和数据挖掘国际会议。美国:ACM;2011年发表于:第17届ACM知识发现与数据挖掘国际会议;2011年8月21日至24日;圣地亚哥,加利福尼亚州,1397-1405页。[CrossRef
  64. 胡欣,唐磊,唐杰,刘宏。利用社会关系进行微博情感分析。在:第六届ACM网络搜索和数据挖掘国际会议。美国:ACM;2013年发表于:第六届ACM网络搜索与数据挖掘国际会议;2013年2月4-8日;罗马,意大利,537-546页http://faculty.cs.tamu.edu/xiahu/papers/wsdm13Hu.pdfWebCite缓存] [CrossRef
  65. Speriosu M, Sudan N, Upadhyay S, Baldridge J.推特极性分类与词汇链接的标签传播和追随者图。在:自然语言处理的经验方法会议。斯特劳兹堡:计算语言学协会;2011年发表于:自然语言处理的经验方法会议;2011年7月27-31日;爱丁堡,苏格兰p. 53-63 URL:http://anthology.aclweb.org/W/W11/W11-2207.pdfWebCite缓存
  66. 梅青,蔡东,张东,翟春霞。网络正则化主题建模。在:第17届国际万维网会议。美国:ACM;2008年发表于:第17届国际万维网会议;2008年4月21-25日;中国北京,p. 101-110http://www-personal.umich.edu/~qmei/pub/www08-netplsa.pdfWebCite缓存] [CrossRef
  67. 孙玉珍,韩景文,高洁,于宜涛。iTopicModel:信息网络集成主题建模。在:第九届IEEE数据挖掘国际会议。: IEEE;2009年发表于:第九届IEEE数据挖掘国际会议;2009年12月6日至9日;佛罗里达州迈阿密,第493-502页。[CrossRef
  68. 自我网络中的社交圈研究。见:神经信息处理系统的进展2013年发表于:第26届神经信息处理系统年会上;2012年12月3日至8日;美国内华达州p. 548-556网址:http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2012_0272.pdfWebCite缓存
  69. 杨军,杨建军,杨建军。基于节点属性的网络社区检测方法。发表于:第13届IEEE数据挖掘国际会议;2013年12月7日至10日;达拉斯,德克萨斯州p. 1151-1156网址:https://cs.stanford.edu/people/jure/pubs/cesna-icdm13.pdfWebCite缓存] [CrossRef
  70. 周东,马纳格鲁,李娟,查辉。网络社区发现的概率模型。在:第十五届国际万维网大会。美国:ACM;2006年发表于:第十五届国际万维网大会;2006年5月22-26日;爱丁堡,苏格兰,173-182页。[CrossRef
  71. 张军,李文杰。文档网络的关系主题模型。发表于:第12届人工智能与统计国际会议。20092009年4月16-18日;美国佛罗里达州,第81-88页。
  72. 张杰,布莱DM.行与行之间的联系:用文本增强社交网络。第十五届知识发现和数据挖掘国际会议。美国:ACM;2009年发表于:第15届知识发现与数据挖掘国际会议;2009年6月28日至7月1日;法国巴黎,第169-178页。[CrossRef
  73. 王晓明,王志强,王晓明。基于社会化话题的社区抽取模型研究。发表于:第二届SNA-KDD研讨会。2008年8月24日;网址:拉斯维加斯,内华达州http://www-users.cs.umn.edu/~banerjee/papers/08/snakdd08.pdfWebCite缓存
  74. Burger JD, Henderson J, Kim G, Zarrella G.推特上的性别歧视。在:自然语言处理的经验方法会议。斯特劳兹堡:计算语言学协会;2011年发表于:自然语言处理的经验方法会议;2011年7月27-31日;苏格兰爱丁堡,1301-1309年。
  75. Jurgens D, Finnethy T, McCorriston J, Xu YT, Ruths D.使用社交网络的Twitter地理位置预测:当前实践的关键分析和回顾。在:第九届国际AAAI网络和社交媒体会议。加利福尼亚州:AAAI出版社;2015年出席:第九届AAAI国际网络与社交媒体会议;2015年5月26-29日;帕洛阿尔托,加州p. 188-197网址:http://www.aaai.org/ocs/index.php/ICWSM/ICWSM15/paper/view/10584/10502WebCite缓存
  76. Jurgens D, Allen D.用总变异最小化对1亿个Twitter账户进行地理标记。在:IEEE大数据国际会议。美国:IEEE;2014年发表于:IEEE大数据国际会议;2014年10月27-30日;华盛顿特区,第393-401页。


阿里:调整兰德指数
数字:狄利克雷多项式混合
人乳头状瘤病毒:人类乳头状瘤病毒
LDA:潜狄利克雷分配
敝中断:标准化互信息


G·艾森巴赫(G Eysenbach)编辑;提交30.05.16;D Arachi, A MacKinlay同行评议;对作者20.07.16的评论;接受03.08.16;发表29.08.16

版权

©Didi Surian, Dat Quoc Nguyen, Georgina Kennedy, Mark Johnson, Enrico Coiera, Adam G Dunn。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2016年8月29日。

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map