发表在18卷,第8号(2016): 8月

利用主题建模和社区检测表征Twitter上关于HPV疫苗的讨论

利用主题建模和社区检测表征Twitter上关于HPV疫苗的讨论

利用主题建模和社区检测表征Twitter上关于HPV疫苗的讨论

原始论文

1澳大利亚新南威尔士州北莱德麦考瑞大学澳大利亚健康创新研究所健康信息学中心

2澳大利亚新南威尔士州北莱德麦考瑞大学科学与工程学院计算机系

通讯作者:

Didi Surian,博士

健康资讯中心

澳大利亚卫生创新研究所

澳大利亚麦考瑞大学

塔拉维拉路75号,6层

北莱德,新南威尔士州,2109

澳大利亚

电话:61 +61298502455

传真:61 + 61298502499

电子邮件:didi.surian@mq.edu.au


背景:在公共卫生监测中,衡量信息如何通过在线社区进入和传播,可能有助于我们了解与不良健康结果相关的决策的地理差异。

摘要目的:我们的目的是评估社区结构和主题建模方法的使用,作为描述Twitter上关于人乳头瘤病毒(HPV)疫苗的意见聚类的过程。

方法:该研究调查了2013年10月至2015年10月收集的有关HPV疫苗的推特帖子。我们测试了潜在狄利克雷分配(Latent Dirichlet Allocation)和狄利克雷多项混合(Dirichlet Multinomial Mixture, DMM)模型,用于推断与推文相关的主题,以及社区聚集(Louvain)和随机漫步编码(Infomap)方法,用于从用户的社会关系中检测用户的社区结构。我们使用几种常见的聚类对齐度量来检查社区结构和主题之间的对齐,并引入了基于特定主题在少数社区中的集中的对齐统计度量。提供主题的可视化以及主题与社区之间的一致性,以支持在公共卫生交流背景下对结果的解释,并确定有拒绝HPV疫苗安全性和有效性风险的社区。

结果:我们分析了来自4387524个社交关系连接的101519个用户的285417条关于HPV疫苗的推文。通过对社区结构与tweet主题之间的一致性进行检验,结果表明,Louvain社区检测算法与DMM联合产生的一致性值始终较高,并且当主题数量较低时,一致性值通常较高。在应用Louvain方法和DMM方法后,我们将30个主题和语义相似的主题分组在一个层次结构中,我们将163,148条推文(57.16%)描述为证据和倡导,6244条推文(2.19%)描述个人经历。在4548个发布体验推文的用户中,3449个用户(75.84%)来自于以证据和倡导为主的社区。

结论:将社区检测与主题建模相结合,似乎是描述Twitter社区特征的一种有用方法,目的是在公共卫生应用中进行意见监视。我们的方法可能有助于确定在线社区是否有可能受到有关公共卫生干预措施(如HPV疫苗)的负面意见的影响。

医学互联网学报,2016;18(8):e232

doi: 10.2196 / jmir.6045

关键字



人类乳头瘤病毒(HPV)疫苗最初是为了减少人类乳头瘤病毒和大多数子宫颈癌的发病率[1]。尽管有证据表明其安全性和有效性[2-5],网络上关于疫苗的信息质量参差不齐[67],在包括美国在内的一些国家,疫苗的覆盖率很低[8]。一般而言,有证据表明,来自名人、保健从业人员和新闻媒体的关于疫苗的负面信息会增加对疫苗的犹豫和拒绝[9-11]。尽管HPV疫苗仍然是公共卫生军备的新成员,但重要的是要在社交媒体上进行监测,以了解有关疫苗接种的各种意见。

在公共卫生应用中使用社交媒体信息以前主要集中在预测临床结果上,传统上使用调查和登记来衡量临床结果。使用Twitter进行数据挖掘的应用包括流感监测[12-14]和测量语言或情绪的空间差异[1516]。Twitter上的情绪和语言分析已被用作心脏病死亡率地理差异的指标[17]。与我们的研究相关的例子包括在美国使用主题建模来提取与烟草相关的推文[18]以及对来自网络媒体的有关抗生素误解和滥用信息的监测[19]。关于疫苗的信息、新闻和观点的传播的研究领域越来越多[20.-24],该领域的研究侧重于衡量一系列社区卫生实践中错误信息、信念和决策之间的联系[25]。

人们在社交媒体上相互交流并建立关系。有了这些关系,社区就形成了。在线社区的结构影响着——也可以被——通过它们进入和传播的信息所影响。通过在线社区、社交媒体和新闻媒体研究信息传播的研究表明,网络的异质社会结构和外部因素可以在新信息传播的距离和速度方面发挥作用[2627]。模因和自然损耗之间的竞争可能会影响它们传播的距离和速度,以及它们衰减的速度[28-30.],以及社区中感兴趣的话题也可以影响社会结构的形成和持续[31]。

网络新闻和社交媒体发布的信息内容的差异影响了网络社区中观点和信仰的差异。虽然社区成员持有的意见和他们发布的内容并不等同,但我们假设内容为可能影响决策的意见提供了合理的代理。主题建模方法适合于识别一组tweet中的主题结构(主题),因为它们可以应用于非结构化的文档语料库,并且不需要预先定义主题[32]。将主题建模应用于tweet的主要挑战来自tweet的短长度(140个字符)。尽管存在这一挑战,主题建模已经被用于检查twitter上一系列主题的主题——通过汇集tweet来生成更长的文档来分析[33-35],或者应用扩展或替代现有模型,使其在较短的文档上工作得更好[36-40]。

我们期望发现同质性和传染性会导致在线社区的意见聚集,但迄今为止,很少有研究来衡量疫苗的这一重要信息。我们的目的是评估社区结构和主题建模方法的组合,以测量Twitter社区内用户发布的推文中有关HPV疫苗的主题分布,更广泛的目标是评估通过社区成员表达的公共卫生信息来表征在线社区的新过程。


研究数据

通过Twitter搜索应用程序编程接口进行重复搜索,我们收集了2013年10月1日至2015年10月29日期间关于HPV疫苗的推文,使用的关键词如下所示表1。对于Twitter标记为英语的每条tweet,我们存储tweet的文本和相关的元数据。在此期间,每当有新用户首次发布有关HPV疫苗的推文时,我们都会额外收集他们关注的用户列表以及关注他们的用户列表。这些关于关系的信息后来被用来构建我们分析的用户网络。数据收集期结束时,推文(含转发)为302,856条,用户为112,944人。在数据收集之后,我们删除了被暂停、保护或删除的用户,留下101,519个用户和285,417条tweet供分析。

表1。用于收集有关HPV疫苗的推文以供我们分析的搜索关键字。
不。 关键字
1. “HPV”和“疫苗”
2. “HPV”与“疫苗接种”
3. “加德西”
4. “子宫颈”及“疫苗接种”
5. "子宫颈"和"疫苗"
6. “cervarix”

在主题建模之前,我们对tweet进行了预处理。对于标签(以“#”开头)或用户名(以“@”开头)的单词,我们没有做进一步的修改。tweet文本中的其余单词被转换为小写,并且我们删除了停止词、单词“RT”(表示转发)和任何数值。然后我们应用了波特梗[41]。我们排除了从通用URL缩短服务(例如“http://bit.ly”)生成的URL(统一资源定位符),并包括了从扩展URL列表中识别的任何完整URL的域。文档大小在主题建模方法中起着重要作用[42],所以我们选择将所有少于三个单词的推文分配给一个额外的主题(1114条推文),剩下284303条推文。

我们运行潜在狄利克雷分配(LDA)和狄利克雷混合模型(DMM)来推断在文本预处理后在284,303条推文中识别的125,003条唯一推文的主题。在使用LDA和DMM推断主题之后,我们将这些主题映射回完整的集合,以便每个tweet与单个主题相关联。

我们使用无向图从101,519个用户中的4,387,524个关注者连接构建了网络。一个节点代表一个用户,如果发现其中一个用户跟随另一个用户,则在两个用户之间建立一条边。该网络包括100,826(99.32%)用户,包括单个最大连接组件,500(0.49%)用户组成与最大连接组件断开的较小岛屿,以及193(0.19%)与核心没有连接的断开用户。在最大连接组件中,平均社会连接数为86.98,最大连接数为18,635。我们测量了作为最大连接组件一部分的用户的主题和社区之间的一致性。有关网络建设的更多详情,请参阅多媒体附录1

社区检测

社区检测算法的目标是在图中找到与跨集相比具有更大连接密度的节点集。传统的社区检测算法产生硬聚类,即每个节点只属于一个社区[43-47]。最近的一些方法考虑了重叠的社区[48]。在这项工作中,我们选择了两种算法,将每个节点分配到单个社区,已知可以产生可靠的结果,并且在大型网络中有效地工作。

Infomap算法用于提取大型复杂网络中的社区结构[49]。该方法使用随机游走作为信息在系统中流动方式的代理,首先确定访问网络中每个节点的概率,然后将网络的社区和节点结构表征为霍夫曼代码。通过逐步修改社区关系,目标是将描述网络的代码压缩到最小大小。我们使用了来自igraph [50]。

Louvain算法是一种计算速度相对较快的社区检测算法,因此可以扩展到大型网络[51]。该算法是聚集的——节点被初始化为属于大小为1的社区,并依次与产生模块化最大增益的相邻社区聚集(如果存在正增益)。在第一阶段检测到的社区成为新网络中的节点,其边缘权重由第一阶段社区之间的连接数决定。因此,该算法构建了网络的分层表示,并继续进行,直到没有更多的模块化增益可以识别。这个过程的最终聚类结果用于定义社区结构。我们使用了Louvain作者从MapEquation [52]。

主题推理

主题建模用于根据词的共现性找到自然聚类。我们使用了潜在狄利克雷分配(LDA)模型[53]和Dirichlet多项混合(DMM)模型[54]。LDA模型是主题建模的标准方法,DMM模型是专门为短文档(如tweets)开发的一种变体。在应用DMM模型时,每个文档只分配一个主题,因此我们根据DMM模型推断的主题对每条tweet进行标记。对于lda(为每个文档生成概率主题分布),tweet使用具有最大概率的主题进行标记[334055]。我们使用了gensim中的LDA实现[56]和DMM的jLDADMM实现[57]。对于这两种方法,我们使用了每个模型的标准设置[3955],并没有尝试进一步优化参数。方法的形式规范和符号的详细信息见多媒体附录1

调整措施

度量主题和社区之间的一致性的目的是确定主题是否在某些社区中相对于其他社区出现得更频繁。由于每条tweet都与一个主题相关联,因此我们通过该社区用户发布的tweet中的主题分布来表示社区。我们调整了通常用于根据观察到的聚类来量化估计聚类质量的校准度量,以比较使用观察到的结构(社会联系)的聚类方法和使用观察到的内容(tweet中的主题)的聚类方法。在这种情况下,有几个合适的指标来评估集群质量,包括纯度、标准化互信息(NMI)和调整后的兰德指数(ARI) [3958)(见多媒体附录1定义)。

虽然这些典型的指标提供了社区结构与这些社区中用户发布的tweet主题之间一致性的一般度量,但它们对于总结主题如何在一小部分社区中不成比例地代表并没有用处。因此,我们额外考虑了主题集中的衡量标准(TC)。我们定义了aTC值由覆盖给定主题的指定百分比的tweet所需的最小社区数量决定,因此TC95社区的数量是否需要覆盖该主题95%的推文TCOne hundred.是涵盖该主题的每条推文的社区数量。一个较低的TC95因此,Value意味着主题在少数社区中的高度集中。

在比较跨多个网络的主题集中度量以确定对齐时,与每个主题相关的tweet数量的差异会独立于对齐影响度量,因此我们使用排列测试来进行公平的比较。排列测试创建的基线分布为TC在没有任何实际对中情况下可能出现的值,然后可用这些值来确定相对于偶然产生的对中水平的对中水平[59]。为此,我们随机排列与每条tweet相关的主题,以便每个主题和每个社区的tweet分布与观察到的网络保持相同。然后我们比较观察到的TC95的分布值TC95在排列测试中产生的值。典型的排列测试报告单个观察值在排列后产生的值分布中的百分位数。在我们应用的排列检验中,的分布TC95值(每个主题一个)而不是单个值,因此我们使用双样本Kolmogorov Smirnov检验来比较分布。Kolmogorov-Smirnov检验统计量在0和1之间变化,较高的检验统计量意味着,如果每个主题的tweet数量在社区中随机分布,那么主题在单个社区中的集中程度将高于预期。

手动入侵测试

我们对推文中的主题进行了入侵测试。一名研究者,对主题建模的结果不知情,每个主题的两两组合都有五个测试用例。每个测试用例包括从一个主题中随机选择的五条tweet的文本和从不同主题中随机选择的一条tweet的文本。调查人员的任务是识别不属于该主题的推文。这些入侵测试的结果表明,主题建模能够很好地捕获tweet中的语义差异。此外,我们还利用入侵测试的结果,通过应用多维尺度来构建基于语义不相似性的主题层次结构[60-62]。该方法产生每对主题之间的距离,然后使用该距离合并最接近的主题以构建层次结构。


社区检测与主题建模

将两种社区检测算法应用于最大连接组件100,826个用户。应用Louvain算法,我们确定了38个不同的社区,大小在3到21,733个用户之间。Infomap算法确定了1334个不同的社区,规模从2到18974个用户不等。

我们通过将主题数量在5到200之间变化,构建了一系列LDA和DMM模型。从纯度、NMI和ARI得分来看,我们发现与LDA相比,DMM的社区结构和主题之间的一致性在所有测量中都更高。采用Louvain算法的DMM模型获得最高的纯度分数(0.495)和最高的ARI分数(0.166)。采用DMM模型和Infomap算法时,NMI得分最高,为0.185。这些实验的结果表明,DMM主题模型可能已经产生了一个更现实的推文按主题聚类。

TC95与LDA模型相比,使用DMM模型的得分始终较高(参见多媒体附录1查看详细结果)。结合Infomap算法,TC95在10到25个话题之间得分最高,结合Louvain算法,TC95在20到30个话题之间得分最高。考虑到这些结果,我们使用DMM模型(包含30个主题)和Louvain算法来演示以下按主题划分的社区特征。

为了说明主题如何倾向于在社区内聚集,我们选择了三个具有代表性的主题,并将它们可视化到由100,826名用户(图1)。这些主题包括一个获取临床和科学证据的主题(主题27),一个由经验推文组成的主题(主题0),以及一个描述副作用和危害的主题(主题26)。

主题27包括在已发表的关于疫苗功效的研究中常见的词汇,如“预防”、“保护”、“研究”、“新闻”和“研究”。到新闻媒体的链接以及其他已发表的文章和相关媒体倾向于在该主题中分组,并且该主题在大多数核心网络中广泛代表,包括具有最多连接的用户(通常位于中心的新闻机构,以及新闻机构,健康相关杂志和科学期刊)。

话题0捕获了大量来自用户的推文,这些推文描述了他们自己接种疫苗的经历,包括“今天”、“得到”、“得到”和“去”等时态词。包括“我的胳膊疼得像……”通常被分配到这个主题,这些用户似乎与其他发布HPV疫苗的用户分享较少的联系。

在话题26中,像“杀死”、“受害者”和“死亡”这样的情感词汇很常见。包含特定抗疫苗网站链接的推文通常被分配到该主题,并且在主题26中发布推文的用户似乎以不同的密度聚集在三个不同的组中,这些组与发布推文标记为主题27的用户组分开。

图1所示。在此期间发布有关HPV疫苗的推文的100,826个用户(节点)的网络。节点的大小与它们在这个网络中拥有的社会连接数量成正比。如果节点发布的tweet标记为主题0(蓝色)、主题26(红色)或主题27(绿色),则节点将被着色。节点位置由启发式算法确定,该算法试图将连接的节点定位在更靠近的位置,从而部分揭示社区结构。
查看此图

主题分组

我们使用手动入侵测试来度量主题建模的质量。总的来说,在4650次测试中,63.7%的人识别出了正确的入侵者,这与偶然预期的16.7%明显不同。从手动入侵测试构建的层次结构揭示了语义上相似的主题(图2)。主题组是(1)媒体辩论,(2)政治和政策辩论,(3)丑闻和阴谋,(4)副作用和危害,(5)公共卫生宣传,(6)临床证据,(7)经验。当跨主题组测量时,入侵测试的准确性为76%,当在主题组内测量时,入侵测试的准确性为49%。这些结果表明,主题组之间的分离是明显的(组间准确度高,组内准确度低)。

使用主题组,我们能够通过这些社区中用户发布的一组tweet中的主题分布来描述社区。图3详细介绍了三个选定社区的主题分布,值得注意的是,它们说明了不同社区中疫苗危害/阴谋、证据/倡导和经验主题的集中程度。还请注意,每个用户的推文数量最高的是社区中的用户,这些用户发布的推文主要标记为疫苗危害/阴谋主题,而社区中的用户发布的推文主要是关于他们接种HPV疫苗的经历。

在所有社区中,我们发现发布自己接种HPV疫苗经历的用户属于大多数推文与证据和宣传相关的社区。在发布被标记为体验的推文的4548个用户中,3449个(75.84%)属于大多数推文与证据/倡导相关的社区,674个(14.8%)属于大多数推文与危害/阴谋相关的社区,196个(4.3%)属于大多数推文是经验的社区,229个(5.0%)属于没有连接到网络核心的用户组。图45详细描述社区内主题的分布。

图2。来自Dirichlet混合模型的30个主题(主题0-29)和一个单独的主题(主题30)的树形图,用于少于3个单词的tweet。这些小组是事后确定的,颜色代表主题——危害/阴谋(红色),证据/倡导(绿色)和经验(蓝色)。
查看此图
图3。选取3个按分组和主题排序的社区的话题分布:(1)社区24共有5275个用户,平均每个用户2.46条tweet;(2)社区20包含11,047个用户,平均每个用户发布1.96条tweet;(3)社区34包含187个用户,平均每个用户1.16条tweet。
查看此图
图4。已确定的39个社区的证据/宣传和危害/阴谋主题的比例。每个圆圈代表一个社区,其大小与相应社区中的tweet数量成正比。离对角线更远的社区包含更多的体验主题推文。
查看此图
图5。39个社区的主题比例,代表了分配给危害/阴谋(红色),证据/倡导(绿色)和经验(蓝色)主题的推文比例。横轴上的值是社区中tweet的总数。
查看此图

主要结果

在这项研究中,我们试图衡量Twitter用户发布有关HPV疫苗的推文的追随者网络中隐含的社区结构与他们发布的主题之间的一致性。鉴于Twitter上关于HPV疫苗的信息质量参差不齐,[2223],我们预计会发现一些社区会更经常地对HPV疫苗持负面看法,并且这些社区将与描述有利证据或倡导接种的社区不同。使用量化主题集中强度的统计度量,我们发现一些主题在少数社区中高度集中,这与我们的预期一致。与我们之前在该应用领域的工作相比[2223],这里描述的过程提供了对社交媒体上表达的对HPV疫苗的具体关注的更细致的看法,以及确定这些关注是主要话题的社区的能力。结合主题建模和社区结构来描述社区特征,我们能够识别出对安全或政治的具体关注占主导地位的社区,并识别出发布经验推文的年轻Twitter用户,他们更有可能接触到安全问题,而不是证据和宣传,这可能发生在第一剂和随后的疫苗剂量之间。对公共卫生推文的分析(意见和经验混合在一起)以前曾对流感进行过调查,其中一些推文可能有助于确定流感发病率,而其他推文则代表证据传播或意见[21]。

与前期工作比较

越来越多的方法已经开发出来,要么使用结构信息来改进对语料库内容的推断,要么使用表征网络中节点的信息来改进对结构的分析。那些旨在理解推文内容的人已经利用社会联系来改进推文分类[2263-65]。这些研究考虑了Twitter上可用的提及、转发和其他形式的互动,但使用有关关注者的信息通常会产生最高水平的表现。其他研究人员提出了将网络结构纳入Twitter以外网络的主题建模方法的方法[6667]。相反,一些研究考虑使用与网络中节点相关的内容来提高社区检测的质量[6869]。在研究文件及其结构(如电子邮件)的研究中[70],合著者[71]和维基百科[72-一项研究以类似于我们在图3(73]。我们在这里提出的方法与这些研究不同,因为我们独立地应用了社区检测和主题建模,而不是试图利用有关社会联系的可用信息来提高主题建模过程的质量,或者使用内容信息来改进社区结构或预测新的连接。

限制

这项工作的一个限制是我们考虑了单个应用程序域。虽然接种疫苗对公共卫生至关重要,但需要对其他应用领域进行进一步测试,以确定评估主题集中程度作为描述推特社区特征的一种方式的普遍性。我们工作中的另一个限制是,我们没有详细考虑主题或社区结构的时间动态。鉴于与HPV疫苗相关的主题可能产生与Leskovec等人观察到的相似的时间模式[30.],该领域的未来工作可能受益于对主题的时间动态与社区内注意力经济之间关系的进一步分析,这已经在其他地方进行了探索[2829]。最后,我们认为追随者网络是一个无向网络,没有考虑基于共同追随者的权重或方向性,也没有考虑转发和提及的存在,这将提供更细致入微的社会关系表示,并可能产生不同的社区结构。

未来的发展方向

我们在这里的工作对公共卫生实践有潜在的影响。将主题建模和社区检测方法应用于关于HPV疫苗的推文语料库,我们发现可以通过推文中最集中的主题来表征在线社区。将这些方法转化为公共卫生实践的一种方法是将这些方法与新的空间和人口估计方法结合使用[74-76]制定时空指标,以确定具体问题的增长在何时何地可能导致对疫苗的犹豫或拒绝增加。我们认为,这些指标可能在帮助公共卫生组织设计更有针对性、从而更有效的干预措施和沟通战略方面发挥未来的作用。

结论

在这项工作中,我们展示了一个新的过程,通过独立应用现有的社区检测和主题建模方法来表征在线社区中某些观点的集中程度,并量化了社区间主题分布的差异。在关于HPV疫苗的推文中,我们发现由关注者网络定义的社区之间的主题分布存在明显差异。在实践中,公共卫生组织不妨考虑确定有可能接触到反疫苗信息的社区的地点和人口结构,以便针对通过主题建模确定的具体问题发出积极信息进行干预。这项工作在公共卫生方面的价值包括更细致地反映了人们对在线HPV疫苗表达的各种担忧,并采取了一些实际步骤,以开发用于监督公众意见的自动化系统,以了解决策和健康行为的局部差异。

利益冲突

没有宣布。

多媒体附录1

网络构建,正式规范/注释,以及详细的实验结果。

PDF档案(adobepdf档案),981KB

  1. 傅建军,陈建军,李建军,等。人类乳头瘤病毒及相关疾病的全球负担。疫苗2012年11月20日;30日增刊5:F12-F23。(CrossRef] [Medline]
  2. Crowe E, Pandeya N, Brotherton JML, Dobson AJ, Kisely S, Lambert SB,等。四价人乳头瘤病毒疫苗预防宫颈异常的有效性:在澳大利亚基于人群的筛查方案中嵌套的病例对照研究中国医学杂志;2014;33 (2):444 [j]免费全文] [Medline]
  3. 王晓明,王晓明,王晓明,王晓明,等。人乳头瘤病毒16/18 as04佐剂疫苗在25岁以上女性中的有效性、安全性和免疫原性:3期、双盲、随机对照VIVIANE研究的4年中期随访柳叶刀2014年12月20日;384(9961):2213-2227。(CrossRef] [Medline]
  4. Tabrizi SN, Brotherton JML, Kaldor JM, Skinner SR, Liu B, Bateson D,等。评估澳大利亚人乳头瘤病毒疫苗接种计划后的群体免疫力和交叉保护:一项重复横断面研究《柳叶刀与感染杂志》2014;14(10):958-966。(CrossRef] [Medline]
  5. Brotherton JML, friedman M, May CL, Chappell G, Saville AM, Gertig DM.澳大利亚维多利亚州HPV疫苗接种计划对宫颈异常的早期影响:一项生态学研究。柳叶刀2011年6月18日;377(9783):2085-2092。(CrossRef] [Medline]
  6. maden K, Nan X, Briones R, Waks L.搜索结果排序:在线HPV疫苗信息的内容分析。疫苗2012年5月28日;30(25):3741-3746。(CrossRef] [Medline]
  7. Robbins SCC, Pang C, Leask J.澳大利亚报纸对人乳头瘤病毒疫苗接种的报道,2006年10月- 2009年12月。卫生通讯J; 2012;17(2):149-159。(CrossRef] [Medline]
  8. 专家说,HPV疫苗接种率仍然很低:癌症预防界需要继续宣传疫苗的安全性和有效性。巨蟹座2015年5月1日;121(9):1341-1343 [免费全文] [CrossRef] [Medline]
  9. 梅森BW,唐纳利PD。当地报纸宣传活动对麻疹、腮腺炎和风疹疫苗接种的影响。中华流行病学杂志;2009;26 (6):473-474 [J]免费全文] [Medline]
  10. Hoffman SJ, Tan C.遵循名人医疗建议:元叙事分析。英国医学杂志2013年12月17日;347(dec17 14):f7151。(CrossRef]
  11. 王晓明,王晓明,王晓明,Ulshöfer .疫苗关键网站对疫苗接种风险认知的影响。心理健康杂志;2010;15(3):446-455。(CrossRef] [Medline]
  12. Signorini A, Segre AM, Polgreen PM。在甲型H1N1流感大流行期间,使用Twitter跟踪美国疾病活动水平和公众关注程度。PLoS One 2011;6(5):e19467 [j]免费全文] [CrossRef] [Medline]
  13. Paul MJ, Dredze M, Broniatowski D. Twitter改进了流感预测。PLoS Curr 2014;6:- []免费全文] [CrossRef] [Medline]
  14. 库洛塔A.通过分析推特信息来检测流感流行。第一届社交媒体分析研讨会。美国:ACM出版社;2010年出席:第一届社交媒体分析研讨会;2010年7月25日;华盛顿特区,第115-122页http://snap.stanford.edu/soma2010/papers/soma2010_16.pdf(WebCite缓存] [CrossRef]
  15. Mocanu D, Baronchelli A, Perra N, gonalves B, Zhang Q, Vespignani A. Twitter的巴别塔:通过微博平台映射世界语言。科学通报,2013;8(4):681 [j]免费全文] [CrossRef] [Medline]
  16. Dodds PS, Harris KD, Kloumann IM, Bliss CA, Danforth CM。全球社会网络中幸福感和信息的时间模式:幸福计量学和Twitter。科学通报,2011;6(12):e26752 [j]免费全文] [CrossRef] [Medline]
  17. Eichstaedt JC, Schwartz HA, Kern ML, Park G, Labarthe DR, Merchant RM等。推特上的心理学语言可以预测县级心脏病死亡率。心理科学2015;26(2):159-169 [j]免费全文] [CrossRef] [Medline]
  18. 张建军,张建军,张建军。在Twitter上识别与健康相关的主题:探索与烟草相关的推文作为测试主题。摘自:第四届社会计算、行为文化建模与预测国际会议论文集。海德堡:斯普林格出版社;2011年发表于:第四届社会计算、行为文化建模与预测国际会议;2011年3月29日至31日;College Park, Maryland, p. 18-25http://mail.smithworx.com/publications/SBP11.pdf(WebCite缓存]
  19. 斯坎菲尔德D,斯坎菲尔德V,拉尔森EL。通过社会网络传播卫生信息:推特和抗生素。[J]中华传染病杂志,2010;38(3):182-188 [J]免费全文] [CrossRef] [Medline]
  20. salath M, Khandelwal S.用在线社交媒体评估疫苗接种情绪:对传染病动态和控制的影响。科学通报,2011;7(10):e1002199 [j]免费全文] [CrossRef] [Medline]
  21. Chew C, Eysenbach G. Twitter时代的流行病:2009年H1N1爆发期间Twitter的内容分析。科学通报,2010;5(11):e14118 [j]免费全文] [CrossRef] [Medline]
  22. 周晓东,王晓东,王晓东,王晓东。利用社会联系信息改进意见挖掘:在Twitter上识别关于HPV疫苗的负面情绪。种猪卫生技术通报2015;16:761-765。(Medline]
  23. 邓建军,周晓东,李建军,等。社交媒体上人乳头瘤病毒疫苗暴露与负面意见表达的相关性研究。医学与互联网研究,2015;17(6):e144 [J]免费全文] [CrossRef] [Medline]
  24. 马宏明,唐涛,纪凯,等。与人乳头瘤病毒疫苗接种相关的公共卫生新闻的数字分布:纵向信息流行病学研究。公共卫生监测,2015;1(1):2。(CrossRef] [Medline]
  25. Oliver JE, Wood T.医学阴谋论与美国健康行为。JAMA Intern Med 2014;174(5):817-818。(CrossRef] [Medline]
  26. 张建军,张建军。社会结构与话题结构的关系研究。见:第七届博客与社交媒体国际会议。加州帕洛阿尔托:AAAI出版社;2013年出席:第七届博客与社交媒体国际会议;2013年7月8-11日;剑桥,马萨诸塞州,516-525页http://www.cs.cornell.edu/~chenhao/pub/social-topical-structure.pdf(WebCite缓存]
  27. 王丽娟,李建军,李建军,等。社交网络病毒式传播预测与社区结构。科学通报2013;3:25 - 22 [j]免费全文] [CrossRef] [Medline]
  28. Weng L, Flammini A, Vespignani A, Menczer F.有限注意力世界中的模因竞争。科学通报2012;2:335 [j]免费全文] [CrossRef] [Medline]
  29. Lehmann J, gonalves B, Ramasco JJ, Cattuto C. Twitter集体关注的动态分类。见:第21届万维网国际会议。美国:ACM;2012年发表于:第21届万维网国际会议;2012年4月16日至20日;里昂,法国,第251-260页。(CrossRef]
  30. 李建军,刘建军。新闻周期动态与模因追踪。第15届ACM知识发现与数据挖掘国际会议。美国:ACM;2009年发表于:第15届ACM知识发现与数据挖掘国际会议;2009年6月28日至7月1日;巴黎,法国,第497-506页https://cs.stanford.edu/people/jure/pubs/quotes-kdd09.pdf(WebCite缓存] [CrossRef]
  31. 李建军,刘建军,刘建军,等。大型社交网络群体形成:成员、成长和演化。第12届ACM知识发现与数据挖掘国际会议。: ACM;2006年发表于:第十二届ACM知识发现与数据挖掘国际会议;2006年8月20日至23日;费城,美国,第44-54页http://www.cs.cornell.edu/~lars/kdd06-comm.pdf(WebCite缓存] [CrossRef]
  32. Blei DM.概率主题模型。Commun。中国计算机学报,2012;55(4):77。(CrossRef]
  33. 谢磊,谢磊。基于推文池和自动标注的微博LDA主题模型。见:第36届信息检索研究与发展国际会议。美国:ACM;2013年出席:第36届国际信息检索研究与发展会议;2013年7月28日至8月1日;都柏林,爱尔兰,第889-892页http://users.cecs.anu.edu.au/~ssanner/Papers/sigir13.pdf(WebCite缓存] [CrossRef]
  34. 翁军,林培平,姜军,何强。twitterank:寻找话题敏感的有影响力的推特用户。第3届ACM网络搜索与数据挖掘国际会议。美国:ACM;2010年发表于:第三届ACM网络搜索与数据挖掘国际会议;2010;纽约,美国,第261-270页http://ink.library.smu.edu.sg/cgi/viewcontent.cgi?article=1503&context=sis_research(WebCite缓存] [CrossRef]
  35. Balasubramanyan R, Kolcz A.“哇!今天感觉很棒!“Twitter上的聊天:识别和流行。”2013年IEEE/ACM社会网络分析与挖掘国际会议。美国:ACM;2013年发表于:2013 IEEE/ACM社会网络分析与挖掘进展国际会议;2013年8月25日至29日;尼亚加拉,加拿大第312-316页。(CrossRef]
  36. 赵文霞,蒋军,翁军,何军,林培平,严华,等。使用主题模型比较Twitter和传统媒体。见:第三十三届欧洲信息检索进展会议。海德堡:斯普林格出版社;2011年发表于:第33届欧洲信息检索进展会议;2011年4月18日至21日;都柏林,爱尔兰,第338-349页http://www.mysmu.edu/faculty/jingjiang/papers/ECIR 11.的pdf(WebCite缓存] [CrossRef]
  37. Ramage D, Dumais S, Liebling D.基于主题模型的微博特征分析。见:第四届国际AAAI博客和社交媒体会议。美国:AAAI出版社;2010年发表于:第四届国际AAAI博客和社交媒体会议;2010年5月23日至26日;华盛顿特区,第130-137页https://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/download/1528/1846(WebCite缓存]
  38. 杨建军,刘建军,刘建军,等。基于微博的大规模高精度话题建模。第20届ACM知识发现与数据挖掘国际会议。美国:ACM;2014年出席:第20届ACM知识发现与数据挖掘国际会议;2014年8月24-27日;纽约,美国,1907-1916http://cobweb.cs.uga.edu/~squinn/mmd_s15/papers/p1907-yang.pdf(WebCite缓存] [CrossRef]
  39. 尹军,王军。基于Dirichlet多项式混合模型的短文本聚类方法。第20届ACM知识发现与数据挖掘国际会议。美国:ACM;2014年出席:第20届ACM知识发现与数据挖掘国际会议;2014年8月24-27日;美国纽约,第233-242页http://dbgroup.cs.tsinghua.edu.cn/wangjy/papers/KDD14-GSDMM.pdf(WebCite缓存] [CrossRef]
  40. 阮德强,刘建军,李建军,等。一种基于潜在特征词的主题模型。计算语言学学报。2015。第299-313页https://transacl.org/ojs/index.php/tacl/article/viewFile/582/132(WebCite缓存]
  41. 波特MF。后缀剥离算法。在:信息检索阅读(摩根考夫曼多媒体信息和系统系列)。美国旧金山:摩根·考夫曼;1997:313 - 316。
  42. 唐健,M兆时,N宣龙,梅巧珠,MZ。通过后验收缩分析了解主题建模的限制因素。第31届国际机器学习会议。国际机器学习学会(IMLS);2014年发表于:第31届国际机器学习会议;2014年6月21日至26日;北京,中国,p. 190-198http://jmlr.org/proceedings/papers/v32/tang14.pdf(WebCite缓存]
  43. 格文M,纽曼MEJ。社会和生物网络中的社区结构。科学通报,2002 (1);9 (2):1- 2 [j]。免费全文] [CrossRef] [Medline]
  44. 纽曼MEJ。检测网络中的社区结构。物理学报(英文版);2004年3月1日;38(2):321-330。(CrossRef]
  45. 纽曼MEJ。网络中的模块化和社区结构。中国科学d辑(英文版);2006;30 (5):577- 582 [j]免费全文] [CrossRef] [Medline]
  46. Leskovec J, Lang KJ, Dasgupta A, Mahoney MW。大型社会信息网络中社区结构的统计特性。见:第17届万维网国际会议。美国:ACM;2008年发表于:第十七届国际互联网会议;2008年4月21日至25日;中国北京695-704页https://cs.stanford.edu/people/jure/pubs/ncp-www08.pdf(WebCite缓存] [CrossRef]
  47. 图中的社区检测。物理报告2010年2月17日;486(3-5):75-174。(CrossRef]
  48. Ahn Y, Bagrow JP, Lehmann S.链接社区揭示网络的多尺度复杂性。自然2010年8月5日;466(7307):761-764。(CrossRef] [Medline]
  49. Rosvall M, Bergstrom CT。复杂网络上的随机漫步图揭示了社区结构。中国科学:自然科学,2008;05(4):1118-1123 [j]免费全文] [CrossRef] [Medline]
  50. Python igraph(版本0.7.0)。URL:http://igraph.org/python/[访问日期:2016-05-26][WebCite缓存]
  51. 刘建军,刘建军,刘建军,等。大型网络中社区的快速发展。力学学报;2008;2008(10):P10008。(CrossRef]
  52. Edler D, Rosvall M.使用Infomap进行多级社区检测的源代码(9月07日版本)。2015.URL:http://www.mapequation.org/code.html[访问日期:2016-05-26][WebCite缓存]
  53. 李建平,吴彦宏。潜在Dirichlet分配。计算机学报(英文版);2003;3:993-1022。
  54. 张建军,张建军,张建军,等。基于机器学习的文本分类方法研究[j] .中文信息学报,2009;33 (2):559 - 559 [j]。免费全文] [CrossRef]
  55. 陆毅,梅强,翟超。概率主题模型任务性能的研究:基于PLSA和LDA的实证研究。信息检索,2010,5;14(2):178-203。(CrossRef]
  56. Řehůřek R.大型语料库主题建模的软件框架。参见:LREC 2010 NLP框架新挑战研讨会。马耳他:ELRA;2010年在LREC 2010 NLP框架新挑战研讨会上发表;2010年5月22日;瓦莱塔,马耳他,第45-50页https://radimrehurek.com/gensim/lrec2010_final.pdf(WebCite缓存]
  57. 阮DQ。jLDADMM:用于LDA和DMM主题模型的Java包(版本1.0,2015-07-06)。2015.URL:http://jldadmm.sourceforge.net/[访问日期:2016-05-26][WebCite缓存]
  58. 闫欣,郭军,兰燕,程霞。短文本的双词主题模型。见:第22届万维网国际会议。美国:ACM;2013年出席:第22届国际互联网会议;2013年5月13-17日;巴西,里约热内卢,第1445-1456页。(CrossRef]
  59. 邓恩AG,威少JI。解释社会网络指标在医疗机构:审查和指导,以验证小型网络。中国生物医学工程学报,2011,32(7):1064-1068。(CrossRef] [Medline]
  60. Kruskal简森-巴顿。优化非度量假设的拟合优度的多维尺度。心理测量学,1994,29(1):1-27。(CrossRef]
  61. 考克斯TF,考克斯MAA。多维标度。见:数据可视化手册。海德堡:斯普林格出版社;2008:315 - 347。
  62. 博格I,格林PJF。现代多维标度:理论与应用。纽约:斯普林格出版社;2005.
  63. 谭超,李磊,唐杰,姜磊,周明,李鹏。基于社交网络的用户情感分析。第17届ACM知识发现与数据挖掘国际会议。美国:ACM;2011年发表于:第17届ACM知识发现与数据挖掘国际会议;2011年8月21日至24日;圣地亚哥,加利福尼亚州第1397-1405页。(CrossRef]
  64. 胡欣,唐丽,唐杰,刘宏。基于社会关系的微博情感分析。第六届ACM网络搜索与数据挖掘国际会议。美国:ACM;2013年发表于:第六届ACM网络搜索与数据挖掘国际会议;2013年2月4日至8日;罗马,意大利,第537-546页http://faculty.cs.tamu.edu/xiahu/papers/wsdm13Hu.pdf(WebCite缓存] [CrossRef]
  65. 李建军,李建军,李建军,等。推特极性分类方法的研究进展。见:自然语言处理经验方法会议。Stroudsburg:计算语言学协会;2011年发表于:自然语言处理经验方法会议;2011年7月27日至31日;爱丁堡,苏格兰,第53-63页http://anthology.aclweb.org/W/W11/W11-2207.pdf(WebCite缓存]
  66. 梅强,蔡东,张东,翟春霞。基于网络正则化的主题建模。见:第17届万维网国际会议。美国:ACM;2008年发表于:第十七届国际互联网会议;2008年4月21日至25日;北京,中国,p. 101-110http://www-personal.umich.edu/~qmei/pub/www08-netplsa.pdf(WebCite缓存] [CrossRef]
  67. 孙亚忠,韩建伟,高军,于玉涛。iTopicModel:信息网络集成主题建模。第9届IEEE数据挖掘国际会议。: IEEE;2009年发表于:第九届IEEE数据挖掘国际会议;2009年12月6日至9日;迈阿密,佛罗里达州,第493-502页。(CrossRef]
  68. 李建军,李建军。自我网络中社交圈子的发现。见:神经信息处理系统的进展发表于:2012年第26届神经信息处理系统年会;2012年12月3日至8日;内华达州,美国第548-556页http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2012_0272.pdf(WebCite缓存]
  69. 杨军,McAuley J, Leskovec J.基于节点属性的网络社区检测。发表于:第13届IEEE数据挖掘国际会议;2013年12月7日至10日;达拉斯,德克萨斯州p. 1151-1156https://cs.stanford.edu/people/jure/pubs/cesna-icdm13.pdf(WebCite缓存] [CrossRef]
  70. 周东,Manavoglu E,李军,Giles CL,查辉。基于概率模型的电子社区发现。第15届国际万维网会议。美国:ACM;2006年发表于:第十五届国际万维网会议;2006年5月22日至26日;爱丁堡,苏格兰173-182页。(CrossRef]
  71. 常军,白德明。面向文档网络的关系主题模型。2009年第12届国际人工智能与统计会议;2009年4月16日至18日;佛罗里达州,美国,第81-88页。
  72. 张杰,布莱·DM。字里行间的联系:用文本增强社交网络。第15届知识发现与数据挖掘国际会议。美国:ACM;2009年发表于:第十五届知识发现与数据挖掘国际会议;2009年6月28日至7月1日;巴黎,法国,第169-178页。(CrossRef]
  73. 潘建军,陈建军,李建军。基于社会话题模型的社区抽取研究。2008年出席:第二届SNA-KDD研讨会;2008年8月24日;拉斯维加斯,内华达州http://www-users.cs.umn.edu/~banerjee/papers/08/snakdd08.pdf(WebCite缓存]
  74. 李建军,韩德胜,张建军,等。推特上的性别歧视。见:自然语言处理经验方法会议。Stroudsburg:计算语言学协会;2011年发表于:自然语言处理经验方法会议;2011年7月27日至31日;苏格兰爱丁堡1301-1309页
  75. 朱根斯D, Finnethy T, McCorriston J,徐玉涛,Ruths D.基于社交网络的Twitter地理位置预测:一个批判性的分析和当前实践的回顾。参见:第九届国际AAAI网络和社交媒体会议。加州:AAAI出版社;2015年出席:第九届AAAI网络与社交媒体国际会议;2015年5月26-29日;帕洛阿尔托,CA页188-197http://www.aaai.org/ocs/index.php/ICWSM/ICWSM15/paper/view/10584/10502(WebCite缓存]
  76. 对1亿个Twitter账户进行地理标记,使总变异最小化。见:IEEE大数据国际会议。美国:IEEE;2014年发表于:IEEE大数据国际会议;2014年10月27-30日;华盛顿特区第393-401页。


阿里:调整后兰特指数
数字:狄利克雷多项混合
人乳头状瘤病毒:人类乳头状瘤病毒
LDA:潜在狄利克雷分配
敝中断:归一化互信息


G·艾森巴赫编辑;提交30.05.16;D . Arachi, A . MacKinlay的同行评议;对作者的评论20.07.16;接受03.08.16;发表29.08.16

版权

©Didi Surian, Dat Quoc Nguyen, Georgina Kennedy, Mark Johnson, Enrico Coiera, Adam G Dunn。原发表于医学互联网研究杂志(//www.mybigtv.com), 2016年8月29日。

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map